韩国人工智能芯片初创公司HyperAccel正在准备推出其Bertha 500芯片,这是一种用于数据中心经济令牌生成的LLM推理加速器。该公司已经在市场上推出了基于FPGA的服务器,以及即将推出的边缘芯片。
该领域的初创公司竞争对手已经通过提供非常快速的令牌取得了成功,攻击了现有GPU架构的所谓弱点——它们的单用户令牌速度。相比之下,HyperAccel并没有直接在性能上竞争,而是以经济性作为其核心价值主张,HyperAccel首席战略官Yongwoong Jung告诉EE Times。
“我们试图成为更实惠的供应商……这就是为什么我们选择了LPDDR,它仅是HBM带宽的十分之一,但由于我们利用该带宽两倍于GPU,并且由于我们的计算单元架构,我们可以每秒生成5倍的令牌(相同数量的TOPS),”Jung说。“这就是我们克服DRAM带宽弱点的方式,但我们仍然实现了物超所值;这就是我们的价值主张。”
更好地利用DRAM带宽意味着HyperAccel在人类可读速度上具有很好的性能,这是当今LLM的关键目标应用。Jung表示,最昂贵的GPU在这种情况下往往是过度配置的。
“我们的方法是降低成本,如果需要的话,牺牲一点性能,但针对一个非常大的市场,”他说。“对于目前的GPU产品,只有大公司才能使用它们,因为价格问题。”
即使像OpenAI这样的大公司也需要更便宜的硬件,以便为仍处于免费层级的用户提供服务,Jung说。结果将是一个日益异构的AI数据中心。
“我们并不是试图用我们的产品取代整个世界的GPU,我们是在寻找自己的最佳位置,”Jung说。“无论是预填充阶段还是解码阶段,或者可能是更大的模型或更小的模型——我们正在寻找最佳位置。”
HyperAccel由KAIST教授Jooyoung Kim以及一群学生于2023年初创立。在2023年Hot Chips会议上展示后,该小组收到了他们的AI加速器IP的报价,但选择成为芯片公司并决定筹集种子轮资金,HyperAccel联合创始人Seungjae Moon告诉EE Times。
HyperAccel的第一个产品是一款基于FPGA的服务器Orion,配备公司的AI加速器芯片IP。FPGA在AI标准下资源有限,但Orion足以引起一些大型科技公司的注意,如韩国超大规模公司Naver Cloud,该公司现在与该公司有联合开发协议,Moon说。
“我们想了解他们的需求,而不是仅仅创造我们能做的最高规格的产品,”他说。
这家初创公司还与LG合作,制造用于设备端AI加速的边缘芯片。
HyperAccel的LPU与领先GPU之间的关键区别在于其使用LPDDR而不是昂贵的HBM,通过实现约90%的内存带宽利用率来弥补较低的带宽。这主要是通过消除传统的内存层次结构来实现的,Moon说。进一步的效率来自于专门针对推理和transformer/LLM工作负载。
“GPU与LLM推理之间存在巨大的结构性不匹配,”Moon说。“运行LLM推理时,由于复杂的层次结构——从内存到计算核心需要经过整个层次结构,只能达到约45%的内存带宽利用率。它们的计算单元也太多,超过了LLM推理所需,因此只能达到约30%的计算利用率。而且因为它们的规格太高[用于推理],价格也很高。”
HyperAccel已将内存带宽与计算紧密匹配,使数据可以快速流式传输,而不是必须经过缓存。本地内存单元正好适合LLM推理,并且指令调度单元能够流畅地传输所有AI模型数据而不会出现停滞,Moon说。
Moon表示,GPU还需要在HBM和SRAM之间重新格式化或重塑数据,而HyperAccel则在其DRAM中存储格式化的数据,可以直接加载到计算中,绕过SRAM,避免来回操作。HyperAccel还使用一个大的计算核心而不是许多小的核心。这些架构特性意味着公司可以从较少的计算中获得更多的令牌——相对于Nvidia Hopper一代GPU,按计算能力标准化时,每秒可以产生约5倍的令牌。
Bertha 500已在三星4nm工艺上完成设计。它将提供768 TOPS(INT8,但也支持FP16和其他16、8和4位格式)来自32个LPU核心,配有256MB SRAM。芯片上还有四个Quad Arm Cortex-A53核心。它的DRAM带宽为560 GB/s(8条LPDDR5x通道)。支持的最大批处理大小为1024。
结果应该是比Nvidia H100每美元的吞吐量高出约20倍(成本约为十分之一),并且功耗效率提高约5倍。Bertha 500的功耗约为250 W。
Moon表示,未来几代架构可能会考虑处理器内存储技术,以帮助解码阶段更接近内存。
对于大型模型,需要加速器之间的通信。GPU可以通过NVLink等协议直接连接,但由于它们使用内核编程,还需要运行时系统调用,这意味着仍然需要与主机CPU进行某些通信。HyperAccel的架构不需要主机干预,因为芯片已经知道内存转换发生的时间和地点,这是LLM专用的副作用。这种传输由芯片上的内存控制器控制。
HyperAccel的ESLink(可扩展同步链接,类似于NVLink),连接加速器芯片,可以重叠通信和计算,因为它知道一切需要发生的时间。这使得可扩展性更好,Moon说。
HyperAccel的软件堆栈支持HuggingFace仓库中的所有模型,以及推理服务引擎vLLM。该公司正在开发一种称为Legato的领域特定语言(DSL),将让开发者访问堆栈的底层。一旦Bertha 500发布,还将有AI代理帮助他们这样做,Moon说。
除了Bertha 500外,HyperAccel还在为包括汽车、消费电子产品和机器人在内的应用创建一个缩略版的边缘版本,作为与LG电子的联合开发协议的一部分。这个芯片可以处理文本转语音或语音转文本模型。
与LG共同开发的SoC将使用HyperAccel的加速器IP,搭配LG的一些内部IP(可能是PHY和内存控制器IP块)和Arm Cortex-A55,LG提供后端服务,HyperAccel进行设计服务。(这是LG首次为第三方提供后端服务,Jung说)。HyperAccel将把这款芯片销售给LG以外的边缘应用。名为Bertha 100,数字与内存带宽有关,而不是计算核心,该SoC将使用两条LPDDR5x通道。样品预计在2026年第四季度推出,加速器将出现在M.2卡上。
HyperAccel目前已筹集了4500万美元,团队有77人。Bertha 500的样品预计在2026年第一季度末推出,量产预计在2027年初开始。