易IC电子行业销售管理系统 - 易IC电子行业库存管理软件

D-Matrix开发快速NIC

2026-01-23   EE Times
SANTA CLARA, Calif. — 快速LLM令牌生成受到越来越多的关注,随着需求的增长,D-Matrix正在利用市场对低延迟令牌的需求,以及数据中心硬件趋势向推理分解和异构性,销售其AI加速器和新设计的低延迟NIC卡。Sree Ganesan,D-Matrix产品副总裁,告诉EE Times。
LLM推理工作负载随着推理和思维链等技术的兴起以及代理AI的出现而增长,这将意味着模型之间进行通信而不受人类阅读速度的限制。即使对于小型代理(使用低于1B参数的模型——小型语言模型或SLMs),这些趋势也意味着需要更多的令牌,延迟变得更加关键,给内存带宽带来更大的压力。
“即使只是在复合系统中协作的几个代理,我们开始看到越来越多的SLMs进入应用,”Ganesan说。“这使我们回到内存墙问题——从计算角度来看,行业可以保持良好的节奏,但带宽方面却无法跟上。我们需要在带宽方面取得突破,因为差距正在扩大——所以我们认为这种内存计算集成将持续存在。”
www.eic.net.cn
D-Matrix的Corsair推理加速器采用专有的计算内存储存方案——乘法在其自定义SRAM内存单元中执行,结合数字加法树。
www.eic.net.cn
合作伙伴内容
oToGuard:集成360度摄像头系统和Level 2+ ADAS解决方案用于公交车和卡车
By OToBrite Electronics, Inc. 01.23.2026
IoT Tech Expo 探索边缘AI、物联网和嵌入式现实世界的融合
By Nitin Dahad 01.21.2026
Telink Semiconductor at CES 2026: True 8K Wireless Gaming Breakthrough
By EE Times 01.21.2026
然而,SRAM不如DRAM在先进工艺节点上扩展得那么好,Ganesan说。
www.eic.net.cn
“我们从二维方式的内存内计算转向,看到了数百TB/s的带宽价值,现在我们需要突破第二个障碍,即内存容量,”她说。“解决方法是垂直堆叠。”
图片显示了D-Matrix实验室中的Pavehawk测试芯片。(来源:EE Times)
D-Matrix一直在努力开发定制DRAM芯片的3D堆叠以增强其Corsair内存内计算芯片。未来的D-Matrix芯片仍将包含性能内存(修改后的SRAM执行计算)和容量内存(离线DRAM存储数据),但容量内存将扩展到三维。
堆叠DRAM意味着需要开发一种垂直通信的方法——逻辑/SRAM芯片位于堆叠的DRAM之上,直接位于互连器上。
“我们最终建立的能力是显著增加内存容量,”她说。“我们不会牺牲任何内存带宽,因为整个表面积都可用于通信;我们在内存带宽方面的优势会持续,并且增加了容量的优势。”
3D堆叠带来了复杂的良率和热稳定性问题,但通过使用小芯片——远不到晶片尺寸——以及最小化每比特的皮焦耳来降低风险,Ganesan说。
D-Matrix的3D定制DRAM测试芯片Pavehawk已经在公司实验室运行。公司的下一代产品Raptor将采用这种3D堆叠技术,并将针对比昂贵的HBM4提高10倍的内存带宽和能效。
“我们对将这一技术引入下一代充满信心,”Ganesan说。“这家公司的DNA是构建打破障碍的技术,但在将其投入商业产品之前验证它们。”
图片显示了Pavehawk测试芯片,其中包含D-Matrix的3D堆叠逻辑芯片。(来源:EE Times)
快速NIC
D-Matrix还在努力进行扩展。
“无论我们在分布式推理方面做什么,都要让Corsair大放异彩,”Ganesan说。
目前,Corsair卡可以通过PCIe服务器中的空插槽连接NIC以实现扩展。D-Matrix已经开发出一个PCIe Gen5 NIC芯片,现已投产,旨在打破另一个瓶颈:I/O。名为Jetstream,它可以处理400 Gbps(延迟2 µs),并具有150 W的TDP。
“我们发现客户不仅想使用容量内存,还想使用性能内存,即超低延迟批量推理能力,”Ganesan说。
单个8卡Corsair服务器节点上的性能内存可以容纳一个8-10B(8位)参数模型,但一个机架可以配置为在性能内存中容纳一个100B(8位)参数模型以实现超低延迟,前提是芯片能够以足够快的速度进行通信。Ganesan说,PCIe和以太网无法提供所需的速度。
Jetstream允许设备发起通信(无需主机通信),因此通信可以跟上计算速度。
“这是在后台发生的异步通信,”Ganesan说。“这分离了数据平面和控制平面,使我们能够非常快速地运行,跟上计算,并获得与行业标准的兼容性。”
D-Matrix采用了PCIe堆栈的一部分,优化了Corsair的通信语义,并添加了部分以太网堆栈。只采用每个堆栈的部分有助于减少软件开销。Jetstream卡插入Corsair服务器,代替行业标准的PCIe NIC,并连接到机架顶部的交换机以构建多机架集群。Ganesan表示,根据公司预计的市场需求,一个500-1000个Corsair卡的集群可能是一个理想的规模。
图片显示了D-Matrix的技术路线图。(来源:D-Matrix)
因此,D-Matrix的路线图现在有了I/O维度。Jetstream与Corsair一起构建当前一代。公司的第二代计算内存储存平台Raptor需要不同的方法。
“Jetstream是这个路线图的起点,我们采取了快速路径来解决Corsair的问题,”Ganesan说。“展望未来,我们希望构建一个符合行业标准的电气I/O芯片组……有机会将这些放入芯片组并集成到Raptor系列中。”
公司的第三代计算内存储存架构称为Lightning,将使用某种形式的光学I/O。
硬件异构性
当前的推理硬件趋势包括将LLM推理工作负载分为两个阶段——预填充和解码——有不同的计算和内存需求,并在不同的硬件上运行。
“我们的核心假设是世界将变得异构,”Ganesan说。
D-Matrix使用相同的硬件进行预填充和解码,但同一硬件可以根据两个工作负载的不同配置。
“如果你有一个高度计算密集型的预填充阶段,你可以只使用DDR内存,我们有很多,用我们称之为容量内存的部分进行计算密集型的预填充,然后将其转移到使用性能内存,”Ganesan说。
Ganesan说,异构性将超越预填充和解码阶段,指出除了这两个阶段之外,还有部分工作负载极其延迟敏感,需要小批次。她还提到客户对这些工作负载部分的Corsair感兴趣。
“异构性将越来越多地出现,我们已经看到这一点,”她说。“我们早就说过,有大量地方可以让推理变得更加多样化,通过异构性。”
异构性也可能意味着安装D-Matrix Corsair卡与Nvidia GPU一起,以便在需要时将延迟敏感的工作负载从GPU卸载。
Ganesan说,D-Matrix目前的客户需求来自超大规模和新云,其中有许多Corsair试验正在进行。
编辑注释:要收听我们的播客,关于D-Matrix首席执行官Sid Sheth的AI测试时间扩展,请点击这里
相关主题:
, , , , , ,
分享这篇文章:
Twitter
Facebook
LinkedIn
文章作者
图片显示了Sally Ward-Foxton的照片。

Sally Ward-Foxton报道EETimes.com和EETimes Europe杂志的AI新闻。Sally在过去18年里从伦敦报道电子行业。她曾为Electronic Design、ECN、Electronic Specifier: Design、Components in Electronics等许多新闻出版物撰写文章。她拥有剑桥大学电气和电子工程硕士学位。

在LinkedIn上关注Sally

文章评论
0条评论
发表评论
您必须注册或登录才能发表评论。
此站点使用Akismet来减少垃圾邮件。了解如何处理您的评论数据

|
|
|
|
TOP
©Copyright www.eic.net.cn 2003-2026 BeiJing MengKaiGuan Software Exploiture Co.,Ltd. All Rights Reserved.    北京梦开关科技有限公司
IC元器件库存管理软件 IC元器件库存管理系统 IC元器件管理软件 IC元器件进销存 IC元器件库存管理软件 IC元器件库存管理系统 快递查询接口
QQ: 880717
18500810082