行业新闻 - 易IC

D-Matrix开发快速NIC

2026-01-23 EE Times

SANTA CLARA, Calif. — 快速LLM令牌生成受到越来越多的关注，随着需求的增长，D-Matrix正在利用市场对低延迟令牌的需求，以及数据中心硬件趋势向推理分解和异构性，销售其AI加速器和新设计的低延迟NIC卡。Sree Ganesan，D-Matrix产品副总裁，告诉EE Times。

LLM推理工作负载随着推理和思维链等技术的兴起以及代理AI的出现而增长，这将意味着模型之间进行通信而不受人类阅读速度的限制。即使对于小型代理（使用低于1B参数的模型——小型语言模型或SLMs），这些趋势也意味着需要更多的令牌，延迟变得更加关键，给内存带宽带来更大的压力。

“即使只是在复合系统中协作的几个代理，我们开始看到越来越多的SLMs进入应用，”Ganesan说。“这使我们回到内存墙问题——从计算角度来看，行业可以保持良好的节奏，但带宽方面却无法跟上。我们需要在带宽方面取得突破，因为差距正在扩大——所以我们认为这种内存计算集成将持续存在。”

www.eic.net.cn

D-Matrix的Corsair推理加速器采用专有的计算内存储存方案——乘法在其自定义SRAM内存单元中执行，结合数字加法树。

www.eic.net.cn

合作伙伴内容

oToGuard：集成360度摄像头系统和Level 2+ ADAS解决方案用于公交车和卡车

By OToBrite Electronics, Inc. 01.23.2026

IoT Tech Expo 探索边缘AI、物联网和嵌入式现实世界的融合

By Nitin Dahad 01.21.2026

Telink Semiconductor at CES 2026: True 8K Wireless Gaming Breakthrough

By EE Times 01.21.2026

然而，SRAM不如DRAM在先进工艺节点上扩展得那么好，Ganesan说。

www.eic.net.cn

“我们从二维方式的内存内计算转向，看到了数百TB/s的带宽价值，现在我们需要突破第二个障碍，即内存容量，”她说。“解决方法是垂直堆叠。”

图片显示了D-Matrix实验室中的Pavehawk测试芯片。（来源：EE Times）

D-Matrix一直在努力开发定制DRAM芯片的3D堆叠以增强其Corsair内存内计算芯片。未来的D-Matrix芯片仍将包含性能内存（修改后的SRAM执行计算）和容量内存（离线DRAM存储数据），但容量内存将扩展到三维。

堆叠DRAM意味着需要开发一种垂直通信的方法——逻辑/SRAM芯片位于堆叠的DRAM之上，直接位于互连器上。

“我们最终建立的能力是显著增加内存容量，”她说。“我们不会牺牲任何内存带宽，因为整个表面积都可用于通信；我们在内存带宽方面的优势会持续，并且增加了容量的优势。”

3D堆叠带来了复杂的良率和热稳定性问题，但通过使用小芯片——远不到晶片尺寸——以及最小化每比特的皮焦耳来降低风险，Ganesan说。

D-Matrix的3D定制DRAM测试芯片Pavehawk已经在公司实验室运行。公司的下一代产品Raptor将采用这种3D堆叠技术，并将针对比昂贵的HBM4提高10倍的内存带宽和能效。

“我们对将这一技术引入下一代充满信心，”Ganesan说。“这家公司的DNA是构建打破障碍的技术，但在将其投入商业产品之前验证它们。”

图片显示了Pavehawk测试芯片，其中包含D-Matrix的3D堆叠逻辑芯片。（来源：EE Times）

快速NIC

D-Matrix还在努力进行扩展。

“无论我们在分布式推理方面做什么，都要让Corsair大放异彩，”Ganesan说。

目前，Corsair卡可以通过PCIe服务器中的空插槽连接NIC以实现扩展。D-Matrix已经开发出一个PCIe Gen5 NIC芯片，现已投产，旨在打破另一个瓶颈：I/O。名为Jetstream，它可以处理400 Gbps（延迟2 µs），并具有150 W的TDP。

“我们发现客户不仅想使用容量内存，还想使用性能内存，即超低延迟批量推理能力，”Ganesan说。

单个8卡Corsair服务器节点上的性能内存可以容纳一个8-10B（8位）参数模型，但一个机架可以配置为在性能内存中容纳一个100B（8位）参数模型以实现超低延迟，前提是芯片能够以足够快的速度进行通信。Ganesan说，PCIe和以太网无法提供所需的速度。

Jetstream允许设备发起通信（无需主机通信），因此通信可以跟上计算速度。

“这是在后台发生的异步通信，”Ganesan说。“这分离了数据平面和控制平面，使我们能够非常快速地运行，跟上计算，并获得与行业标准的兼容性。”

D-Matrix采用了PCIe堆栈的一部分，优化了Corsair的通信语义，并添加了部分以太网堆栈。只采用每个堆栈的部分有助于减少软件开销。Jetstream卡插入Corsair服务器，代替行业标准的PCIe NIC，并连接到机架顶部的交换机以构建多机架集群。Ganesan表示，根据公司预计的市场需求，一个500-1000个Corsair卡的集群可能是一个理想的规模。

图片显示了D-Matrix的技术路线图。（来源：D-Matrix）

因此，D-Matrix的路线图现在有了I/O维度。Jetstream与Corsair一起构建当前一代。公司的第二代计算内存储存平台Raptor需要不同的方法。

“Jetstream是这个路线图的起点，我们采取了快速路径来解决Corsair的问题，”Ganesan说。“展望未来，我们希望构建一个符合行业标准的电气I/O芯片组……有机会将这些放入芯片组并集成到Raptor系列中。”

公司的第三代计算内存储存架构称为Lightning，将使用某种形式的光学I/O。

硬件异构性

当前的推理硬件趋势包括将LLM推理工作负载分为两个阶段——预填充和解码——有不同的计算和内存需求，并在不同的硬件上运行。

“我们的核心假设是世界将变得异构，”Ganesan说。

D-Matrix使用相同的硬件进行预填充和解码，但同一硬件可以根据两个工作负载的不同配置。

“如果你有一个高度计算密集型的预填充阶段，你可以只使用DDR内存，我们有很多，用我们称之为容量内存的部分进行计算密集型的预填充，然后将其转移到使用性能内存，”Ganesan说。

Ganesan说，异构性将超越预填充和解码阶段，指出除了这两个阶段之外，还有部分工作负载极其延迟敏感，需要小批次。她还提到客户对这些工作负载部分的Corsair感兴趣。

“异构性将越来越多地出现，我们已经看到这一点，”她说。“我们早就说过，有大量地方可以让推理变得更加多样化，通过异构性。”

异构性也可能意味着安装D-Matrix Corsair卡与Nvidia GPU一起，以便在需要时将延迟敏感的工作负载从GPU卸载。

Ganesan说，D-Matrix目前的客户需求来自超大规模和新云，其中有许多Corsair试验正在进行。

编辑注释：要收听我们的播客，关于D-Matrix首席执行官Sid Sheth的AI测试时间扩展，请点击这里。