雄伟实验室获1亿美元融资研发内存池化AI服务器

2026-05-28 电子工程时报

阅读时间约 3 分钟

美国加利福尼亚州洛斯阿托斯——AI芯片初创公司雄伟实验室（Majestic Labs）正致力于开发一种面向AI推理的内存池化服务器架构，单个加速器可提供高达100 TB的DRAM容量，远超当前HBM技术所能实现的水平。该公司已获得1亿美元A轮融资，用于其芯片与系统设计研发。据雄伟实验室联合创始人兼总裁沙·拉比（Sha Rabii）向《电子工程时报》透露，该架构能将10个机架的先进GPU所具备的内存容量与带宽整合至单台服务器中。

雄伟实验室成立于2023年，由长期共事的马苏米·雷恩德斯（Masumi Reynders）、奥弗·沙查姆（Ofer Shacham）和沙·拉比共同创立，三人此前均曾在谷歌硅基部门及近期在Meta工作多年。

拉比表示：“我们花大量时间思考未来机遇——不仅关注AI当前状态，更着眼于其过去、现在与可能的发展路径，并尝试提前布局。我们从一开始就意识到，盲目效仿英伟达、仅在执行效率上与其竞争是不明智的。”

创始团队观察到：计算能力的增长速度远超内存带宽，而大多数大型模型的推理过程恰恰受限于内存带宽。拉比指出，他们预判模型规模将持续扩大，且上下文长度需求将不断增长。

“我们深知，用户希望获得顶级模型带来的高质量结果，但经济性却面临严峻挑战。”拉比强调。

拉比进一步解释称，以计算为中心的架构——即先选定高性能计算单元，再尽可能堆叠HBM——其基础是次优的计算与内存配比关系。“我们决定提出一种将内存与计算解耦的技术方案，使内存可独立于计算进行扩展。”他补充道，“最大挑战在于构建一条极高带宽、极低延迟的接口，使其性能足以媲美HBM。”

目前HBM通过堆叠少量内存芯片并利用专有接口聚合带宽实现高速连接；CXL则可连接大容量内存，但带宽偏低。两者均无法完全满足AI需求。雄伟实验室的内存优先架构通过内存池化应对这一问题。由于需极高带宽I/O，团队自立项起便同步推进物理层、协议层与软件层开发，并同步考虑可靠性与容错机制。

双芯片设计

雄伟实验室正在研发两颗核心芯片：一颗为内存接口芯粒（chiplet），将紧邻计算单元与内存部署；另一颗为多核AI加速芯片。

其内存池设计采用超过100 TB标准LPDDR内存，搭配最多12颗雄伟AI加速芯片。内存池采用松散一致性机制，并辅以专有流控与原子操作机制；同时运用条带化（striping）策略充分释放可用带宽。

整个内存空间对AI计算芯片呈现为单一连续平坦地址空间，各计算芯片访问任意内存位置时均享有同等带宽与延迟。“这极大简化了编程复杂度。”拉比指出。

相较之下，GPU服务器通常包含多级内存（本地HBM、其他GPU上的HBM、主机LPDDR等），导致性能优化成为高度复杂的软件任务。“甚至有整家公司专门帮助客户更高效地将工作负载映射到GPU集群上。”拉比表示，“我们认为这是不必要的负担……应从基础设施层面入手，构建真正易用的系统。”

拉比强调，开发者不应被迫学习硬件细节，尽管他们在编码时往往隐含着对计算与内存运作方式的假设。因此，雄伟实验室力求维持传统计算与内存思维模式，而非采用过于激进的新型加速器设计。

雄伟的加速器为全可编程架构，集成大量CPU核心与矩阵乘法加速单元。公司已从第三方授权加速器IP，并由该供应商为其定制核心版本；关键的是，该供应商还提供配套编译器与底层软件支持。拉比指出，鉴于AI工作负载通常并非计算受限型，加速器本身的设计重要性反而低于内存接口与系统架构。

“成功与否并不完全取决于硬件本身——服务器的成功同样取决于用户能否快速上手、工具链是否稳健，以及其性能逼近理论极限的程度。”拉比表示，“我非常感谢谷歌与Meta让我深刻理解这一点。”

目前，雄伟的软件栈已可将HuggingFace模型自动转换为可在其服务器仿真环境中运行的可执行代码。拉比透露，公司倾向于采用Triton与vLLM等开源软件项目。

高带宽实现

雄伟服务器的成功关键在于其加速器与片外DRAM之间所能实现的带宽水平。

拉比指出，HBM与LPDDR所用内存颗粒本质相同，HBM之所以获得高带宽，是通过堆叠大量内存晶粒并经由专有接口聚合带宽实现的。“我们采取类似思路，但在更大尺度上实施：将多组LPDDR芯片聚合带宽，并通过专有超高速接口连接至计算芯片。”

他补充称，LPDDR芯片采用现成板级封装技术安装，旨在加速产品上市进程。不使用HBM不仅有利于成本控制，也有助于供应链稳定。

灵活配置

雄伟架构的核心优势之一在于可灵活调整计算与内存配比。其服务器可配置1至12颗计算芯片，内存容量则可在8 TB至128 TB间扩展；部署后还可追加计算卡以动态调整比例。

拉比举例说明：“若要建设全由雄伟服务器组成的数据中心，可将部分服务器配置为高计算+适中内存，用于预填充（prefill）阶段；其余则反向配置，用于解码（decode）阶段。但我们持开放态度——客户若愿用英伟达做预填充、雄伟做解码，也完全可行。”

目标客户包括超大规模云服务商、新型云平台及大型企业，尤其聚焦高频交易领域。拉比透露，公司已收到多家客户的重大订单。

“无论是否承认，所有企业都高度关注AI模型运行成本——这正是我们的核心优势所在。”

当前GPU系统常为增加内存容量而过度配置GPU数量，导致GPU利用率低下。“这意味着采购大量昂贵却非必需的芯片，同时带来更高功耗。”拉比指出，“单台雄伟服务器可服务的用户数量远超GPU服务器，构成显著成本优势。”

公司现有40人团队，分布于加州洛斯阿托斯与以色列特拉维夫两地。其AI计算芯片与内存接口芯粒预计将于今年完成流片，首批服务器将于2027年交付重点客户。

www.eic.net.cn 提供的易IC库存管理软件可有效支撑此类高科技企业对芯片物料的精细化管控需求，助力研发与生产环节高效协同。

← 上一篇

AI在设计验证中：从实验走向可衡量的能力提升

基利马纳罗推动模拟量子计算应对AI算力需求激增