易IC电子行业销售管理系统 - 易IC电子行业库存管理软件
首页 / 行业新闻 / 正文

Taalas实现极致优化提升令牌速度

2026-02-19   EE Times
阅读时间约 3 分钟
AI芯片初创公司Taalas由Tenstorrent的联合创始人兼前CEO和CTOLjubisa Bajic共同创立,正在展示其首款具有非凡性能的芯片。Taalas的HC1在Llama3.1-8B上每用户每秒可以达到超过16,000个令牌,是竞争对手Nvidia、Cerebras和Groq的数倍,但有一个问题——该芯片仅运行Llama3.1-8B。
通过将整个模型(包括其权重)有效地硬接线到芯片上,几乎消除了所有可编程性(HC1有一个小的SRAM,可用于存储微调权重和KV缓存),从而实现了卓越的性能。
已经有专注于LLM推理的芯片公司如SambaNova和D-Matrix在市场上,但大多数专注于内存和计算的最佳平衡以及它们之间的带宽,保留可编程性以运行任何模型。初创公司Etched正在追求更针对变压器的架构,以性能换取灵活性,但尚不清楚它们将提供多少可编程性。Taalas的方法是AI芯片行业迄今为止最极端的专业化。
Taalas首席执行官Ljubisa Bajic告诉EE Times,这种极端方法并不适合每个应用,但它可能适合一些。
“基本上,我们寻找了在灵活性方面做出痛苦权衡的方法,以实现经济性和速度,”Bajic说。
“没有人进入这个(灵活性-性能)角落,因为每个人都觉得AI变化如此迅速,这样做会是一个巨大的风险……这在某种程度上是的,”Bajic说。“但我们想看看这个角落里有什么,如果我们探索它能获得什么,你可以得到很多。我们得出结论,肯定会有一定数量的应用程序会从这种程度的优化中受益。有多少最终会变成这样……我们会发现。”
“Taalas的在线聊天机器人演示在EE Times尝试时达到了15,000多个令牌每秒,但内部测试在某些条件下接近17,000,该公司表示(Taalas承认其Llama3.1-8B版本被激进地量化)。目前Taalas最快的竞争对手是Cerebras,它可以在Llama3.1-8B上每用户达到接近2,000个令牌每秒,SambaNova约为900,Groq约为600(这些数字来自Artificial Analysis)。
Taalas的HC1基于TSMC N6,芯片尺寸为815平方毫米,一个芯片可以容纳整个8B模型。该芯片耗电约250W,因此服务器中的10个HC1卡需要大约2.5kW,这意味着它们可以在标准风冷机架中部署。
根据Taalas的数据显示,总拥有成本(TCO)也表现良好,即使假设GPU更新周期为四年,而Taalas芯片每年都需要进行一次流片和更换。Taalas的一百万个Llama3.1-8B令牌成本为0.75美分。
Taalas借鉴了2000年代初结构ASIC的一些想法,以制造其硬接线的特定模型芯片。结构ASIC使用门阵列和硬化IP块,只改变互连层以适应特定的工作负载。当时,这被视为一种比全定制ASIC更具成本效益的替代方案,比FPGA更具性能。
“确实有相似之处,”Bajic说。“这与eASIC和门阵列的想法类似,但底层技术看起来非常不同。”
Taalas只需更改两个掩模即可为客户特定的模型定制芯片,但这两个掩模可以同时改变模型权重和数据流通过芯片。在HC1上,模型及其权重通过基于掩模-ROM的回忆结构与(可编程)SRAM一起存储,该SRAM可用于保存微调权重和/或KV缓存。未来几代芯片可能会将SRAM分离到单独的芯片上,这意味着它们可以比HC1更密集。
“目标是证明我们的架构有效,并展示我们的方法如何用于扩展到更大的模型,”Kharya说。“我们必须做出许多技术突破才能使这种方法奏效。通过选择较小的模型,我们基本上清空了整个过程的管道。”
HC1将Llama3.1的整个8B版本放在单个芯片上,但更大的模型需要更多的芯片。Taalas已经模拟了DeepSeekR1-671B的多芯片解决方案。将SRAM部分分离到单独的芯片上可以增加密度,达到大约20B参数每Taalas芯片(在MXFP4格式中)。Bajic表示,Taalas的密度也得益于一项创新,即存储4位模型参数并在单个晶体管上进行乘法运算(他拒绝提供进一步细节,但确认计算仍然是完全数字的)。即使有这些密度优势,保持整个671B模型仍需要大约30次定制流片。
“这意味着30次增量流片,这是令人烦恼的部分,但流片成本相当低,因为它只有两个掩模,”Bajic说。“这个想法的核心是假设客户愿意为此(芯片/模型)承诺一年。肯定会有很多人不会,但有些人会。”
Taalas对其DeepSeekR1的30多个芯片的模拟表明,它可能每用户每秒实现大约12,000个令牌(目前GPU的最新水平是每用户每秒约200个令牌,据公司称)。Taalas的计算显示,DeepSeekR1在30个芯片上运行时,每百万令牌的成本为7.6美分,不到基于GPU的吞吐量优化等效产品的半价,即使考虑到每年需要流片30个新芯片而不是四年的GPU更新周期。
通常,速度和成本之间存在权衡,但Taalas希望为两者提供优势。
“从我们的角度来看,我们已经有了这种相当严重的妥协,所以我们想让它成为唯一的妥协,”Bajic说。“是的,它不够灵活,但从另一方面来看,其他一切都更好。”
降低成本的一部分是定期快速流片,任何大于8B的模型可能需要多次流片,这就是Taalas的秘诀所在。
“我们建立了一系列自动化工具,使我们能够快速从模型到[RTL],”Bajic说。“这不是完全一键式,但按目前的情况,大约需要一周的努力。”
Bajic表示,Taalas预计能够以两个月的周转时间提供定制的模型专用芯片。他补充说,这种速度需要重大创新。
“这是一个晶片大小的芯片,你正在移动和改变连接,仅仅验证它正常工作就太慢了,”Bajic说。“你怎么能在不花六个月的情况下对这些东西进行设计规则检查?”
再加上Taalas有意缺乏可编程性。
“因为我们是硬接线,错误的余地基本上是零,”Bajic说。“你只能通过运行整个模型模拟来确保它有效,因为你在流片后不能改变任何东西,或者你的改变能力非常有限。”
但模拟30个芯片协同工作也不是一件小事。Taalas的工作流程使其能够在大型计算集群上运行如此大规模的模拟,并且模拟结构使得可以向潜在客户展示而不泄露Taalas的秘密或违反EDA工具合同条款,Bajic说。
“最终结果是我们构建了其他人没有的东西,”Bajic说。“从工程角度看,我们在没人去过的角落发光,那里有一百个相当困难的问题要解决……挑战主要是没人以前做过这件事。”
硬接线模型到硬件的一个副作用是Taalas的软件堆栈非常简单,无论是运行模型在芯片上还是在大规模服务推理,特别是与大型复杂的分散GPU系统相比,Bajic说。
“软件似乎消失了一件事,”他说,指出Taalas只有一个工程师负责其软件堆栈,而那个人还有其他职责。
硬接线芯片可以降低系统级别的复杂性,特别是在所有内容都在单个芯片上完成时,这减少了数据移动并简化了I/O。不需要高速时钟速度来实现性能,因此功耗不太极端,可以使用更简单的(空气)冷却。
“现在系统为何如此复杂和庞大,为何有成千上万米的电缆,为何一开始很难让它工作,背后有很多复杂因素,”Bajic说。“我们的方法只是让这一切消失。问题在每一层都变得更简单……除了快速创建新芯片。”
Taalas仍在定义其商业模式,但该公司有许多选项,Kharya说。
“我们想与开发者合作,”Kharya说。“从现在起,我们可以构建自己的基础设施运行开源模型并提供API访问[以及销售芯片]。同时,我们也愿意与模型开发者合作,为他们的模型创建定制芯片,用于他们自己的服务基础设施。这两种可能性都是开放的。”
Kharya称之为模型最优硅,是不可避免的。虽然它不会取代充满GPU的大数据中心,但它将适合某些应用,尤其是当模型成熟到变得有用时,因为它使它们更加粘稠。
“对于我们将要交谈的人群来说,预期模型在重要用例上的亲和力可能是一年甚至更久,”Kharya说。
HC1主要用于演示,目前正在进行推理。Taalas计划在夏季初生产第二款芯片,用于“合理大小”的推理模型,并计划在年底运行前沿级模型。该公司已筹集超过2亿美元,目前有大约25名员工。
www.eic.net.cn
易IC库存管理软件

|
|
|
|
TOP
©Copyright www.eic.net.cn 2003-2026 BeiJing MengKaiGuan Software Exploiture Co.,Ltd. All Rights Reserved.    北京梦开关科技有限公司
IC元器件库存管理软件 IC元器件库存管理系统 IC元器件管理软件 IC元器件进销存 IC元器件库存管理软件 IC元器件库存管理系统 快递查询接口
QQ: 880717
18500810082