Taalas实现极致优化提升令牌速度

2026-02-19 EE Times

阅读时间约 3 分钟

AI芯片初创公司Taalas由Tenstorrent的联合创始人兼前CEO和CTOLjubisa Bajic共同创立，正在展示其首款具有非凡性能的芯片。Taalas的HC1在Llama3.1-8B上每用户每秒可以达到超过16,000个令牌，是竞争对手Nvidia、Cerebras和Groq的数倍，但有一个问题——该芯片仅运行Llama3.1-8B。

通过将整个模型（包括其权重）有效地硬接线到芯片上，几乎消除了所有可编程性（HC1有一个小的SRAM，可用于存储微调权重和KV缓存），从而实现了卓越的性能。

已经有专注于LLM推理的芯片公司如SambaNova和D-Matrix在市场上，但大多数专注于内存和计算的最佳平衡以及它们之间的带宽，保留可编程性以运行任何模型。初创公司Etched正在追求更针对变压器的架构，以性能换取灵活性，但尚不清楚它们将提供多少可编程性。Taalas的方法是AI芯片行业迄今为止最极端的专业化。

Taalas首席执行官Ljubisa Bajic告诉EE Times，这种极端方法并不适合每个应用，但它可能适合一些。

“基本上，我们寻找了在灵活性方面做出痛苦权衡的方法，以实现经济性和速度，”Bajic说。

“没有人进入这个（灵活性-性能）角落，因为每个人都觉得AI变化如此迅速，这样做会是一个巨大的风险……这在某种程度上是的，”Bajic说。“但我们想看看这个角落里有什么，如果我们探索它能获得什么，你可以得到很多。我们得出结论，肯定会有一定数量的应用程序会从这种程度的优化中受益。有多少最终会变成这样……我们会发现。”

“Taalas的在线聊天机器人演示在EE Times尝试时达到了15,000多个令牌每秒，但内部测试在某些条件下接近17,000，该公司表示（Taalas承认其Llama3.1-8B版本被激进地量化）。目前Taalas最快的竞争对手是Cerebras，它可以在Llama3.1-8B上每用户达到接近2,000个令牌每秒，SambaNova约为900，Groq约为600（这些数字来自Artificial Analysis）。

Taalas的HC1基于TSMC N6，芯片尺寸为815平方毫米，一个芯片可以容纳整个8B模型。该芯片耗电约250W，因此服务器中的10个HC1卡需要大约2.5kW，这意味着它们可以在标准风冷机架中部署。

根据Taalas的数据显示，总拥有成本（TCO）也表现良好，即使假设GPU更新周期为四年，而Taalas芯片每年都需要进行一次流片和更换。Taalas的一百万个Llama3.1-8B令牌成本为0.75美分。

Taalas借鉴了2000年代初结构ASIC的一些想法，以制造其硬接线的特定模型芯片。结构ASIC使用门阵列和硬化IP块，只改变互连层以适应特定的工作负载。当时，这被视为一种比全定制ASIC更具成本效益的替代方案，比FPGA更具性能。

“确实有相似之处，”Bajic说。“这与eASIC和门阵列的想法类似，但底层技术看起来非常不同。”

Taalas只需更改两个掩模即可为客户特定的模型定制芯片，但这两个掩模可以同时改变模型权重和数据流通过芯片。在HC1上，模型及其权重通过基于掩模-ROM的回忆结构与（可编程）SRAM一起存储，该SRAM可用于保存微调权重和/或KV缓存。未来几代芯片可能会将SRAM分离到单独的芯片上，这意味着它们可以比HC1更密集。

“目标是证明我们的架构有效，并展示我们的方法如何用于扩展到更大的模型，”Kharya说。“我们必须做出许多技术突破才能使这种方法奏效。通过选择较小的模型，我们基本上清空了整个过程的管道。”

HC1将Llama3.1的整个8B版本放在单个芯片上，但更大的模型需要更多的芯片。Taalas已经模拟了DeepSeekR1-671B的多芯片解决方案。将SRAM部分分离到单独的芯片上可以增加密度，达到大约20B参数每Taalas芯片（在MXFP4格式中）。Bajic表示，Taalas的密度也得益于一项创新，即存储4位模型参数并在单个晶体管上进行乘法运算（他拒绝提供进一步细节，但确认计算仍然是完全数字的）。即使有这些密度优势，保持整个671B模型仍需要大约30次定制流片。

“这意味着30次增量流片，这是令人烦恼的部分，但流片成本相当低，因为它只有两个掩模，”Bajic说。“这个想法的核心是假设客户愿意为此（芯片/模型）承诺一年。肯定会有很多人不会，但有些人会。”

Taalas对其DeepSeekR1的30多个芯片的模拟表明，它可能每用户每秒实现大约12,000个令牌（目前GPU的最新水平是每用户每秒约200个令牌，据公司称）。Taalas的计算显示，DeepSeekR1在30个芯片上运行时，每百万令牌的成本为7.6美分，不到基于GPU的吞吐量优化等效产品的半价，即使考虑到每年需要流片30个新芯片而不是四年的GPU更新周期。

通常，速度和成本之间存在权衡，但Taalas希望为两者提供优势。

“从我们的角度来看，我们已经有了这种相当严重的妥协，所以我们想让它成为唯一的妥协，”Bajic说。“是的，它不够灵活，但从另一方面来看，其他一切都更好。”

降低成本的一部分是定期快速流片，任何大于8B的模型可能需要多次流片，这就是Taalas的秘诀所在。

“我们建立了一系列自动化工具，使我们能够快速从模型到[RTL]，”Bajic说。“这不是完全一键式，但按目前的情况，大约需要一周的努力。”

Bajic表示，Taalas预计能够以两个月的周转时间提供定制的模型专用芯片。他补充说，这种速度需要重大创新。

“这是一个晶片大小的芯片，你正在移动和改变连接，仅仅验证它正常工作就太慢了，”Bajic说。“你怎么能在不花六个月的情况下对这些东西进行设计规则检查？”

再加上Taalas有意缺乏可编程性。

“因为我们是硬接线，错误的余地基本上是零，”Bajic说。“你只能通过运行整个模型模拟来确保它有效，因为你在流片后不能改变任何东西，或者你的改变能力非常有限。”

但模拟30个芯片协同工作也不是一件小事。Taalas的工作流程使其能够在大型计算集群上运行如此大规模的模拟，并且模拟结构使得可以向潜在客户展示而不泄露Taalas的秘密或违反EDA工具合同条款，Bajic说。

“最终结果是我们构建了其他人没有的东西，”Bajic说。“从工程角度看，我们在没人去过的角落发光，那里有一百个相当困难的问题要解决……挑战主要是没人以前做过这件事。”

硬接线模型到硬件的一个副作用是Taalas的软件堆栈非常简单，无论是运行模型在芯片上还是在大规模服务推理，特别是与大型复杂的分散GPU系统相比，Bajic说。

“软件似乎消失了一件事，”他说，指出Taalas只有一个工程师负责其软件堆栈，而那个人还有其他职责。

硬接线芯片可以降低系统级别的复杂性，特别是在所有内容都在单个芯片上完成时，这减少了数据移动并简化了I/O。不需要高速时钟速度来实现性能，因此功耗不太极端，可以使用更简单的（空气）冷却。

“现在系统为何如此复杂和庞大，为何有成千上万米的电缆，为何一开始很难让它工作，背后有很多复杂因素，”Bajic说。“我们的方法只是让这一切消失。问题在每一层都变得更简单……除了快速创建新芯片。”

Taalas仍在定义其商业模式，但该公司有许多选项，Kharya说。

“我们想与开发者合作，”Kharya说。“从现在起，我们可以构建自己的基础设施运行开源模型并提供API访问[以及销售芯片]。同时，我们也愿意与模型开发者合作，为他们的模型创建定制芯片，用于他们自己的服务基础设施。这两种可能性都是开放的。”

Kharya称之为模型最优硅，是不可避免的。虽然它不会取代充满GPU的大数据中心，但它将适合某些应用，尤其是当模型成熟到变得有用时，因为它使它们更加粘稠。

“对于我们将要交谈的人群来说，预期模型在重要用例上的亲和力可能是一年甚至更久，”Kharya说。

HC1主要用于演示，目前正在进行推理。Taalas计划在夏季初生产第二款芯片，用于“合理大小”的推理模型，并计划在年底运行前沿级模型。该公司已筹集超过2亿美元，目前有大约25名员工。

www.eic.net.cn

易IC库存管理软件

← 上一篇

韩国初创公司应对成本和延迟的LLM专用芯片

Nvidia在2026年CES上成为焦点