24 人团队硬刚英伟达：AMD 前高管梦之队出手，新芯片每秒 17000 个 token

这一策略能在设计成本相对可控的前提下，实现模型到芯片的快速转化，将芯片生产周期从原先的六个月缩短到两个月。而如此激进的量化方式势必会影响性能，研究团队也意识到了这一点，所以可以通过 LaRA 适配器进行重新训练，以及可配置的上下文窗口，让芯片的最低限度灵活性得以保留。整体处理速度可达到每用户每秒 12000 个 token，如果考虑到 30 颗芯片成本为每百万 token 是 7.6 美分，那么该方案成本也不到同等吞吐量的 GPU 方案的一半。

Published at: 2026-02-21 07:50:20

Still want to read the full version? Full article