这一策略能在设计成本相对可控的前提下,实现模型到芯片的快速转化,将芯片生产周期从原先的六个月缩短到两个月。 而如此激进的量化方式势必会影响性能,研究团队也意识到了这一点,所以可以通过 LaRA 适配器进行重新训练,以及可配置的上下文窗口,让芯片的最低限度灵活性得以保留。 整体处理速度可达到每用户每秒 12000 个 token,如果考虑到 30 颗芯片成本为每百万 token 是 7.6 美分,那么该方案成本也不到同等吞吐量的 GPU 方案的一半。
Published at: 2026-02-21 07:50:20
Still want to read the full version? Full article