K2 Thinking再炸场,杨植麟凌晨回答了21个问题

K2 Thinking再炸场,杨植麟凌晨回答了21个问题


无论是Kimi K2 Thinking的发布,还是GLM、MiniMax M2,共同指向的一个趋势是:在基础设施如芯片受限、Claude断供的情况下,国产大模型在算法创新上反而加快了进程。 MiniMax在近期的技术博客就表示:在实际应用中发现,虽然Linear Attention能省算力,但对于多步推理的复杂Agent任务,传统方法反而更可靠,他们更看重在当前工程体系下的稳定性。 传统的Transformer架构,就像一个记忆力超群但有点健忘的秘书——模型每个字都能记住,不会遗漏细节;但记的东西越多,模型的计算时间就以平方为单位增加。


Published at: 2025-11-11 10:28:23

Still want to read the full version? Full article