不过当我在开发者群体里问了一圈后,发现大家实际的情况倒不是「麻了」,而是把「旁观的兴奋」变成了「行动上的提速」,开发者们对模型开始从「看」到「干」,已经转变了关注视角——模型的能力进步之外,是不是一个可以对自己所做的事情带来能力明显提升,或者说这个模型和开发者的「对齐」到底怎么样,开始整了一个重要视角。 在他们看来,像过去两年那样只是看模型跑分来评价模型性能已经没有太大意义,因为随着模型能力的继续提升有了明确路径——预训练+后训练+强化学习,很多评测基准评估的比如像代码、写作等单项能力各家都会拉平,更重要的是它已经不能反映现实环境中实际使用模型的场景,尤其是今年按下了 AI Agent 应用的加速键后。 举个例子,Qwen3 整体的一个优化目标就是以更低的成本实现强劲的性能,让开发者更容易能用起来、用得好,在这背后 Qwen3 其实做了大量目标拆解和技术实现,比如之前最受企业欢迎的 Qwen 模型尺寸其实是 72B,但在收到开发者反馈,说 72B 需要两张 H800 才能跑、不方便时,Qwen 团队探索了现在更高效的 32B,开发者也用得更好了。
Published at: 2025-05-20 05:41:24
Still want to read the full version? Full article