五大疑点曝光：Llama 4 逐层扒皮，NYU 教授称 AI Scaling 彻底结束

我们很难说，Llama 4 系列三款模型中的两款代表了多少进展，显然在这个系列的发布中，夸大宣传的水分要比诚实的分析多得多。看看这些真实数字，假设没有任何答案进入 Llama 4 的训练数据，这个模型在 GPQA Diamond 上的性能（谷歌验证的极其严格的 STEM 基准测试）实际上是比 DeepSeek V3 更好的。但仔细看脚注，却说的是 Llama 模型的结果代表了目前最好的内部运行情况，所以很大可能是，Meta 把 Llama 4 跑了 5 遍或 10 遍，取了其中的最好结果。

Published at: 2025-04-08 16:01:41

Still want to read the full version? Full article