我们很难说,Llama 4 系列三款模型中的两款代表了多少进展,显然在这个系列的发布中,夸大宣传的水分要比诚实的分析多得多。 看看这些真实数字,假设没有任何答案进入 Llama 4 的训练数据,这个模型在 GPQA Diamond 上的性能(谷歌验证的极其严格的 STEM 基准测试)实际上是比 DeepSeek V3 更好的。 但仔细看脚注,却说的是 Llama 模型的结果代表了目前最好的内部运行情况,所以很大可能是,Meta 把 Llama 4 跑了 5 遍或 10 遍,取了其中的最好结果。
Published at: 2025-04-08 16:01:41
Still want to read the full version? Full article