OpenAI o3 模型基准测试成绩遭质疑，实测分数远不及宣称

Epoch 在报告中写道：“我们与 OpenAI 的结果差异可能是因为 OpenAI 在内部评估时使用了更强大的计算框架、更多的测试时计算资源，或者是因为这些结果是在 FrontierMath 的不同子集上运行的（例如 2024 年 11 月 26 日版本的 180 个问题与 2025 年 2 月 28 日私有版本的 290 个问题）。此外，ARC Prize 基金会（一个测试了 o3 预发布版本的组织）在 X 平台上发布消息表示，公开发布的 o3 模型是一个“针对聊天 / 产品使用进行了调整的不同模型”，这进一步证实了 Epoch 的报告。值得注意的是，尽管公开版本的 o3 未能完全达到 OpenAI 测试时的表现，但这在一定程度上已不再是关键问题，因为该公司后续推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表现已经优于 o3。

Published at: 2025-04-20 23:24:55

Still want to read the full version? Full article