事实证明,这个数字很可能是一个上限,由 o3 的一个版本实现,其背后的计算能力比 OpenAI 上周公开发布的模型更强。 根据ARC 奖基金会(一个测试过 o3 预发布版本的组织)在 X 上的一篇文章,公共 o3 模型“是一个针对聊天/产品使用进行调整的不同模型”,证实了 Epoch 的报道。 诚然,o3 的公开发布未能达到 OpenAI 的测试承诺这一事实有点无意义,因为该公司的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表现优于 o3,而且 OpenAI 计划在未来几周推出更强大的 o3 变体 o3-pro。
Published at: 2025-04-21 02:05:43
Still want to read the full version? Full article