OpenAI 的 o3 AI 模型在基准测试中的表现差于宣传描述

事实证明，这个数字很可能是一个上限，由 o3 的一个版本实现，其背后的计算能力比 OpenAI 上周公开发布的模型更强。根据ARC 奖基金会（一个测试过 o3 预发布版本的组织）在 X 上的一篇文章，公共 o3 模型“是一个针对聊天/产品使用进行调整的不同模型”，证实了 Epoch 的报道。诚然，o3 的公开发布未能达到 OpenAI 的测试承诺这一事实有点无意义，因为该公司的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表现优于 o3，而且 OpenAI 计划在未来几周推出更强大的 o3 变体 o3-pro。

Published at: 2025-04-21 02:05:43

Still want to read the full version? Full article

OpenAI 的 o3 A​​I 模型在基准测试中的表现差于宣传描述

OpenAI 的 o3 AI 模型在基准测试中的表现差于宣传描述