GPT-5.2 被曝作弊：偷袭谷歌竟靠拉爆 token 刷高分，不如 Gemini 3

其实，Ilya 在之前的采访中就已经说过，现在的大模型基本都是为了榜单定向优化的，榜单结果的水分都大得很。有人表示，如果用户得到的「推理力度」参数是一样的，也用的是同样的 token，那 OpenAI 就不算虚假营销。而现在的 5.2 版本中，OpenAI 增加了更高的「xhigh」推理力度，所以基准测试中显示的性能，要远远超过 ChatGPT 付费用户的实际体验。

Published at: 2025-12-13 09:13:51

Still want to read the full version? Full article