GPT-5.2 被曝作弊:偷袭谷歌竟靠拉爆 token 刷高分,不如 Gemini 3

GPT-5.2 被曝作弊:偷袭谷歌竟靠拉爆 token 刷高分,不如 Gemini 3


其实,Ilya 在之前的采访中就已经说过,现在的大模型基本都是为了榜单定向优化的,榜单结果的水分都大得很。 有人表示,如果用户得到的「推理力度」参数是一样的,也用的是同样的 token,那 OpenAI 就不算虚假营销。 而现在的 5.2 版本中,OpenAI 增加了更高的「xhigh」推理力度,所以基准测试中显示的性能,要远远超过 ChatGPT 付费用户的实际体验。


Published at: 2025-12-13 09:13:51

Still want to read the full version? Full article