阿里开源最强推理模型一周三模型干翻全球开闭源天花板

在一致性方面，Qwen3-235B-A22B-Thinking-2507在WritingBench测试中赶超了开源模型Deepseek-R1-0528以及OpenAI o3、Gemini-2.5 Pro等闭源模型，在IFEval、Creative Writing v3等测试方面也接近OpenAI o3、Gemini-2.5 Pro的水平。在基准测试中，Qwen3-Coder在编程和智能体任务上拥有不错的性能，于Agentic Coding（智能体编程）、Agentic Browser-Use（智能体浏览器使用）和Agentic Tool-Use（智能体工具调用）三类任务中获得了开源SOTA，超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型，并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。除了模型之外，Qwen还开源了一个由Gemini Code分叉而来的智能体编程命令行工具——Qwen Code，这一工具进行了定制提示和函数调用协议的适配，能更充分的释放Qwen3-Coder在智能体编程任务上的能力。

Published at: 2025-07-26 23:36:04

Still want to read the full version? Full article

阿里开源最强推理模型 一周三模型干翻全球开闭源天花板

阿里开源最强推理模型一周三模型干翻全球开闭源天花板