阿里开源最强推理模型 一周三模型干翻全球开闭源天花板

阿里开源最强推理模型 一周三模型干翻全球开闭源天花板


在一致性方面,Qwen3-235B-A22B-Thinking-2507在WritingBench测试中赶超了开源模型Deepseek-R1-0528以及OpenAI o3、Gemini-2.5 Pro等闭源模型,在IFEval、Creative Writing v3等测试方面也接近OpenAI o3、Gemini-2.5 Pro的水平。 在基准测试中,Qwen3-Coder在编程和智能体任务上拥有不错的性能,于Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器使用)和Agentic Tool-Use(智能体工具调用)三类任务中获得了开源SOTA,超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型,并可与Claude Sonnet 4这一以编程能力著称的模型相媲美。 除了模型之外,Qwen还开源了一个由Gemini Code分叉而来的智能体编程命令行工具——Qwen Code,这一工具进行了定制提示和函数调用协议的适配,能更充分的释放Qwen3-Coder在智能体编程任务上的能力。


Published at: 2025-07-26 23:36:04

Still want to read the full version? Full article