还没正式发布,就已经杀进了全球排行榜前 20。5 月 18 日,Qwen 官方推特 @Alibaba_Qwen 发布了一条低调的推文,配图里 Arena.ai 的排行榜上赫然出现了两个新名字:Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview。
注意,这是 Preview 版本。还没有正式发布,还没有开源,甚至可能还在调参阶段——但成绩单已经挂上去了。
成绩单拆解
Text Arena(文本竞技场):
- Qwen3.7 Max Preview:全球排名第 13
- Alibaba 实验室排名:全球第 6(仅次于 OpenAI、Anthropic 等头部玩家)
Vision Arena(视觉竞技场):
- Qwen3.7 Plus Preview:全球排名第 16
- Alibaba 实验室排名:全球第 5(视觉领域阿里反而冲得更前)
细分领域亮点:
- 数学 (Math):🏅 #7
- 专家知识 (Expert):🏅 #9
- 软件与 IT (Software & IT):🏅 #9
- 编程 (Coding):🏅 #10
数学和编程都杀进了前十。对于了解 Qwen 发展脉络的人来说,这并不意外——从 Qwen3.5 开始,阿里的模型在代码能力上就是一路狂飙的。Qwen3.7 延续甚至强化了这个基因。
从 3.6 到 3.7:阿里的进化速度
要理解 Qwen3.7 Preview 的含金量,得先看看前代有多猛。Qwen3.6-27B——只有 27B 参数(dense 架构),但编码能力直接超越了上一代旗舰 Qwen3.5-397B-A17B。
27B 打败 397B,这是什么概念?相当于一个本科生在编程考试里碾压了一个博士生。这就是模型架构和训练方法进化的力量。参数量不是万能的,效率才是。
除了文本模型,阿里在多模态上也没闲着:Qwen Image 2.0 Pro 已经在 Text-to-Image Arena 上拿下了第 9 名。所以 Qwen3.7 Preview 的出现,不是突然起跳,而是在一个已经很高的基线上继续往上顶。
全球格局中的意义
Arena.ai 是目前公认最权威的大模型盲测平台,参与评测的用户不知道自己正在测试哪个模型,避免了"品牌滤镜"。
在这个平台上:
- Top 5 基本被 OpenAI(GPT 系列)、Anthropic(Claude 系列)和 Google(Gemini)垄断
- 前 15 名能进去的,都是实打实的头部玩家
- 中国团队能稳定占据多模态 Top 5 实验室位置的,阿里是独一档
Qwen3.7 Preview 在 Text Arena 拿到第 13,看似不在前十,但别忘了——这还是 Preview 版本。按照惯例,正式版的性能通常会更好。换句话说,阿里这次可能是在用半成品来探路,真正的杀手锏还在后面。
大胆预测:Qwen3.7 正式版会带来什么?
基于目前的信息,几个预测:
1. 编程能力继续飞升
Qwen3.6 已经证明了小模型+好训练可以打败大模型。3.7 在 Coding 排名 #10 的基础上,正式版大概率冲进前 8,甚至前 5。
2. 多模态可能比纯文本更惊艳
Vision Arena 排名 #16,实验室排名 #5——说明阿里的多模态路线走得非常稳。3.7 的视觉理解能力可能会成为最大的惊喜。
3. 开源参数可能继续"降维打击"
参考 Qwen3.6-27B 的策略,3.7 的开源版很可能继续走小参数高性能路线,让开发者在本地就能跑起来。
4. 对开源社区的冲击
如果 3.7 正式版性能对标 GPT-4o 级别同时开源,那对 DeepSeek、Llama 等开源竞品的压力会非常大。
总结
阿里的策略很清晰:开源养生态,闭源打排名。Qwen3.6 开源已经把社区生态做得很好了,3.7 的 Preview 上 Arena 则是在告诉市场——"我们的实力,经得起盲测"。
一句话总结:Qwen3.7 可能是 2026 年下半年最值得期待的开源大模型。