智谱 AI 正式推出 GLM-5.1 高速版,定位旗舰模型,主打全球最快 API 响应速度。官方数据显示,GLM-5.1 高速版相比标准版实现了约 7 倍提速,首 token 时间(TTFT)低于 1 秒,同时保持旗舰级模型能力。
性能实测:四模型同场竞速
为了直观对比各模型的速度差异,我们使用同一套测试环境,同时配置了四个模型进行并发测试:
- GLM 高速版(glm-5.1-highspeed)
- GLM 5.1(glm-5.1)
- DeepSeek V4 Pro(deepseek-chat)
- Sonnet 4.6(claude-sonnet-4-6)
测试环境统一使用 /private/tmp/speed_test 脚本,输入相同提示词「用 1000 字」,对比各模型的生成速度。

编程任务速度对比
在编程任务场景下,四个模型的生成速度差异显著:
- GLM 高速版:397 tok/s(第一名,遥遥领先)
- DeepSeek V4 Pro:136 tok/s
- Sonnet 4.6:65 tok/s
- GLM 5.1:58 tok/s
GLM 高速版的生成速度是 GLM 5.1 标准版的约 7 倍,是 DeepSeek V4 Pro 的近 3 倍,是 Sonnet 4.6 的 6 倍多。

耗时对比:讲故事 vs 总结小说
在两项具体任务中的耗时表现:
| 任务 | GLM 高速版 | DeepSeek V4 Pro | Sonnet 4.6 | GLM 5.1 |
|---|---|---|---|---|
| 讲故事 | 14s | 31s | 50s | 64s |
| 总结小说 | 4s | 18s | >108s | 26s |
在「总结小说」任务中,Sonnet 4.6 耗时超过 108 秒仍未完成,而 GLM 高速版仅用 4 秒即完成。

WebDev 排行榜:GLM-5.1 排名第五
在 WebDev(Web 开发)任务排行榜上,GLM-5.1 以 1532 分位列第 5 名,仅次于 Claude Opus 4.7 Thinking(1567 分)、Claude Opus 4.7(1559 分)、Claude Opus 4.6 Thinking(1546 分)和 Claude Opus 4.6(1541 分),领先于 Claude Sonnet 4.6(1524 分)、Kimi K2.6(1519 分)和 GPT-5.5(1501 分)。

实际应用场景
AI Shader 生成
GLM-5.1 高速版已应用于 AI 驱动的实时图形编程工具。用户只需输入文字描述(如「fractal lava lamp with caustics」),模型即可实时生成 WebGL 着色器代码,渲染帧率稳定在 120 FPS。

低多边形 3D 场景生成
在 3D 场景生成方面,GLM-5.1 高速版也能快速生成低多边形风格的虚拟场景,包括城市景观、人物角色和交互 UI 元素。

技术原理:TileRT 零调度架构
GLM-5.1 高速版之所以能实现如此大幅的速度提升,核心在于采用了 TileRT 技术。传统推理方式中,每个操作(op)完成后都需要向调度器汇报并等待批准,导致效率低下。TileRT 采用 Persistent Kernel(常驻内核) 技术,实现了「零调度」——数据被分成 tile 连续处理,不再需要频繁汇报,计算单元可以自主高效运行。

配置与使用
GLM-5.1 高速版已集成到主流 AI 编程工具中。配置方式:
| 模型 | 配置 |
|---|---|
| GLM 5.1 | settings_glm.json + --model glm-5.1 |
| GLM 5.1 高速版 | settings_glm_hs.json + --model glm-5.1-highspeed |
| DeepSeek V4 Pro | settings_deepseek.json + --model deepseek-chat |
| Sonnet 4.6 | --model claude-sonnet-4.6 (订阅) |





苏米观点
GLM-5.1 高速版的核心价值在于「旗舰级能力 + 极速响应」的组合。397 tok/s 的生成速度在同类旗舰模型中处于领先地位,7 倍于标准版的提速幅度意味着在实际使用中,用户几乎感受不到等待延迟。
对于 AI 编程场景来说,速度不仅仅是体验问题——更快的生成速度意味着更快的迭代循环、更高的开发效率。GLM-5.1 高速版在 WebDev 排行榜上位列第 5,说明它在保持速度的同时,代码生成质量也达到了旗舰水平。