
智谱在一周内连续开源了8个项目,其中GLM-4.6V开场即是王炸:
周一:GLM-4.6V视觉模型开源(MIT协议,支持商用)
周二:AutoGLM手机端Agent
周三:GLM-ASR语音识别开源,同时发布智谱AI输入法
周四:GLM-TTS语音合成开源(3秒复刻音色)
周五:视频生成核心技术开源(SCAIL、RealVideo、Kaleido、SSVAE)
GLM-4.6V:它不是简单的“看图更准”,而是把图片直接参与到了工具调用链路里,减少了中间环节。
上周我花了一下午测试了智谱的GLM-4.6V页面复刻效果,结果非常惊喜。
视觉模型的差异
GLM-4.6V 有两个版本。
满血版 GLM-4.6V,106B 参数,激活 12B。对标阿里 235B 参数的 Qwen3-VL-235B。
参数量只有一半不到,性能基本持平。
轻量版 GLM-4.6V-Flash,9B 参数。对标同样小参数的 Qwen3-VL-8B,多项领先。
先来看它在基准测试中的表现。

以往的视觉-语言模型(VLM)在需要调用外部工具时,普遍流程是:先把图片理解成文本,再把文本当成工具输入。
这一步“图片→文本”的翻译很容易丢信息,特别是涉及细碎的视觉细节(色块、间距、像素级对齐)。
GLM-4.6V的做法是:直接把图片作为工具的参数,输出也可以继续是图片,模型在上下文里持续理解。
这种“图片进,图片出”的链路让执行环节更顺滑。
功能范围:从“理解为主”延展到“理解+执行”,可在会话中持久调用工具。
技术特征:原生多模态工具调用,图片可作为参数传入;上下文保持图文混合。
使用门槛:提示词需要明确目标和约束;不需要复杂管线搭建,在线即用。
适合人群:需要把截图快速转成可运行原型的产品、设计、前端同学;以及多模态Agent研究者。
版本与指标
| 模型 | 参数规模 | 技术备注 | 许可 | 代表性指标 |
|---|---|---|---|---|
| GLM-4.6V(满血版) | 106B(激活约12B) | 原生多模态工具调用 | MIT(可商用) | Flame-React-Eval:86.3(看图写React) |
| Qwen3-VL-235B | 235B | 传统“图→文→工具”链路 | —— | Flame-React-Eval:73.8 |
| GLM-4.6V-Flash | 9B | 轻量版,多项小参数对比领先 | MIT(可商用) | 面向快速调用与低成本场景 |
| Qwen3-VL-8B | 8B | 同类小参数基线 | —— | 与GLM-4.6V-Flash互有胜负 |
在OCR、图表理解等传统视觉任务上,GLM-4.6V与同档大参数模型对抗均衡。
但在“Multimodal Agentic”(看图后接执行)上,分差明显。这正是“原生多模态工具调用”的价值体现。
实测首页复刻
环境我选了z.ai,模型用GLM-4.6V。
流程如下:
上传一张小红书首页截图。

提示词:用HTML + Tailwind CSS复刻页面,尽量还原布局和样式;图片不要占位符,按内容搜索合适素材。

不到3分钟首版输出了复刻结果,通过沟通还可以继续迭代。

首版的布局与信息密度已经接近原图;图片素材也不是灰色占位符。
适用场景与使用门槛
适合的场景:
产品/设计的页面原型快速落地,验证信息结构与交互意图。
“设计稿→代码”打底,供前端进一步精修。
竞品页面结构分析与复现,做对比评审。
将截图作为多模态任务的一部分,联动其它工具(搜索、爬虫、代码运行)。
使用门槛:
需要对目标结构和样式要求描述清晰,提示词尽量具体。
具备基本的HTML/CSS阅读与微调能力,便于快速纠偏。
理解它的边界:不是像素还原,不是完备的前端工程。
如何使用?
在线:在z.ai选择GLM-4.6V即可,适合临时验证与轻量原型。

API定价(满血版):输入约1元/百万tokens、输出约3元/百万tokens;Flash版API当前为免费,适合低成本接入。
套餐:GLM的“Coding Plan”提供按月套餐,Lite版首月20元(官方称额度约为Claude Pro的3倍),适合把它作为常态化编码助手。

开发集成:GLM-4.6V的视觉能力已封装为MCP Server,可接入Claude Code、Cline、Roo Code、Kilo等生态,补齐“联网+视觉+爬网页”的能力组合。
详细配置可以看我之前的分享:教你如何配置 Claude Code 套餐的图像分析、视频理解、联网搜索等MCP
总结
这次实测给我的直观感受是:GLM-4.6V把图片从“被理解的对象”变成了“可参与执行的参数”,在多模态Agent任务上更顺畅。
对我这种需要快速验证页面结构和交互的产品经理而言,能在几分钟拿到可运行原型,并在同一个对话里继续修正,价值明确。
它不是前端替代品,也不是风格像素级还原的工具。
但如果你的目标是“尽快把截图转成可运行原型,再进入人工精修”,GLM-4.6V的适配度较高。