智谱最近发布了新款多模态模型 GLM-5V-Turbo,主打视觉编程能力。
这款模型可以直接基于图片、视频、网页生成可运行代码,在多项评测基准上以较小尺寸取得领先表现。
苏米注:视觉编程这个方向很有意思。之前用过的多模态模型大多是"塞了个识图插件",容易出现幻觉。
GLM-5V-Turbo 在训练阶段就融合了视觉能力,理论上应该更稳定。



核心特性
GLM-5V-Turbo 是一款主打视觉编程能力的 Coding 基座模型,核心能力包括:
- 直接理解视觉内容:图片、视频、网页截图都能直接输入
- 代码生成能力:根据视觉内容生成可运行的代码
- 多模态评测领先:在多模态 coding、Agentic 和纯文本 Coding 维度表现优异
- 体积优化:相比同类模型尺寸更小,性能更强

换做普通模型,你只能将图片中的内容用文字描述出来,然后发送需求。但 GLM-5V-Turbo 在训练阶段就融合了视觉能力,可以直接看懂图片、视频。
它真正做到了看得懂画面,也写得好代码。

在多模态 coding、Agentic 和纯文本 Coding 维度的评测基准上,它都以更小的尺寸取得了领先的表现。

体积又小、能力又强,这个模型一经发表就在国外引起了广泛讨论,很多大 V 都出来为其站台。


实测一:截图复刻网页
第一个测试是用截图复刻网页。以智谱的 BigModel 官网为例,将网页截图发送给模型,要求复刻一个相同的页面。

只需把截图发给模型,并让它根据这张所展现出的界面复刻一个一样的网页出来。

就这样,一张截图加一句要求复刻的话,页面就一比一地做出来了。对比制作完成的页面和原网页:

对比发现有两处不同。
首先是左上角的图标不太一样,一个是白底黑字,一个是黑底白字,不过这个问题替换一下图标文件就搞定了。
另外一个问题是页面的动态效果不太一样:

苏米注:静态截图只能呈现画面,无法传递交互逻辑,这个差异可以理解。
实际使用中,补充交互描述就能解决。
实测二:视频复刻动态效果
为了解决交互效果问题,将原网站的动态效果录制成视频,让模型根据视频进一步复刻。

起身喝杯水的功夫,它就把交互效果也给还原了,甚至不同按钮颜色不同的细节也没漏掉。

这个时候又有同学要说了:人家官网可不只有一屏的内容,往下滑还有很多内容呢,这个咋整?
其实很好办,直接录个视频展示整个页面的所有内容就可以了。不过还有一个更好的方法。
实测三:通过链接复刻网站
其实不需要手动提供截图或视频,直接给模型一个网页链接,它也能主动抓取页面内容。
这次来复刻苹果的官网:

不过由于版权问题,模型并不会生成完全相同的页面,而是参考设计风格制作相似页面。这个完全可以理解,毕竟在真实使用中也不会照抄,借鉴风格更合理。

经过一番操作,完成了这个艰难的任务:
除了配图是自行替换的,无论是排版还是动态效果还原度都比较高。甚至第一屏的图片还添加了动态效果,相比原版更加灵动。
实测四:根据草图生成页面
最后一个测试是用抽象的 UI 草图生成完整页面。

这是一个音乐播放器的手绘草图:

这次改用 Claude Code 来测试,因为智谱官方提供了一键配置工具包,还挺方便。

大概用时不到 3 分钟,根据草图创建的音乐播放器页面就制作出来了。

效果演示:

对比一下原本的草图:

不能说是有点相同,只能说是一模一样了。就连音乐控制按钮画歪了、没对准中心线这一点都参考上了。
总结:GLM-5V-Turbo 的特点
经过一两天的深度测试,GLM-5V-Turbo 有三个突出特点:
1. 看得准
以前有很多能识图的模型,是塞了一个识图插件进去,就容易出现幻觉。GLM-5V-Turbo 则在训练阶段就融合了视觉能力,所以才能在视觉编程这方面表现出色,将每一处细致的动效都复刻出来。
2. 编码稳
以上测试的这么多案例,几乎全都是一次完成,且没有出现使用 BUG。最多就是提供的信息不足而没有达到预期效果,经过信息补充,最终都能达到想要的效果。
3. 工作流友好
在类似 OpenClaw 这种 Agent 中使用 GLM-5V-Turbo,因为提供了很好的视觉能力,以前要靠坐标去完成的自动化点按操作,现在可以直接通过模型看见并分析了,对提升工作流的流畅性很有帮助。

实践经验:如果所使用的模型没有视觉能力,我们就只能用纯文字来向 AI 描述需求,一大长串的需求写完,没准比直接写代码还累。
使用建议
AI 不应该是需要我们哄着才能干活,而是能真正看懂我们的需求。GLM-5V-Turbo 这个模型让 AI 长出了视力超群的眼睛,让我们和 AI 沟通的成本大大降低。
目前可以前往 z.ai 官网免费体验:
在线体验:https://chat.z.ai/
API 接入:https://bigmodel.cn/
苏米注:不管你是前端开发者、AI 极客,还是想靠 AI 提升效率的打工人,都可以去试试。让自己少说点话,让 AI 多干点活儿。