当前位置：首页 » AI最新动态

智谱发布 GLM-5V-Turbo：视觉编程模型实测，网页复刻能力如何？

3月前 AI最新动态 559 0

智谱最近发布了新款多模态模型 GLM-5V-Turbo，主打视觉编程能力。

这款模型可以直接基于图片、视频、网页生成可运行代码，在多项评测基准上以较小尺寸取得领先表现。

苏米注：视觉编程这个方向很有意思。之前用过的多模态模型大多是"塞了个识图插件"，容易出现幻觉。

GLM-5V-Turbo 在训练阶段就融合了视觉能力，理论上应该更稳定。

OpenClaw 不支持图像输入的提示

使用视觉模型后生成效果对比

GLM-5V-Turbo 1:1 复刻页面效果

核心特性

GLM-5V-Turbo 是一款主打视觉编程能力的 Coding 基座模型，核心能力包括：

直接理解视觉内容：图片、视频、网页截图都能直接输入
代码生成能力：根据视觉内容生成可运行的代码
多模态评测领先：在多模态 coding、Agentic 和纯文本 Coding 维度表现优异
体积优化：相比同类模型尺寸更小，性能更强

GLM-5V-Turbo 模型特性介绍图

换做普通模型，你只能将图片中的内容用文字描述出来，然后发送需求。但 GLM-5V-Turbo 在训练阶段就融合了视觉能力，可以直接看懂图片、视频。

它真正做到了看得懂画面，也写得好代码。

GLM-5V-Turbo 视觉能力演示

在多模态 coding、Agentic 和纯文本 Coding 维度的评测基准上，它都以更小的尺寸取得了领先的表现。

多模态评测基准对比图

体积又小、能力又强，这个模型一经发表就在国外引起了广泛讨论，很多大 V 都出来为其站台。

国外大 V 讨论截图 1

国外大 V 讨论截图 2

实测一：截图复刻网页

第一个测试是用截图复刻网页。以智谱的 BigModel 官网为例，将网页截图发送给模型，要求复刻一个相同的页面。

BigModel 官网截图

只需把截图发给模型，并让它根据这张所展现出的界面复刻一个一样的网页出来。

模型生成网页过程演示

就这样，一张截图加一句要求复刻的话，页面就一比一地做出来了。对比制作完成的页面和原网页：

复刻完成的网页效果对比

对比发现有两处不同。

首先是左上角的图标不太一样，一个是白底黑字，一个是黑底白字，不过这个问题替换一下图标文件就搞定了。

另外一个问题是页面的动态效果不太一样：

原版与复刻版动态效果对比 GIF

苏米注：静态截图只能呈现画面，无法传递交互逻辑，这个差异可以理解。

实际使用中，补充交互描述就能解决。

实测二：视频复刻动态效果

为了解决交互效果问题，将原网站的动态效果录制成视频，让模型根据视频进一步复刻。

录制网站动态效果视频截图

起身喝杯水的功夫，它就把交互效果也给还原了，甚至不同按钮颜色不同的细节也没漏掉。

根据视频复刻的完整效果 GIF

这个时候又有同学要说了：人家官网可不只有一屏的内容，往下滑还有很多内容呢，这个咋整？

其实很好办，直接录个视频展示整个页面的所有内容就可以了。不过还有一个更好的方法。

实测三：通过链接复刻网站

其实不需要手动提供截图或视频，直接给模型一个网页链接，它也能主动抓取页面内容。

这次来复刻苹果的官网：

苹果官网截图

不过由于版权问题，模型并不会生成完全相同的页面，而是参考设计风格制作相似页面。这个完全可以理解，毕竟在真实使用中也不会照抄，借鉴风格更合理。

参考设计风格制作的相似页面

经过一番操作，完成了这个艰难的任务：

除了配图是自行替换的，无论是排版还是动态效果还原度都比较高。甚至第一屏的图片还添加了动态效果，相比原版更加灵动。

实测四：根据草图生成页面

最后一个测试是用抽象的 UI 草图生成完整页面。

复刻苹果官网的效果 GIF

这是一个音乐播放器的手绘草图：

音乐播放器手绘草图

这次改用 Claude Code 来测试，因为智谱官方提供了一键配置工具包，还挺方便。

Claude Code 配置界面

大概用时不到 3 分钟，根据草图创建的音乐播放器页面就制作出来了。

根据草图生成的音乐播放器页面

效果演示：

音乐播放器交互效果演示 GIF

对比一下原本的草图：

原草图对比

不能说是有点相同，只能说是一模一样了。就连音乐控制按钮画歪了、没对准中心线这一点都参考上了。

总结：GLM-5V-Turbo 的特点

经过一两天的深度测试，GLM-5V-Turbo 有三个突出特点：

1. 看得准

以前有很多能识图的模型，是塞了一个识图插件进去，就容易出现幻觉。GLM-5V-Turbo 则在训练阶段就融合了视觉能力，所以才能在视觉编程这方面表现出色，将每一处细致的动效都复刻出来。

2. 编码稳

以上测试的这么多案例，几乎全都是一次完成，且没有出现使用 BUG。最多就是提供的信息不足而没有达到预期效果，经过信息补充，最终都能达到想要的效果。

3. 工作流友好

在类似 OpenClaw 这种 Agent 中使用 GLM-5V-Turbo，因为提供了很好的视觉能力，以前要靠坐标去完成的自动化点按操作，现在可以直接通过模型看见并分析了，对提升工作流的流畅性很有帮助。

GLM-5V-Turbo 特点总结 GIF

实践经验：如果所使用的模型没有视觉能力，我们就只能用纯文字来向 AI 描述需求，一大长串的需求写完，没准比直接写代码还累。

使用建议

AI 不应该是需要我们哄着才能干活，而是能真正看懂我们的需求。GLM-5V-Turbo 这个模型让 AI 长出了视力超群的眼睛，让我们和 AI 沟通的成本大大降低。

目前可以前往 z.ai 官网免费体验：

在线体验：https://chat.z.ai/

API 接入：https://bigmodel.cn/

苏米注：不管你是前端开发者、AI 极客，还是想靠 AI 提升效率的打工人，都可以去试试。让自己少说点话，让 AI 多干点活儿。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：智谱发布 GLM-5V-Turbo：视觉编程模型实测，网页复刻能力如何？

#智谱 #GLM-5V-Turbo #视觉编程 #多模态 #网页复刻

收藏 1

评论 (0)

请登录后发表评论