10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?

1月前 AI最新动态 341 0

智谱最近发布了新款多模态模型 GLM-5V-Turbo,主打视觉编程能力。

这款模型可以直接基于图片、视频、网页生成可运行代码,在多项评测基准上以较小尺寸取得领先表现。

苏米注:视觉编程这个方向很有意思。之前用过的多模态模型大多是"塞了个识图插件",容易出现幻觉。

GLM-5V-Turbo 在训练阶段就融合了视觉能力,理论上应该更稳定。

OpenClaw 不支持图像输入的提示
使用视觉模型后生成效果对比
GLM-5V-Turbo 1:1 复刻页面效果

核心特性

GLM-5V-Turbo 是一款主打视觉编程能力的 Coding 基座模型,核心能力包括:

  • 直接理解视觉内容:图片、视频、网页截图都能直接输入
  • 代码生成能力:根据视觉内容生成可运行的代码
  • 多模态评测领先:在多模态 coding、Agentic 和纯文本 Coding 维度表现优异
  • 体积优化:相比同类模型尺寸更小,性能更强

GLM-5V-Turbo 模型特性介绍图

换做普通模型,你只能将图片中的内容用文字描述出来,然后发送需求。但 GLM-5V-Turbo 在训练阶段就融合了视觉能力,可以直接看懂图片、视频。

它真正做到了看得懂画面,也写得好代码。

GLM-5V-Turbo 视觉能力演示

在多模态 coding、Agentic 和纯文本 Coding 维度的评测基准上,它都以更小的尺寸取得了领先的表现。

多模态评测基准对比图

体积又小、能力又强,这个模型一经发表就在国外引起了广泛讨论,很多大 V 都出来为其站台。

国外大 V 讨论截图 1
国外大 V 讨论截图 2

实测一:截图复刻网页

第一个测试是用截图复刻网页。以智谱的 BigModel 官网为例,将网页截图发送给模型,要求复刻一个相同的页面。

BigModel 官网截图

只需把截图发给模型,并让它根据这张所展现出的界面复刻一个一样的网页出来。

模型生成网页过程演示

就这样,一张截图加一句要求复刻的话,页面就一比一地做出来了。对比制作完成的页面和原网页:

复刻完成的网页效果对比

对比发现有两处不同。

首先是左上角的图标不太一样,一个是白底黑字,一个是黑底白字,不过这个问题替换一下图标文件就搞定了。

另外一个问题是页面的动态效果不太一样:

原版与复刻版动态效果对比 GIF

苏米注:静态截图只能呈现画面,无法传递交互逻辑,这个差异可以理解。

实际使用中,补充交互描述就能解决。

实测二:视频复刻动态效果

为了解决交互效果问题,将原网站的动态效果录制成视频,让模型根据视频进一步复刻。

录制网站动态效果视频截图

起身喝杯水的功夫,它就把交互效果也给还原了,甚至不同按钮颜色不同的细节也没漏掉。

根据视频复刻的完整效果 GIF

这个时候又有同学要说了:人家官网可不只有一屏的内容,往下滑还有很多内容呢,这个咋整?

其实很好办,直接录个视频展示整个页面的所有内容就可以了。不过还有一个更好的方法。

实测三:通过链接复刻网站

其实不需要手动提供截图或视频,直接给模型一个网页链接,它也能主动抓取页面内容。

这次来复刻苹果的官网:

苹果官网截图

不过由于版权问题,模型并不会生成完全相同的页面,而是参考设计风格制作相似页面。这个完全可以理解,毕竟在真实使用中也不会照抄,借鉴风格更合理。

参考设计风格制作的相似页面

经过一番操作,完成了这个艰难的任务:

除了配图是自行替换的,无论是排版还是动态效果还原度都比较高。甚至第一屏的图片还添加了动态效果,相比原版更加灵动。

实测四:根据草图生成页面

最后一个测试是用抽象的 UI 草图生成完整页面。

复刻苹果官网的效果 GIF

这是一个音乐播放器的手绘草图:

音乐播放器手绘草图

这次改用 Claude Code 来测试,因为智谱官方提供了一键配置工具包,还挺方便。

Claude Code 配置界面

大概用时不到 3 分钟,根据草图创建的音乐播放器页面就制作出来了。

根据草图生成的音乐播放器页面

效果演示:

音乐播放器交互效果演示 GIF

对比一下原本的草图:

原草图对比

不能说是有点相同,只能说是一模一样了。就连音乐控制按钮画歪了、没对准中心线这一点都参考上了。

总结:GLM-5V-Turbo 的特点

经过一两天的深度测试,GLM-5V-Turbo 有三个突出特点:

1. 看得准

以前有很多能识图的模型,是塞了一个识图插件进去,就容易出现幻觉。GLM-5V-Turbo 则在训练阶段就融合了视觉能力,所以才能在视觉编程这方面表现出色,将每一处细致的动效都复刻出来。

2. 编码稳

以上测试的这么多案例,几乎全都是一次完成,且没有出现使用 BUG。最多就是提供的信息不足而没有达到预期效果,经过信息补充,最终都能达到想要的效果。

3. 工作流友好

在类似 OpenClaw 这种 Agent 中使用 GLM-5V-Turbo,因为提供了很好的视觉能力,以前要靠坐标去完成的自动化点按操作,现在可以直接通过模型看见并分析了,对提升工作流的流畅性很有帮助。

GLM-5V-Turbo 特点总结 GIF

实践经验:如果所使用的模型没有视觉能力,我们就只能用纯文字来向 AI 描述需求,一大长串的需求写完,没准比直接写代码还累。

使用建议

AI 不应该是需要我们哄着才能干活,而是能真正看懂我们的需求。GLM-5V-Turbo 这个模型让 AI 长出了视力超群的眼睛,让我们和 AI 沟通的成本大大降低。

目前可以前往 z.ai 官网免费体验:

在线体验:https://chat.z.ai/

API 接入:https://bigmodel.cn/

苏米注:不管你是前端开发者、AI 极客,还是想靠 AI 提升效率的打工人,都可以去试试。让自己少说点话,让 AI 多干点活儿。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?
#智谱 #GLM-5V-Turbo #视觉编程 #多模态 #网页复刻 
收藏 1
OpenClaw 社区 6 个创意 Skills:前女友数字分身、老板 PUA 检测、反蒸馏防御
OpenClaw 13000 个 Skills,用这些就够了!完全指南
推荐阅读
  • LiblibAI 上线 Z-Image Turbo 模型!
  • Mac Mini M4 部署 Qwen3.5 最佳方案:MLX、Ollama、DFlash 全面对比评测
  • Google AI Mode上线免费体验:从聊天到代理,让生活更高效!
  • 智谱推出 Super Z:微信、飞书直接对话 GLM-5,零配置使用大模型
  • 腾讯元宝上线微信群聊一键总结功能,解放双手,快速了解群聊内容
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
29954 10月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
26993 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
18580 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
18391 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15645 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
15058 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
14616 10月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
14317 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13965 1年前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
12077 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Karpathy 加入 Anthropic:AI 领域关键人物重回研发一线
2 Qwen3.7 Preview 曝光:Arena Text 排名 13,Vision 排名 16
3 谷歌发布 Gemini 3.5 Flash:速度快4倍,定价仅为竞品一半
4 中国电信推出AI Token套餐:39.9元1500万Token,网友吐槽太贵
5 Anthropic发布 AI 原生创业公司手册:一人公司的完整方法论
6 AI Agent时代下,Markdown和HTML如何正确分工
7 MiniCPM-V 4.6:1B参数端侧多模态模型发布
8 npm供应链攻击事件:TanStack包被投毒,GitHub密钥面临泄露风险
9 腾讯元宝上线微信群聊一键总结功能,解放双手,快速了解群聊内容
10 阿里云百炼平台大模型半价调用 Qwen3.6-plus、GLM-5.1、DeepSeek-v4-Pro实操指南,还有专属福利!
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联