10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?

1小时前 AI最新动态 12 0

智谱最近发布了新款多模态模型 GLM-5V-Turbo,主打视觉编程能力。

这款模型可以直接基于图片、视频、网页生成可运行代码,在多项评测基准上以较小尺寸取得领先表现。

苏米注:视觉编程这个方向很有意思。之前用过的多模态模型大多是"塞了个识图插件",容易出现幻觉。

GLM-5V-Turbo 在训练阶段就融合了视觉能力,理论上应该更稳定。

OpenClaw 不支持图像输入的提示
使用视觉模型后生成效果对比
GLM-5V-Turbo 1:1 复刻页面效果

核心特性

GLM-5V-Turbo 是一款主打视觉编程能力的 Coding 基座模型,核心能力包括:

  • 直接理解视觉内容:图片、视频、网页截图都能直接输入
  • 代码生成能力:根据视觉内容生成可运行的代码
  • 多模态评测领先:在多模态 coding、Agentic 和纯文本 Coding 维度表现优异
  • 体积优化:相比同类模型尺寸更小,性能更强

GLM-5V-Turbo 模型特性介绍图

换做普通模型,你只能将图片中的内容用文字描述出来,然后发送需求。但 GLM-5V-Turbo 在训练阶段就融合了视觉能力,可以直接看懂图片、视频。

它真正做到了看得懂画面,也写得好代码。

GLM-5V-Turbo 视觉能力演示

在多模态 coding、Agentic 和纯文本 Coding 维度的评测基准上,它都以更小的尺寸取得了领先的表现。

多模态评测基准对比图

体积又小、能力又强,这个模型一经发表就在国外引起了广泛讨论,很多大 V 都出来为其站台。

国外大 V 讨论截图 1
国外大 V 讨论截图 2

实测一:截图复刻网页

第一个测试是用截图复刻网页。以智谱的 BigModel 官网为例,将网页截图发送给模型,要求复刻一个相同的页面。

BigModel 官网截图

只需把截图发给模型,并让它根据这张所展现出的界面复刻一个一样的网页出来。

模型生成网页过程演示

就这样,一张截图加一句要求复刻的话,页面就一比一地做出来了。对比制作完成的页面和原网页:

复刻完成的网页效果对比

对比发现有两处不同。

首先是左上角的图标不太一样,一个是白底黑字,一个是黑底白字,不过这个问题替换一下图标文件就搞定了。

另外一个问题是页面的动态效果不太一样:

原版与复刻版动态效果对比 GIF

苏米注:静态截图只能呈现画面,无法传递交互逻辑,这个差异可以理解。

实际使用中,补充交互描述就能解决。

实测二:视频复刻动态效果

为了解决交互效果问题,将原网站的动态效果录制成视频,让模型根据视频进一步复刻。

录制网站动态效果视频截图

起身喝杯水的功夫,它就把交互效果也给还原了,甚至不同按钮颜色不同的细节也没漏掉。

根据视频复刻的完整效果 GIF

这个时候又有同学要说了:人家官网可不只有一屏的内容,往下滑还有很多内容呢,这个咋整?

其实很好办,直接录个视频展示整个页面的所有内容就可以了。不过还有一个更好的方法。

实测三:通过链接复刻网站

其实不需要手动提供截图或视频,直接给模型一个网页链接,它也能主动抓取页面内容。

这次来复刻苹果的官网:

苹果官网截图

不过由于版权问题,模型并不会生成完全相同的页面,而是参考设计风格制作相似页面。这个完全可以理解,毕竟在真实使用中也不会照抄,借鉴风格更合理。

参考设计风格制作的相似页面

经过一番操作,完成了这个艰难的任务:

除了配图是自行替换的,无论是排版还是动态效果还原度都比较高。甚至第一屏的图片还添加了动态效果,相比原版更加灵动。

实测四:根据草图生成页面

最后一个测试是用抽象的 UI 草图生成完整页面。

复刻苹果官网的效果 GIF

这是一个音乐播放器的手绘草图:

音乐播放器手绘草图

这次改用 Claude Code 来测试,因为智谱官方提供了一键配置工具包,还挺方便。

Claude Code 配置界面

大概用时不到 3 分钟,根据草图创建的音乐播放器页面就制作出来了。

根据草图生成的音乐播放器页面

效果演示:

音乐播放器交互效果演示 GIF

对比一下原本的草图:

原草图对比

不能说是有点相同,只能说是一模一样了。就连音乐控制按钮画歪了、没对准中心线这一点都参考上了。

总结:GLM-5V-Turbo 的特点

经过一两天的深度测试,GLM-5V-Turbo 有三个突出特点:

1. 看得准

以前有很多能识图的模型,是塞了一个识图插件进去,就容易出现幻觉。GLM-5V-Turbo 则在训练阶段就融合了视觉能力,所以才能在视觉编程这方面表现出色,将每一处细致的动效都复刻出来。

2. 编码稳

以上测试的这么多案例,几乎全都是一次完成,且没有出现使用 BUG。最多就是提供的信息不足而没有达到预期效果,经过信息补充,最终都能达到想要的效果。

3. 工作流友好

在类似 OpenClaw 这种 Agent 中使用 GLM-5V-Turbo,因为提供了很好的视觉能力,以前要靠坐标去完成的自动化点按操作,现在可以直接通过模型看见并分析了,对提升工作流的流畅性很有帮助。

GLM-5V-Turbo 特点总结 GIF

实践经验:如果所使用的模型没有视觉能力,我们就只能用纯文字来向 AI 描述需求,一大长串的需求写完,没准比直接写代码还累。

使用建议

AI 不应该是需要我们哄着才能干活,而是能真正看懂我们的需求。GLM-5V-Turbo 这个模型让 AI 长出了视力超群的眼睛,让我们和 AI 沟通的成本大大降低。

目前可以前往 z.ai 官网免费体验:

在线体验:https://chat.z.ai/

API 接入:https://bigmodel.cn/

苏米注:不管你是前端开发者、AI 极客,还是想靠 AI 提升效率的打工人,都可以去试试。让自己少说点话,让 AI 多干点活儿。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?
#智谱 #GLM-5V-Turbo #视觉编程 #多模态 #网页复刻 
收藏 1
OpenClaw 社区 6 个创意 Skills:前女友数字分身、老板 PUA 检测、反蒸馏防御
OpenClaw 13000 个 Skills,用这些就够了!完全指南
推荐阅读
  • Codex桌面端发布:Sam Altman 撒福利,额度直接翻倍!
  • n8n 2.0 来了,到底改了什么?升级迁移项目该怎么做?
  • Claude 4 重磅发布!Claude Opus 4 和Claude Sonnet 4
  • Claude Cowork 现已向所有 Pro 用户(及以上)开放,刚发布就被拆解!
  • 刚刚!阿里 Qwen3-TTS 发布,语音合成能力大幅提升!
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
27240 8月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
25285 11月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
17194 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
16813 11月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15132 1年前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13646 11月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13610 11月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
13206 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
11834 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
11372 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 智谱发布 GLM-5V-Turbo:视觉编程模型实测,网页复刻能力如何?
2 Anthropic 封杀 OpenClaw 事件回顾:13.5 万实例受影响,用户可领补偿额度
3 TRAE SOLO 不再只面向写代码:桌面端 + 网页端,开发与协作双模式(内测免费体验)
4 Google Gemma 4 发布:31B 参数开源第一梯队,代码能力提升 19 倍,改用 Apache 2.0 许可证
5 小米 MiMo Token Plan 上线:39 元起订阅,1M 上下文全模态共享额度
6 KAT-Coder-Pro V2发布:Claude Code + KAT-Coder-Pro V2实测新一代代码助手在前端生成与审美上显著进化
7 Claude Code的Harness Engineering公开后,全世界的 Agent 能力提高了一个档次
8 OpenClaw 官方在 X 平台正式宣布:旗下技能市场 ClawHub 推出中国官方镜像站,附中文界面,国内访问不再受限
9 Claude Code 源码大泄露,我看到了 AI Agent 即将爆发的 7 大能力
10 智谱 GLM-5V-Turbo 发布:原生多模态 Coding 基座模型
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联