10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

智谱一周连续开源8个项目,GLM-4.6V 视觉模型才最大功臣

6小时前 AI最新动态 23 0

GLM-4.6V重磅开源!

智谱在一周内连续开源了8个项目,其中GLM-4.6V开场即是王炸:

周一:GLM-4.6V视觉模型开源(MIT协议,支持商用)

周二:AutoGLM手机端Agent

周三:GLM-ASR语音识别开源,同时发布智谱AI输入法

周四:GLM-TTS语音合成开源(3秒复刻音色)

周五:视频生成核心技术开源(SCAIL、RealVideo、Kaleido、SSVAE)

GLM-4.6V:它不是简单的“看图更准”,而是把图片直接参与到了工具调用链路里,减少了中间环节。

上周我花了一下午测试了智谱的GLM-4.6V页面复刻效果,结果非常惊喜。

视觉模型的差异

GLM-4.6V 有两个版本。

满血版 GLM-4.6V,106B 参数,激活 12B。对标阿里 235B 参数的 Qwen3-VL-235B。

参数量只有一半不到,性能基本持平。

轻量版 GLM-4.6V-Flash,9B 参数。对标同样小参数的 Qwen3-VL-8B,多项领先。

先来看它在基准测试中的表现。

以往的视觉-语言模型(VLM)在需要调用外部工具时,普遍流程是:先把图片理解成文本,再把文本当成工具输入。

这一步“图片→文本”的翻译很容易丢信息,特别是涉及细碎的视觉细节(色块、间距、像素级对齐)。

GLM-4.6V的做法是:直接把图片作为工具的参数,输出也可以继续是图片,模型在上下文里持续理解。

这种“图片进,图片出”的链路让执行环节更顺滑。

功能范围:从“理解为主”延展到“理解+执行”,可在会话中持久调用工具。

技术特征:原生多模态工具调用,图片可作为参数传入;上下文保持图文混合。

使用门槛:提示词需要明确目标和约束;不需要复杂管线搭建,在线即用。

适合人群:需要把截图快速转成可运行原型的产品、设计、前端同学;以及多模态Agent研究者。

版本与指标

模型 参数规模 技术备注 许可 代表性指标
GLM-4.6V(满血版) 106B(激活约12B) 原生多模态工具调用 MIT(可商用) Flame-React-Eval:86.3(看图写React)
Qwen3-VL-235B 235B 传统“图→文→工具”链路 —— Flame-React-Eval:73.8
GLM-4.6V-Flash 9B 轻量版,多项小参数对比领先 MIT(可商用) 面向快速调用与低成本场景
Qwen3-VL-8B 8B 同类小参数基线 —— 与GLM-4.6V-Flash互有胜负

在OCR、图表理解等传统视觉任务上,GLM-4.6V与同档大参数模型对抗均衡。

但在“Multimodal Agentic”(看图后接执行)上,分差明显。这正是“原生多模态工具调用”的价值体现。

实测首页复刻

环境我选了z.ai,模型用GLM-4.6V。

流程如下:

上传一张小红书首页截图。

提示词:用HTML + Tailwind CSS复刻页面,尽量还原布局和样式;图片不要占位符,按内容搜索合适素材。

不到3分钟首版输出了复刻结果,通过沟通还可以继续迭代。

首版的布局与信息密度已经接近原图;图片素材也不是灰色占位符。

适用场景与使用门槛

适合的场景:

产品/设计的页面原型快速落地,验证信息结构与交互意图。

“设计稿→代码”打底,供前端进一步精修。

竞品页面结构分析与复现,做对比评审。

将截图作为多模态任务的一部分,联动其它工具(搜索、爬虫、代码运行)。

使用门槛:

需要对目标结构和样式要求描述清晰,提示词尽量具体。

具备基本的HTML/CSS阅读与微调能力,便于快速纠偏。

理解它的边界:不是像素还原,不是完备的前端工程。

如何使用?

在线:在z.ai选择GLM-4.6V即可,适合临时验证与轻量原型。

API定价(满血版):输入约1元/百万tokens、输出约3元/百万tokens;Flash版API当前为免费,适合低成本接入。

套餐:GLM的“Coding Plan”提供按月套餐,Lite版首月20元(官方称额度约为Claude Pro的3倍),适合把它作为常态化编码助手。

开发集成:GLM-4.6V的视觉能力已封装为MCP Server,可接入Claude Code、Cline、Roo Code、Kilo等生态,补齐“联网+视觉+爬网页”的能力组合。

详细配置可以看我之前的分享:教你如何配置 Claude Code 套餐的图像分析、视频理解、联网搜索等MCP

总结

这次实测给我的直观感受是:GLM-4.6V把图片从“被理解的对象”变成了“可参与执行的参数”,在多模态Agent任务上更顺畅。

对我这种需要快速验证页面结构和交互的产品经理而言,能在几分钟拿到可运行原型,并在同一个对话里继续修正,价值明确。

它不是前端替代品,也不是风格像素级还原的工具。

但如果你的目标是“尽快把截图转成可运行原型,再进入人工精修”,GLM-4.6V的适配度较高。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:智谱一周连续开源8个项目,GLM-4.6V 视觉模型才最大功臣
#GLM-4.6V #智谱 #视觉模型 
收藏 1
Vireto:一键把PDF转成视频,完全免费
AI总答非所问?八成是你的知识库在拖后腿,RAG构建实战指南
推荐阅读
  • OpenAI DevDay 2025:这不是发布会,而是下一代AI生态
  • 即梦4.0 vs NanoBanana?我选择Lovart:全都要!限时免费,创作自由!
  • Gemini 2.5 Pro再升级:推出专用计算机操作模型,智能体开始真正接管电脑操作
  • DeepSeek登上了《Nature》封面!国内首家大模型!
  • Nano Banana Pro 实测:Gemini 3 Pro Image 的中文文字渲染,AI 图像生成之王
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
21978 5月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
20561 7月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14609 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
13729 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12871 8月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
12256 7月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
11896 8月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10595 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9413 12月前
Trae Pro 来了,终于可以告别排队了!这价格真香
7388 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 智谱一周连续开源8个项目,GLM-4.6V 视觉模型才最大功臣
2 n8n 2.0 来了,到底改了什么?升级迁移项目该怎么做?
3 Ovis-Image:7B参数文生图模型终结乱码,吊打 GPT-4o AI 生图“文字渲染”新标杆
4 GLM-4.6V重磅开源!9B与106B两档视觉模型的本地与云端实测
5 智谱 AI 输入法实测:语音转写稳定,人设让AI编辑更智能,适合谁用、怎么用?
6 海螺AI接入Sora/Veo/Nano Banana,堪称 AI视频生成界的 “Cursor”
7 AutoGLM开源:每台手机都可以成为AI手机,AI手机时代还有多远?
8 Codex CLI 上线 Skills:与 Claude 生态兼容的可复用工作流,减少上下文开销的正确打开方式
9 刚刚!阿里 Qwen3-TTS 发布,语音合成能力大幅提升!
10 Seedream 4.5 悄悄上线公测,画面细节改善,小字更清晰,人物更自然
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联