当前位置：首页 » AI最新动态

智谱一周连续开源8个项目，GLM-4.6V 视觉模型才最大功臣

7月前 AI最新动态 1645 0

GLM-4.6V重磅开源！

智谱在一周内连续开源了8个项目，其中GLM-4.6V开场即是王炸：

周一：GLM-4.6V视觉模型开源（MIT协议，支持商用）

周二：AutoGLM手机端Agent

周三：GLM-ASR语音识别开源，同时发布智谱AI输入法

周四：GLM-TTS语音合成开源（3秒复刻音色）

周五：视频生成核心技术开源（SCAIL、RealVideo、Kaleido、SSVAE）

GLM-4.6V：它不是简单的“看图更准”，而是把图片直接参与到了工具调用链路里，减少了中间环节。

上周我花了一下午测试了智谱的GLM-4.6V页面复刻效果，结果非常惊喜。

视觉模型的差异

GLM-4.6V 有两个版本。

满血版 GLM-4.6V，106B 参数，激活 12B。对标阿里 235B 参数的 Qwen3-VL-235B。

参数量只有一半不到，性能基本持平。

轻量版 GLM-4.6V-Flash，9B 参数。对标同样小参数的 Qwen3-VL-8B，多项领先。

先来看它在基准测试中的表现。

以往的视觉-语言模型（VLM）在需要调用外部工具时，普遍流程是：先把图片理解成文本，再把文本当成工具输入。

这一步“图片→文本”的翻译很容易丢信息，特别是涉及细碎的视觉细节（色块、间距、像素级对齐）。

GLM-4.6V的做法是：直接把图片作为工具的参数，输出也可以继续是图片，模型在上下文里持续理解。

这种“图片进，图片出”的链路让执行环节更顺滑。

功能范围：从“理解为主”延展到“理解+执行”，可在会话中持久调用工具。

技术特征：原生多模态工具调用，图片可作为参数传入；上下文保持图文混合。

使用门槛：提示词需要明确目标和约束；不需要复杂管线搭建，在线即用。

适合人群：需要把截图快速转成可运行原型的产品、设计、前端同学；以及多模态Agent研究者。

版本与指标

模型	参数规模	技术备注	许可	代表性指标
GLM-4.6V（满血版）	106B（激活约12B）	原生多模态工具调用	MIT（可商用）	Flame-React-Eval：86.3（看图写React）
Qwen3-VL-235B	235B	传统“图→文→工具”链路	——	Flame-React-Eval：73.8
GLM-4.6V-Flash	9B	轻量版，多项小参数对比领先	MIT（可商用）	面向快速调用与低成本场景
Qwen3-VL-8B	8B	同类小参数基线	——	与GLM-4.6V-Flash互有胜负

在OCR、图表理解等传统视觉任务上，GLM-4.6V与同档大参数模型对抗均衡。

但在“Multimodal Agentic”（看图后接执行）上，分差明显。这正是“原生多模态工具调用”的价值体现。

实测首页复刻

环境我选了z.ai，模型用GLM-4.6V。

流程如下：

上传一张小红书首页截图。

提示词：用HTML + Tailwind CSS复刻页面，尽量还原布局和样式；图片不要占位符，按内容搜索合适素材。

不到3分钟首版输出了复刻结果，通过沟通还可以继续迭代。

首版的布局与信息密度已经接近原图；图片素材也不是灰色占位符。

适用场景与使用门槛

适合的场景：

产品/设计的页面原型快速落地，验证信息结构与交互意图。

“设计稿→代码”打底，供前端进一步精修。

竞品页面结构分析与复现，做对比评审。

将截图作为多模态任务的一部分，联动其它工具（搜索、爬虫、代码运行）。

使用门槛：

需要对目标结构和样式要求描述清晰，提示词尽量具体。

具备基本的HTML/CSS阅读与微调能力，便于快速纠偏。

理解它的边界：不是像素还原，不是完备的前端工程。

如何使用?

在线：在z.ai选择GLM-4.6V即可，适合临时验证与轻量原型。

API定价（满血版）：输入约1元/百万tokens、输出约3元/百万tokens；Flash版API当前为免费，适合低成本接入。

套餐：GLM的“Coding Plan”提供按月套餐，Lite版首月20元（官方称额度约为Claude Pro的3倍），适合把它作为常态化编码助手。

开发集成：GLM-4.6V的视觉能力已封装为MCP Server，可接入Claude Code、Cline、Roo Code、Kilo等生态，补齐“联网+视觉+爬网页”的能力组合。

详细配置可以看我之前的分享：教你如何配置 Claude Code 套餐的图像分析、视频理解、联网搜索等MCP

总结

这次实测给我的直观感受是：GLM-4.6V把图片从“被理解的对象”变成了“可参与执行的参数”，在多模态Agent任务上更顺畅。

对我这种需要快速验证页面结构和交互的产品经理而言，能在几分钟拿到可运行原型，并在同一个对话里继续修正，价值明确。

它不是前端替代品，也不是风格像素级还原的工具。

但如果你的目标是“尽快把截图转成可运行原型，再进入人工精修”，GLM-4.6V的适配度较高。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：智谱一周连续开源8个项目，GLM-4.6V 视觉模型才最大功臣

请登录后发表评论