10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

智谱开源 GLM-4.5V:全新视觉推理模型,国产 AI 大模型又炸场了!

8月前 AI最新动态 1169 0

最近我一直在追踪国产大模型的进展,没想到这次智谱直接上演了一波“连环杀”。 上个月他们开源的 GLM-4.1V-Thinking 刚冲上 HuggingFace Trending 第一,下载量破 13 万。

结果上周又不手软,直接丢出 GLM-4.5 和轻量版 GLM-4.5-Air。

我本以为这已经是终点,结果人家又整了个更猛的来了:GLM-4.5V。

它基于 GLM-4.5-Air 升级视觉能力,42 个榜单里拿了 41 个 SOTA,成为全球 100B 级最强的开源视觉推理模型(参数 106B,激活 12B)。

而且没搞什么“商业授权+注册排队”这一套,直接开源,GitHub 和 Hugging Face 都能下。

GitHub: https://github.com/zai-org/GLM-V

Hugging Face: https://huggingface.co/zai-org/GLM-4.5V

他们还贴心开源了一个桌面小助手,可以接入 GLM-4.5V,通过截屏、录屏直接理解你的屏幕内容,做成你自己的多模态助手。

我实际体验了几个场景

我直接找了几个日常场景试试,看它是不是真有传说中那么强。

① 猜车型 我在小红书上找到了一个猜车的图片,反正我是猜不出来,结果GLM-4.5V很快就识别出车的品牌和车型。

② 猜地点 还是在小某书上找了一张不知道位置的摄影照片,我发给GLM-4.5V问它:猜猜照片这是哪里,以及拍摄这张照片所在的位置。

很快就给出了位置信息和拍摄地点:中国重庆市的渝中半岛夜景区域,拍摄位置 likely 位于南滨路或类似江边观景点

③ 从图片生成网站 发给它一张我写过的文章 Markdown 格式内容的图片,让它直接生成了一个美观的 HTML 网页。

别说,排版确实是符合预期的,只是缺少一点风格。

④原型图复刻 日常工作最多的就是原型图了,把原型图直接扔给GLM-4.5V,我用一个我做好的低保真原型图让它直接生成前端 HTML 代码,不得不说,还挺符合要求的。

⑥ 圈出特定物体 我找了一张在海边的图片,让它找出图片里的人给找出来,虽然图片中的人物很小,但它不仅给了坐标,还圈出了标注图片。

我觉得它厉害的地方

GLM-4.5V 不只是多模态识别能力强,它更像是能把“看、听、读”融在一起思考的 AI。

无论是图像推理、视频理解、GUI 操作,还是复杂图表和长文档解析,它的表现都非常稳。

这种“通感”式的 AI,是往真正智能方向迈出的一大步。对于开发者来说,它已经能做出很多实用落地的功能,不是实验室里的花架子。

在线体验地址:https://chat.z.ai

桌面助手开源版:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

我的总结

如果你对 AI 多模态感兴趣,这个模型几乎是必试的。 它开源、能力全、落地快,而且是真正能帮你干活的那种工具,不只是用来刷榜单。 我觉得未来半年会有一波基于 GLM-4.5V 的新应用涌出来,谁先玩转它,谁就能吃到第一波红利。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:智谱开源 GLM-4.5V:全新视觉推理模型,国产 AI 大模型又炸场了!
#AI多模态 #GLM-4.5V #视觉推理模型 #智谱开源 
收藏 1
AutoGLM 沉思:Agent智能体工具,具备深度研究和自主执行能力的AI智能体
5款 AI 法律助手工具推荐,法律相关AI大模型测评
推荐阅读
  • Kimi K2.5 正式发布:代码能力再次强悍升级,全球最强开源视觉智能体!
  • 智谱发布 ZCode 编辑器:Claude Code、Codex、Gemini顶级AI编程无缝切换的可视化Agent
  • 亲测 PixVerse R1:通用级实时视频生成的技术突破,让想象力进入 AI 构建的虚拟空间。
  • Coze重磅更新!扣子编程正式支持 Skill:从工具调用到专业工作流,你的智能体技能商店
  • 白嫖百亿Token!50+顶级大模型一站式调用,claude 4.5、gpt-5、glm-4.6一键适配
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
27568 8月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
25539 11月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
17269 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
17011 11月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15183 1年前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13711 12月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13644 11月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
13462 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
12129 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
11428 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Meta 发布全新大模型 Muse Spark:多模态是强项,编程是短板
2 Anthropic 疯狂一周:四天四连发,从封杀到自建生态
3 Claude 军师模式:Opus 幕后指导,成本降 11.9%
4 28 个 OpenRouter 免费 AI 模型 API 汇总:无需信用卡即可使用
5 Codex 插件系统详解:将 Skills、应用集成与 MCP 打包成可复用工作流
6 Gemma 4 开源实测:31B 参数跻身全球前三,oMLX + Mac Mini 打造高性价比 AI 底座
7 GLM-5.1 代码能力实测:SWE-Bench Pro 全球第一,长程任务可连续工作 8 小时
8 DeepSeek 网页版灰度测试双模式:快速模式基于 3.2,专家模式或为 V4 早期版本
9 GLM-5.1 技术报告:744B 参数开源模型,SWE-Bench Pro 58.4 分全球第一
10 Coze 2.5 发布:Agent 独立身份与网络架构详解
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联