10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

AutoGLM开源:每台手机都可以成为AI手机,AI手机时代还有多远?

1小时前 AI最新动态 10 0

早在三个月前我就实测过AutoGLM:全球首个云手机+云电脑Agent,简单来说,智谱把 一台虚拟手机 和 一台虚拟电脑 搬进了Agent里。

最近豆包手机把Agent手机这个概念推向了现实,但同时也面临了各种质疑和大厂“围殴”;

而与此同时智谱悄悄宣布正式开源其核心AI Agent模型AutoGLM。

这个被业界视为全球首个具备“Phone Use”(手机操作)能力的AI Agent,能够顺利完成外卖点单、机票预订等长达数十步的复杂操作流程。

这次开源意味着硬件厂商、手机厂商和开发者均可基于AutoGLM,在自己的设备或系统中复现一个能“看懂”屏幕、模拟真人进行点击、输入、滑动的AI助手。

AutoGLM 想做的,就是这件事:让 AI 真正学会“使用手机”。

技术演进

智谱对AI手机智能体的探索始于2023年4月。

在最开始的版本里,基于大模型构建的系统只知道“点”、“滑”等基本操作,偶尔能完成一个很短的流程,但更多时候会迷失在复杂的操作中,甚至陷入死循环。

为了解决这类问题,智谱花费近一年时间,建立了一整套Phone Use能力框架。

这个框架把点击、滑动、输入、截图、界面理解这些最基础的动作抽象出来,让模型学会把一句自然语言拆解为一系列稳定、可回放的操作步骤。

去年10月,智谱发布了能够在真机上稳定完成一条完整操作链路的AutoGLM,一个月后,成功实现了由AI完成手机红包发送。

这一进展标志着AI已经能够完成特定环境下的复杂手机操作任务。

到了2025年,智谱发布AutoGLM 2.0,通过强化学习的规模扩展定律,提出了MobileRL、ComputerRL和AgentRL算法。

这一升级让AutoGLM能够在上千个虚拟设备环境里同时进行强化学习,极大扩展了Agent的准确性和泛化能力。

工作架构

AutoGLM的核心工作模式是通过云手机和云电脑实现的。

智谱为AI配备了专属的云手机和云电脑,使智能体可以在云端自主执行任务,而无需占用用户本地设备。在云端环境中,AutoGLM创建了一个“标准化”的世界。

云手机的屏幕尺寸统一、软件版本统一、功能范围统一。

这个环境中预装了30款APP,涵盖了社交资讯、长短视频、音乐广播、小说阅读、消费购物、本地生活、出行与旅行等多个类别。

这种标准化设计是为了规避现实世界中的不确定性,如不同用户的微信版本不一样、UI布局有差异、有人用折叠屏、有人用小屏手机等变量。

在这个可控的虚拟世界里,Agent的操作才能得到保证。

应用场景

目前,AutoGLM已支持微信、淘宝、抖音、美团等超过50个高频中文应用的核心场景。

在生活场景中,用户只需一句话,就能让AutoGLM操作抖音、小红书、美团、京东等40多个高频应用,实现点外卖、订机票、查房源、预约健康服务等任务。

例如,用户可以让AI帮买“秋天的第一杯奶茶”。


在办公场景中,AutoGLM同样能跨应用执行全流程工作,从信息检索到内容撰写,再到生成1分钟短视频、PPT或播客,并直接完成发布。

技术团队表示,智能体运行期间,用户可自由使用手机上其他App。

这意味着AutoGLM不仅能“自动驾驶手机”,还可“代理办公”,真正让手机变成具备自主执行、跨端协作能力的智能设备。

实测挑战

尽管AutoGLM在标准化环境中表现出色,但在面对真实世界的复杂性时,仍然面临挑战。

广告弹窗和复杂的登录验证成为主要障碍。

在实际测试中,一旦有广告弹出,AutoGLM会暂停执行任务,等待几秒后有良心的广告会自动消失,AutoGLM就会继续执行任务。

而遇到那些不会消失的广告,AutoGLM就需要用户接管,严重影响进程流畅性。

登录环节也是另一个难题。

国内应用对于账号“安全意识”极高,很多应用的安全验证远比输入账号复杂。

例如,登录小红书时可能需要用旧设备扫码才能登录,而登录抖音时可能需要扫脸进行身份验证。

AutoGLM不会记住用户的账号密码,虽然这很安全,但每次使用需要登录的APP过程也非常不便。

这些真实世界的“脏信息”,如网络波动、弹窗打断、广告遮挡等,仍然是AutoGLM需要克服的挑战。

开源意义

AutoGLM的开源意味着这一能力可以变成整个行业可以共同拥有和打磨的公共底座。

模型以 MIT 开源许可证的形式开放,而所有代码会以 Apache-2.0 开源许可证的形式,托管在 GitHub 仓库(示例:github.com/zai-org/Open-AutoGLM)中。

你可以把它当成一套现成的基础设施,也可以单独拆用其中的某一部分,甚至可以把它改得面目全非——只要它帮助你更接近你心目中的「AI 原生手机」。

硬件厂商、手机厂商和开发者均可基于AutoGLM,在自己的设备或系统中复现一个能操作手机的AI助手。

这将大幅降低AI手机的技术门槛,推动AI手机生态从封闭走向开放共创。

同时,项目支持本地与云端部署,确保数据与隐私控制权始终掌握在使用者手中。

通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。

智谱CEO张鹏曾用AutoGLM演示了一次自动化操作:面对面建群、修改群名、在群里发出一百个红包。

这次开源后,类似的能力将不再局限于特定公司或产品,而是成为行业共享的基础设施。

结语

智能手机界面不断闪烁,订单一个个自动完成,而用户的手指却从未触碰屏幕——这就是AutoGLM创造的现实。

作为全球首个开源的手机操作AI模型,它标志着AI技术正从对话与问答向实际执行与操作的质变。

当技术走出实验室,与真实世界的复杂性碰撞时,广告弹窗与登录验证等障碍揭示了一条漫长的迭代之路。

然而,当AutoGLM的代码向所有人开放,当每个开发者和厂商都能在其基础上构建自己的智能助手,真正意义上的AI手机时代或许才刚刚按下启动键。

2025的尾声不是结束,而是开始,从今天开始,人人都可以拥有自己的手机 Agent。

开源地址:https://github.com/zai-org/Open-AutoGLM

AutoGLM地址:https://autoglm.zhipuai.cn

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:AutoGLM开源:每台手机都可以成为AI手机,AI手机时代还有多远?
#AutoGLM #AI手机 #Agent 
收藏 1
PasteMD:解决 AI 对话、Markdown 与 Office 文档间的格式转换问题
OpenScreen:一款开源录屏工具,Screen Studio、Cursorful免费平替
推荐阅读
  • 美团推出更强的免费AI IDE编程工具CatPaw,美团自研开启公测
  • Sora 真的来了!开服即被挤爆!高质量Ai视频时代来了!Plus 会员免费开放
  • OpenAI Codex:云端 AI 编程助手的“返祖”
  • Claude Opus 4.1模型抢先发布,OpenAI还在挤牙膏,Cursor已支持最新模型
  • 教你白嫖一台腾讯云服务器:CodeBuddy × 腾讯云 Lighthouse限时福利,手慢无!
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
21676 4月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
20159 7月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14586 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
13558 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12837 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
11995 7月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
11779 8月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10487 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9351 11月前
Trae Pro 来了,终于可以告别排队了!这价格真香
7256 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 AutoGLM开源:每台手机都可以成为AI手机,AI手机时代还有多远?
2 Codex CLI 上线 Skills:与 Claude 生态兼容的可复用工作流,减少上下文开销的正确打开方式
3 刚刚!阿里 Qwen3-TTS 发布,语音合成能力大幅提升!
4 Seedream 4.5 悄悄上线公测,画面细节改善,小字更清晰,人物更自然
5 Mistral 3 来了:这次只对标中国模型
6 突发!Anthropic收购 Bun!Claude Code 半年营收破10 亿美金
7 LiblibAI 上线 Z-Image Turbo 模型!
8 刚刚,DeepSeek V3.2 正式发布:强化 Agent 能力,融入思考推理,支持工具调用
9 ChatGPT 上线「智能购物」:三分钟帮你做完购物指南
10 字节跳动发布 Vidi2 :AI 视频模型性能超越 Gemini 3 Pro,小时级素材直出剪辑方案
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联