早在三个月前我就实测过AutoGLM:全球首个云手机+云电脑Agent,简单来说,智谱把 一台虚拟手机 和 一台虚拟电脑 搬进了Agent里。
最近豆包手机把Agent手机这个概念推向了现实,但同时也面临了各种质疑和大厂“围殴”;
而与此同时智谱悄悄宣布正式开源其核心AI Agent模型AutoGLM。

这个被业界视为全球首个具备“Phone Use”(手机操作)能力的AI Agent,能够顺利完成外卖点单、机票预订等长达数十步的复杂操作流程。
这次开源意味着硬件厂商、手机厂商和开发者均可基于AutoGLM,在自己的设备或系统中复现一个能“看懂”屏幕、模拟真人进行点击、输入、滑动的AI助手。
AutoGLM 想做的,就是这件事:让 AI 真正学会“使用手机”。
技术演进
智谱对AI手机智能体的探索始于2023年4月。
在最开始的版本里,基于大模型构建的系统只知道“点”、“滑”等基本操作,偶尔能完成一个很短的流程,但更多时候会迷失在复杂的操作中,甚至陷入死循环。
为了解决这类问题,智谱花费近一年时间,建立了一整套Phone Use能力框架。
这个框架把点击、滑动、输入、截图、界面理解这些最基础的动作抽象出来,让模型学会把一句自然语言拆解为一系列稳定、可回放的操作步骤。
去年10月,智谱发布了能够在真机上稳定完成一条完整操作链路的AutoGLM,一个月后,成功实现了由AI完成手机红包发送。
这一进展标志着AI已经能够完成特定环境下的复杂手机操作任务。
到了2025年,智谱发布AutoGLM 2.0,通过强化学习的规模扩展定律,提出了MobileRL、ComputerRL和AgentRL算法。
这一升级让AutoGLM能够在上千个虚拟设备环境里同时进行强化学习,极大扩展了Agent的准确性和泛化能力。
工作架构
AutoGLM的核心工作模式是通过云手机和云电脑实现的。
智谱为AI配备了专属的云手机和云电脑,使智能体可以在云端自主执行任务,而无需占用用户本地设备。在云端环境中,AutoGLM创建了一个“标准化”的世界。
云手机的屏幕尺寸统一、软件版本统一、功能范围统一。
这个环境中预装了30款APP,涵盖了社交资讯、长短视频、音乐广播、小说阅读、消费购物、本地生活、出行与旅行等多个类别。

这种标准化设计是为了规避现实世界中的不确定性,如不同用户的微信版本不一样、UI布局有差异、有人用折叠屏、有人用小屏手机等变量。
在这个可控的虚拟世界里,Agent的操作才能得到保证。
应用场景
目前,AutoGLM已支持微信、淘宝、抖音、美团等超过50个高频中文应用的核心场景。
在生活场景中,用户只需一句话,就能让AutoGLM操作抖音、小红书、美团、京东等40多个高频应用,实现点外卖、订机票、查房源、预约健康服务等任务。
例如,用户可以让AI帮买“秋天的第一杯奶茶”。

在办公场景中,AutoGLM同样能跨应用执行全流程工作,从信息检索到内容撰写,再到生成1分钟短视频、PPT或播客,并直接完成发布。
技术团队表示,智能体运行期间,用户可自由使用手机上其他App。
这意味着AutoGLM不仅能“自动驾驶手机”,还可“代理办公”,真正让手机变成具备自主执行、跨端协作能力的智能设备。
实测挑战
尽管AutoGLM在标准化环境中表现出色,但在面对真实世界的复杂性时,仍然面临挑战。
广告弹窗和复杂的登录验证成为主要障碍。
在实际测试中,一旦有广告弹出,AutoGLM会暂停执行任务,等待几秒后有良心的广告会自动消失,AutoGLM就会继续执行任务。
而遇到那些不会消失的广告,AutoGLM就需要用户接管,严重影响进程流畅性。
登录环节也是另一个难题。
国内应用对于账号“安全意识”极高,很多应用的安全验证远比输入账号复杂。
例如,登录小红书时可能需要用旧设备扫码才能登录,而登录抖音时可能需要扫脸进行身份验证。
AutoGLM不会记住用户的账号密码,虽然这很安全,但每次使用需要登录的APP过程也非常不便。
这些真实世界的“脏信息”,如网络波动、弹窗打断、广告遮挡等,仍然是AutoGLM需要克服的挑战。
开源意义
AutoGLM的开源意味着这一能力可以变成整个行业可以共同拥有和打磨的公共底座。
模型以 MIT 开源许可证的形式开放,而所有代码会以 Apache-2.0 开源许可证的形式,托管在 GitHub 仓库(示例:github.com/zai-org/Open-AutoGLM)中。
你可以把它当成一套现成的基础设施,也可以单独拆用其中的某一部分,甚至可以把它改得面目全非——只要它帮助你更接近你心目中的「AI 原生手机」。

硬件厂商、手机厂商和开发者均可基于AutoGLM,在自己的设备或系统中复现一个能操作手机的AI助手。
这将大幅降低AI手机的技术门槛,推动AI手机生态从封闭走向开放共创。
同时,项目支持本地与云端部署,确保数据与隐私控制权始终掌握在使用者手中。
通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。
智谱CEO张鹏曾用AutoGLM演示了一次自动化操作:面对面建群、修改群名、在群里发出一百个红包。
这次开源后,类似的能力将不再局限于特定公司或产品,而是成为行业共享的基础设施。
结语
智能手机界面不断闪烁,订单一个个自动完成,而用户的手指却从未触碰屏幕——这就是AutoGLM创造的现实。
作为全球首个开源的手机操作AI模型,它标志着AI技术正从对话与问答向实际执行与操作的质变。
当技术走出实验室,与真实世界的复杂性碰撞时,广告弹窗与登录验证等障碍揭示了一条漫长的迭代之路。
然而,当AutoGLM的代码向所有人开放,当每个开发者和厂商都能在其基础上构建自己的智能助手,真正意义上的AI手机时代或许才刚刚按下启动键。
2025的尾声不是结束,而是开始,从今天开始,人人都可以拥有自己的手机 Agent。
开源地址:https://github.com/zai-org/Open-AutoGLM
AutoGLM地址:https://autoglm.zhipuai.cn