过去一周,豆包手机引发的热点话题:手机Agent到底是不是风口?
答案是肯定的,但不是因为某个模型参数更大,也不是因为又多适配了几款App,而是因为它触碰了“权限、合规和标准”这条产业的主航道。
智谱把AutoGLM完整开源,我是支持且兴奋的;
但作为一个做了多年ToB/ToC产品的PM,我也必须泼一盆冷水——真正的战场,才刚刚开始。
AutoGLM的开源诚意,对行业意味着什么
先给智谱点个赞。他们开源的不仅是模型(MIT)和代码(Apache-2.0),还把Phone Use能力框架、工具链、以及50+中文App的适配一起放了出来,这是一套“拿来就能跑”的方案。
更重要的是,开源与私有化部署的组合,明确了一个立场:技术向生态开放,数据和控制权留在使用方。
这在企业侧尤其关键,因为没有“可控边界”的Agent,落不了地。
豆包手机被封不是技术问题,是治理问题
很多人把GUI Agent和“群控”混为一谈,这是理解上的第一层误区。
群控是批量执行死命令,做的是“规模化欺诈”的逻辑;GUI Agent是大模型看屏幕、理解意图、模拟真人操作,做的是“自动化协作”的逻辑。
两者的成本结构完全不同——没有人会拿大模型的token成本去刷量。
但从平台安全团队视角,风险特征是一致的:都表现为“非人类交互”。
微信这类超级App的策略是“特征相似即拦截,宁可错杀不放过”。
他们看的是行为指纹:点击节奏、轨迹噪声、前台/后台切换、辅助功能调用痕迹、Root/Hook迹象、验证码触发率等,而不是“你是RPA还是Agent”。
当你的行为突破了他们的风险预算,封禁就是默认选项。
我能授权我的电子助理替我操作吗?
作为用户,我可以让同事帮我回微信,为什么不可以让AI回?
这不是一句情绪化的抱怨,而是“代理权”的法理问题:用户对自己数据和账户的可转授权,应该有明确、细粒度、可撤销的产品化路径。
PC时代,RPA、密码管家、浏览器插件都经历过类似博弈,最终靠的是“标准化的授权与审计”,而不是比拼谁更会“模拟点击”。
为什么手机Agent不得不走“模拟点击”这条路
从系统设计的第一性原理看,OS应该是App的宿主,但超级App长成“国中之国”,把“分发”和“交易闭环”牢牢握在自己手里。
美团不会给你API去比价饿了么,淘宝也不会鼓励你跨平台一键下单。
对OS级Agent来说,想跨App为用户完成任务,只剩“从屏幕外部去推门”的路径。
这就是为什么开源Agent的适配清单看起来很热闹,实则每家都在迭代自己的“点击器艺术”:更像人、更稳、更少被发现。
但从产品经理角度,这不是可持续的护城河。
AutoGLM的取舍:云手机 + 主动规避敏感App,是短期策略还是长远发展
智谱选择“云手机架构”并主动放弃微信等高敏感App,属于典型的“先跑通、再扩面”的策略:
- 云端隔离:隔离本机数据风险,方便企业做合规审计、回放与监控,也利于规模化运维。
- 场景优先:先把电商、出行、外卖、办公这类低敏但高频场景打穿,获得真实用户价值与成功率数据。
- 风险可控:避开“平台红线”,留住试错机会。
但我们也要诚实:这没有解决根问题。敏感App的对抗还会继续,模拟点击永远会被越来越灵敏的风控追着打。
下半场的胜负手:A2A标准,而不是更强的“拟人点击”
我更看重的是“Agent-to-App(A2A)协议”的出现。理想图景是:OS级Agent做“任务编排与决策”,各家App暴露“Sub-Agent接口”做“安全执行”,相互通过标准协议沟通,不需要模拟点击,权限可控、数据可审计。
这个方向不是空想。
苹果早年就做过App Intents,可惜Siri不给力、生态没跟上;安卓侧也有Intent/Deep Link/Accessibility的半拉子方案。
若今天重启,我建议A2A具备以下最小集合:
- 能力发现:Agent可查询App的可执行意图与参数Schema。
- 双重授权:用户侧显式同意 + App侧策略授权(包括频率、金额、风控规则)。
- 数据最小化:按任务最小数据面暴露,敏感字段一次性令牌化。
- 可追溯:每次执行都有签名与回执,便于审计与撤销。
- 故障优雅降级:从API执行降级到Deep Link,再降级到可视化自动化,但带风险标记。
只有当生态被标准“逼出来”,手机Agent才会从“黑科技”变成“公共设施”。
这需要OS厂商、头部App、监管与开源社区的多方合力,和当年Web的CORS、OAuth2走到现在一个道理。
落地路线:不要盯死C端全能助手,先把“可计算的价值链”打穿
我在企业里推Agent落地,有三条经验法则:
- 从“任务闭环可度量”的垂直场景开始:报销、票务、对账、线索采买、门店巡检等。有明确ROI与SLA,才能建立信任。
- 半自动优先:让Agent做“搜集与准备”,把“提交与支付”留给人类确认。降低风控压力,提升成功率。
- 可靠性指标产品化:不只看成功率,还看TTAF(首个动作耗时)、异常可复现率、重试成本、人工接管比等,把Agent当“生产系统”运营。
平台对抗的“产品化”应对:与其隐身,不如可证实
在移动风控面前,一味“更像人”是个无底洞。更好的产品化方向是“可证实合规”:
- 合规模式:默认在“可授权可回执”的App内以API/Deep Link执行,只有用户二次确认时才降级到GUI操作。
- 身份证明:通过设备与执行环境的可信证明(如TEE/Attestation)声明“我是被用户授权的Agent”,而不是偷偷摸摸。
- 开发者SDK:给App侧提供轻量Sub-Agent SDK,接入A2A子集,降低App改造成本。
- 风控对话:和头部App建立白名单试点,交换异常数据与拦截原因,共建“Agent安全基线”。
开源的真正价值:技术开放,控制权在用户
智谱说“这件事只靠一家公司不够”,我完全赞同。手机Agent天然是生态工程:一端连着模型与工具链,一端连着应用与监管。开源能解决三件事:
- 共识:行业讨论从“是不是可以做”转向“如何更安全可控地做”。
- 可控:企业可私有化部署,把数据留在自己体系内,合规与审计有抓手。
- 迭代:适配、评测、稳定性优化可以社区化,避免重复造轮子。
AutoGLM把这扇门推开了,后面要走的是标准与生态这条“慢而难”的长坡厚雪。
结语
手机Agent不是一场“谁更会模拟人手指”的竞速,而是一场“谁先把合规、标准和生态打通”的持久战。
AutoGLM的开源,让大家有了共同的底座;云手机与避开敏感App,是务实的一步棋。
但想真正走到用户和企业的生产场景里,我们需要的是A2A标准落地、细粒度授权、可追溯执行与生态合作。
做产品的人都知道:短期看体验,长期看结构。体验可以靠工程堆出来,结构必须靠共识搭起来。
手机Agent的真正战场,才刚刚开打。
AutoGLM开源链接:https://github.com/zai-org/Open-AutoGLM