当前位置：首页 » 苏米杂谈

AutoGLM开源只是第一步，手机Agent已经走上风口，但仍面临技术合规问题

6月前苏米杂谈 1343 0

过去一周，豆包手机引发的热点话题：手机Agent到底是不是风口？

答案是肯定的，但不是因为某个模型参数更大，也不是因为又多适配了几款App，而是因为它触碰了“权限、合规和标准”这条产业的主航道。

智谱把AutoGLM完整开源，我是支持且兴奋的；

但作为一个做了多年ToB/ToC产品的PM，我也必须泼一盆冷水——真正的战场，才刚刚开始。

AutoGLM的开源诚意，对行业意味着什么

先给智谱点个赞。他们开源的不仅是模型（MIT）和代码（Apache-2.0），还把Phone Use能力框架、工具链、以及50+中文App的适配一起放了出来，这是一套“拿来就能跑”的方案。

更重要的是，开源与私有化部署的组合，明确了一个立场：技术向生态开放，数据和控制权留在使用方。

这在企业侧尤其关键，因为没有“可控边界”的Agent，落不了地。

豆包手机被封不是技术问题，是治理问题

很多人把GUI Agent和“群控”混为一谈，这是理解上的第一层误区。

群控是批量执行死命令，做的是“规模化欺诈”的逻辑；GUI Agent是大模型看屏幕、理解意图、模拟真人操作，做的是“自动化协作”的逻辑。

两者的成本结构完全不同——没有人会拿大模型的token成本去刷量。

但从平台安全团队视角，风险特征是一致的：都表现为“非人类交互”。

微信这类超级App的策略是“特征相似即拦截，宁可错杀不放过”。

他们看的是行为指纹：点击节奏、轨迹噪声、前台/后台切换、辅助功能调用痕迹、Root/Hook迹象、验证码触发率等，而不是“你是RPA还是Agent”。

当你的行为突破了他们的风险预算，封禁就是默认选项。

我能授权我的电子助理替我操作吗？

作为用户，我可以让同事帮我回微信，为什么不可以让AI回？

这不是一句情绪化的抱怨，而是“代理权”的法理问题：用户对自己数据和账户的可转授权，应该有明确、细粒度、可撤销的产品化路径。

PC时代，RPA、密码管家、浏览器插件都经历过类似博弈，最终靠的是“标准化的授权与审计”，而不是比拼谁更会“模拟点击”。

为什么手机Agent不得不走“模拟点击”这条路

从系统设计的第一性原理看，OS应该是App的宿主，但超级App长成“国中之国”，把“分发”和“交易闭环”牢牢握在自己手里。

美团不会给你API去比价饿了么，淘宝也不会鼓励你跨平台一键下单。

对OS级Agent来说，想跨App为用户完成任务，只剩“从屏幕外部去推门”的路径。

这就是为什么开源Agent的适配清单看起来很热闹，实则每家都在迭代自己的“点击器艺术”：更像人、更稳、更少被发现。

但从产品经理角度，这不是可持续的护城河。

AutoGLM的取舍：云手机 + 主动规避敏感App，是短期策略还是长远发展

智谱选择“云手机架构”并主动放弃微信等高敏感App，属于典型的“先跑通、再扩面”的策略：

云端隔离：隔离本机数据风险，方便企业做合规审计、回放与监控，也利于规模化运维。
场景优先：先把电商、出行、外卖、办公这类低敏但高频场景打穿，获得真实用户价值与成功率数据。
风险可控：避开“平台红线”，留住试错机会。

但我们也要诚实：这没有解决根问题。敏感App的对抗还会继续，模拟点击永远会被越来越灵敏的风控追着打。

下半场的胜负手：A2A标准，而不是更强的“拟人点击”

我更看重的是“Agent-to-App（A2A）协议”的出现。理想图景是：OS级Agent做“任务编排与决策”，各家App暴露“Sub-Agent接口”做“安全执行”，相互通过标准协议沟通，不需要模拟点击，权限可控、数据可审计。

这个方向不是空想。

苹果早年就做过App Intents，可惜Siri不给力、生态没跟上；安卓侧也有Intent/Deep Link/Accessibility的半拉子方案。

若今天重启，我建议A2A具备以下最小集合：

能力发现：Agent可查询App的可执行意图与参数Schema。
双重授权：用户侧显式同意 + App侧策略授权（包括频率、金额、风控规则）。
数据最小化：按任务最小数据面暴露，敏感字段一次性令牌化。
可追溯：每次执行都有签名与回执，便于审计与撤销。
故障优雅降级：从API执行降级到Deep Link，再降级到可视化自动化，但带风险标记。

只有当生态被标准“逼出来”，手机Agent才会从“黑科技”变成“公共设施”。

这需要OS厂商、头部App、监管与开源社区的多方合力，和当年Web的CORS、OAuth2走到现在一个道理。

落地路线：不要盯死C端全能助手，先把“可计算的价值链”打穿

我在企业里推Agent落地，有三条经验法则：

从“任务闭环可度量”的垂直场景开始：报销、票务、对账、线索采买、门店巡检等。有明确ROI与SLA，才能建立信任。
半自动优先：让Agent做“搜集与准备”，把“提交与支付”留给人类确认。降低风控压力，提升成功率。
可靠性指标产品化：不只看成功率，还看TTAF（首个动作耗时）、异常可复现率、重试成本、人工接管比等，把Agent当“生产系统”运营。

平台对抗的“产品化”应对：与其隐身，不如可证实

在移动风控面前，一味“更像人”是个无底洞。更好的产品化方向是“可证实合规”：

合规模式：默认在“可授权可回执”的App内以API/Deep Link执行，只有用户二次确认时才降级到GUI操作。
身份证明：通过设备与执行环境的可信证明（如TEE/Attestation）声明“我是被用户授权的Agent”，而不是偷偷摸摸。
开发者SDK：给App侧提供轻量Sub-Agent SDK，接入A2A子集，降低App改造成本。
风控对话：和头部App建立白名单试点，交换异常数据与拦截原因，共建“Agent安全基线”。

开源的真正价值：技术开放，控制权在用户

智谱说“这件事只靠一家公司不够”，我完全赞同。手机Agent天然是生态工程：一端连着模型与工具链，一端连着应用与监管。开源能解决三件事：

共识：行业讨论从“是不是可以做”转向“如何更安全可控地做”。
可控：企业可私有化部署，把数据留在自己体系内，合规与审计有抓手。
迭代：适配、评测、稳定性优化可以社区化，避免重复造轮子。

AutoGLM把这扇门推开了，后面要走的是标准与生态这条“慢而难”的长坡厚雪。

结语

手机Agent不是一场“谁更会模拟人手指”的竞速，而是一场“谁先把合规、标准和生态打通”的持久战。

AutoGLM的开源，让大家有了共同的底座；云手机与避开敏感App，是务实的一步棋。

但想真正走到用户和企业的生产场景里，我们需要的是A2A标准落地、细粒度授权、可追溯执行与生态合作。

做产品的人都知道：短期看体验，长期看结构。体验可以靠工程堆出来，结构必须靠共识搭起来。

手机Agent的真正战场，才刚刚开打。

AutoGLM开源链接：https://github.com/zai-org/Open-AutoGLM

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：AutoGLM开源只是第一步，手机Agent已经走上风口，但仍面临技术合规问题

请登录后发表评论