10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

豆包AI 手机平替,4个 AI 操纵手机的开源项目

3月前 AI开源项目 1082 0

豆包AI手机的浪潮还未真正席卷市场,就遭遇重创,但智谱开源的AI手机自动化项目,却引发技术革命。

从智谱、字节、微软等厂商的开源进展来看,AI手机自动化的核心技术已经形成了几条不同的技术路线。

本文梳理了当前GitHub上四个代表性的AI控制安卓手机开源项目;

它们在模型选择、部署方式、跨平台能力上各有侧重,适配不同的使用场景。

1. Open-AutoGLM(智谱开源)

简介:基于智谱GLM大模型的端到端安卓手机自动化框架,支持本地部署。

功能特色:

  • 视觉理解与定位:通过视觉识别手机屏幕元素,自动定位点击按钮位置
  • 多步骤任务编排:支持复杂长链任务(如地图查询→高德收藏→12306订票)的自动分解与执行
  • 本地部署:支持在本地显卡(24GB+显存)运行,敏感数据不上传云端
  • ADB集成:通过Android Debug Bridge直接下发点击、滑动、输入等指令

技术特征:模型级解决方案,需要部署完整的GLM推理环境。

适配场景:对隐私保护要求高、需要离线运行的企业或个人开发者。

如何使用?

你可以使用Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。 

访问文档,为我安装 AutoGLM :https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md

项目地址:https://github.com/zai-org/Open-AutoGLM

2. DroidMind

简介:通过MCP协议适配层,将安卓手机挂载到Claude/Cursor等IDE环境中。

功能特色:

  • 轻量级适配器:不训练新模型,通过协议翻译复用现有大模型能力
  • IDE集成:与Claude Desktop、Cursor、Claude Code无缝对接
  • 模型无关:可适配Claude、Gemini等多个大模型后端
  • 零部署成本:无需运行本地推理引擎

技术特征:协议层解决方案,依赖外部大模型服务。

适配场景:开发者已有Claude/Cursor订阅、优先考虑易用性而非隐私的用户。

项目地址:https://github.com/hyperb1iss/DroidMind

3. UFO³ (微软开源)

简介:跨平台、多设备编排框架。从Windows单设备控制演进为分布式多设备协调系统。

功能特色:

  • Galaxy-Constellation架构:中枢(Galaxy)负责任务分发,节点(Constellation)执行具体操作
  • DAG任务分解:自动将复杂指令(如手机拍照→电脑Photoshop编辑)拆解为有向无环图
  • 多设备编排:Windows、Linux、Android等作为独立节点并网协作
  • MCP架构:支持异构设备间的能力对接

技术特征:分布式系统方案,强调跨平台协调能力。

适配场景:需要在PC、手机间联动自动化的复杂工作流场景。

项目地址:https://github.com/microsoft/UFO

4. UI-TARS(字节开源)

简介:基于视觉-语言模型(VLM)的GUI自动化Agent,支持手机、PC、网页多端。

功能特色:

  • 端到端视觉驱动:从屏幕截图直接推导动作,无需中间表示
  • 纯视觉方案:不依赖可访问性树等系统接口,适配度更广
  • 跨界面支持:同一套逻辑支持手机、桌面、Web应用
  • ADB指令转换:视觉决策自动转化为底层Android命令

技术特征:视觉-语言多模态方案,强调通用性。

适配场景:需要统一处理多类型UI界面、对接适配要求高的场景。

项目地址:https://github.com/bytedance/UI-TARS

方案对比维度

维度 Open-AutoGLM DroidMind UFO³ UI-TARS
部署方式 本地推理 云API调用 本地/云混合 本地/云可选
跨平台能力 Android为主 Android为主 强,多设备编排 强,手机/PC/Web
隐私保护 高(本地化) 低(云依赖) 中等 中等
部署成本 高(需显卡) 低(仅需SDK) 中等 中等
开发友好度 中等 高(IDE集成) 中等 中等

总结

这四个项目反映了AI手机自动化的不同技术取向。

Open-AutoGLM强调本地化与隐私保护,适合对数据安全有高要求的场景;

DroidMind追求最小化部署成本,将复杂度转移到云侧;

UFO³ Galaxy在跨设备协调上有独特优势,适合企业级流程自动化;

UI-TARS则在跨界面通用性上有优势。

在选型时,不应简单追求某个指标最优,而需根据具体场景权衡部署成本、隐私需求、跨平台要求、维护复杂度等因素。

这些开源项目的成熟度都在快速提升,关注其后续迭代会更好地理解AI移动自动化的发展方向。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:豆包AI 手机平替,4个 AI 操纵手机的开源项目
#Open-AutoGLM #AI手机 #豆包手机 
收藏 1
办公小浣熊:AI办公不是自动生成,而是可编辑,三大办公能力实测
从手动排版到一行命令发布文章,我用OpenClaw自动化微信公众号的全流程
推荐阅读
  • VibeVoice:微软开源的长文本TTS框架,重新定义语音合成
  • AIClient-2-API:一键把所有AI接口转成OpenAI标准格式
  • FlyCut Caption:本地化开源智能视频多语言字幕识别与编辑工具
  • ENScan_GO:各大企业信息聚合搜索,支持命令行、MCP、API、导出
  • WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
8522 5月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
7306 6月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
5544 3月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
5101 1月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5075 7月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5024 5月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
4915 6月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
4786 5月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
4616 6月前
Fogsight (雾象):一句话自动生成任何科普动画
4150 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Agent Reach:让 AI 智能体一键获得互联网访问能力
2 5个GitHub离谱Openclaw skills:从职场PUA到赛博皇帝的演进
3 Superpowers:用系统化流程让 AI 编码代理更懂你的需求,这套 Superpowers 值得装
4 xiaohu-wechat-format:一句话搞定公众号排版、封面生成、发布的Skills
5 AionUi:20多个AI命令行编程工具的统一图形界面,19.2K Star的开源替代方案
6 Page Agent:阿里开源,一行代码注入,用自然语言操控Web应用的纯前端GUI Agent
7 KittenTTS:25MB轻量级开源TTS模型,CPU即可运行的离线语音合成方案
8 MiniMax 开源 Skills 项目:MiniMax-AI 团队把压箱底的开发技能包都拿出来了,为 AI 编程助手配置结构化工作流
9 五个开源项目:用来搞自动化,从AI Agent到效率工具的完整生态
10 EdgeClaw:断网也能跑的小龙虾,OpenClaw 的安全增强版
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联