10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

豆包AI 手机平替,4个 AI 操纵手机的开源项目

1月前 AI开源项目 608 0

豆包AI手机的浪潮还未真正席卷市场,就遭遇重创,但智谱开源的AI手机自动化项目,却引发技术革命。

从智谱、字节、微软等厂商的开源进展来看,AI手机自动化的核心技术已经形成了几条不同的技术路线。

本文梳理了当前GitHub上四个代表性的AI控制安卓手机开源项目;

它们在模型选择、部署方式、跨平台能力上各有侧重,适配不同的使用场景。

1. Open-AutoGLM(智谱开源)

简介:基于智谱GLM大模型的端到端安卓手机自动化框架,支持本地部署。

功能特色:

  • 视觉理解与定位:通过视觉识别手机屏幕元素,自动定位点击按钮位置
  • 多步骤任务编排:支持复杂长链任务(如地图查询→高德收藏→12306订票)的自动分解与执行
  • 本地部署:支持在本地显卡(24GB+显存)运行,敏感数据不上传云端
  • ADB集成:通过Android Debug Bridge直接下发点击、滑动、输入等指令

技术特征:模型级解决方案,需要部署完整的GLM推理环境。

适配场景:对隐私保护要求高、需要离线运行的企业或个人开发者。

如何使用?

你可以使用Claude Code,配置 GLM Coding Plan 后,输入以下提示词,快速部署本项目。 

访问文档,为我安装 AutoGLM :https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md

项目地址:https://github.com/zai-org/Open-AutoGLM

2. DroidMind

简介:通过MCP协议适配层,将安卓手机挂载到Claude/Cursor等IDE环境中。

功能特色:

  • 轻量级适配器:不训练新模型,通过协议翻译复用现有大模型能力
  • IDE集成:与Claude Desktop、Cursor、Claude Code无缝对接
  • 模型无关:可适配Claude、Gemini等多个大模型后端
  • 零部署成本:无需运行本地推理引擎

技术特征:协议层解决方案,依赖外部大模型服务。

适配场景:开发者已有Claude/Cursor订阅、优先考虑易用性而非隐私的用户。

项目地址:https://github.com/hyperb1iss/DroidMind

3. UFO³ (微软开源)

简介:跨平台、多设备编排框架。从Windows单设备控制演进为分布式多设备协调系统。

功能特色:

  • Galaxy-Constellation架构:中枢(Galaxy)负责任务分发,节点(Constellation)执行具体操作
  • DAG任务分解:自动将复杂指令(如手机拍照→电脑Photoshop编辑)拆解为有向无环图
  • 多设备编排:Windows、Linux、Android等作为独立节点并网协作
  • MCP架构:支持异构设备间的能力对接

技术特征:分布式系统方案,强调跨平台协调能力。

适配场景:需要在PC、手机间联动自动化的复杂工作流场景。

项目地址:https://github.com/microsoft/UFO

4. UI-TARS(字节开源)

简介:基于视觉-语言模型(VLM)的GUI自动化Agent,支持手机、PC、网页多端。

功能特色:

  • 端到端视觉驱动:从屏幕截图直接推导动作,无需中间表示
  • 纯视觉方案:不依赖可访问性树等系统接口,适配度更广
  • 跨界面支持:同一套逻辑支持手机、桌面、Web应用
  • ADB指令转换:视觉决策自动转化为底层Android命令

技术特征:视觉-语言多模态方案,强调通用性。

适配场景:需要统一处理多类型UI界面、对接适配要求高的场景。

项目地址:https://github.com/bytedance/UI-TARS

方案对比维度

维度 Open-AutoGLM DroidMind UFO³ UI-TARS
部署方式 本地推理 云API调用 本地/云混合 本地/云可选
跨平台能力 Android为主 Android为主 强,多设备编排 强,手机/PC/Web
隐私保护 高(本地化) 低(云依赖) 中等 中等
部署成本 高(需显卡) 低(仅需SDK) 中等 中等
开发友好度 中等 高(IDE集成) 中等 中等

总结

这四个项目反映了AI手机自动化的不同技术取向。

Open-AutoGLM强调本地化与隐私保护,适合对数据安全有高要求的场景;

DroidMind追求最小化部署成本,将复杂度转移到云侧;

UFO³ Galaxy在跨设备协调上有独特优势,适合企业级流程自动化;

UI-TARS则在跨界面通用性上有优势。

在选型时,不应简单追求某个指标最优,而需根据具体场景权衡部署成本、隐私需求、跨平台要求、维护复杂度等因素。

这些开源项目的成熟度都在快速提升,关注其后续迭代会更好地理解AI移动自动化的发展方向。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:豆包AI 手机平替,4个 AI 操纵手机的开源项目
#Open-AutoGLM #AI手机 #豆包手机 
收藏 1
办公小浣熊:AI办公不是自动生成,而是可编辑,三大办公能力实测
Qwen-Image-2.0:阿里最新文生图+图片编辑的多模态模型,更真实且文字能力极强的生图编辑统一模型
推荐阅读
  • EasyAIoT:工业物联网的开源边端一体化平台
  • ConvertX:自托管文件转换神器,支持1000+格式,一键转换图片视频文档,隐私完全掌控
  • n-skills:为中小团队量身定做的AI技能模块化框架,一个真正可用的开源技能集
  • OpenScreen:一款开源录屏工具,Screen Studio、Cursorful免费平替
  • Aser:轻量级模块化 AI Agent 框架,连接 Web3 与智能体的桥梁
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
7537 4月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
5939 5月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4720 4月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
4504 5月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
4313 4月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
4034 1月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
3681 5月前
Fogsight (雾象):一句话自动生成任何科普动画
3671 4月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
3579 4月前
SurfSense:私人AI研究助手,私有版的NotebookLM 和 Perplexity开源平替,
3485 3月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Qwen-Image-2.0:阿里最新文生图+图片编辑的多模态模型,更真实且文字能力极强的生图编辑统一模型
2 MimiClaw:在10来块的ESP32-S3上运行的 OpenClaw,无需 Linux,无需 Node.js,仅使用纯 C 语言
3 Shannon:AI 驱动的自动化渗透测试工具,让代码自动进行安全审查
4 JCP:多Agent协作的A股智能分析系统,让AI像研究员一样讨分析股票
5 Accomplish:本地运行的开源AI桌面代理,Claude Cowork的功能对标与隐私升级
6 Refly:从自然语言到生产级Agent,全球首款开源 Agent Skills 开源构建平台
7 Beautiful-Mermaid:让 Mermaid 图表告别理工直男风的开源方案
8 EasyVoice:告别付费会员!开源文本转语音方案,支持流式播放与多角色配音
9 awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
10 Nanobot:香港大学开源智能体框架,仅4000行代码复刻OpenClaw核心能力
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联