豆包AI手机绝版的消息出来后,我在开源社区发现了一个有趣的项目——肉包(roubao)。

这是一个基于Android平台的开源AI自动化助手,采用了截图-分析-执行的视觉推理闭环设计。
虽然它的定位与豆包手机差异很大,但作为免费开源方案,它在功能边界和实现路径上提供了值得关注的思路。

项目介绍与核心设计
基本定位
肉包是一个第三方AI手机自动化工具,本质上是基于大模型的视觉理解系统。
它不依赖系统底层权限,而是通过连续的屏幕观察和决策迭代来完成任务。需要强调的是,这不是系统级ROM改造,而是应用层的自动化解决方案。
核心功能
肉包支持两种任务执行模式:
| 执行模式 | 工作方式 | 适用场景 |
| Delegation(委托) | 通过DeepLink唤起本地AI应用(小美、豆包、即梦等),将任务委托给这些应用处理 | 外卖点餐、信息查询等高置信度、标准化任务 |
| GUI自动化 | 截图→OCR分析→执行操作→再截图的视觉推理闭环 | 无高置信度应用时的通用自动化,如app内搜索、内容导航 |
系统会根据任务类型自动选择执行模式。当匹配到已适配的应用时优先使用委托模式(效率更高),否则降级到视觉推理模式(泛用性更强)。
技术实现特点
- 无需系统权限:基于应用层能力实现,无需Root或ROM修改
- 集成Shizuku:通过Shizuku框架获取必要的高级控制权(如无障碍服务授权),避免更深层的系统入侵
- 模型灵活:支持多种大模型API接入(OpenAI、本地部署模型等)
- 视觉推理驱动:用屏幕截图作为上下文输入,让模型理解当前状态和执行操作
应用场景与限制
适合的场景
- 在旧机或备用机上进行自动化测试和玩法体验
- 处理非关键、非时间敏感的重复性操作(如批量收集信息、自动填表)
- 与已支持AI能力的应用组合使用(通过委托模式),提升处理效率
- 作为开发者了解AI决策循环的实践案例
当前限制
- 执行速度较慢:单个任务通常需要10-20分钟以上,主要受限于模型推理延迟和截图-分析循环的轮次
- 精度不稳定:视觉理解依然容易遇到UI识别误差,复杂多步操作易出错
- 非生产级工具:目前定位为实验性工具,不适合替代关键性的手工操作
- 依赖网络:每次分析都需调用大模型API,不支持完全离线使用
安装部署指南
环境准备
需要两个APP:

肉包应用:从GitHub下载APK
Shizuku:权限管理框架,用于获取无障碍服务权限(无需Root)
大模型API密钥:OpenAI或其他支持的API服务
安装步骤
第一步:启用调试模式
进入手机 设置 → 开发者选项
打开"无线调试"(推荐)或"USB调试"

第二步:启动Shizuku
无线调试方案(推荐):在Shizuku应用内选择"无线调试"启动,一步完成

USB调试方案:连接电脑,打开命令行执行:
adb shell sh /storage/emulated/0/Android/data/moe.shizuku.privileged.api/start.sh

确认Shizuku应用显示"正在运行"状态
第三步:配置肉包
- 安装肉包APK,打开应用
- 授予悬浮窗权限和无障碍服务权限
- 在设置中输入大模型API密钥和模型选择
- 创建或导入自动化任务,开始使用
配置说明

- 支持的大模型:OpenAI API、本地开源模型(通过兼容API)等
- 任务定义:可用自然语言描述,系统自动规划执行步骤
- 权限最小化:仅需要屏幕录制和无障碍服务权限
与同类方案对比
| 方案 | 实现层级 | 权限获取 | 执行速度 | 可用性 | 开源/商业 |
| 肉包 | 应用层 | 无障碍服务 | 10-20分钟/任务 | 实验级 | 开源免费 |
| 豆包AI手机 | ROM/系统服务 | 厂商级底层权限 | 秒级 | 商用成熟 | 商业产品 |
| Tasker + ML Kit | 应用层 | 无障碍服务 | 秒级-分钟级 | 生产级 | 商业应用 |
| UIAutomator | 系统框架 | Root | 秒级 | 生产级 | 开源 |
差异化定位:肉包的优势在于零Root、AI原生决策,缺点是速度和精度。它更接近"AI辅助的自动化"而非"工业级RPA工具"。
相关开源项目推荐
如果你对这类自动化工具感兴趣,可以关注:
- Shizuku:权限框架,肉包的依赖组件
- UIAutomator2(uiautomator2):Python封装的UI自动化库,可用于PC端驱动安卓设备
- OpenClaw:另一个视觉推理驱动的多模态自动化框架
- AutoX.js:安卓上的JavaScript自动化框架,需要无障碍服务
总体评价
肉包是目前安卓生态中最直接的开源AI自动化实验品。它的核心价值不在于替代豆包手机,而在于证明了视觉推理驱动的自动化在移动端的可行性。虽然现在的执行速度确实像"赛博树懒",但这更多是当前大模型推理延迟和网络往返造成的。
从产品经理的角度看,肉包的双模式设计(委托+GUI自动化)是聪明的折中方案——它承认系统级权限的局限,转而优化应用级的实现效率。这个思路对其他开发者有启发意义。
如果你有闲置的旧安卓设备,装上肉包来体验一下AI自动化的概念是值得的。但如果你真正需要生产级的自动化工具,还是要结合Tasker这类成熟方案或考虑PC端的RPA框架。肉包的位置是"学习者的玩具"和"开发者的参考实现",而不是"生产力工具"——至少现在还不是。