当前位置：首页 » AI开源项目

开源项目「肉包」：用视觉推理实现安卓端AI自动化助手

1月前 AI开源项目 512 0

豆包AI手机绝版的消息出来后，我在开源社区发现了一个有趣的项目——肉包（roubao）。

这是一个基于Android平台的开源AI自动化助手，采用了截图-分析-执行的视觉推理闭环设计。

虽然它的定位与豆包手机差异很大，但作为免费开源方案，它在功能边界和实现路径上提供了值得关注的思路。

项目介绍与核心设计

基本定位

肉包是一个第三方AI手机自动化工具，本质上是基于大模型的视觉理解系统。

它不依赖系统底层权限，而是通过连续的屏幕观察和决策迭代来完成任务。需要强调的是，这不是系统级ROM改造，而是应用层的自动化解决方案。

核心功能

肉包支持两种任务执行模式：

执行模式	工作方式	适用场景
Delegation（委托）	通过DeepLink唤起本地AI应用（小美、豆包、即梦等），将任务委托给这些应用处理	外卖点餐、信息查询等高置信度、标准化任务
GUI自动化	截图→OCR分析→执行操作→再截图的视觉推理闭环	无高置信度应用时的通用自动化，如app内搜索、内容导航

系统会根据任务类型自动选择执行模式。当匹配到已适配的应用时优先使用委托模式（效率更高），否则降级到视觉推理模式（泛用性更强）。

技术实现特点

无需系统权限：基于应用层能力实现，无需Root或ROM修改
集成Shizuku：通过Shizuku框架获取必要的高级控制权（如无障碍服务授权），避免更深层的系统入侵
模型灵活：支持多种大模型API接入（OpenAI、本地部署模型等）
视觉推理驱动：用屏幕截图作为上下文输入，让模型理解当前状态和执行操作

应用场景与限制

适合的场景

在旧机或备用机上进行自动化测试和玩法体验
处理非关键、非时间敏感的重复性操作（如批量收集信息、自动填表）
与已支持AI能力的应用组合使用（通过委托模式），提升处理效率
作为开发者了解AI决策循环的实践案例

当前限制

执行速度较慢：单个任务通常需要10-20分钟以上，主要受限于模型推理延迟和截图-分析循环的轮次
精度不稳定：视觉理解依然容易遇到UI识别误差，复杂多步操作易出错
非生产级工具：目前定位为实验性工具，不适合替代关键性的手工操作
依赖网络：每次分析都需调用大模型API，不支持完全离线使用

安装部署指南

环境准备

需要两个APP：

肉包应用：从GitHub下载APK

Shizuku：权限管理框架，用于获取无障碍服务权限（无需Root）

大模型API密钥：OpenAI或其他支持的API服务

安装步骤

第一步：启用调试模式

进入手机设置 → 开发者选项

打开"无线调试"（推荐）或"USB调试"

第二步：启动Shizuku

无线调试方案（推荐）：在Shizuku应用内选择"无线调试"启动，一步完成

USB调试方案：连接电脑，打开命令行执行：

adb shell sh /storage/emulated/0/Android/data/moe.shizuku.privileged.api/start.sh

确认Shizuku应用显示"正在运行"状态

第三步：配置肉包

安装肉包APK，打开应用
授予悬浮窗权限和无障碍服务权限
在设置中输入大模型API密钥和模型选择
创建或导入自动化任务，开始使用

配置说明

支持的大模型：OpenAI API、本地开源模型（通过兼容API）等
任务定义：可用自然语言描述，系统自动规划执行步骤
权限最小化：仅需要屏幕录制和无障碍服务权限

与同类方案对比

方案	实现层级	权限获取	执行速度	可用性	开源/商业
肉包	应用层	无障碍服务	10-20分钟/任务	实验级	开源免费
豆包AI手机	ROM/系统服务	厂商级底层权限	秒级	商用成熟	商业产品
Tasker + ML Kit	应用层	无障碍服务	秒级-分钟级	生产级	商业应用
UIAutomator	系统框架	Root	秒级	生产级	开源

差异化定位：肉包的优势在于零Root、AI原生决策，缺点是速度和精度。它更接近"AI辅助的自动化"而非"工业级RPA工具"。

总体评价

肉包是目前安卓生态中最直接的开源AI自动化实验品。它的核心价值不在于替代豆包手机，而在于证明了视觉推理驱动的自动化在移动端的可行性。虽然现在的执行速度确实像"赛博树懒"，但这更多是当前大模型推理延迟和网络往返造成的。

从产品经理的角度看，肉包的双模式设计（委托+GUI自动化）是聪明的折中方案——它承认系统级权限的局限，转而优化应用级的实现效率。这个思路对其他开发者有启发意义。

如果你有闲置的旧安卓设备，装上肉包来体验一下AI自动化的概念是值得的。但如果你真正需要生产级的自动化工具，还是要结合Tasker这类成熟方案或考虑PC端的RPA框架。肉包的位置是"学习者的玩具"和"开发者的参考实现"，而不是"生产力工具"——至少现在还不是。

开源地址

肉包：https://github.com/Turbo1123/roubao

Shizuku：https://github.com/RikkaApps/Shizuku

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：开源项目「肉包」：用视觉推理实现安卓端AI自动化助手

请登录后发表评论