10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

开源项目「肉包」:用视觉推理实现安卓端AI自动化助手

3小时前 AI开源项目 16 0

豆包AI手机绝版的消息出来后,我在开源社区发现了一个有趣的项目——肉包(roubao)。

这是一个基于Android平台的开源AI自动化助手,采用了截图-分析-执行的视觉推理闭环设计。

虽然它的定位与豆包手机差异很大,但作为免费开源方案,它在功能边界和实现路径上提供了值得关注的思路。

项目介绍与核心设计

基本定位

肉包是一个第三方AI手机自动化工具,本质上是基于大模型的视觉理解系统。

它不依赖系统底层权限,而是通过连续的屏幕观察和决策迭代来完成任务。需要强调的是,这不是系统级ROM改造,而是应用层的自动化解决方案。

核心功能

肉包支持两种任务执行模式:

执行模式 工作方式 适用场景
Delegation(委托) 通过DeepLink唤起本地AI应用(小美、豆包、即梦等),将任务委托给这些应用处理 外卖点餐、信息查询等高置信度、标准化任务
GUI自动化 截图→OCR分析→执行操作→再截图的视觉推理闭环 无高置信度应用时的通用自动化,如app内搜索、内容导航

系统会根据任务类型自动选择执行模式。当匹配到已适配的应用时优先使用委托模式(效率更高),否则降级到视觉推理模式(泛用性更强)。

技术实现特点

  • 无需系统权限:基于应用层能力实现,无需Root或ROM修改
  • 集成Shizuku:通过Shizuku框架获取必要的高级控制权(如无障碍服务授权),避免更深层的系统入侵
  • 模型灵活:支持多种大模型API接入(OpenAI、本地部署模型等)
  • 视觉推理驱动:用屏幕截图作为上下文输入,让模型理解当前状态和执行操作

应用场景与限制

适合的场景

  • 在旧机或备用机上进行自动化测试和玩法体验
  • 处理非关键、非时间敏感的重复性操作(如批量收集信息、自动填表)
  • 与已支持AI能力的应用组合使用(通过委托模式),提升处理效率
  • 作为开发者了解AI决策循环的实践案例

当前限制

  • 执行速度较慢:单个任务通常需要10-20分钟以上,主要受限于模型推理延迟和截图-分析循环的轮次
  • 精度不稳定:视觉理解依然容易遇到UI识别误差,复杂多步操作易出错
  • 非生产级工具:目前定位为实验性工具,不适合替代关键性的手工操作
  • 依赖网络:每次分析都需调用大模型API,不支持完全离线使用

安装部署指南

环境准备

需要两个APP:

肉包应用:从GitHub下载APK

Shizuku:权限管理框架,用于获取无障碍服务权限(无需Root)

 

大模型API密钥:OpenAI或其他支持的API服务

安装步骤

第一步:启用调试模式

进入手机 设置 → 开发者选项

打开"无线调试"(推荐)或"USB调试"

第二步:启动Shizuku

无线调试方案(推荐):在Shizuku应用内选择"无线调试"启动,一步完成

USB调试方案:连接电脑,打开命令行执行:

adb shell sh /storage/emulated/0/Android/data/moe.shizuku.privileged.api/start.sh

确认Shizuku应用显示"正在运行"状态

第三步:配置肉包

  • 安装肉包APK,打开应用
  • 授予悬浮窗权限和无障碍服务权限
  • 在设置中输入大模型API密钥和模型选择
  • 创建或导入自动化任务,开始使用

配置说明

  • 支持的大模型:OpenAI API、本地开源模型(通过兼容API)等
  • 任务定义:可用自然语言描述,系统自动规划执行步骤
  • 权限最小化:仅需要屏幕录制和无障碍服务权限

与同类方案对比

方案 实现层级 权限获取 执行速度 可用性 开源/商业
肉包 应用层 无障碍服务 10-20分钟/任务 实验级 开源免费
豆包AI手机 ROM/系统服务 厂商级底层权限 秒级 商用成熟 商业产品
Tasker + ML Kit 应用层 无障碍服务 秒级-分钟级 生产级 商业应用
UIAutomator 系统框架 Root 秒级 生产级 开源

差异化定位:肉包的优势在于零Root、AI原生决策,缺点是速度和精度。它更接近"AI辅助的自动化"而非"工业级RPA工具"。

相关开源项目推荐

如果你对这类自动化工具感兴趣,可以关注:

  • Shizuku:权限框架,肉包的依赖组件
  • UIAutomator2(uiautomator2):Python封装的UI自动化库,可用于PC端驱动安卓设备
  • OpenClaw:另一个视觉推理驱动的多模态自动化框架
  • AutoX.js:安卓上的JavaScript自动化框架,需要无障碍服务

总体评价

肉包是目前安卓生态中最直接的开源AI自动化实验品。它的核心价值不在于替代豆包手机,而在于证明了视觉推理驱动的自动化在移动端的可行性。虽然现在的执行速度确实像"赛博树懒",但这更多是当前大模型推理延迟和网络往返造成的。

从产品经理的角度看,肉包的双模式设计(委托+GUI自动化)是聪明的折中方案——它承认系统级权限的局限,转而优化应用级的实现效率。这个思路对其他开发者有启发意义。

如果你有闲置的旧安卓设备,装上肉包来体验一下AI自动化的概念是值得的。但如果你真正需要生产级的自动化工具,还是要结合Tasker这类成熟方案或考虑PC端的RPA框架。肉包的位置是"学习者的玩具"和"开发者的参考实现",而不是"生产力工具"——至少现在还不是。

开源地址

肉包:https://github.com/Turbo1123/roubao

Shizuku:https://github.com/RikkaApps/Shizuku

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:开源项目「肉包」:用视觉推理实现安卓端AI自动化助手
#肉包 #Shizuku #豆包AI手机 
收藏 1
GPT-5.4 和 GPT-5.4 Pro 发布了,Token半价碾压Opus!
这是最后一篇
推荐阅读
  • 15套免费数据大屏模板开源项目:HTML原生构建,覆盖财务/电商/物流等主流行业
  • Leon:开源AI助手,离线运行、语音对话、隐私无忧
  • Excalidraw:轻量级手绘风格协作画布,支持实时协作、手绘风格的开源在线无限画布工具!
  • Huobao Drama:一站式短剧生成开源平台,从剧本到成片的AI视频自动化生成平台
  • Kode:命令行里的多模型 AI 助手(使用体验与亮点解析)
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
8056 4月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
6586 5月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
4906 2月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4885 4月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
4826 6月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
4559 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
4353 5月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
4110 5月前
Fogsight (雾象):一句话自动生成任何科普动画
3893 4月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
3730 1月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 开源项目「肉包」:用视觉推理实现安卓端AI自动化助手
2 waoowaoo:从小说文本到完整视频,AI 短剧一站式生成平台
3 OpenClaw 101:系统化学习路径如何解决 AI 助手入门难题
4 OpenFang:OpenClaw升级版,如何重新定义 Agent 框架的生产级标准
5 ClaudeCodeViewer :ClaudeCode 终于有了趁手的开源 Web 界面
6 Evolver:为OpenClaw智能体赋予自我进化能力的开源引擎
7 AI-Media2Doc:将视频音频自动转化为多风格文档的开源方案
8 Agent Reach:一句话让AI Agent免费上网的开源项目,赶紧集成到Skills
9 NanoClaw:用 4000 行覆盖 OpenClaw 核心的极简之道,首个支持 Agent Swarms(智能体集群) 的 AI 助手
10 system-prompts-and-models-of-ai-tools:30+ 款 AI 产品的系统提示词、内部配置信息全扒了
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联