作为一名经常关注开源 AI 项目的产品经理,我一直在观察一个有趣的现象:大多数移动自动化工具都试图"占领"手机屏幕来执行任务,这无形中限制了设备的可用性。
直到最近接触到 Ruto-GLM,我才意识到这个领域存在另一种思路——通过虚拟屏幕技术将自动化任务"挪到后台",让用户能够在 AI 工作时照常使用手机。
这种设计理念的转变,值得深入探讨。
项目概览
Ruto-GLM 是一款基于大语言模型的 Android 自动化工具,其核心定位是在本地设备上实现真正的后台自动化执行。
与传统方案不同的是,它通过 Shizuku 系统级权限和虚拟屏幕技术,让用户能够在熄屏或继续使用主屏幕的状态下,让 AI 独立完成各类操作任务。

核心功能特性对比分析
1. 后台自动化运行(差异化优势)
Ruto 的最大差异点在于真正的后台运行能力。
传统自动化工具(如:按键精灵、Auto.js 等)通常需要占用主屏幕,用户在此期间无法进行其他操作。
而 Ruto 通过创建独立的虚拟屏幕运行任务,实现了以下特性:
- 支持熄屏继续执行——任务独立于主屏幕状态
- 多任务并行——AI 在虚拟屏幕上工作时,用户可正常使用主屏幕聊天、游戏、看视频
- 完全隔离——两个运行环境互不干扰
2. 应用多开与数据隔离
依托虚拟屏幕架构,Ruto 实现了原生级别的应用分身能力。相比传统的多开方案(如:Island、平行空间等),其优势在于:
- 每个虚拟屏幕都是完全独立的运行环境
- 同一应用的多个实例可并行运行,数据彼此隔离
- 稳定性更高,不依赖 Hook 或虚拟化框架
3. 多窗口桌面管理
项目内置了一套类似 Windows/macOS 的窗口管理系统,支持:
- 在虚拟屏幕间自由切换和拖拽
- 多任务同时监控与管理
- 提升 Android 设备的多任务处理效率
4. AI 与自动化的无缝融合
这是 Ruto 的核心创新点。对话与执行完全打通:
- 内置完整对话界面,支持接入多种大语言模型 API
- 自然语言指令直接触发执行——如"打开淘宝,搜索蓝牙耳机,按销量排序",AI 会自动完成整套操作流程
- 支持上下文理解,可以进行多轮交互优化结果
技术架构亮点
| 技术维度 | 实现方案 | 说明 |
|---|---|---|
| UI 框架 | Jetpack Compose | 全新声明式 UI,动画流畅,易于扩展 |
| 自动化引擎 | Open-AutoGLM 模型 | 支持点击、滑动、输入等完整 UI 操作识别与执行 |
| 运行环境 | 虚拟屏幕 | 可在主屏幕或任意虚拟屏幕执行,支持熄屏后台运行 |
| 权限方案 | Shizuku / Shizuku Terminal | 支持无线调试、ADB、ROOT 多种授权方式,适配疑难设备 |
安装与部署指南
第一步:安装应用
从 GitHub Releases 页面下载最新 APK 直接安装。项目处于活跃开发期,建议定期关注更新以获取新功能和 Bug 修复。
第二步:激活 Shizuku(关键步骤)
Ruto 依赖 Shizuku 获取系统级权限,这是实现虚拟屏幕等高级功能的基础:
- 前往 Shizuku 官网,完成应用安装
- 根据设备情况选择激活方式(推荐:无线调试 > ADB > ROOT)
- 在 Shizuku 应用中为 Ruto 授予系统权限
特别说明:联发科设备用户若遇到启动问题,建议尝试最新的 Shizuku Terminal 授权方案,该问题已在 v1.0.0+ 版本修复。
第三步:配置 AI 模型
打开 Ruto,进入"模型"管理页面:
- 点击"新增模型"按钮
- 填入 API 地址、密钥等参数(支持 OpenAI 格式及多种国内模型:ChatGPT、Claude、文心一言、通义千问等)
- 保存后即可在对话中调用
第四步:运行自动化任务
纯对话模式:
- 新建对话,选择已配置的模型,开始聊天(仅对话,不执行操作)
自动化任务模式:
- 在任务设置中选择运行屏幕(主屏幕 或 虚拟屏幕)
- 若需后台运行,先新建虚拟屏幕,再将任务指定到该屏幕
- 输入自然语言指令,如"打开美团,找附近评分 4.5 以上的火锅店"
- AI 自动解析并在对应屏幕执行完整操作流程
适用场景与使用建议
基于 Ruto 的能力特性,以下场景特别适配:
- 内容采集与监控:后台自动刷新社交媒体、爬取数据,不影响主屏幕使用
- 表单自动填充:批量处理问卷、报名、数据录入等重复操作
- 应用测试:多屏并行测试,同时运行多个应用实例
- 定时任务:无需保持屏幕亮起,后台定时执行签到、领取等操作
- 个性化 AI 助手:打造专属的移动端 AI 工作流
与其他自动化工具的对比参考
| 工具名称 | 后台运行 | AI 集成 | 多开支持 | 学习成本 |
|---|---|---|---|---|
| Ruto-GLM | ✓ 真正后台 | ✓ 深度集成 | ✓ 原生级别 | 低(自然语言) |
| Auto.js | ✗ 占用主屏 | ✗ 需自开发 | △ 有限支持 | 中(JavaScript) |
| 按键精灵 | ✗ 占用主屏 | ✗ 无 | △ 功能有限 | 低(录制回放) |
| Island / 平行空间 | ✓ 间接后台 | ✗ 无 | ✓ 支持 | 低(开箱即用) |
总结与建议
在体验了众多 Android 自动化工具后,Ruto-GLM 给我的印象是:它不是在追求功能的"大而全",而是在解决一个根本性的问题——如何让自动化与日常使用并存。
虚拟屏幕架构、AI 深度融合、桌面级窗口管理,这些特性组合在一起,形成了一套相当完整的移动端自动化解决方案。
特别值得关注的是其自然语言驱动的交互方式——相比传统的脚本编写或按键录制,大大降低了使用门槛。
这对于希望快速构建个性化自动化工作流的用户非常友好。
当前项目处于活跃开发阶段,GitHub 上仍有功能迭代,如果你对移动端自动化有持续需求,或正在探索 AI 在移动设备上的应用空间,Ruto-GLM 值得纳入工具库进行实践。
建议从简单的对话模式开始体验,逐步尝试虚拟屏幕和自动化任务,找到最适合自己的使用方式。
Github地址:https://github.com/iamr0s/Ruto-GLM