Hermes + Android Bridge 可以把 Android 手机变成一个可读屏、可点击、可输入、可远程操控的 AI 自动化终端。核心思想是让 Hermes Agent 负责思考和规划,让 Android Bridge 负责看屏幕、点屏幕、输文字和回传结果。
方案速览
Hermes 官方已经提供 Android / Termux 的安装路径,说明可以直接在 Android 手机上通过 Termux 运行 Hermes CLI 和核心能力。而 Hermes Android Bridge 则是一个独立桥接项目,用来让 Hermes 与 Android 设备交互,手机端通过权限能力执行读屏、点击、输入、滑动、截图等动作。

核心原理
调用链路
在 hermes-android 的设计中,Python 侧会暴露一组 android_* 工具,例如 android_tap、android_tap_text、android_type、android_swipe、android_open_app、android_screenshot 等。这些工具本质是 HTTP client,默认请求本地 localhost:8766 的 relay,再由 relay 转发给手机端。
Hermes Android Bridge 不是修改 Hermes 内核,而是通过插件方式接入。


例如用户说:打开设置,截图当前页面并描述。Hermes 可能会拆成:android_open_app("设置")、android_screenshot()、分析截图、返回总结。这就是 Agent 自动化的关键:大模型负责决策,工具负责执行。
手机执行读屏
Bridge App 依赖 Android 的无障碍服务,也就是 AccessibilityService。它可以读取当前窗口的 UI 树,包括按钮、文本、输入框和可点击区域。这些信息会被整理成结构化节点树返回给 Hermes,这样 Hermes 就能知道当前屏幕上有什么内容。

手机点击输入
截图或录屏则依赖 Android 的屏幕捕获能力,例如 MediaProjection 或无障碍截图 API。Bridge 项目文档中也明确提到需要授权无障碍、悬浮窗、屏幕录制以及部分运行时权限。

时序图
工具调用时序图解释了为什么 Agent 能调用手机。

部署方式
手机本地
如果要让 Android 手机自己运行 Hermes,推荐路径是 Termux 运行 Hermes。基本安装流程包括安装 Termux、安装依赖、配置 Hermes。


再启动 Hermes。在 Hermes 对话里输入:Connect to my phone, code is XXXXXX。其中 XXXXXX 是 Bridge App 显示的 6 位配对码。

同一台手机上,Termux 和 Bridge App 可以通过本机地址通信。这就是手机本地方案的核心:Hermes 在 Termux 里跑,Bridge App 在 Android 系统里跑,两者通过本机网络连接。
PC 或 WSL 远程控制
Hermes 也可以运行在 PC、WSL、VPS 或 Linux Server 上,手机只安装 Bridge App。手机主动连接 relay,因此对 NAT 环境更友好。不一定需要让外部主动访问手机,是手机向外连服务器,不需要给手机开公网端口。

两种部署比较

方案 A(手机本地部署):Hermes 运行在 Android 手机上的 Termux 环境中,Relay 与 Bridge App 通过本机地址 127.0.0.1:8766 通信。
方案 B(PC 远程部署):Hermes 运行在 PC / WSL / VPS 上,Android 手机上只安装 Android Bridge App。Relay 通过 WebSocket 与手机保持长连接,实现远程控制。
能做什么
手机操作能力
Hermes + Android Bridge 能力可以分为几类:

例如可以让它完成:打开某个测试 App 并截图、读取当前页面文字、点击登录按钮、向输入框填写测试账号、滑动页面查找指定内容、读取通知并总结。
这些动作都不是 Hermes 直接做的,而是 Hermes 通过 android_* 工具发指令,由 Bridge App 使用 Android 权限执行。
推荐应用场景
这个方案的最大价值是:最快把一台 Android 手机变成可被 AI Agent 操作的智能终端。但不建议直接把它当作企业级自动化测试主平台。

苏米注:这个方案很实用,特别是对于需要手机端自动化测试或远程操控的场景。手机本地方案适合想体验和测试的用户,而 PC 远程部署更适合生产环境。权限配置比较麻烦,需要仔细按照文档操作。