对 AI Agent 的要求越来越高,除了写代码、查资料、帮忙规划执行任务,还想让它帮忙操作电脑,访问浏览器、填写表单、打开软件。但现实是,真让它接管时,鼠标和屏幕全被占了,我们反倒无法使用电脑,只能干等着。
直到在 GitHub 上看到 Cua 这个开源项目,已经斩获了 18000+ Star。

Cua 核心只做一件事:让 AI Agent 安全流畅地操作整个桌面系统。看屏幕、移动鼠标、键盘输入、运行命令、打开各种桌面软件全都可以。它支持操作 Linux、macOS、Windows 甚至安卓系统,运行环境可放到云端或本地。
只需几行代码,就能建立起一个沙箱,类似一台虚拟电脑,让 Agent 在这里面进行操作。这样 Agent 不会抢占真实电脑上的鼠标焦点,也不会影响用户的任何操作。
如果想查看 Agent 在沙箱里的操作,可以通过 Cua 内置的 VNC 服务,在浏览器里打开一个窗口,实时查看 Agent 在虚拟电脑系统上的操作。也可以通过 MCP 接入 Claude Code、Codex 等 Agent 工具,下达指令指挥它操作。全程在本地机器上运行,不会把屏幕里的数据往外传,隐私安全有保障。

Cua 不止是一个单一工具,而是一整套 Agent 操作系统。通过 Sandbox 来管理跨系统的运行环境,用 Driver 进行后台操控,Cua-Bench 拿来评测和训练 Agent,Lume 专门创建虚拟 macOS。

除此之外,Cua 还有一个贴心设计:能给系统状态建立快照。万一某个任务中途执行失败,还能照原样复现回来,调试时能省心不少。
所以 Cua 不仅适合个人用来提升生产力,团队也能用它做大批量训练、评测 Computer Use Agent 的底座,比如跑 UI 自动化测试、批量处理桌面重复操作、给 Agent 积累训练数据等。Google DeepMind、Nous Research 的 Hermes、Snorkel 等知名团队都在使用。

Cua 团队刚发表一篇博客,讲述使用 Cua-Bench 基准评测集测试 Gemini 3.5 Flash 的 Computer Use 表现。在 KiCad 设计的自动化操作任务共 25 个,将 Gemini 3.5 Flash 与 Claude Opus 4.8、GPT 5.5、Gemini 3.5 Pro 等顶级大模型进行横向测试对比,结果显示 Gemini 3.5 Flash 得分最高,比 GPT 5.5、Claude Sonnet 4.5 等模型都要好。

如何上手体验
Cua 支持 macOS、Windows 和 Linux 系统,一条命令即可安装:
macOS 和 Linux:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
Windows(PowerShell):
irm https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1 | iex
安装后接入到 Claude Code 或 Codex 等支持 MCP 服务器的 Agent 工具:
claude mcp add --transport stdio cua-driver -- cua-driver mcp
注意:目前 Linux 系统还处于预发布状态,建议在 Windows 或 macOS 上安装体验。

为什么值得关注
Agent 的瓶颈正从「脑子」挪到「动手」,而操作电脑恰好是动手这关里最硬的一块骨头。盯着这块的大厂不少,Anthropic 的 Claude Computer Use、OpenAI 的 Operator、Google 的 Project Mariner,都在往这个方向探索。但他们走的是闭源道路,对数据安全能否得到保障难以确认。
Cua 选择开源,采用 MIT 协议,允许商用,可部署到自己的服务器或机器上使用。数据和执行过程全都自己说了算,不绑定在某一家厂商身上,不按次数掏钱。
现在的 Computer Use 有点像五年前的浏览器自动化,谁先探索明白,谁就先把这波红利攥手里。
GitHub 项目地址:github.com/trycua/cua