10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

Cua 开源项目:让 AI Agent 安全控制桌面的三层架构(1.7万 Star)

1小时前 AI开源项目 11 0

Cua 是一个开源项目,短短几个月在 GitHub 上收获了 1.7 万+ Star。它由曾在 Xbox 和 Microsoft AI 工作的开发者创建,后加入 YC 创业。Cua 的核心目标是:让 AI Agent 安全地控制整个桌面系统,就像在操作一台虚拟电脑一样。

截图、点击、打字、跑命令都可以。而且这台虚拟电脑是完全隔离的,AI 干什么都不会影响到你真实的电脑。

图片 1

图片 2

AI 真的在用电脑

最简单的使用方式是运行 Cuabot:

npx cuabot

它会弹出一个可视化窗口,让你亲眼目睹 Agent 在沙盒中是如何操作桌面的。

图片 3

你能看到:

  • AI 在独立窗口操作虚拟桌面
  • 截图、点击、输入文字
  • 执行命令行操作
  • 和主机共享剪贴板

整个过程就像看着一个数字员工在工作。而且,在后台工作的时候,你的电脑不会受到影响——你可以继续写代码、看视频、回信息,互不影响。

Cua 最主要的功能就是使 AI 在隔离环境中安全地进行桌面操作,不会影响到你的实际机器。

三层架构:Agent、SDK、Sandbox

Cua 的核心思想是三层结构:上面是 AI Agent,中间是统一的 Computer SDK,下面是沙盒层。

图片 4

不管底层使用什么虚拟化技术,对于 AI 来说都是相同的接口。写一次代码就可以在不同的系统中运行。

该设计的优点是:

  • 统一接口:不需要关心底层是 macOS、Windows、Linux 还是 Android
  • 安全隔离:所有的 AI 操作都放在沙盒中,不会影响到主机
  • 灵活部署:可以使用云沙盒,也可以本地虚拟化

值得一提的是,Cua 不仅支持桌面系统,还支持移动端。Android 可以通过云沙盒或本地虚拟化运行,iOS 也通过 agent-device 内置支持。这意味着 AI Agent 可以像操作电脑一样操作手机,执行手势、点击、滑动等操作。

图片 5

四大核心能力

01 Cua Driver:后台控制,不抢夺光标

后台桌面控制程序。可以在后台控制原生桌面应用程序,不会占用你的光标、焦点。AI 在工作的时候,你还可以继续使用电脑做其它的事情。

macOS、Windows 系统都可以正常使用,Linux 还处于预发布状态。

图片 6

02 Cua Sandbox:隔离沙盒,热启动不到 1 秒

沙盒环境可以使用云沙盒也可以用本地虚拟化的方式。macOS 上有一个叫做 Lume 的组件,它是用 Apple Virtualization.Framework 开发的,可以达到原生 CPU 97% 的速度。Apple Silicon 用户会很开心。

支持快照、Fork。保持一个干净的状态,从这个快照中克隆出多个并行的实例,让几百个 Agent 同时运行不同的任务。

图片 7

03 Cuabot:给编码 Agent 提供无缝沙盒

多 Agent 协作工具。可以使用 Claude Code、OpenClaw 或者其他的图形化工作流。

单独创建一个窗口来原生显示在桌面上,使用 H.265 编码,还可以和主机共享剪贴板以及支持音频。

图片 8

04 Cua-Bench:用 OSWorld 基准来对 Agent 进行测试

评测基准模块。支持 OSWorld、ScreenSpot、WindowsArena 等主流基准,并可以导出 Agent 执行轨迹来训练。

想要大规模测试,可以使用 CLI 工具并行启动几百个 Agent,把数据喂给强化学习。

图片 9

快速上手

macOS 或者 Linux,一条命令就可以安装好 CuaDriver:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"

Windows 使用 PowerShell:

irm https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1 | iex

使用 pip 命令安装 Python SDK:

pip install cua

Cuabot 快速体验:

npx cuabot

给一个可视化的窗口,看到 Agent 在沙盒中是如何操作桌面的。

图片 10

已知限制

  • Linux 的支持目前还处于预发布状态
  • macOS 上 Rust 版本和 Swift 版本还没有对齐,生产环境建议使用 Swift 版本
  • 使用 MCP Server 需要有效的模型 API Key

苏米注:如果你主要是用 Mac 或者 Windows,想要让 AI Agent 来帮你跑 GUI 任务,并且又不希望把主机暴露出来的话,那么 Cua 就可以帮到你。它的三层架构设计让 AI 操作桌面的方式变得统一且安全。

总结

以前我们认为 AI 可以写代码、画图、聊天,但是缺少一个环节——AI 能不能用电脑?不是调用 API、不是运行脚本,而是像人一样看屏幕、移动鼠标、点击按钮、输入文字。

Cua 给了一个轻量级的开源方案。它为 AI Agent 提供了一个安全的操作环境,使 AI 可以像数字员工一样真正地"使用"电脑,而不是"访问"电脑。这一切都在沙盒中进行,并不会影响到你的电脑。

该项目使用的是 MIT 许可协议。

开源地址:github.com/trycua/cua

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Cua 开源项目:让 AI Agent 安全控制桌面的三层架构(1.7万 Star)
#Cua #AI Agent #开源项目 #桌面控制 #沙盒 
收藏 1
Codex 发布 6 大角色插件包:非程序员也能让 AI 替你干活
WorkBuddy 三大新功能:连接器、专家团、灵感,重塑 AI 助手体验
推荐阅读
  • awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
  • Understand-Anything:一周 2.6 万 Star,代码库秒变知识图谱,Token 省一半
  • CloudBase AI CLI:又一款命令行开发工具来了,这次有点不一样(附安装教程)
  • Agent-Browser:为 AI Agents 优化的浏览器自动化CLI方案,减少 93% 上下文,强!
  • SeekDB:一款AI原生的混合搜索数据库!还支持MCP
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9401 7月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9150 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7187 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6403 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6271 8月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6154 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6047 7月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
5892 5月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5612 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5539 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 SoulX-Transcriber 开源多人对话转录模型:端到端架构,性能登顶公开基准测试
2 Cua 开源项目:让 AI Agent 安全控制桌面的三层架构(1.7万 Star)
3 OmniVoice Studio:免费开源AI语音生成工具,3秒克隆音色+视频自动配音
4 MarkItDown:微软开源文档转Markdown工具,14万Star助力AI数据处理
5 Lingji Cut(灵剪):开源本地优先的 AI 视频全链路创作工作台
6 claude-tap:AI Agent 的流量监控与 Token 分析利器
7 Understand-Anything:4.7 万 Star 的开源代码理解工具,快速梳理老旧项目
8 html-anything:从 Markdown 到精美 HTML,只需要点一点(附 75 个模板)
9 OpenSquilla:智能路由 + MetaSkill,让 Agent 省钱又稳定执行的开源方案
10 Understand-Anything:一周 2.6 万 Star,代码库秒变知识图谱,Token 省一半
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联