当前位置：首页 » AI工具集合

9 个开源 AI 控制电脑项目合集：AI正常从终端到桌面控制进化

2小时前 AI工具集合 10 0

作为一名产品经理，在浏览和体验了大量 AI 控制电脑的开源项目后，我发现这个领域正经历从单点工具向完整框架的演进。

这些项目的核心差异不在于"有多强大"，而在于采用的技术路线、适配的操作系统、以及解决的具体问题场景各不相同。

我整理了以下 10 个代表性项目，按照技术特征和适用场景分类呈现。

01. Open Interpreter

简介：一个本地代码解释器，让 AI 大模型直接在终端中运行代码并控制电脑。GitHub 星数：61K+

功能特色：

支持 Python、JavaScript、Shell 等多种语言的本地执行
通过对话界面与模型交互，无需复杂的脚本编写
具备网络访问能力，支持自由联网（不限于必应搜索）
支持本地文件操作：批量重命名、格式转换、Excel 处理等
支持系统级控制：打开应用、发送邮件、修改系统设置
兼容本地模型（如 Ollama、Jan），数据不上传云端，隐私可控
示例应用场景：系统配置自动化、大型数据表格分析与可视化

项目地址：https://github.com/openinterpreter/open-interpreter

02. OmniParser（微软开源）

简介：专门用于屏幕解析的工具，将截图转化为结构化数据，是构建 GUI Agent 的核心视觉组件。V2 版本在 Hugging Face 获得广泛关注。

功能特色：

Detect 阶段：通过 YOLO 模型精准框选屏幕上的可交互元素（按钮、输入框、图标、侧边栏），对微小图标也能精确识别
Caption 阶段：使用 Florence-2 或 BLIP-2 模型为每个框选元素生成功能描述（如"搜索图标""设置按钮"）
Grounding 阶段：将坐标和描述传递给 GPT-4V 或 DeepSeek，建立大模型与屏幕元素的映射关系
可视为连接大模型与电脑屏幕的高精度感知接口

项目地址：https://github.com/microsoft/OmniParser

03. Self-Operating Computer

简介：一个开源框架，使多模态 AI 模型能像人类一样操作计算机。GitHub 星数：10K+

功能特色：

通过屏幕截图进行视觉识别，调用系统鼠标和键盘接口（基于 pyautogui 库）
跨平台支持：macOS、Windows、Linux
OCR 模式：为屏幕上的可点击元素生成坐标哈希图，提高点击准确率
Set-of-Mark (SoM) 提示：在 UI 元素上标记数字标签，模型仅需输出数字即可定位，类似特斯拉自动驾驶的视觉标注方式
支持语音输入指令，增加交互便捷性

项目地址：https://github.com/OthersideAI/self-operating-computer

04. Agent-S

简介：前沿的 GUI 智能体框架，首个在 OSWorld 基准测试上超越人类水平的模型（评分 72.60%）。GitHub 星数：9K+

功能特色：

经验增强的层次化规划：不是逐步盲目操作，而是先搜索外部知识（如在线教程）和检索内部记忆，将大任务分解为子任务
Agent-计算机接口：不直接处理原始像素，而是通过中间层更精确地感知 GUI 元素
双重记忆机制：叙事记忆存储高层次任务经验，情景记忆存储具体操作步骤，使用频次越多越擅长处理复杂任务
更接近人类认知过程的决策架构

项目地址：https://github.com/simular-ai/Agent-S

05. UFO（微软开源）

简介：为 Windows 生态深度定制的原生级智能体系统，不仅依赖屏幕视觉，还能调用底层系统接口。

功能特色：

结合视觉方案与底层 API：Windows UI Automation、Win32、COM API
不仅截图识别，还能直接读取控件树，获知按钮名称、状态、隐藏属性等深层信息
点击准确率显著高于纯视觉方案
针对 Office 全家桶、文件资源管理器等常用软件优化
双代理架构：AppAgent 和 OSAgent 分别处理应用内部逻辑和操作系统级操作
支持跨应用复杂流程：如从 PPT 提取内容并发邮件
仅支持 Windows 平台

项目地址：https://github.com/microsoft/UFO

06. Cradle（智源研究院 BAAI 开源）

简介：让 AI 智能体仅通过屏幕截图和标准输入/输出接口操作任何软件和游戏，无需后端 API 或代码访问。

功能特色：

应用场景覆盖广：可玩《荒野大镖客》《城市天际线》等游戏，也可操作飞书、Chrome、剪映等专业软件
标准化框架设计：
感知模块：提取屏幕中的关键信息，识别 UI、图标、文本或 3D 场景
决策与规划：根据任务目标和屏幕状态规划下一步行动
自我反思：操作失败时分析原因并修正策略
记忆系统：短期记忆记录最近操作序列，长期记忆存储成功经验和工具手册（RAG）
执行模块：将规划转换为键盘和鼠标指令

项目地址：https://github.com/BAAI-Agents/Cradle

07. OS-Copilot

简介：一个构建通用操作系统代理的框架，核心 Agent 为 FRIDAY，强调自我学习和自我改进能力。

功能特色：

能处理从未接触过的应用程序
通过自我改进机制学习如何操作 Excel、PPT、网页浏览等常见任务
目标是创建无缝集成到操作系统中的个人助理
重点在于 Agent 的自我学习能力而非预先优化

项目地址：https://github.com/OS-Copilot/OS-Copilot

08. ShowUI

简介：轻量级端到端视觉-语言-动作（Vision-Language-Action）模型，专为 GUI 智能体设计。

功能特色：

解决大模型处理 UI 界面时的高延迟和计算成本问题
模型小巧高效，适合本地部署
提供低延迟的 UI 自动化控制
更快速、更精准的屏幕元素定位和操作
适合对性能敏感的场景

项目地址：https://github.com/showlab/ShowUI

09. UI-TARS Desktop（字节跳动开源）

简介：基于 UI-TARS 视觉语言模型的 GUI 智能体桌面应用，支持通过自然语言直接控制计算机。

功能特色：

端到端视觉模型架构，无需复杂中间代码解析
直接像人类一样看屏幕并操作鼠标键盘
开箱即用，降低部署门槛
支持远程计算机控制
跨平台：Windows 和 macOS
代表当前较新的高性能 GUI Agent 实现方向

项目地址：https://github.com/bytedance/UI-TARS-desktop

总体观察

这 9 个项目反映了 AI 控制电脑领域的三条主要技术路线：

1. 纯视觉方案（Self-Operating Computer、ShowUI、UI-TARS Desktop）—— 通过屏幕截图和深度学习模型理解 UI，跨平台通用但需要较强的视觉模型能力。

2. 混合方案（UFO、OmniParser）—— 结合系统级 API 与视觉识别，牺牲通用性换取准确度和性能，多见于特定生态（如 Windows）的优化。

3. 框架与记忆方案（Agent-S、Cradle、OS-Copilot）—— 强调多模块协作、记忆机制和自适应学习，处理更复杂的多步骤任务。

选择哪个项目取决于你的实际需求：

如果追求快速原型和跨平台支持，Open Interpreter 和 Self-Operating Computer 是较好的起点；

如果专注于 Windows 环境的生产级应用，UFO 和 OmniParser 的组合更稳定；

如果需要处理复杂、长序列任务，Agent-S 和 Cradle 的架构设计更完善。

这个领域仍在快速迭代，没有绝对的"最优"选择，只有最匹配场景的方案。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：9 个开源 AI 控制电脑项目合集：AI正常从终端到桌面控制进化

#AI 控制电脑 #开源项目

请登录后发表评论

9 个开源 AI 控制电脑项目合集：AI正常从终端到桌面控制进化

01. Open Interpreter

02. OmniParser（微软开源）

03. Self-Operating Computer

04. Agent-S

05. UFO（微软开源）

06. Cradle（智源研究院 BAAI 开源）

07. OS-Copilot

08. ShowUI

09. UI-TARS Desktop（字节跳动开源）

总体观察

文章目录

关注「苏米客」公众号