10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI工具集合

9 个开源 AI 控制电脑项目合集:AI正常从终端到桌面控制进化

2小时前 AI工具集合 10 0

作为一名产品经理,在浏览和体验了大量 AI 控制电脑的开源项目后,我发现这个领域正经历从单点工具向完整框架的演进。

这些项目的核心差异不在于"有多强大",而在于采用的技术路线、适配的操作系统、以及解决的具体问题场景各不相同。

我整理了以下 10 个代表性项目,按照技术特征和适用场景分类呈现。

01. Open Interpreter

简介:一个本地代码解释器,让 AI 大模型直接在终端中运行代码并控制电脑。GitHub 星数:61K+

功能特色:

  • 支持 Python、JavaScript、Shell 等多种语言的本地执行
  • 通过对话界面与模型交互,无需复杂的脚本编写
  • 具备网络访问能力,支持自由联网(不限于必应搜索)
  • 支持本地文件操作:批量重命名、格式转换、Excel 处理等
  • 支持系统级控制:打开应用、发送邮件、修改系统设置
  • 兼容本地模型(如 Ollama、Jan),数据不上传云端,隐私可控
  • 示例应用场景:系统配置自动化、大型数据表格分析与可视化

项目地址:https://github.com/openinterpreter/open-interpreter

02. OmniParser(微软开源)

简介:专门用于屏幕解析的工具,将截图转化为结构化数据,是构建 GUI Agent 的核心视觉组件。V2 版本在 Hugging Face 获得广泛关注。

功能特色:

  • Detect 阶段:通过 YOLO 模型精准框选屏幕上的可交互元素(按钮、输入框、图标、侧边栏),对微小图标也能精确识别
  • Caption 阶段:使用 Florence-2 或 BLIP-2 模型为每个框选元素生成功能描述(如"搜索图标""设置按钮")
  • Grounding 阶段:将坐标和描述传递给 GPT-4V 或 DeepSeek,建立大模型与屏幕元素的映射关系
  • 可视为连接大模型与电脑屏幕的高精度感知接口

项目地址:https://github.com/microsoft/OmniParser

03. Self-Operating Computer

简介:一个开源框架,使多模态 AI 模型能像人类一样操作计算机。GitHub 星数:10K+

功能特色:

  • 通过屏幕截图进行视觉识别,调用系统鼠标和键盘接口(基于 pyautogui 库)
  • 跨平台支持:macOS、Windows、Linux
  • OCR 模式:为屏幕上的可点击元素生成坐标哈希图,提高点击准确率
  • Set-of-Mark (SoM) 提示:在 UI 元素上标记数字标签,模型仅需输出数字即可定位,类似特斯拉自动驾驶的视觉标注方式
  • 支持语音输入指令,增加交互便捷性

项目地址:https://github.com/OthersideAI/self-operating-computer

04. Agent-S

简介:前沿的 GUI 智能体框架,首个在 OSWorld 基准测试上超越人类水平的模型(评分 72.60%)。GitHub 星数:9K+

功能特色:

  • 经验增强的层次化规划:不是逐步盲目操作,而是先搜索外部知识(如在线教程)和检索内部记忆,将大任务分解为子任务
  • Agent-计算机接口:不直接处理原始像素,而是通过中间层更精确地感知 GUI 元素
  • 双重记忆机制:叙事记忆存储高层次任务经验,情景记忆存储具体操作步骤,使用频次越多越擅长处理复杂任务
  • 更接近人类认知过程的决策架构

项目地址:https://github.com/simular-ai/Agent-S

05. UFO(微软开源)

简介:为 Windows 生态深度定制的原生级智能体系统,不仅依赖屏幕视觉,还能调用底层系统接口。

功能特色:

  • 结合视觉方案与底层 API:Windows UI Automation、Win32、COM API
  • 不仅截图识别,还能直接读取控件树,获知按钮名称、状态、隐藏属性等深层信息
  • 点击准确率显著高于纯视觉方案
  • 针对 Office 全家桶、文件资源管理器等常用软件优化
  • 双代理架构:AppAgent 和 OSAgent 分别处理应用内部逻辑和操作系统级操作
  • 支持跨应用复杂流程:如从 PPT 提取内容并发邮件
  • 仅支持 Windows 平台

项目地址:https://github.com/microsoft/UFO

06. Cradle(智源研究院 BAAI 开源)

简介:让 AI 智能体仅通过屏幕截图和标准输入/输出接口操作任何软件和游戏,无需后端 API 或代码访问。

功能特色:

  • 应用场景覆盖广:可玩《荒野大镖客》《城市天际线》等游戏,也可操作飞书、Chrome、剪映等专业软件
  • 标准化框架设计:
  • 感知模块:提取屏幕中的关键信息,识别 UI、图标、文本或 3D 场景
  • 决策与规划:根据任务目标和屏幕状态规划下一步行动
  • 自我反思:操作失败时分析原因并修正策略
  • 记忆系统:短期记忆记录最近操作序列,长期记忆存储成功经验和工具手册(RAG)
  • 执行模块:将规划转换为键盘和鼠标指令

项目地址:https://github.com/BAAI-Agents/Cradle

07. OS-Copilot

简介:一个构建通用操作系统代理的框架,核心 Agent 为 FRIDAY,强调自我学习和自我改进能力。

功能特色:

  • 能处理从未接触过的应用程序
  • 通过自我改进机制学习如何操作 Excel、PPT、网页浏览等常见任务
  • 目标是创建无缝集成到操作系统中的个人助理
  • 重点在于 Agent 的自我学习能力而非预先优化

项目地址:https://github.com/OS-Copilot/OS-Copilot

08. ShowUI

简介:轻量级端到端视觉-语言-动作(Vision-Language-Action)模型,专为 GUI 智能体设计。

功能特色:

  • 解决大模型处理 UI 界面时的高延迟和计算成本问题
  • 模型小巧高效,适合本地部署
  • 提供低延迟的 UI 自动化控制
  • 更快速、更精准的屏幕元素定位和操作
  • 适合对性能敏感的场景

项目地址:https://github.com/showlab/ShowUI

09. UI-TARS Desktop(字节跳动开源)

简介:基于 UI-TARS 视觉语言模型的 GUI 智能体桌面应用,支持通过自然语言直接控制计算机。

功能特色:

  • 端到端视觉模型架构,无需复杂中间代码解析
  • 直接像人类一样看屏幕并操作鼠标键盘
  • 开箱即用,降低部署门槛
  • 支持远程计算机控制
  • 跨平台:Windows 和 macOS
  • 代表当前较新的高性能 GUI Agent 实现方向

项目地址:https://github.com/bytedance/UI-TARS-desktop

总体观察

这 9 个项目反映了 AI 控制电脑领域的三条主要技术路线:

1. 纯视觉方案(Self-Operating Computer、ShowUI、UI-TARS Desktop)—— 通过屏幕截图和深度学习模型理解 UI,跨平台通用但需要较强的视觉模型能力。

2. 混合方案(UFO、OmniParser)—— 结合系统级 API 与视觉识别,牺牲通用性换取准确度和性能,多见于特定生态(如 Windows)的优化。

3. 框架与记忆方案(Agent-S、Cradle、OS-Copilot)—— 强调多模块协作、记忆机制和自适应学习,处理更复杂的多步骤任务。

选择哪个项目取决于你的实际需求:

如果追求快速原型和跨平台支持,Open Interpreter 和 Self-Operating Computer 是较好的起点;

如果专注于 Windows 环境的生产级应用,UFO 和 OmniParser 的组合更稳定;

如果需要处理复杂、长序列任务,Agent-S 和 Cradle 的架构设计更完善。

这个领域仍在快速迭代,没有绝对的"最优"选择,只有最匹配场景的方案。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:9 个开源 AI 控制电脑项目合集:AI正常从终端到桌面控制进化
#AI 控制电脑 #开源项目 
收藏 1
7 个最新 AI 模型,一周模型上新速览清单
AI Couple:30 秒生成超逼真情侣照 & 吻抱视频的神器
推荐阅读
  • 6款AI流程图、AI图表工具合集,免费开源方案对比指南
  • 20款核心AI API 开发人员必备,涵盖文本生成、语音处理、图像识别、视频编辑四大领域
  • 5款AI Agent开源项目,无需邀请码开源AI 智能体,Manus 平替!
  • 全面拆解:四大LLM应用平台深度对比!Dify、Coze、FastGPT、RAGFlow谁更适合你?
  • 8 款 AI 翻译浏览器插件,沉浸式翻译助你轻松阅读网页
评论 (0)
请登录后发表评论
分类精选
12款国内外最全AI绘画工具推荐,AI文生图工具深度测评与场景化对比
31619 8月前
2025开源AI数字人工具指南:8大免费开源神器带你免费解锁可商用的AI数字人
27971 8月前
15款国内免费好用的AI写作神器合集,2025超干货! Ai写作工具推荐,支持论文长文
25444 12月前
2025年普通人必须要知道的15个AI工具,可以让日常工作效率大幅度提升
19673 11月前
8 款 AI 翻译浏览器插件,沉浸式翻译助你轻松阅读网页
15974 1年前
8 款热门 AI 图片+视频生成工具:文生图、文生视频、图生视频
11824 1年前
2025年热门好用的 AI换脸工具大全,适合内容创作者、视频剪辑师、特效制作、AI 爱好者使用
10486 6月前
5款开源TTS,零样本声音克隆,克隆你想要的声音,快速本地部署(含一键包下载)
10190 9月前
n8n进阶指南:精选10个n8n AI 工作流模板,效率翻了100%!附模板包下载
9856 6月前
谁会成为下一个Cursor的平替,盘点 8 款可用 Claude 4 的AI编程工具
8470 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 9 个开源 AI 控制电脑项目合集:AI正常从终端到桌面控制进化
2 6个AI流程图、信息图、演示文稿生成合集(AI配图邪修版)
3 6款AI流程图、AI图表工具合集,免费开源方案对比指南
4 这6款AI数据分析工具建议收藏,2026 AI 数据分析工具清单
5 AI画原型工具哪家强?6款AI画原型工具对比:产品经理的设计效率新选择
6 必须收藏!打破信息差,6个免费资源让你系统学习AI智能体开发
7 10款AI PPT制作工具对比评测:功能、价格与适配场景分析
8 7款开源AI知识库工具,AI产品经理必备!
9 15款AI编程工具分类指南:IDE、CLI、Vibe与Agent四大流派对比
10 10个AI智能体开源项目合集:代码生成、多体协作、低代码开发全覆盖
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联