最近在整理开源AI Agent项目时,发现了TuriX-CUA这个值得深入了解的开源方案。
作为一个持续跟踪AI产品演进的产品经理,我注意到这类"电脑操控Agent"的项目正逐渐从概念验证走向实用阶段。
TuriX-CUA在最近的版本更新中完成了跨平台扩展,并引入了多模型架构设计,这些变化反映出整个领域在可靠性上的进步。
今天想和大家梳理一下这个项目的核心能力、实际适用场景,以及使用中需要注意的关键问题。
项目定位
TuriX-CUA(Computer Use Agent)是一个基于Python的开源自动化Agent框架。

它通过三层循环来实现对计算机的自主操控:
- 感知层(See):定时截取屏幕画面
- 决策层(Think):将截图输入多模态大模型,获取下一步操作建议
- 执行层(Act):控制鼠标指针和键盘输入执行操作
这套机制的关键特点在于动态适应性——相比传统自动化脚本(基于固定坐标或UI路径),TuriX-CUA能够理解屏幕内容变化,处理弹窗、延迟加载等不确定因素。根据官方数据,最新版本在标准测试集上的任务完成率超过80%。
功能范围
跨平台覆盖:项目早期专注于macOS,2025年已扩展至Windows平台。

这个扩展对于主要使用Windows工作环境的用户群体意义重大。
已验证的应用场景:
| 平台 | 已验证场景示例 |
|---|---|
| macOS | 机票/酒店预订、Uber出行预约、iPhone价格查询、Pages文档创建与转发、Discord数据提取与PowerPoint图表插入 |
| Windows | YouTube视频搜索与点赞操作 |
MCP协议集成:TuriX-CUA支持Model Context Protocol标准,可作为工具插件集成到Claude for Desktop或Cursor等IDE中。这意味着你可以在这些应用中直接下达自然语言指令,由Claude通过MCP协议调度TuriX执行相应操作。例如:"帮我从网页查询最新AI新闻,整理成文档并通过企业IM发送给项目组"——这类多步骤、跨应用的任务可以通过一条指令完成。
架构设计:多Agent分工模式
最新版本引入了分层Agent架构:
- Planner(规划模块):负责任务拆解,将复杂目标分解为可执行的子步骤
- Executor(执行模块):负责具体的交互操作(点击、输入文本、滚动等)
这种"脑手分离"设计相比单模型方案的优势在于:
- 降低单一模型的认知负荷,减少模型"发散"(乱点击)的概率
- 规划和执行可独立优化,便于调试和迭代
- 提高对长链路任务的处理能力
部署与配置
环境准备
基础步骤:
conda create -n turix_env python=3.12
conda activate turix_env
git clone https://github.com/TurixAI/TuriX-CUA.git
cd TuriX-CUA
pip install -r requirements.txt
官方建议使用Conda而非pip直接安装,主要是为了隔离依赖环境,避免版本冲突。
模型配置
在examples/config.json中配置调用的视觉模型。项目提供了多种选择:
- 官方推荐:TuriX自有API(新注册用户可获初始额度)
- OpenAI兼容接口:支持GPT-4V、Claude Vision等
- 本地模型:通过修改
main.py中的build_llm函数,可集成Qwen3-VL、LLaVA等开源多模态模型
模型选择建议:基于使用经验,Qwen3-VL在UI界面识别精度上表现突出,尤其是对小图标和文本的定位准确率较高,值得在成本考虑的场景下优先尝试。
系统权限配置
TuriX需要获取屏幕录制、鼠标控制和键盘输入权限。这是使用过程中最容易遇到的问题:
macOS配置步骤:
- 系统设置 → 隐私与安全性 → 辅助功能,添加运行TuriX的终端/IDE
- 如操作Safari,需在Safari开发菜单中勾选"允许远程自动化"
- 首次运行时允许系统权限提示
Windows配置:权限申请流程相对简化,但需确保Python进程有屏幕录制权限。
任务定义
在config.json中定义任务:
{
"agent": {
"task": "打开浏览器,搜索iPhone 17 Pro价格,将结果记录到本地笔记"
}
}
然后执行:
python examples/main.py
项目现状与局限
优势:
- 跨平台支持范围逐步扩大
- 多模态模型的集成灵活性好
- MCP标准集成降低了与其他AI应用的协作门槛
- 开源代码可完全自定义
需要注意的点:
- 依赖模型质量:任务成功率直接受所用视觉模型的能力影响,80%的通过率是基于特定测试集,实际应用中复杂场景可能存在差异
- 执行速度:每次循环涉及截屏、模型推理、执行操作,对实时性要求高的场景(如游戏、金融交易)并不适合
- 学习成本:需要理解Python、JSON配置、系统权限等基础概念
- 生态完整性:Windows端的场景验证相对较少,部分应用的适配仍在进行中
类似项目对标
如果你对这类项目感兴趣,还值得关注的开源方案包括:
- Browser-Use:侧重浏览器自动化,学习曲线较平缓
- Anthropic Computers:官方出品,功能相对基础但稳定性好
- UFO(Windows):专注Windows应用操作,与TuriX-CUA在Windows端存在竞争
TuriX-CUA的核心优势在于跨平台一致性和多模型灵活性,特别适合需要在macOS和Windows间切换、或对模型成本有考虑的团队。
总结
TuriX-CUA代表了当前开源AI Agent在通用电脑操控上的一个实用化阶段。它不是"最强"或"最快"的方案,而是在跨平台支持、架构灵活性和生态集成上做了相对均衡的选择。
对于产品团队和开发者来说,这个项目的价值在于:
- 可以作为二次开发的基础框架,快速原型化自动化需求
- 通过MCP集成,能够增强现有IDE和AI助手的能力范围
- 源代码开放,便于针对特定业务场景的定制
如果你正在探索如何让AI处理重复性的办公任务,或者想在自己的产品中集成电脑自动化能力,TuriX-CUA是值得深入测试的方案。关键是做好成本评估(模型调用费用、部署维护)和场景界定(哪些任务真正适合自动化),而不是简单地追求自动化覆盖面。