如果 AI 工具不能真的帮我干活,它的参数再厉害也没有任何用。
当我想要让 AI 帮我把一组数据填入表格中时,普通 AI 只是把数据列成了表,最后还是要我手动复制到表格文件中。而通用智能体是这样处理的——它直接联网学习了一个创建表格的技能,然后调用该技能,在我的电脑桌面创建了一个已经填好数据的表格。
通用智能体就相当于长了手脚的 AI:AI 能帮你思考,而通用智能体则真的可以替你操作鼠标和键盘,帮你完成工作。
但说实话,目前国产通用智能体工具非常多,至于哪些真正好用,还要打个问号。所以今天我们就来做一场国产通用智能体大横评,看看到底谁真的能帮我们解决具体问题。

📌 苏米注:2026 年是通用智能体(General Agent)从概念走向落地的关键年。与普通的 AI 聊天助手不同,通用智能体的核心能力是"Computer Use"——能直接操作你的电脑、浏览器、应用程序,完成跨平台的复杂任务。百度、腾讯、阿里等大厂纷纷入局,但产品形态和使用体验差异巨大。这篇横评用同一份任务实测 4 款头部产品,非常有参考价值。
选手登场
这次横评挑选了四位比较具有代表性的选手:
| 工具 | 背后团队 | 定位 |
|---|---|---|
| 百度搭子 DuMate | 百度 | AI 办公助手,深度整合百度生态 |
| WorkBuddy | 腾讯 | 腾讯云出品,连接一切应用 |
| QoderWork | 阿里 | 本地执行,自主规划的 AI 工作助手 |
| QClaw | 开源社区 | 完全免费,随时随地高效干活 |
测试维度
从六个维度对这些国产通用智能体进行测试:
| 维度 | 测试重点 |
|---|---|
| 上手门槛 | 操作体感、新手开箱即用、是否需要配置环境变量 |
| 交付质量 | 能否生成真实 Office 原生文件,交付物是否可直接使用 |
| 稳定性 | 批量操作 120 个文件时是否中断、报错或逻辑混乱 |
| 任务完成率 | 能否真正完成任务闭环,跨平台抓取→整理→自动填表 |
| 接管可控性 | 执行中被打断或报错后,能否自主回到任务中 |
| 使用成本 | 套餐价格与性价比对比 |
每个任务只给一次执行机会,评分 0⭐ 到 5⭐。
一、上手门槛
这些国产工具整体差距不大,都不需要配置复杂的环境变量,都能做到开箱即用。
需要注意的不足:
- WorkBuddy 和 CodeBuddy 共用官网,WorkBuddy 只是导航栏中的一个分支
- QoderWork 和 Qoder 公用官网,重视程度略弱;虽然背靠阿里系,但很少集成阿里生态能力
- QoderWork 只支持旗舰和标准两种模型模式切换
- 百度搭子 DuMate 不支持任何切换模型操作(降低选择成本,也算优点)
综合评分:
| 工具 | 上手门槛评分 |
|---|---|
| 百度搭子 DuMate | 5⭐ |
| WorkBuddy | 4.5⭐ |
| QClaw | 5⭐ |
| QoderWork | 4.5⭐ |
二、交付质量
任务:起草一份符合法律逻辑的《手持风扇采购返佣合同》。
要求:生成规范、可编辑、可打印的 Word 文件,标题加粗居中、条款序号对齐、带页码的专业排版。
百度搭子 DuMate
会主动询问需求细节,弹出一个定制表单让选择返佣模式。之后直接自动调用 Word 创建文件,保存在默认工作空间中。合同格式非常正规,该有标题的地方有标题,该加粗的加粗,还有表格明细,甚至有浅色页码和功能表头。

WorkBuddy
没有交付 Word 文档,而是给了 .md 格式的文档。.md 是方便 AI 阅读的格式,但在正规办公场合中通常不会使用。这波有点偷懒了,没有调用 Office 技能。
QClaw
和传统对话式 AI 拉不开太大差距,没有调用办公插件创建 Word 文档,直接用文本回复了。不过在最后询问要不要导出为 Word 文档,说明它是可以做到的,只是产品逻辑更被动一些,需要引导更精确。
QoderWork
处理流程和百度搭子 DuMate 类似,收到任务后先分析需求,给出选项,等细节确定后再进行下一步。顺利完成任务,文件保存到默认工作目录,整体完成度非常高。

交付质量评分:
| 工具 | 交付质量评分 |
|---|---|
| 百度搭子 DuMate | 5⭐ |
| QoderWork | 5⭐ |
| QClaw | 3.5⭐ |
| WorkBuddy | 3.5⭐ |
三、稳定性
任务:准备了一个装有 120 个各类文件的文件夹(视频、图片、动图、文本文档、游戏安装包),要求识别每个文件的类型和日期,并将它们移动到分类后的文件夹中。
各工具表现
QoderWork:顺利完成,每个分类下的文件都按照时间进行了划分。特点是先询问确认再进行下一步,非常谨慎。
WorkBuddy:远超预期地完成。不仅创建了图表统计文件类型,而且在"未分类"文件夹内部创建分类子文件夹(而非同级),执行逻辑更彻底——哪怕相同时间中只存在一个文件也会创建文件夹存放。
百度搭子 DuMate:顺利完成。分类逻辑是先按文件类型创建文件夹,再在分类中创建时间文件夹排序。挑不出毛病。
QClaw:只完成了类型分类,没有完成时间分类。执行中途还询问要不要继续,让人有点不耐烦。
稳定性评分:
| 工具 | 稳定性评分 |
|---|---|
| WorkBuddy | 5⭐ |
| QoderWork | 4.5⭐ |
| 百度搭子 DuMate | 4.5⭐ |
| QClaw | 3.5⭐ |
四、任务完成情况
任务:搜索北京、上海、深圳面向人工智能行业从业者的最新落户及购房补贴政策,横跨多个政府网站进行长程搜索,完成信息深度整理,最终生成一份对比分析报告的 Word 文档。
各工具表现
百度搭子 DuMate:成功完成,没有中断和报错。文档美观度独一档,大标题小标题无序标题错落有致。结尾提供了信息来源。从横跨多平台信息查询到信息整理再到交付物生成,拥有完整的任务链路。

WorkBuddy:成功交付 Word 报告文档。过程中发现字符串冲突导致乱码后自动重新创建文档,有一定自我检查能力。文档中规中矩,排版紧凑,更像专业政府报告文件。
QoderWork:顺利完成任务,文档排版美观,但等待时间较长。
QClaw:翻车。显示任务已成功完成并提示已生成 Word 文档,但实际在目录中找不到文件。结尾给出的快速访问按钮指向的只是一个记录日志的 TXT 文件,里面根本没有要的内容。
任务完成评分:
| 工具 | 任务完成评分 |
|---|---|
| 百度搭子 DuMate | 5⭐ |
| QoderWork | 5⭐ |
| WorkBuddy | 4.5⭐ |
| QClaw | 0⭐ |
📌 苏米注:QClaw 在这个测试中的翻车非常典型——它"认为"自己完成了任务,但实际交付物是错误的。这是目前通用智能体最大的痛点之一:"幻觉式完成"。模型自信地告诉你任务已完成,但结果可能是假的。这提醒我们:对于关键任务,人工验证交付物仍然是不可或缺的环节。
五、接管可控性(重要)
任务:登录网页版邮箱,给三个不同的联系人发送带附件的邮件。在填写完邮箱但还没有发送的时候,手动关闭浏览器,测试它们能否自主恢复任务。
各工具表现
百度搭子 DuMate(最佳):通过 Chrome 插件直接操控浏览器。当我关闭浏览器后,它发现浏览器被关闭,直接尝试重新打开。发现登录状态丢失后让我重新扫码登录,登录完成后继续接上之前被打断的工作,重新打开写信页面、填写收信人和附件,成功发送邮件。哪怕中途介入瞎操作,它最终也能把工作拉回来,直到完成最终目标。
QClaw:通过前台浏览器操作,手动扫码登录后继续执行。关闭浏览器后快速重新打开新页面继续发送邮件。但因为调用工具较多、执行步骤较长,导致任务自动中断。考虑到 QClaw 是完全免费的软件,限制单次任务 Token 使用量可以理解。
WorkBuddy:无视了已登录的邮箱页面,在后台打开新的临时页面(无 Cookie),尝试从常规浏览器窗口导出 Cookie 解密失败。虽然一直在积极寻找更多方式完成任务,但最终因对浏览器的操作逻辑不同而失败。
QoderWork:要求提供账号密码(不安全),选择"浏览器已保存密码"后打开了 QQ 邮箱页面,但最后突然提示无法操作,任务戛然而止。
接管可控性评分:
| 工具 | 接管可控性评分 |
|---|---|
| 百度搭子 DuMate | 5⭐ |
| QClaw | 4⭐ |
| WorkBuddy | 3.5⭐ |
| QoderWork | 2⭐ |
📌 苏米注:接管可控性是通用智能体最核心的能力之一。想象一下:你在让 AI 处理一个需要 30 分钟的批量任务,中途你关了一次浏览器或断了一次网,AI 是能从断点继续还是从头再来?这直接决定了你能不能把重要任务放心交给它。百度 DuMate 在这个测试中表现最佳——它能感知环境变化(浏览器关闭、登录态丢失),自主恢复并继续任务,这才是真正的"Agent"。
六、使用成本
| 工具 | 价格 | 免费额度 |
|---|---|---|
| QClaw | 完全免费 | 无限(但有任务步骤限制) |
| WorkBuddy | 58 元/月 | 新号赠 2000 积分 + 每月 500 积分 |
| 百度搭子 DuMate | 59 元/月 | 每天赠 1000 积分(约 8-10 个长任务) |
| QoderWork | ≈140 元/月 | 新号赠 300 积分(用完无补充) |
成本评分:
| 工具 | 成本评分 |
|---|---|
| QClaw | 5⭐ |
| 百度搭子 DuMate | 4.5⭐ |
| WorkBuddy | 4⭐ |
| QoderWork | 3⭐ |
总评
经过六大维度实测,总评分如下:
| 排名 | 工具 | 总分 | 优势 | 短板 |
|---|---|---|---|---|
| 🥇 1 | 百度搭子 DuMate | 29⭐ | 全链路工作流完整无短板 | 不支持模型切换 |
| 🥈 2 | WorkBuddy | 25⭐ | 本地文件处理最稳定 | 接管链路薄弱、交付偷懒 |
| 🥉 3 | QoderWork | 24⭐ | 交付质量高且谨慎 | 接管链路薄弱、价格最贵 |
| 4 | QClaw | 21⭐ | 完全免费 | 复杂任务有压力、任务完成翻车 |

分数只是表象,能闭环落地、替人干活,才是国产通用智能体的核心价值。好用的工具要实现从指令下达、数据抓取、批量处理,到原生文件交付、异常断点续跑的全闭环,而非只做半程、输出文本。
📌 苏米注:如果你只能记住一条结论,那就是:百度 DuMate 在当前阶段综合表现最均衡,适合大多数办公场景;如果你预算有限,QClaw 免费但复杂任务能力有限;如果你追求极致交付质量且预算充足,QoderWork 是不错的选择;WorkBuddy 在文件批处理方面表现突出,但交付质量偶有偷懒。选择时最重要的是想清楚:你的核心场景是什么?是快速出活、精细打磨,还是成本控制?