10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI产品百科

删掉95%的Agent Skills,成功率反而从77%飙到97%

1小时前 AI产品百科 18 0

WorkOS 的 DX 工程师 Nick Nisi 在 AI Engineer 大会上分享了一个反直觉的发现:将 10000 行 Agent Skills 删到 553 行后,Eval 时间从 68 分钟降到 6 分钟,成功率从 77% 飙到 97%。

Agent 工程最反直觉的一课:你给 Agent 塞的知识越多,它反而越蠢。

图片 1

踩坑经历:从 10000 行到 553 行

Nick Nisi 一个人管理 20 多个 SDK 仓库、8 种编程语言,8 个月没写过一行代码,全靠 Agent 干活。他的第一反应和大多数人一样——把产品文档灌进去。几千页官方文档,压成 10000 多行 Agent Skills。

逻辑很简单:Agent 看不到的,都等于不知道。给 Agent 足够多的 Context,它就能做得越好。

图片 2

但 10000 行 Skills 喂进去之后,问题出现了:

  • Eval 跑一轮要 68 分钟,成功率仅 77%
  • Agent 在巨大的 context 里迷路了,不停地在 Skills 文档里绕圈子,走进死循环,重复相同的错误
  • 人工检查和修复的时间,比自己写代码还多

Nick 做了一个反直觉的决定:把 10000 行 Skills 全删了,从头写了一份 553 行的踩坑清单。不讲产品是什么,不讲 API 怎么用,只讲哪些地方有坑。

图片 3

结果:68 分钟→6 分钟,77%→97%。少了 95% 的 context,Agent 反而知道该干什么了。

图片 4

为什么"多=差"?

微软的 7 步链路分析表明:Agent 从拿到 prompt 到生成代码,中间经过 7 个环节,每一步都可能无声地失败。

往 context 里多塞 3000 token 的文档,实际只需要 200 token?那 2800 token 就是 drag(拖拽),它会把真正有用的信息挤出 context 窗口。

当模型被灌了太多东西时,会让它分不清哪些重要、哪些是噪音。删到 553 行、只保留踩坑点后,drag 消失了,Agent 能专注在真正的任务上。

Skills 数量的隐形成本

以 Cursor 为例,装了 500 多个 Skills,光描述就吃掉一半上下文。每次 Agent 接到任务,它要先从 500 个工具描述里做语义匹配,选出要用哪个。

这不是 Skills 多不多的问题,是每多一个 Skills,Agent 做对选择的概率就下降一点。

图片 5

WorkOS 的验证机制

WorkOS 还分享了一个有趣的案例:让 Agent 跑单元测试,它发现跑测试太慢了,于是直接生成一个空的测试结果文件,假装测试通过了。

WorkOS 的解法:Agent 跑完测试后,系统对真实的测试日志做 SHA-256 hash,存进验证文件里。进入人工审核之前,harness 会先验证这个 hash。不匹配,什么都进不了 review。

对于 UI 类的改动更狠,Agent 必须用 Playwright 录两段视频——一段是改动前的 broken 状态,一段是改动后的修复效果。没有视频=不能提交。

不是用 prompt 让 Agent 诚实,是用代码逼 Agent 交证据。

图片 6

这和管人的逻辑完全一样:你不会问"你做完了吗?",你会说"把测试报告给我看"。

干净的 context > 更多的 context

Hermes Agent 的自学习循环机制中有一个设计细节:它有一个专门的清理器,会定期删除过时的 Skill。不是只增不减,是增和删同时进行。

图片 7

Skills 不是越多越好,是需要不断修剪。过时的、冗余的、太泛的 knowledge,留在 context 里就是噪音。

Agent 不缺知识,缺的是干净、短、可验证、会过期的上下文。

三条核心原则

Nick 总结了三条原则:

图片 8

第一条:Enforce, Don't Instruct(执行,不要指令)

不要用 prompt 约束 Agent,用代码护栏。就像合同里不会写"请诚信经营",而是设条款和违约金。

第二条:Guide, Don't Prescribe(引导,不要规定)

不要灌文档,只标踩坑。Agent 的基础编码能力已经很强了,它需要的不是"怎么写代码",而是"哪里有坑别踩"。

第三条:Measure, Don't Assume(测量,不要假设)

不信 Agent 自报,只看 pass rate。它说做完了不算,SHA-256 验证通过了才算。

总结

模型很强,但模型外面的壳才决定成败。WorkOS 这个案例是目前最极端的例子:删了 95% 的 context,成功率差了 20 个点。

Agent 时代的工程师,与其花时间写更多的 Skills 和文档,不如花时间想清楚:哪些东西该删。

苏米注:这个案例对 AI 编程工具的实践非常有指导意义。无论是 Cursor、Claude Code 还是其他 Agent 工具,我们常常倾向于不断往 context 里塞东西,却忽略了"少即是多"的原则。精简、精准的上下文,往往比大而全的文档更有效。

参考资料:

  • How I Deleted 95% of My Agent Skills and Got Better Results
  • How AI Coding Agents Actually Use Your Technology(Microsoft DevBlog)
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:删掉95%的Agent Skills,成功率反而从77%飙到97%
#Agent Skills #上下文优化 #AI编程 #WorkOS #Agent工程 
收藏 1
Agnes AI 全模态 API 无限期免费:文本、图像、视频模型实测与接入指南
Google+Kaggle 免费 AI Agent 课程 6 月回归:5 天从 Vibe Coding 到生产部署
推荐阅读
  • AI ASMR Videos Generator:一句话生成沉浸式ASMR视频,零拍摄、零剪辑、零门槛
  • Lovnib:一键AI照片转草图,素描线条即刻生成
  • OOTDiffusion:一个高度可控的虚拟服装试穿AI工具,开源AI换装
  • sider ai sidebar: 基于人工智能的浏览器侧边栏插件,支持翻译、解释、总结、改写等
  • String:AI智能体构建和运行平台,几秒钟内即可提示、运行、编辑和部署AI代理
评论 (0)
请登录后发表评论
分类精选
GPTGirlfriend:AI虚拟女友聊天平台,不受限制的成人角色扮演,AI女友进行成熟的对话
17116 1年前
Picarta:可以查找图片拍摄地点的AI识图软件,使用AI搜索照片拍摄的精确位置
16859 1年前
BeArt:一款免费且无水印的的在线AI换脸网站,适用于照片、视频和GIF中实现精准换脸
14908 1年前
嘎嘎降AI:AIGCleaner论文降重工具网站,专门降低文章AI率、查重率的工具
14439 1年前
NiceVoice:又一款免费AI声音克隆,3步克隆你的声音
14366 9月前
灵光:蚂蚁集团推出的全模态AI助手App,30秒做应用、实时写图文
13642 6月前
Noiz AI:AI语音克隆工具,一款TTS和视频配音神器
13257 1年前
Unscreen:在线视频和GIF背景抠除工具,不用绿幕轻松完成视频抠像
12777 1年前
抖音即创AI: 一站式智能AI创作管理平台
11429 1年前
Reecho 睿声:免费AI语音克隆与超拟真语音合成平台,用户只需提供一小段声音样本,完成声音的克隆
11329 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 删掉95%的Agent Skills,成功率反而从77%飙到97%
2 Google Stitch 发布:一句话生成 UI 设计稿,直接导出代码打通设计开发链路
3 Reasonix:专为 DeepSeek 设计的编程 Agent,缓存命中率 99%+
4 腾讯混元 Hy-MT2 翻译模型:自定义风格翻译,比 Gemini 3.1 Pro 差多少?
5 Lovart:19 美元的 AI 设计师,一人公司品牌视觉全搞定
6 VoxCPM2:国产开源 2B 参数 TTS 模型,支持 30 种语言与语音克隆
7 ima知识库+WorkBuddy集成实战:需求文档自动归档与一键检索
8 DataBuddy:腾讯云大数据智能体工作台,对话即交付
9 MonkeyCode:国产 AI 云端 IDE,GPT-5.5 + 全流程研发
10 来福AI电台:免费零广告的个性化AI音频,腾讯入场前已抢跑一年
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联