10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI智能体

skills-refiner:超越断言测试,诊断 Skill 设计质量的开源工具

1小时前 AI智能体 9 0

为什么断言测试不够:skills-refiner 提升 Skill 质量

Anthropic 在 Claude Agent SDK 中引入 Skill 体系时,做了一个值得关注的架构选择:每个 skill 是一个可独立加载的目录,包含 YAML frontmatter、Markdown 指令主体,以及按需加载的 references、scripts 和 templates。这个三层渐进式披露(progressive disclosure)架构,把上下文工程(context engineering)的核心判断落到了工具设计层面。

metadata 层只加载名称和描述,用于 Claude 判断当前请求是否与该 skill 相关;instructions 层在 skill 被激活时载入;resources 层在任务需要时按需调用。每个 token 都有成本,多余的加载会挤压对话历史和其他 skill 的空间,降低整体系统的可靠性。

图片 1

OpenAI 在 Custom GPT 和 Agent 体系中有类似的收敛趋势:单个 action 职责专一,接口用 OpenAPI schema 精确约束。两个框架在核心约束上达成了相似的共识:Skill 是能力的封装单位,不是 prompt 的堆砌。好的 skill 应该职责单一、边界清晰、可组合、可移植。

这些品质,是目前的测试测不出来的。

断言测试的结构性盲区

Anthropic 官方的 skill-creator 提供了创建-测试-迭代的完整循环:with-skill 与 baseline 的 A/B 对比、通过率和 token 消耗测量、基于断言的持续改进。它是功能验证层面设计完善的工具。

但断言测试有结构性盲区。一个 skill 可以通过所有测试用例,同时存在以下问题:

  • 定位偏差:skill 的 description 是 Claude 决定何时激活它的唯一依据。描述过宽导致误触发,描述过窄导致该激活时被忽略。标准测试通常不会暴露这个问题,因为测试预设了 skill 已经被正确激活
  • 上下文工程浪费:instructions 层包含了不必要的背景,把 Claude 已经内化的通用知识写了进去。测试依然通过,但这个冗余在生产环境里是真实的 context 成本
  • 低可移植性:skill 的核心逻辑依赖了特定工作流或工具调用链。在设计者自己的 repo 里运行完美,到了另一个人的环境里就失效
  • 边界模糊:skill 的职责范围没有清晰界定,与同一 repo 里的其他 skill 存在重叠,或者对某些输入类型默默降级而不通知用户

断言测试通过,证明 skill 在已知场景下按预期执行。它证明不了 skill 设计是否正确。这两个问题是不同的。

skills-refiner 是什么

skills-refiner 是一个专门处理上述盲区的 Agent Skill 评估工具,通过 skills CLI 安装,在支持 skills 的 agent 环境(Claude Code、Cursor、Codex、OpenCode 等)中直接调用。

图片 2

skills-refiner 并不重复 skill-creator 的测试职责,而是补充测试覆盖不到的那一层:设计判断。

分析框架围绕六个维度展开:

  • 定位:skill 真正解决什么问题,边界在哪
  • 机制:哪些设计选择真正驱动了它的行为
  • 价值:什么是真正强的和可复用的,什么只是表面修饰
  • 风险:什么是脆弱的或难以维护的
  • 改进:具体的提升方向
  • 集成:当需要把 skill 吸收到另一个 skill/skill仓库时,哪些可以直接用,哪些需要重新设计,哪些应该放弃

它的工作分为两个阶段,对应三个核心动作。

第一阶段:诊断与精炼(Diagnose & Refine)

诊断的对象可以是一个Skill仓库、单个 skill、工作流框架,或者 eval 集。诊断不是打分,而是定位这个 skill 的真实状态:它真正解决什么问题、边界在哪、哪些设计选择有实质作用、哪些只是表面修饰、哪些是隐患。

精炼是诊断的直接下游。发现之后就要判断:哪些应当保留,哪些应当改进,哪些应当简化或重新划定范围,哪些应当去掉。这不是风格建议,是设计决策。skills-refiner 的名字里强调的是 refine,不是 audit——精炼是目的导向的,refine 的是结果,不只是列问题。

第二阶段:提取与整合(Extract & Integrate)

当给出目标Skills仓库(target_repo)时,第二阶段启动。这一步关注的是这个 Skill/Skills仓库对目标仓库有什么价值——哪些部分可以直接采纳,哪些需要重新设计才能使用,哪些应当放弃,以及整合之后目标仓库的哪些部分面临最大的风险。

整合输出的是可操作的计划:最小可行整合路径和高价值增强方向。

目的决定标准

这个框架有一个不妥协的核心立场:评估工具应该知道自己在评估什么。

工程和工作流类的 skill 需要被审查结构严谨性、上下文工程质量、可维护性和跨仓可移植性;研究分析类的 skill 需要被审查推理质量和证据纪律;写作或教学类的 skill 需要被审查清晰度和输出质感。用工程标准去诊断一个创意写作 skill,结论通常是错的。

同样的原则适用于 eval 集:当诊断对象是一个 eval 集时,skills-refiner 最关注的不是测试通过了多少,而是这个 eval 集有没有测到真正重要的东西——覆盖面是否触及了真实的风险面,断言是否能区分好答案和凑合的答案,边界场景有没有被遗漏。

证据优先原则

skills-refiner 的另一个核心原则是证据优先原则(evidence discipline):分析必须区分三类判断:

  • 直接证据:文件中直接可读的内容
  • 合理推断:基于可见证据的有理由但非确定的判断
  • 未解决的不确定性:证据不足以支撑的问题,应明确标注而不是被自信的措辞掩盖

这个区分,是针对 LLM 分析输出中一个普遍存在的问题而设计的:用事实的语气表达猜测,让读者无从判断哪些结论可信。在 skill 审计场景下问题更具体——一个 skill 可能只提供了部分文件,审计结论应该诚实地说清楚「我看到了什么,我推断了什么,我还不知道什么」。

与 skill-creator 的分工与协作

skill-creator 拥有创建、A/B 测试、断言迭代、description 优化和打包分发的完整循环。skills-refiner 在功能测试之后介入,回答另一类问题:这个 skill 设计是否正确?它的定位是否准确?它到另一个人的 repo 里还能工作吗?上下文工程有没有浪费?

典型路径:

  1. 用 skill-creator 创建并迭代一个 skill
  2. 测试通过后用 skills-refiner 做设计级诊断与精炼
  3. 把明确的改进点带回 skill-creator 做下一轮迭代
  4. 当需要把一个现有 Skill仓库的成果整合进另一个项目时,启动整合阶段,得到具体的提取和集成计划

苏米注:测试告诉你 skill 做了什么;诊断与精炼告诉你它设计得是否正确;整合告诉你它在新的系统里是否还成立。三者覆盖了 skill 生命周期里功能测试触不到的全部设计层面。

安装与使用

安装:

npx skills add yknothing/skills-refiner

使用示例:

# 诊断与精炼一个Skill/Skill仓库
> 使用 skills-refiner 评估此 skill/skill仓库

# 评估并整合到目标 repo
> 使用 skills-refiner 评估此 skill/skill仓库,并整合到目标 skill/skill仓库 [名称] 中

适用场景

skills-refiner 适合以下场景:

  • 用 skill-creator 完成了一个 skill,想在分发前做设计层诊断与精炼
  • 想把某个 Skills仓库吸收进自己的项目,需要判断哪些部分可用、哪些需要改造、哪些应当放弃
  • 维护多个 skill 的仓库,需要定期评估整体结构的健康程度
  • 想评估一个 eval 集的质量——它有没有真正覆盖 skill 的风险面

它不生成 assertion 测试,不运行 A/B 对比,不优化 description 的触发精度,不负责打包分发。这些边界是刻意的,目的是把判断层的事做好,把执行层的事交给更合适的工具。

项目地址:https://github.com/yknothing/skills-refiner

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:skills-refiner:超越断言测试,诊断 Skill 设计质量的开源工具
#skills-refiner # Skill 质量 # 上下文工程 # 开源工具 # Claude Code 
收藏 1
Mano-P 4B 端侧 GUI Agent实战:本地部署、Cider 加速与三项测试
腾讯 Ardot:AI 原生的 UI/UX 设计工具内测体验
推荐阅读
  • Openclaw龙虾失忆的系统化解决方案:OpenClaw Vector Memory 完全指南
  • Anthropic 实战笔记:如何打造可连续运行数小时的多智能体编程系统
  • LobsterAI实战教程:从对话工具到数字员工,如何真正改变我的工作方式
  • skills-refiner:超越断言测试,诊断 Skill 设计质量的开源工具
  • OpenClaw v2026.3.28 发布:看看更新了哪些特性,版本要点速览
评论 (0)
请登录后发表评论
分类精选
Multi-Agent(多智能体)实战:OpenClaw x 飞书机器人,为每个业务场景打造专属多Agent项目协作群
5627 2月前
Star-Office-UI:用像素办公室实时可视化 OpenClaw(小龙虾)的工作状态
2850 2月前
微信 iLink Bot 协议深度拆解:开发者必备实战手册
2820 1月前
OpenClaw 飞书多 Agent 实战:一只龙虾不够用?教你养一池子龙虾
2709 2月前
OpenClaw 升级到 2026.3.24 后,微信 ClawBot 插件更新指南
2537 1月前
新手入门小龙虾(OpenClaw)完整配置指南
2392 1月前
微信官方 ClawBot 插件多Agent如何绑定多个微信号?让全家人都用上了OpenClaw!
2305 1月前
即梦CLI:如何用OpenClaw搭建AI工作流实现24小时自动化生图、生视频创作
2191 1月前
OpenClaw 2026.3.2 版本权限隔离导致工具失效,两招教你满血复活!
2160 2月前
OpenClaw部署全攻略:从本地到云端,解锁HTTPS安全访问
1973 2月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 skills-refiner:超越断言测试,诊断 Skill 设计质量的开源工具
2 html-ppt-skill:AI 原生 PPT 生成器,20 天 2600 Star 的开源项目
3 Anthropic长时运行Agent框架:让AI像人类工程师一样交接班
4 装完这 5 个工具,Hermes 才算真正上线
5 把 Demo 变生产:打造可靠 AI Agent 的 7 大 Harness 组件
6 Hermes 长期记忆配置教程:用 Mem0 让 AI Agent 记住你的偏好和项目历史
7 7 个高质量前端UI设计的 Skills(技能包),让 AI 编程生成高质量UI代码
8 Hermes Agent 记忆增强插件:MemOS 让 AI 越用越聪明,智能去重 + 混合检索
9 browser-harness 部署指南:5 分钟让 AI 自动操作浏览器,结合 Hermes Agent 实现本地 AGI
10 Hermes Agent 自进化机制源码解析:Memory、Skill、Nudge Engine 三子系统详解
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联