10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » 苏米杂谈

Thin Harness + Thick Skills:Agent 工程的架构共识,Skill 是复利资产

1小时前 苏米杂谈 11 0

2026 年 3 月 31 日,Anthropic 意外将 Claude Code 完整源码推送到 npm registry——512,000 行代码,公开了几个小时。Y Combinator CEO Garry Tan 读完写道:真正的秘密不是模型,是包裹模型的东西。而 Claude Code 的运行时本身极度简单,复杂性全部在另一处。

一、从一段三行代码开始

Claude Code 的核心循环,用伪代码写出来是这样的:

while not done:
    context = observe()
    action  = model(context)
    execute(action)

Observe、Think、Act,然后回到开头。这么薄的运行时,能力从哪里来?

答案是从 Skill Library 来。Anthropic 工程师把几个月积累的代码审查方法、调试流程、架构规范,编码在结构化的 Markdown 文件里,每次运行时作为上下文注入给模型。

这就是 Thin Harness + Thick Skills:执行框架保持极薄,专业能力沉淀在可复用的 Skill 文件里。

二、Harness 是什么

Harness 这个词借自马术——引导力量方向的装具。在 Agent 工程里,它就是 Agent Runtime:Claude Code、Cursor Agent、OpenHands、Devin、Codex CLI、Hermes Agent 都是 Harness,分工相同——在循环里运行模型、读写文件、管理上下文窗口、执行安全约束。

图片 1

Garry Tan 的原话是,超出这四件事的都是负担。

三、Skill 是什么

Skill 的载体通常是 SKILL.md,但它不是提示词模板——它告诉 Agent 这类任务里什么重要、按什么顺序做、哪里容易出错。薄 Skill 说"写简洁的代码,注意安全",模型读完输出平庸。厚 Skill 给出具体规则、反例、判断条件和边界情况,输出稳定达到领域专家水准,跨模型、跨团队可复用。

厚 Skill 传递的不是信息量,是判断力。以 Code Review Skill 为例:先看 PR 影响哪些模块,按优先级检查注入风险、越权路径、密钥泄露,再验证接口契约一致性,最后才是风格。这个顺序本身就是判断力。

图片 2

Root Cause Analysis Skill 是另一种逻辑:收集日志定位时间点 → 沿调用链找异常 → 构建根因树 → 给出修复方案和验证步骤。

四、第一代 Agent 为什么失败

2024 年的 Agent 框架,普遍把能力堆进 Harness 里:

图片 3

AutoGPT、BabyAGI、早期 CrewAI、MetaGPT 都是这个模式,框架动辄上万行,Skill 几乎为零。

问题出在三处:

  • Token 浪费:40 个 Tool 定义加各 Agent 角色系统提示,模型还没推理就消耗了一半 token 预算
  • 知识不可携带:调优经验散落在各处 Prompt 里,换个项目什么都带不走
  • 失败率相乘放大:10 个组件各 95% 成功率,整体只剩 60%,每层还多 2-5 秒延迟

Applied AI Society 整理了量化对比:

指标 Thick Harness Thin Harness + Thick Skills
上下文预算 一半消耗在框架本身 大部分留给实际任务
延迟 每步多轮 Tool Round-trip 读一次 Skill,直接执行
失败率 高,组件越多越脆 低,Skill 已编码边界情况
换任务成本 重新设计整个 Agent 换一个 Skill 文件
知识可携带性 锁在特定框架配置里 Markdown,任何 Agent 可加载

五、行业验证:多个团队从不同方向收敛到同一答案

这个架构判断,在 2025—2026 年间被多支团队独立验证。

Loopcraft 与 Stacking Loops

2026 年上半年,Peter Steinberger 和 Boris Cherny 几乎同时在 X 上写了相似的话:

"你不应该再在 prompting coding agents 了。你应该设计 loops 来 prompt agents。"

Andrej Karpathy 给出了背后的逻辑:把自己从循环里移出去,安排好一切,然后按下 Go。Latent Space 把这几条线索整合成"Loopcraft",Addy Osmani 在 2026 年 6 月将其命名为 Loop Engineering——"坐在 Harness Engineering 之上一层的工程学科"。

Stacking Loops 的图景是:每一层循环都有自己对应的 Skill 套件,上层循环编排下层,自己不介入细节。

图片 4

Agentconn 的总结直接点破了竞争逻辑:哪个 Harness 你在用(Claude Code、Codex、Gemini CLI)这个问题每个月都变得不那么重要。你设计的 loop——Skills、验证逻辑、编排方式——才是杠杆所在。

OpenHands V1 的架构选择

OpenHands 在 2025 年底发布 V1 SDK,将 Skills 体系(从 Microagents 改名而来)提升为核心组件,与 Conversation、Agent、Tool System 并列。

图片 5

Skills 的加载机制有三种:始终加载(仓库规范、编码标准)、关键词触发(专项领域知识)、按需读取(避免大型文档一次性占满上下文)。OpenHands 明确兼容 .cursorrules、agents.md 等格式,相当于承认 Skill 的格式标准正在跨工具收敛。

Hermes Agent 的自进化闭环

Nous Research 的 Hermes Agent 在 Skill 体系上多走了一步:Agent 能自主创建和改进 Skill。当它解决了一个非平凡问题,会通过 skill_manage 工具将流程固化为新 Skill,下次遇到同类问题直接复用。

图片 6

Hermes 还支持 Skills Hub 和团队私有 Tap——一个 GitHub 仓库就能作为私有 Skill 源,Skill 的分发方式开始成型。

SkillOpt:把 Skill 当作可训练状态

2026 年 5 月,Microsoft Research 发布 SkillOpt(arXiv 2605.23904),给出了 Skill 优化的系统性方案。

核心主张:把 Skill 文档当作冻结 Agent 的外部可训练状态,用深度学习优化器同等严谨性来训练——模型权重和 Harness 都不动,只优化 Skill 文档。

图片 7

关键机制叫 Textual Learning Rate——限制每次编辑范围,防止一次性改写过多,与梯度裁剪的思路一脉相承。

实验结果(GPT-5.5 基准):

执行环境 无 Skill 基线 → SkillOpt 提升幅度
Direct Chat baseline → +23.5 pts ✓
Codex Agentic Loop baseline → +24.8 pts ✓
Claude Code baseline → +19.1 pts ✓

跨 6 个 Benchmark、7 个目标模型、3 个执行 Harness,52 个评估格子全部最优或并列最优。在 Codex 上训练出的 best_skill.md,放到 Claude Code 里效果基本不退化——Skill 可移植性被实验数据直接证明。

OpenAI 的 Record & Replay、Cursor Automate、Claude Artifacts,产品路径各异,但都在把人类经验结构化成可复用资产。这是 Skill Economy 的产业侧信号。

六、三层架构与工程决策规则

Garry Tan 整理的三层模型是目前业界最清晰的参考框架:

图片 8

方向原则:把智能推上去进入 Skill,把执行推下去进入确定性工具层,Harness 只做传导。

在具体做决策时,一个判断清单往往比框架讨论更实用:

  • 这件事需要思考、判断、或依赖上下文?→ 写成 Skill(Markdown)
  • 相同输入总是得到相同输出?→ 写成 Code(CLI 或 API)
  • 它是查找、列表、或状态检查?→ 写成 Code
  • 它的边界情况需要领域知识才能处理?→ 写成 Skill

七、企业研发场景的实际落地

以一个典型研发流程为例,说明两种架构在实践中的差别。

Thick Harness 时代的做法是:给 Agent 一个通用 Planner,让它分解任务、自我 Critic,循环直到满意。通用场景勉强够用,涉及特定领域规范时 Agent 就开始乱猜,换项目重新调。

现在的做法是把专业判断力沉淀成 Skill Library,Harness 保持简单:

图片 9

关键变化:Skill Library 是团队的资产,Harness 是可以替换的基础设施。模型升级了,Skill 不需要动;团队成员离职了,积累的判断力留在 Skill 文件里。

八、Skill 是复利资产,Harness 是商品

Skill 有一个特殊的属性:它随模型能力的提升而自动变强,不需要修改 Skill 本身。两年前写的 Code Review Skill,在更强的模型上跑,Review 质量会更好——因为 Skill 编码的是流程和判断标准,模型负责执行推理。

SkillOpt 的实验给出了另一维度的证据:在 Claude Code 上打磨的 Skill,直接搬到 OpenHands 或 Hermes 效果基本不退化。Harness 锁定效应在数据层面已被打破。

与此同时,Harness 本身正在商品化——Claude Code、Cursor、OpenHands、Hermes、Codex CLI 的核心执行逻辑差异越来越小,都在收敛到相同的工具接口标准。选哪个 Harness,会越来越像选云服务商:看价格、看延迟、看生态。工程时间用在打磨 Skill Library 上,长期回报更可预期。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Thin Harness + Thick Skills:Agent 工程的架构共识,Skill 是复利资产
#Agent架构 #Skills #Claude Code #Anthropic #Loopcraft 
收藏 1
Codex 官方白皮书:10 个实操技巧让 AI Agent 替你推进项目
AI 起名 Skill 开源:基于八字五行的中国传统姓名学工作流
推荐阅读
  • 一文看懂所有产品经理岗位:从功能到AI,从C端到B端
  • Node.js "禁止 AI 生成代码"的请愿书,80 多位核心开发者联名请愿
  • Vibe Coding 杂谈:PM 的编程门槛正在消失,判断的价值正在上升
  • Token 中转站深度分析:商业模式、潜在风险与选择指南
  • AI 开发提速了 70%?为什么最后的 30% 仍然要靠人
评论 (0)
请登录后发表评论
分类精选
产品经理原型设计指南:产品经理如何快速绘制高质量原型?(附步骤与资源)
90290 1年前
一文看懂所有产品经理岗位:从功能到AI,从C端到B端
7916 1年前
AI 开发提速了 70%?为什么最后的 30% 仍然要靠人
6527 8月前
从Kiro官方定价看AI编程工具:20美元包月套餐正在成为过去式
6203 10月前
2026年普通人也能做的10个AI小生意:用产品思维把效率变成现金
4961 5月前
我把KISS复盘法交给AI,它变成了我的思维教练
4437 8月前
AI 编程正在重塑产品经理
4408 9月前
2025 年我实测的 AI 编程工具选型建议(Cursor、Claude Code、Codex、Lovable、v0)
3910 7月前
Bento Grid “便当盒子”网格布局风格探索:Bento风PPT实战
3867 1年前
聊一聊产品规划指南:从定义到执行,全面解读方法与工具
3307 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Vibe Coding 入门:不用写代码,用自然语言驱动 AI 从零做项目
2 Thin Harness + Thick Skills:Agent 工程的架构共识,Skill 是复利资产
3 AI时代职场生存:李飞飞说未来只剩两类人,你怎么选?
4 2026 年 Coding Agent 趋势:越能干,越需要工作纪律
5 AI 产品经理的三种类型:模型、平台与应用(职业路径全解析)
6 Vibe Coding 杂谈:PM 的编程门槛正在消失,判断的价值正在上升
7 AI Coding 渗透报告:非技术人员正在用它做什么
8 微信AI发布:你的小程序接入微信AI后,可能不再只属于你
9 Vibe Coding好不好用,取决于你怎么用它~
10 三种AI产品经理类型分析:模型型、平台型与应用型
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联