2026 年 3 月 31 日,Anthropic 意外将 Claude Code 完整源码推送到 npm registry——512,000 行代码,公开了几个小时。Y Combinator CEO Garry Tan 读完写道:真正的秘密不是模型,是包裹模型的东西。而 Claude Code 的运行时本身极度简单,复杂性全部在另一处。
一、从一段三行代码开始
Claude Code 的核心循环,用伪代码写出来是这样的:
while not done:
context = observe()
action = model(context)
execute(action)
Observe、Think、Act,然后回到开头。这么薄的运行时,能力从哪里来?
答案是从 Skill Library 来。Anthropic 工程师把几个月积累的代码审查方法、调试流程、架构规范,编码在结构化的 Markdown 文件里,每次运行时作为上下文注入给模型。
这就是 Thin Harness + Thick Skills:执行框架保持极薄,专业能力沉淀在可复用的 Skill 文件里。
二、Harness 是什么
Harness 这个词借自马术——引导力量方向的装具。在 Agent 工程里,它就是 Agent Runtime:Claude Code、Cursor Agent、OpenHands、Devin、Codex CLI、Hermes Agent 都是 Harness,分工相同——在循环里运行模型、读写文件、管理上下文窗口、执行安全约束。

Garry Tan 的原话是,超出这四件事的都是负担。
三、Skill 是什么
Skill 的载体通常是 SKILL.md,但它不是提示词模板——它告诉 Agent 这类任务里什么重要、按什么顺序做、哪里容易出错。薄 Skill 说"写简洁的代码,注意安全",模型读完输出平庸。厚 Skill 给出具体规则、反例、判断条件和边界情况,输出稳定达到领域专家水准,跨模型、跨团队可复用。
厚 Skill 传递的不是信息量,是判断力。以 Code Review Skill 为例:先看 PR 影响哪些模块,按优先级检查注入风险、越权路径、密钥泄露,再验证接口契约一致性,最后才是风格。这个顺序本身就是判断力。

Root Cause Analysis Skill 是另一种逻辑:收集日志定位时间点 → 沿调用链找异常 → 构建根因树 → 给出修复方案和验证步骤。
四、第一代 Agent 为什么失败
2024 年的 Agent 框架,普遍把能力堆进 Harness 里:

AutoGPT、BabyAGI、早期 CrewAI、MetaGPT 都是这个模式,框架动辄上万行,Skill 几乎为零。
问题出在三处:
- Token 浪费:40 个 Tool 定义加各 Agent 角色系统提示,模型还没推理就消耗了一半 token 预算
- 知识不可携带:调优经验散落在各处 Prompt 里,换个项目什么都带不走
- 失败率相乘放大:10 个组件各 95% 成功率,整体只剩 60%,每层还多 2-5 秒延迟
Applied AI Society 整理了量化对比:
| 指标 | Thick Harness | Thin Harness + Thick Skills |
|---|---|---|
| 上下文预算 | 一半消耗在框架本身 | 大部分留给实际任务 |
| 延迟 | 每步多轮 Tool Round-trip | 读一次 Skill,直接执行 |
| 失败率 | 高,组件越多越脆 | 低,Skill 已编码边界情况 |
| 换任务成本 | 重新设计整个 Agent | 换一个 Skill 文件 |
| 知识可携带性 | 锁在特定框架配置里 | Markdown,任何 Agent 可加载 |
五、行业验证:多个团队从不同方向收敛到同一答案
这个架构判断,在 2025—2026 年间被多支团队独立验证。
Loopcraft 与 Stacking Loops
2026 年上半年,Peter Steinberger 和 Boris Cherny 几乎同时在 X 上写了相似的话:
"你不应该再在 prompting coding agents 了。你应该设计 loops 来 prompt agents。"
Andrej Karpathy 给出了背后的逻辑:把自己从循环里移出去,安排好一切,然后按下 Go。Latent Space 把这几条线索整合成"Loopcraft",Addy Osmani 在 2026 年 6 月将其命名为 Loop Engineering——"坐在 Harness Engineering 之上一层的工程学科"。
Stacking Loops 的图景是:每一层循环都有自己对应的 Skill 套件,上层循环编排下层,自己不介入细节。

Agentconn 的总结直接点破了竞争逻辑:哪个 Harness 你在用(Claude Code、Codex、Gemini CLI)这个问题每个月都变得不那么重要。你设计的 loop——Skills、验证逻辑、编排方式——才是杠杆所在。
OpenHands V1 的架构选择
OpenHands 在 2025 年底发布 V1 SDK,将 Skills 体系(从 Microagents 改名而来)提升为核心组件,与 Conversation、Agent、Tool System 并列。

Skills 的加载机制有三种:始终加载(仓库规范、编码标准)、关键词触发(专项领域知识)、按需读取(避免大型文档一次性占满上下文)。OpenHands 明确兼容 .cursorrules、agents.md 等格式,相当于承认 Skill 的格式标准正在跨工具收敛。
Hermes Agent 的自进化闭环
Nous Research 的 Hermes Agent 在 Skill 体系上多走了一步:Agent 能自主创建和改进 Skill。当它解决了一个非平凡问题,会通过 skill_manage 工具将流程固化为新 Skill,下次遇到同类问题直接复用。

Hermes 还支持 Skills Hub 和团队私有 Tap——一个 GitHub 仓库就能作为私有 Skill 源,Skill 的分发方式开始成型。
SkillOpt:把 Skill 当作可训练状态
2026 年 5 月,Microsoft Research 发布 SkillOpt(arXiv 2605.23904),给出了 Skill 优化的系统性方案。
核心主张:把 Skill 文档当作冻结 Agent 的外部可训练状态,用深度学习优化器同等严谨性来训练——模型权重和 Harness 都不动,只优化 Skill 文档。

关键机制叫 Textual Learning Rate——限制每次编辑范围,防止一次性改写过多,与梯度裁剪的思路一脉相承。
实验结果(GPT-5.5 基准):
| 执行环境 | 无 Skill 基线 → SkillOpt | 提升幅度 |
|---|---|---|
| Direct Chat | baseline → +23.5 pts | ✓ |
| Codex Agentic Loop | baseline → +24.8 pts | ✓ |
| Claude Code | baseline → +19.1 pts | ✓ |
跨 6 个 Benchmark、7 个目标模型、3 个执行 Harness,52 个评估格子全部最优或并列最优。在 Codex 上训练出的 best_skill.md,放到 Claude Code 里效果基本不退化——Skill 可移植性被实验数据直接证明。
OpenAI 的 Record & Replay、Cursor Automate、Claude Artifacts,产品路径各异,但都在把人类经验结构化成可复用资产。这是 Skill Economy 的产业侧信号。
六、三层架构与工程决策规则
Garry Tan 整理的三层模型是目前业界最清晰的参考框架:

方向原则:把智能推上去进入 Skill,把执行推下去进入确定性工具层,Harness 只做传导。
在具体做决策时,一个判断清单往往比框架讨论更实用:
- 这件事需要思考、判断、或依赖上下文?→ 写成 Skill(Markdown)
- 相同输入总是得到相同输出?→ 写成 Code(CLI 或 API)
- 它是查找、列表、或状态检查?→ 写成 Code
- 它的边界情况需要领域知识才能处理?→ 写成 Skill
七、企业研发场景的实际落地
以一个典型研发流程为例,说明两种架构在实践中的差别。
Thick Harness 时代的做法是:给 Agent 一个通用 Planner,让它分解任务、自我 Critic,循环直到满意。通用场景勉强够用,涉及特定领域规范时 Agent 就开始乱猜,换项目重新调。
现在的做法是把专业判断力沉淀成 Skill Library,Harness 保持简单:

关键变化:Skill Library 是团队的资产,Harness 是可以替换的基础设施。模型升级了,Skill 不需要动;团队成员离职了,积累的判断力留在 Skill 文件里。
八、Skill 是复利资产,Harness 是商品
Skill 有一个特殊的属性:它随模型能力的提升而自动变强,不需要修改 Skill 本身。两年前写的 Code Review Skill,在更强的模型上跑,Review 质量会更好——因为 Skill 编码的是流程和判断标准,模型负责执行推理。
SkillOpt 的实验给出了另一维度的证据:在 Claude Code 上打磨的 Skill,直接搬到 OpenHands 或 Hermes 效果基本不退化。Harness 锁定效应在数据层面已被打破。
与此同时,Harness 本身正在商品化——Claude Code、Cursor、OpenHands、Hermes、Codex CLI 的核心执行逻辑差异越来越小,都在收敛到相同的工具接口标准。选哪个 Harness,会越来越像选云服务商:看价格、看延迟、看生态。工程时间用在打磨 Skill Library 上,长期回报更可预期。