当前位置：首页 » 苏米杂谈

Thin Harness + Thick Skills：Agent 工程的架构共识，Skill 是复利资产

1小时前苏米杂谈 11 0

2026 年 3 月 31 日，Anthropic 意外将 Claude Code 完整源码推送到 npm registry——512,000 行代码，公开了几个小时。Y Combinator CEO Garry Tan 读完写道：真正的秘密不是模型，是包裹模型的东西。而 Claude Code 的运行时本身极度简单，复杂性全部在另一处。

一、从一段三行代码开始

Claude Code 的核心循环，用伪代码写出来是这样的：

while not done:
    context = observe()
    action  = model(context)
    execute(action)

Observe、Think、Act，然后回到开头。这么薄的运行时，能力从哪里来？

答案是从 Skill Library 来。Anthropic 工程师把几个月积累的代码审查方法、调试流程、架构规范，编码在结构化的 Markdown 文件里，每次运行时作为上下文注入给模型。

这就是 Thin Harness + Thick Skills：执行框架保持极薄，专业能力沉淀在可复用的 Skill 文件里。

二、Harness 是什么

Harness 这个词借自马术——引导力量方向的装具。在 Agent 工程里，它就是 Agent Runtime：Claude Code、Cursor Agent、OpenHands、Devin、Codex CLI、Hermes Agent 都是 Harness，分工相同——在循环里运行模型、读写文件、管理上下文窗口、执行安全约束。

Garry Tan 的原话是，超出这四件事的都是负担。

三、Skill 是什么

Skill 的载体通常是 SKILL.md，但它不是提示词模板——它告诉 Agent 这类任务里什么重要、按什么顺序做、哪里容易出错。薄 Skill 说"写简洁的代码，注意安全"，模型读完输出平庸。厚 Skill 给出具体规则、反例、判断条件和边界情况，输出稳定达到领域专家水准，跨模型、跨团队可复用。

厚 Skill 传递的不是信息量，是判断力。以 Code Review Skill 为例：先看 PR 影响哪些模块，按优先级检查注入风险、越权路径、密钥泄露，再验证接口契约一致性，最后才是风格。这个顺序本身就是判断力。

Root Cause Analysis Skill 是另一种逻辑：收集日志定位时间点 → 沿调用链找异常 → 构建根因树 → 给出修复方案和验证步骤。

四、第一代 Agent 为什么失败

2024 年的 Agent 框架，普遍把能力堆进 Harness 里：

AutoGPT、BabyAGI、早期 CrewAI、MetaGPT 都是这个模式，框架动辄上万行，Skill 几乎为零。

问题出在三处：

Token 浪费：40 个 Tool 定义加各 Agent 角色系统提示，模型还没推理就消耗了一半 token 预算
知识不可携带：调优经验散落在各处 Prompt 里，换个项目什么都带不走
失败率相乘放大：10 个组件各 95% 成功率，整体只剩 60%，每层还多 2-5 秒延迟

Applied AI Society 整理了量化对比：

指标	Thick Harness	Thin Harness + Thick Skills
上下文预算	一半消耗在框架本身	大部分留给实际任务
延迟	每步多轮 Tool Round-trip	读一次 Skill，直接执行
失败率	高，组件越多越脆	低，Skill 已编码边界情况
换任务成本	重新设计整个 Agent	换一个 Skill 文件
知识可携带性	锁在特定框架配置里	Markdown，任何 Agent 可加载

五、行业验证：多个团队从不同方向收敛到同一答案

这个架构判断，在 2025—2026 年间被多支团队独立验证。

Loopcraft 与 Stacking Loops

2026 年上半年，Peter Steinberger 和 Boris Cherny 几乎同时在 X 上写了相似的话：

"你不应该再在 prompting coding agents 了。你应该设计 loops 来 prompt agents。"

Andrej Karpathy 给出了背后的逻辑：把自己从循环里移出去，安排好一切，然后按下 Go。Latent Space 把这几条线索整合成"Loopcraft"，Addy Osmani 在 2026 年 6 月将其命名为 Loop Engineering——"坐在 Harness Engineering 之上一层的工程学科"。

Stacking Loops 的图景是：每一层循环都有自己对应的 Skill 套件，上层循环编排下层，自己不介入细节。

Agentconn 的总结直接点破了竞争逻辑：哪个 Harness 你在用（Claude Code、Codex、Gemini CLI）这个问题每个月都变得不那么重要。你设计的 loop——Skills、验证逻辑、编排方式——才是杠杆所在。

OpenHands V1 的架构选择

OpenHands 在 2025 年底发布 V1 SDK，将 Skills 体系（从 Microagents 改名而来）提升为核心组件，与 Conversation、Agent、Tool System 并列。

Skills 的加载机制有三种：始终加载（仓库规范、编码标准）、关键词触发（专项领域知识）、按需读取（避免大型文档一次性占满上下文）。OpenHands 明确兼容 .cursorrules、agents.md 等格式，相当于承认 Skill 的格式标准正在跨工具收敛。

Hermes Agent 的自进化闭环

Nous Research 的 Hermes Agent 在 Skill 体系上多走了一步：Agent 能自主创建和改进 Skill。当它解决了一个非平凡问题，会通过 skill_manage 工具将流程固化为新 Skill，下次遇到同类问题直接复用。

Hermes 还支持 Skills Hub 和团队私有 Tap——一个 GitHub 仓库就能作为私有 Skill 源，Skill 的分发方式开始成型。

SkillOpt：把 Skill 当作可训练状态

2026 年 5 月，Microsoft Research 发布 SkillOpt（arXiv 2605.23904），给出了 Skill 优化的系统性方案。

核心主张：把 Skill 文档当作冻结 Agent 的外部可训练状态，用深度学习优化器同等严谨性来训练——模型权重和 Harness 都不动，只优化 Skill 文档。

关键机制叫 Textual Learning Rate——限制每次编辑范围，防止一次性改写过多，与梯度裁剪的思路一脉相承。

实验结果（GPT-5.5 基准）：

执行环境	无 Skill 基线 → SkillOpt	提升幅度
Direct Chat	baseline → +23.5 pts	✓
Codex Agentic Loop	baseline → +24.8 pts	✓
Claude Code	baseline → +19.1 pts	✓

跨 6 个 Benchmark、7 个目标模型、3 个执行 Harness，52 个评估格子全部最优或并列最优。在 Codex 上训练出的 best_skill.md，放到 Claude Code 里效果基本不退化——Skill 可移植性被实验数据直接证明。

OpenAI 的 Record & Replay、Cursor Automate、Claude Artifacts，产品路径各异，但都在把人类经验结构化成可复用资产。这是 Skill Economy 的产业侧信号。

六、三层架构与工程决策规则

Garry Tan 整理的三层模型是目前业界最清晰的参考框架：

方向原则：把智能推上去进入 Skill，把执行推下去进入确定性工具层，Harness 只做传导。

在具体做决策时，一个判断清单往往比框架讨论更实用：

这件事需要思考、判断、或依赖上下文？→ 写成 Skill（Markdown）
相同输入总是得到相同输出？→ 写成 Code（CLI 或 API）
它是查找、列表、或状态检查？→ 写成 Code
它的边界情况需要领域知识才能处理？→ 写成 Skill

七、企业研发场景的实际落地

以一个典型研发流程为例，说明两种架构在实践中的差别。

Thick Harness 时代的做法是：给 Agent 一个通用 Planner，让它分解任务、自我 Critic，循环直到满意。通用场景勉强够用，涉及特定领域规范时 Agent 就开始乱猜，换项目重新调。

现在的做法是把专业判断力沉淀成 Skill Library，Harness 保持简单：

关键变化：Skill Library 是团队的资产，Harness 是可以替换的基础设施。模型升级了，Skill 不需要动；团队成员离职了，积累的判断力留在 Skill 文件里。

八、Skill 是复利资产，Harness 是商品

Skill 有一个特殊的属性：它随模型能力的提升而自动变强，不需要修改 Skill 本身。两年前写的 Code Review Skill，在更强的模型上跑，Review 质量会更好——因为 Skill 编码的是流程和判断标准，模型负责执行推理。

SkillOpt 的实验给出了另一维度的证据：在 Claude Code 上打磨的 Skill，直接搬到 OpenHands 或 Hermes 效果基本不退化。Harness 锁定效应在数据层面已被打破。

与此同时，Harness 本身正在商品化——Claude Code、Cursor、OpenHands、Hermes、Codex CLI 的核心执行逻辑差异越来越小，都在收敛到相同的工具接口标准。选哪个 Harness，会越来越像选云服务商：看价格、看延迟、看生态。工程时间用在打磨 Skill Library 上，长期回报更可预期。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Thin Harness + Thick Skills：Agent 工程的架构共识，Skill 是复利资产

请登录后发表评论