当前位置：首页 » AI编程开发

OpenAI 提出 Harness Engineering：标准化文档结构 + 自动化验收，量化 AI 可读性评分

1月前 AI编程开发 488 0

Claude Code 和 Codex 已经够强了，问题不在模型，在你的仓库。没有入口文件、没有架构约束、没有当前任务——agent 进来两眼一抹黑，写出来的东西自然偏。

苏米注：这个工具做的就是把仓库改造成 agent 能顺畅工作的环境。

问题是这样来的

把任务丢给 Claude Code，它开始噼里啪啦写代码。写完一看方向错了。它不知道有个专门的 utils/ 目录，不知道这个模块不能直接访问数据库，不知道上周刚重构了那块逻辑。

于是花 20 分钟解释背景，它重写，还是偏，再解释……

今年二月 OpenAI 发了一篇文章叫 Harness Engineering，核心观点是：agent 能不能好好工作，很大程度上取决于仓库有没有给它准备好"工作环境"。他们内部用这套方法，让 agent 承担了相当一部分实际开发工作。

不是零人工干预——人负责决策和审查，agent 负责执行。分工很清晰：

人类负责	Agent 负责
目标和验收标准	读文档理解仓库
架构决策	写代码、跑测试
安全审查	开 PR、响应 review
最终合并	根据反馈修改

一条命令初始化

安装之后，在你的项目目录里跑：

harness init

跑完之后，项目里多了这些：

your-project/
├── CLAUDE.md        ← Claude Code 自动读取
├── AGENTS.md        ← Codex / 其他 agent
└── .harness/docs/
    ├── architecture/    ← 系统架构
    ├── product/         ← 产品需求
    ├── quality/         ← 质量标准
    ├── security/        ← 安全规范
    └── plans/active/    ← 执行计划

你填好这些文档，agent 进来读一遍，就知道这个项目是干什么的、架构怎么分层、什么不能动、当前在做哪个任务。

执行计划：让 agent 知道"现在在做什么"

计划存成 JSON 文件，带状态机（pending → in_progress → done）。Agent 每次开始工作先读计划，做完一步更新状态，下次继续不用从头解释。

harness plan create "实现用户认证" "添加 JWT"
# → Created: EP-20260401-120000

harness plan list
# EP-20260401-120000  [0/3]  实现用户认证

harness check：机械化验收

很多"质量检查"工具其实只是打印一行"✓ passed"，背后什么都没跑。harness check 是真的跑：

Project type: nextjs
──────────────────────────────
✓ [PASS] harness-docs  (2ms)
✓ [PASS] lint  (1843ms)
✗ [FAIL] test  (4201ms)
  ✗ should return 401 for invalid token

Results: 2/3 checks passed

自动检测项目类型（Next.js / Node / Python / Go / Rust），选对应的 lint 和 test 命令。失败就 exit 1，直接卡掉 CI。不是"建议你测试一下"，是没过就不让合并。

harness audit：量化 agent 可读性

✓ Architecture documentation    +20
✓ Principles / quality standards +15
✓ AGENTS.md                      +10
✓ CLAUDE.md                       +5
✗ Active execution plans          0/15
✓ Test directory                  +20
✓ Linter configuration            +10
✗ CI/CD workflows                  0/5

[███████████████░░░░░] 80/100
✓ Excellent — highly readable for agents

把仓库对 agent 的友好程度量化成 0-100 的分数。文档没更新、没有执行计划、没有 CI——分数会掉。分数掉了，agent 工作质量也会掉。

苏米注：这个评分机制很实用，可以定期检查仓库的 agent 可读性，及时发现文档过期、缺少测试等问题。

harness garden：代码卫生检查

自动检测并报告：

📌 90 天未更新的文档（过期信息比没有信息更危险）
📌 重复定义的工具函数——debounce / formatDate 写了三份
📌 未经 schema 验证的 API 响应
📌 setTimeout 里的硬编码数字

完整工作流

harness init — 生成文档骨架
填写文档 — 描述架构、需求、约束
harness plan create — 创建执行计划
claude / codex — Agent 读文档、写代码、开 PR
harness check && harness audit — 验收
人类 review 并合并

步骤 4 就是你正常用 Claude Code 或 Codex，不需要换工具。Harness 做的是让步骤 4 变得更顺。

如图，cc 会使用 harness skill 将所有任务列出；然后会启动多个并行的 Agent 去执行任务，最后做优化、测试、验收。有点类似 cc 的 plan mode 或者 cc teams 的模式。

总结

Harness Engineering 的核心价值在于：通过标准化的文档结构和自动化工具，让 AI Agent 能够快速理解项目背景、架构约束和当前任务，从而减少反复沟通的成本，提高代码生成质量。

最佳实践：

用 harness init 快速搭建文档骨架
定期运行 harness audit 检查可读性分数
用 harness check 作为 CI 卡点，确保质量
通过 harness garden 清理技术债务

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：OpenAI 提出 Harness Engineering：标准化文档结构 + 自动化验收，量化 AI 可读性评分

请登录后发表评论