10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI编程开发

OpenAI 提出 Harness Engineering:标准化文档结构 + 自动化验收,量化 AI 可读性评分

1小时前 AI编程开发 11 0

Claude Code 和 Codex 已经够强了,问题不在模型,在你的仓库。没有入口文件、没有架构约束、没有当前任务——agent 进来两眼一抹黑,写出来的东西自然偏。

图片

苏米注:这个工具做的就是把仓库改造成 agent 能顺畅工作的环境。

问题是这样来的

把任务丢给 Claude Code,它开始噼里啪啦写代码。写完一看方向错了。它不知道有个专门的 utils/ 目录,不知道这个模块不能直接访问数据库,不知道上周刚重构了那块逻辑。

于是花 20 分钟解释背景,它重写,还是偏,再解释……

今年二月 OpenAI 发了一篇文章叫 Harness Engineering,核心观点是:agent 能不能好好工作,很大程度上取决于仓库有没有给它准备好"工作环境"。他们内部用这套方法,让 agent 承担了相当一部分实际开发工作。

图片

不是零人工干预——人负责决策和审查,agent 负责执行。分工很清晰:

人类负责 Agent 负责
目标和验收标准 读文档理解仓库
架构决策 写代码、跑测试
安全审查 开 PR、响应 review
最终合并 根据反馈修改

一条命令初始化

安装之后,在你的项目目录里跑:

harness init

跑完之后,项目里多了这些:

your-project/
├── CLAUDE.md        ← Claude Code 自动读取
├── AGENTS.md        ← Codex / 其他 agent
└── .harness/docs/
    ├── architecture/    ← 系统架构
    ├── product/         ← 产品需求
    ├── quality/         ← 质量标准
    ├── security/        ← 安全规范
    └── plans/active/    ← 执行计划

你填好这些文档,agent 进来读一遍,就知道这个项目是干什么的、架构怎么分层、什么不能动、当前在做哪个任务。

执行计划:让 agent 知道"现在在做什么"

计划存成 JSON 文件,带状态机(pending → in_progress → done)。Agent 每次开始工作先读计划,做完一步更新状态,下次继续不用从头解释。

harness plan create "实现用户认证" "添加 JWT"
# → Created: EP-20260401-120000

harness plan list
# EP-20260401-120000  [0/3]  实现用户认证

harness check:机械化验收

很多"质量检查"工具其实只是打印一行"✓ passed",背后什么都没跑。harness check 是真的跑:

Project type: nextjs
──────────────────────────────
✓ [PASS] harness-docs  (2ms)
✓ [PASS] lint  (1843ms)
✗ [FAIL] test  (4201ms)
  ✗ should return 401 for invalid token

Results: 2/3 checks passed

自动检测项目类型(Next.js / Node / Python / Go / Rust),选对应的 lint 和 test 命令。失败就 exit 1,直接卡掉 CI。不是"建议你测试一下",是没过就不让合并。

harness audit:量化 agent 可读性

✓ Architecture documentation    +20
✓ Principles / quality standards +15
✓ AGENTS.md                      +10
✓ CLAUDE.md                       +5
✗ Active execution plans          0/15
✓ Test directory                  +20
✓ Linter configuration            +10
✗ CI/CD workflows                  0/5

[███████████████░░░░░] 80/100
✓ Excellent — highly readable for agents

把仓库对 agent 的友好程度量化成 0-100 的分数。文档没更新、没有执行计划、没有 CI——分数会掉。分数掉了,agent 工作质量也会掉。

苏米注:这个评分机制很实用,可以定期检查仓库的 agent 可读性,及时发现文档过期、缺少测试等问题。

harness garden:代码卫生检查

自动检测并报告:

  • 📌 90 天未更新的文档(过期信息比没有信息更危险)
  • 📌 重复定义的工具函数——debounce / formatDate 写了三份
  • 📌 未经 schema 验证的 API 响应
  • 📌 setTimeout 里的硬编码数字

完整工作流

  1. harness init — 生成文档骨架
  2. 填写文档 — 描述架构、需求、约束
  3. harness plan create — 创建执行计划
  4. claude / codex — Agent 读文档、写代码、开 PR
  5. harness check && harness audit — 验收
  6. 人类 review 并合并

步骤 4 就是你正常用 Claude Code 或 Codex,不需要换工具。Harness 做的是让步骤 4 变得更顺。

图片

如图,cc 会使用 harness skill 将所有任务列出;然后会启动多个并行的 Agent 去执行任务,最后做优化、测试、验收。有点类似 cc 的 plan mode 或者 cc teams 的模式。

总结

Harness Engineering 的核心价值在于:通过标准化的文档结构和自动化工具,让 AI Agent 能够快速理解项目背景、架构约束和当前任务,从而减少反复沟通的成本,提高代码生成质量。

最佳实践:

  • 用 harness init 快速搭建文档骨架
  • 定期运行 harness audit 检查可读性分数
  • 用 harness check 作为 CI 卡点,确保质量
  • 通过 harness garden 清理技术债务
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:OpenAI 提出 Harness Engineering:标准化文档结构 + 自动化验收,量化 AI 可读性评分
#Harness Engineering #OpenAI #AI 编程 #代码质量 
收藏 1
RTK 开源工具实测:Claude Code 会话 Token 节省 80%,16.8K Star 验证有效性
OpenClaw 浏览器自动化教程:Chrome DevTools Attach Mode 接管浏览器,自然语言操控网页
推荐阅读
  • Cursor 新官网:从“IDE里的AI”到“AI里的IDE”
  • 用 Cursor 搭配 Context7,让 AI 自动看文档、写对代码的神级MCP插件
  • Skill Seeker :20分钟让Claude AI精通各种前后端技术,让Claude AI秒变全栈大师的开源项目
  • 深入解析Cursor的安全性与功能:官方安全文档中披露的代码检索逻辑
  • GitHub-MCP-Server:开发必备自动化 AI 助手,从部署到实战
评论 (0)
请登录后发表评论
分类精选
手把手教你用支付宝订阅 Cursor Pro:国内用户最全开通教程(附取消自动扣费)
24460 9月前
Claude Code Rules:claude.md文件配置完全指南
19761 8月前
Claude Code + MCP 实战教程:手把手教你如何在Claude Code里面使用MCP
14327 8月前
学生党0元白嫖!手把手教你解锁Cursor Pro年VIP,超详细申请教程(附避坑指南)
13750 11月前
Cursor 0.46更新,新增支持Claude 3.7 + GPT 4.5,Cursor Pro 无限续杯攻略,全自动化工具使用说明
13045 1年前
Claude Code 官方已支持Windows系统!手把手教你免费安装使用Claude Code
13000 8月前
Cursor代码生成器中文使用教程,Cursor新手入门完全指南,全网最全面详细的Cursor使用教程
12275 1年前
手把手教你在VS Code & Cline/RooCode 中使用Kimi K2 模型,配置实录+开发实战体验
12097 8月前
Cursor进阶指南:如何解决Cursor上下文长度的限制超出后”降智“问题
10860 10月前
手把手教你在Claude Code 中使用Kimi K2 模型,超简单配置教程分享
10135 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 OpenAI 提出 Harness Engineering:标准化文档结构 + 自动化验收,量化 AI 可读性评分
2 Claude Code 创始人再放狠货!15 个隐藏功能曝光
3 Claude Code v2.1.90 深度解析:19 项变更逐一拆解
4 立即停用!Axios 惨遭投毒!
5 Anthropic 源码泄露分析:1902 个文件揭示 Claude Code 的 Harness 工程真相
6 Claude Code 源码深度分析:5000 行上帝组件与 89 个 Feature Flags 的技术债
7 OpenAI 为 Claude Code 推出官方插件:7 个命令实现代码审查 + 任务委派
8 cx:一行命令,让 Claude Code 读代码的 token 开销减半
9 HolyClaude:一条命令启动的容器化AI编程工作站,打开浏览器,就能开始写代码。
10 90%的人还未解锁的 Claude Code 10 个隐藏指令
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联