10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI智能体

Agent 工程新基建:Harness 如何决定 AI Agent 从 Demo 到生产系统的可靠性?

53分钟前 AI智能体 0 0

当 AI Agent 真正开始修代码、跑命令、改配置,跨越几十轮工具调用去完成一个长任务时,问题会迅速从「模型能不能做」变成「系统能不能让它稳定、安全、可恢复地做完」。这就是 Harness 开始变得重要的原因。

Harness 不是一个新框架,也不只是 prompt 外面包一层工具调用,而是 Agent 外部那套负责运行、约束、验证、记录、审批和恢复的工程系统。本文借 10 篇来自 Anthropic、OpenAI、LangChain 和 Inngest 的 Harness 相关博客,梳理 Agent 从 Demo 走向生产系统时绕不开的一条主线。

图片 1

01 什么时候需要 Agent,什么时候只需要 Workflow?

判断是否需要 Agent,关键不在技术新旧,而在任务本身是否真的需要自主决策。Anthropic 在《Building Effective AI Agents》中强调:不要一上来就把系统做成高度自治的 Agent。很多任务其实更适合 Workflow,也就是提前设计好的流程。

真正需要 Agent 的任务,通常具备几个特征:任务路径无法提前完全枚举、模型需要根据中间结果继续决策、任务需要调用多个工具并根据反馈调整下一步、任务可能跨越较长时间且状态不断变化。

Agent 的工程化第一步,不是让模型更自由,而是先判断任务到底需不需要自由。Harness 的复杂度应该和任务复杂度匹配。

02 工具不是 API,而是 Agent 的操作界面

Agent 能否可靠行动,很大程度上取决于工具是否被设计成它真正看得懂、用得准的操作界面。Anthropic 在《Writing effective tools for AI agents》中指出:给 Agent 设计工具,不是在暴露内部 API,而是在设计模型可理解、可选择、可恢复的行动接口。

一个好工具应该做到:名称清晰、参数少而明确、返回结构稳定、错误反馈可行动、权限边界清楚、工具粒度合适。工具不是外设,而是 Agent 改变外部世界的手。工具设计得越差,Agent 的行动空间就越混乱。

图片 2

03 Harness Engineering:把「模型会做」变成「系统能交付」

OpenAI 在《Harness engineering》中讨论的重点,不是单纯调 prompt,也不是给模型接更多工具,而是如何通过约束、验证和反馈,构建可靠的 agent-first 软件。

Harness Engineering 的本质,是把大模型的不确定性装进可检查、可回滚、可复现的工程闭环。模型负责提出动作,Harness 负责让动作可控、可查、可修。所谓 agent-first software,也不是推翻传统软件工程,而是把传统工程里的测试、权限、回滚、观测性,前移到 Agent 的运行过程中。

图片 3

04 Harness 不是 Framework:一个管抽象,一个管运行

Inngest 在《Your Agent Needs a Harness, Not a Framework》中提醒:真正把 Agent 推向生产时,最先崩的往往不是抽象层,而是运行层。Framework 解决的是「怎么写 Agent」,Harness 解决的是「Agent 怎么稳定地跑完任务」。

该博客更愿意把 Harness 理解成 Agent 的生产运行时。尤其是长任务场景,真正关键的是 durable execution:任务中断后能继续,工具失败后能重试,外部事件到来后能恢复上下文。

05 长任务 Agent 的关键是状态,而不是更长上下文

Anthropic 在《Effective harnesses for long-running agents》中强调:长任务需要外部状态管理。短任务 Agent 拼的是推理质量,长任务 Agent 拼的是状态纪律。

一个可靠的长任务 Harness,至少要考虑:Session log(记录全过程)、Checkpoint(保存可恢复状态)、State summary(压缩成摘要)、Workspace(维护工作产物)、容错策略(失败后如何继续)、Validation loop(判断是否完成)。更长上下文不是长任务 Agent 的全部答案,结构化状态管理才是。

图片 4

06 Meta-harness:把 Brain、Hands、Logs 拆开

Anthropic 在《Scaling Managed Agents: Decoupling the brain from the hands》中提出:不要让模型直接背负整个运行系统。可以把 Agent 拆成 Brain(模型)、Hands(工具层)、Session Log(记录)、Harness Loop(调度)和 Sandbox(隔离环境)。

这种拆分的好处是 Brain 可以换模型,Hands 可以换工具,Session log 可以独立审计,Sandbox 可以独立控制风险。Session log 不是聊天记录的美化版,它应该记录目标、动作、工具结果、关键决策和失败原因。

图片 5

07 应用开发 Agent 是 Harness 的压力测试

应用开发几乎把长任务 Agent 的问题都集中到了一起:需求模糊、文件多依赖复杂、修改互相影响、必须运行验证、UI 需预览、用户可能中途变卦。这类任务不是「让模型生成一段代码」就结束了,它更像一个持续循环。

因此,应用开发 Agent 的 Harness 至少要提供:稳定的项目工作区、文件读写能力、命令执行环境、预览或测试反馈、错误日志管理、变更记录、用户确认与中断机制、失败恢复能力。

08 Claude Code auto mode:自治度越高,审批越要系统化

当 Agent 能执行真实操作后,哪些动作可以自动执行,哪些必须问用户?Claude Code auto mode 尝试走中间路线:用分类器和策略系统来判断操作风险。审批不再只是一个人类按钮,而变成 Harness 里的一层安全能力。

危险操作通常包括删除文件、安装依赖、访问网络、修改环境变量等。它们不一定都要禁止,但必须被识别、分级和记录。真正可靠的 auto mode,不能只靠一次风险判断,还需要 sandbox 限制影响范围,用日志留下证据,用撤销或恢复机制兜底。

图片 6

09 不换模型,只改 Harness,也可能提升 Agent 表现

LangChain 在《Improving Deep Agents with harness engineering》中指出:Harness 改进本身,也可能显著改变 Agent 的基准表现。Deep Agent 的最终表现,取决于上下文组织、任务拆分、工具好用程度、执行循环稳定性、错误恢复能力等。

同一个模型,换一套 Harness,表现可能完全不同。工具描述更清楚,模型就少走弯路;状态摘要更稳定,长任务就不容易丢目标。Agent benchmark 的提升未必都来自模型升级,很多时候,真正变强的是模型外面的执行系统。

10 评测 Deep Agents,必须评测轨迹、状态和恢复能力

LangChain 在《Evaluating Deep Agents: Our Learnings》中强调:Deep Agent 的评测要复杂得多。Agent 不是一次输出,而是一段轨迹。最终答案当然重要,但过程同样重要。

Deep Agent 的评测至少应该覆盖三层:Final result(最终任务是否完成)、Trajectory(中间步骤是否合理)、Runtime state(状态、工具、权限和恢复机制是否可靠)。未来讨论 Agent 能力时,只说模型版本是不够的;Harness 设定、工具环境和评测协议同样应该被披露。

图片 7

总结:Agent 是一套运行系统

把这 10 篇文章放在一起看,它们都在指向同一个方向:Agent 正在从「模型能力展示」进入「系统工程竞争」。

当模型已经足够强,Agent 产品还差好的工具接口、稳定的执行环境、状态管理、日志、检查点、权限系统、sandbox、自动审批、可观测性和评测协议。把这些东西加起来,就是 Harness。

下一阶段的 Agent 竞争,可能不会只发生在模型参数、上下文长度和 benchmark 排名上,它也会发生在 Harness 上:谁能更好地组织长任务状态?谁能更安全地放大自治能力?谁能在失败后恢复,而不是从头再来?

模型让 Agent 看起来聪明,Harness 让 Agent 真的能干活。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Agent 工程新基建:Harness 如何决定 AI Agent 从 Demo 到生产系统的可靠性?
#Agent #Harness #AI Engineering #Workflow #Anthropic #OpenAI #LangChain 
收藏 1
MTools:开源跨平台全能工具箱,集图片处理、音视频编辑与 AI 辅助于一体
Lingji Cut(灵剪):开源本地优先的 AI 视频全链路创作工作台
推荐阅读
  • OpenClacky 李亚飞:Agent 的下半场是账单,省钱才是硬道理
  • 龙虾(OpenClaw)装好别松懈,教你五步给电脑装上龙虾安全防护
  • 微信也能直接操作 OpenClaw?实测腾讯自家 QClaw:本地一键部署,启动更省事
  • 在OpenClaw 构建你的专属 SOP(附10 套可直接复制的SOP配置)
  • 如何用开源Agent框架 Nanobot + Ollama 快速搭建低成本本地AI助手
评论 (0)
请登录后发表评论
分类精选
Multi-Agent(多智能体)实战:OpenClaw x 飞书机器人,为每个业务场景打造专属多Agent项目协作群
6131 3月前
微信 iLink Bot 协议深度拆解:开发者必备实战手册
4058 2月前
OpenClaw 升级到 2026.3.24 后,微信 ClawBot 插件更新指南
3345 2月前
Star-Office-UI:用像素办公室实时可视化 OpenClaw(小龙虾)的工作状态
3291 2月前
微信官方 ClawBot 插件多Agent如何绑定多个微信号?让全家人都用上了OpenClaw!
3276 2月前
即梦CLI:如何用OpenClaw搭建AI工作流实现24小时自动化生图、生视频创作
3168 2月前
OpenClaw 飞书多 Agent 实战:一只龙虾不够用?教你养一池子龙虾
3136 2月前
新手入门小龙虾(OpenClaw)完整配置指南
2772 2月前
OpenClaw 2026.3.2 版本权限隔离导致工具失效,两招教你满血复活!
2444 2月前
OpenClaw部署全攻略:从本地到云端,解锁HTTPS安全访问
2287 2月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Agent 工程新基建:Harness 如何决定 AI Agent 从 Demo 到生产系统的可靠性?
2 LangChain Deep Agent 全流程评估方案:解决 Agent 上线前的核心痛点
3 Hermes Agent 架构解析:目录结构、子系统与设计原则
4 garden-skills:25 种风格配方解决 AI 前端审美同质化,6.2K Star 的 Agent Skills 集合
5 Agent Skills完全解析:原理、机制、架构、代码与AI工程化落地
6 OfficeCLI开源:让AI Agent直接操控Word/Excel/PPT,无需安装Office
7 Hermes多代理协作完全指南:从零搭建你的第一个AI团队
8 OpenClacky 李亚飞:Agent 的下半场是账单,省钱才是硬道理
9 Obsidian + Codex:用 AI Agent 打造你的第二大脑,5 个场景让笔记真正活起来
10 不会写代码也能做 Skill:手把手拆解去 AI 味 Skill 的实现原理
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联