10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI智能体

Anthropic长时运行Agent框架:让AI像人类工程师一样交接班

1小时前 AI智能体 7 0

当 AI Agent 完成一个需要数小时甚至数天的复杂项目时,它会面临一个致命问题——每次新会话开始时,它对之前的工作一无所知。

Anthropic 团队从人类工程师的工作方式中汲取灵感,设计了一套长时运行 Agent 框架。核心发现出人意料地朴素:解决 Agent "失忆"问题的最佳灵感,来自于观察优秀的人类工程师每天是怎么交接工作的。

image1

问题:Agent 跑着跑着就"翻车"了

Claude Agent SDK 拥有上下文压缩(Compaction)能力——当上下文窗口快满时,自动压缩之前的内容继续工作。理论上允许 Agent 无限期工作。但现实中,即使用最强的 Opus 4.5 模型,仅凭一句高级指令(比如"构建一个 claude.ai 的克隆"),Agent 也无法构建出合格的生产级 Web 应用。

两个经典翻车模式:

模式一:贪多嚼不烂

Agent 倾向于试图在一个上下文窗口内一步到位完成整个应用。结果上下文在实现过程中耗尽,留下半成品:功能写了一半、没有文档、代码状态混乱。下一个 Agent 接手时不得不花大量时间"考古"——猜测上一个 Agent 做了什么。

模式二:过早"交卷"

当部分功能已构建完成后,后续 Agent 发现"看起来 App 已经能跑了",于是直接宣布任务完成——哪怕还有一堆功能没做。

解法:像人类工程师一样"交接班"

Anthropic 设计了一个分两步走的框架:

第一步:初始化 Agent——搭好脚手架

第一个 Agent 会话使用专门的提示词,不急着写代码,而是先做三件事:

  • 写一个 init.sh 脚本:记录如何启动开发服务器、运行测试等操作
  • 创建 claude-progress.txt 文件:作为"工作日志",记录每个 Agent 做了什么
  • 做一个初始的 git 提交:让后续 Agent 能通过 git 历史了解项目的演进过程

这本质上就是资深工程师在团队开工前做的事:搭好基础设施、建立工作规范、确保每个人都能快速上手。

第二步:编码 Agent——增量推进 + 干净交接

每个后续的 Agent 会话被要求做到两点:

  • 增量进展:只做一件事,做完做好
  • 干净交接:提交 git、更新进度文件,确保环境处于"可合并到主分支"的状态

所谓"干净状态"非常具体:没有重大 Bug、代码整洁有文档、下一个接手的人(Agent)可以立刻开始新功能开发,不需要先收拾烂摊子。

image2

三大环境管理策略

策略一:结构化功能清单

初始化 Agent 基于用户的原始需求,生成一个详尽的功能清单。在 claude.ai 克隆的案例中,这个清单包含超过 200 个功能点:

{
    "category": "functional",
    "description": "点击新建聊天按钮可以创建一个新对话",
    "steps": ["导航到主界面", "点击'新建聊天'按钮", "验证新对话被创建"],
    "passes": false
}

每个功能初始状态都是 "passes": false。编码 Agent 只被允许将 passes 从 false 改为 true,且提示词中有强硬措辞:"删除或编辑测试是不可接受的"。

一个有趣的细节:Anthropic 选择 JSON 而不是 Markdown 来存储这个文件。原因是模型在面对 Markdown 时更容易随意修改内容,而 JSON 的结构化格式天然对此有抑制作用。

策略二:严格的增量开发

这是整个框架中最关键的一条规则:每个 Agent 一次只开发一个功能。完成后提交 git 并更新进度文件。这带来两个好处:

  • git 历史使得 Agent 可以回退糟糕的代码改动
  • 消除了"考古"开销——新 Agent 不再需要猜测之前发生了什么

策略三:像用户一样测试

Agent 在没有明确提示的情况下,会用单元测试或 curl 命令来测试,但这些测试往往无法覆盖真实的端到端场景。

解法是给 Agent 配备浏览器自动化工具(如 Puppeteer MCP),并明确提示它:"像人类用户一样进行所有测试"。Agent 通过 Puppeteer 截取屏幕截图来验证功能,能发现很多仅看代码发现不了的 Bug。

标准化的会话启动流程

每个编码 Agent 的会话启动被标准化为清晰的流程:

  1. 定位:运行 pwd 确认工作目录
  2. 阅读历史:读取 git 日志和进度文件,了解最近完成的工作
  3. 选择任务:阅读功能列表,选择最高优先级的未完成功能
  4. 健康检查:启动开发服务器,运行基本端到端测试,确认应用没有处于损坏状态
  5. 开始开发

这个流程中有一个容易被忽略但至关重要的细节:先做健康检查,再开新功能。如果上一个 Agent 碰巧留下了 Bug,那么在 Bug 未修复的情况下开发新功能,只会让问题更加恶化。

四大失败模式速查

问题 初始化 Agent 要做的 编码 Agent 要做的
过早宣布项目完成 生成结构化的 JSON 功能清单 每次会话开始时读取功能清单,选择一个功能开发
环境留在有 Bug/未记录的状态 建立 git 仓库 + 进度文件 先读日志再开工,做完提交 git + 写进度更新
功能标记为完成但其实没做好 建立功能清单 必须端到端自测通过后才能标记"passes"
浪费时间搞清楚怎么跑项目 写好 init.sh 脚本 开始时读取 init.sh 直接启动

苏米注:长时运行 Agent 的问题,本质上是一个"工程师交接班"的问题。解决方案不需要复杂的技术突破——进度文件、git 历史、结构化的功能清单,这些都是人类软件团队每天在用的工具和流程。

展望

这项工作中仍有一些开放性问题:

  • 单 Agent vs 多 Agent:是让一个通用编码 Agent 包揽一切更好,还是用专门的 Agent(测试 Agent、代码审查 Agent、代码清理 Agent)分工协作更好?
  • 领域泛化:这套方案目前针对全栈 Web 应用开发。但它背后的原则——增量进展、结构化交接、端到端验证——很可能可以迁移到科学研究、金融建模等其他领域。

对于正在构建 Agent 系统的开发者来说,最重要的启示或许是:不要试图让 Agent 变得更聪明来解决长时运行的问题,而是给它一套好的工作规范。就像管理一个工程团队一样,流程和规范往往比个人能力更重要。

原文:anthropic.com/engineering/effective-harnesses-for-long-running-agents

代码示例:github.com/anthropics/claude-quickstarts

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Anthropic长时运行Agent框架:让AI像人类工程师一样交接班
#Anthropic #Agent #长时运行 #Claude #框架设计 
收藏 1
OpenWolf:Claude Code 外挂记忆系统,Token 消耗降低 80%
这是最后一篇
推荐阅读
  • 用OpenClaw+Obsidian 实操构建可复用的创作系统,从AI写作到自动化内容工厂
  • 我在JVS Claw云养虾,这才是云端部署的终极方案:多端、安全、又省心!
  • 腾讯文档Skills接入完全指南:如何让AI助手直接管理你的云端文档
  • 让小龙虾自己逛社交网络, MoltBook Vs InStreet
  • OpenClaw 发布新命令 /btw:随时插话提问,主任务不受扰
评论 (0)
请登录后发表评论
分类精选
Multi-Agent(多智能体)实战:OpenClaw x 飞书机器人,为每个业务场景打造专属多Agent项目协作群
5602 2月前
Star-Office-UI:用像素办公室实时可视化 OpenClaw(小龙虾)的工作状态
2826 1月前
微信 iLink Bot 协议深度拆解:开发者必备实战手册
2757 1月前
OpenClaw 飞书多 Agent 实战:一只龙虾不够用?教你养一池子龙虾
2690 1月前
OpenClaw 升级到 2026.3.24 后,微信 ClawBot 插件更新指南
2444 1月前
新手入门小龙虾(OpenClaw)完整配置指南
2361 1月前
微信官方 ClawBot 插件多Agent如何绑定多个微信号?让全家人都用上了OpenClaw!
2238 1月前
即梦CLI:如何用OpenClaw搭建AI工作流实现24小时自动化生图、生视频创作
2154 1月前
OpenClaw 2026.3.2 版本权限隔离导致工具失效,两招教你满血复活!
2147 2月前
OpenClaw部署全攻略:从本地到云端,解锁HTTPS安全访问
1948 1月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Anthropic长时运行Agent框架:让AI像人类工程师一样交接班
2 装完这 5 个工具,Hermes 才算真正上线
3 把 Demo 变生产:打造可靠 AI Agent 的 7 大 Harness 组件
4 Hermes 长期记忆配置教程:用 Mem0 让 AI Agent 记住你的偏好和项目历史
5 7 个高质量前端UI设计的 Skills(技能包),让 AI 编程生成高质量UI代码
6 Hermes Agent 记忆增强插件:MemOS 让 AI 越用越聪明,智能去重 + 混合检索
7 browser-harness 部署指南:5 分钟让 AI 自动操作浏览器,结合 Hermes Agent 实现本地 AGI
8 Hermes Agent 自进化机制源码解析:Memory、Skill、Nudge Engine 三子系统详解
9 Hermes Agent 的 7 个隐藏黑科技:会自我进化的 AI 助手完整使用指南
10 Product Manager Skills 开源:46 个实战技能 +6 个工作流,产品经理的实战 MBA
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联