10+年产品经理专注分享AI 工具、AI 资讯、AI Coding、Vibe Coding与下一代产品创新,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI智能体

Agentic RL:强化学习如何训练 AI Agent 的长周期决策能力

2小时前 AI智能体 18 0

大模型的强化学习训练走过了三个阶段:RLHF 告诉模型人类喜欢哪种回答,Reasoning RL 训练思维链(o1、DeepSeek R1),而现在正在发生的第三个阶段目标更大——训练模型在真实环境里持续行动的能力。这就是 Agentic RL:让 RL 的优化对象从一次回答,变成一个完整的 Agent 行为序列。

为什么单轮 RL 撑不住 Agent 场景

传统 RLHF 的流程只有四步:Prompt → Model → Answer → Reward。它建立在一个隐含假设上:一次交互完成一件事。但在真实的 Agent 场景中,写代码、做研究、操作浏览器需要持续几十步甚至几百步的交互,每一步都改变环境状态,而环境状态又影响下一步。

图片 1

单轮 RL 只能为 Loop 的"输出结果"打一次分,但整个过程中模型做了几十个决策——工具调用、规划路径、错误纠正——这些都得不到训练信号。

MDP 里发生了什么变化

MDP(马尔可夫决策过程)包含五个要素:State、Action、Transition、Reward、Policy。传统 LLM RL 是一个高度退化的 MDP:State 是 Token 上下文,Action 是预测下一个 Token,Reward 在序列末尾给一次。整个训练过程在语言空间内自循环,从未接触外部世界。

图片 2

Agentic RL 把这三个要素都扩展了:State 现在包含环境的真实状态,Action 会触发真实的代码执行或文件修改,Reward 需要在几十步的时间跨度里传播。更准确地说,这是一个 POMDP——模型永远只能看到环境的部分状态,必须在信息不完整的情况下做决策。

训练一个 Agent 需要什么基础设施

Agentic RL 的工程难度比同等规模的单轮 RL 高出不止一个量级,根源在于:每条训练样本都需要一个可执行的真实环境。

传统 RL 批量采样 512 个 Prompt,并行跑,收数据,更新。Agentic RL 的 512 个并行 Rollout,每个都需要独立的文件系统、代码执行环境、数据库状态。环境共享会导致状态污染,因此沙箱化是硬性要求。AgentGym-RL 论文记录:尝试并行启动 512 个 Docker 容器训练,Docker Daemon 直接崩溃,最终迁移到 Kubernetes 调度才解决扩展问题。

另一个瓶颈是长 Trajectory 的同步等待。100 步的 Rollout 可能需要几十分钟,同步批次下 GPU 要等最长 Trajectory 跑完才能更新——大部分时间空转。2025 年出现的全异步训练架构(ASearcher、AReaL)将 Trajectory 执行与模型参数更新完全解耦,让工具调用超过 100 轮、生成超过 400K Token 的极长任务成为现实。

图片 3

三个代表性框架

ToRL:让模型自己发现工具的价值

ToRL(Tool-integrated RL)的出发点很简单:工具使用能力用 SFT 教不出来,因为 SFT 只能模仿示例,无法让模型理解"什么时候调工具比自己算更合适"。训练结果验证了这一点:训练前工具使用率约 40%,训练后上升到 80% 且持续增长。

ToRL 的一个设计细节是保留所有错误信息——代码执行遇到 NameError 或 SyntaxError 时,报错原样返回给模型,让模型形成真正的 Self-Correction 循环:读取具体报错 → 定位问题 → 修复代码 → 重试。

AgentGym-RL:课程学习与标准化环境

AgentGym-RL 提供统一的 HTTP API 接口,让 WebArena、SciWorld、Browser Agent、Research Agent 等不同任务环境可以接入同一套训练框架。核心算法贡献是 ScalingInter-RL——一种把课程学习应用到 Agentic RL 的训练策略:先在 8 步以内的短任务上训练,再扩展到 12 步,最终训练到 15 步及以上的长任务。先在短任务建立可靠基础,再逐步提升复杂度,训练稳定性显著改善。

Agent-R1:Step-Level MDP

Agent-R1 处理的问题更底层:多步 Agent 训练的数据表示问题。早期的框架把整个交互过程存成一条不断增长的 Token 序列,训练时要重新 Tokenize,会引入细微偏差(Retokenization Drift),且到了第 80 步模型必须背负前 79 步的全部 Token 历史。

Agent-R1 把每一步交互存成独立的 MDP 转移:(Observation_t, Action_t, Feedback_t, Reward_t, Done_t)。这个改变打开了三扇门:上下文可以被截断或压缩、信用分配可以精确到每个 Step、Rollout 与训练使用完全相同的 Token 数据。

图片 4

2026 年 4 月发表的 StepPO 在此基础上实现了 Step-Level GAE,将价值估计和优势传播对齐到 Step 粒度,在 WebShop、ALFWorld、HotpotQA 等多个基准上取得了一致提升。

信用分配:仍然没有解决的难题

即便有了 Step-Level 的数据表示,Agentic RL 最核心的理论难题依然没有根本解决:长时程信用分配。想象一个 100 步的任务最终失败了——是第 7 步选错工具?第 43 步规划出错?还是第 91 步执行失误?稀疏的结果奖励无法回答这个问题。

目前有三种方向在同时推进:

  • Outcome Reward:只用结果奖励,代价是训练信号极度稀疏
  • Process Reward Model(PRM):每步给中间评分,信号密集但需要大量人工标注
  • iStar(Implicit Step Reward):联合训练隐式 PRM 和策略模型,通过 Trajectory 级别的偏好对比,自动推导每一步的隐式价值,不需要人工标注
  • EMPG:根据每步的不确定性动态调节更新幅度,对高置信度的正确行动放大梯度,对不确定的探索步骤抑制梯度

这些方向都指向同一个目标:让训练信号的密度和粒度,匹配 Agent 决策的真实复杂度。

正在收敛的方向

图片 5

每一阶段的跃迁都是训练目标的扩展:从"输出是否符合偏好",到"推理过程是否有效",再到"在真实世界持续行动的能力是否可靠"。对工程实践的启示是:当 Agentic RL 成为主流,Environment、Skill、Harness、RL Pipeline 的质量,将成为比模型参数量更关键的竞争要素。

苏米注:Agentic RL 的演进轨迹很像软件开发从"手动部署"到"CI/CD"的转变——当训练目标从单次回答扩展到持续行动,基础设施的质量就成了决定性的瓶颈。沙箱化、异步训练、Step-Level MDP 这些看似工程细节的东西,恰恰是 AI 从"能对话"走向"能干活"的关键门槛。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Agentic RL:强化学习如何训练 AI Agent 的长周期决策能力
#强化学习 #Agent训练 #Agentic RL #MDP 
收藏 1
SGLang 团队把工程经验写进 Agent:3 个 Kernel PR 合并,B200 加速 2.75x
这是最后一篇
推荐阅读
  • Hermes Agent + Browser Use:免费稳定爬取公众号文章完整教程
  • LangChain Deep Agent 全流程评估方案:解决 Agent 上线前的核心痛点
  • 告别手工抓取:用 OpenClaw + Playwright 让 AI 稳准提取网页内容
  • AI 客服从 0 到 1:用 OpenClaw 构建7 x 24小时AI智能客服服务系统
  • OpenClaw 多 Agent 实战:一人带 5 个 AI 员工
评论 (0)
请登录后发表评论
分类精选
Multi-Agent(多智能体)实战:OpenClaw x 飞书机器人,为每个业务场景打造专属多Agent项目协作群
6661 4月前
微信 iLink Bot 协议深度拆解:开发者必备实战手册
5287 3月前
微信官方 ClawBot 插件多Agent如何绑定多个微信号?让全家人都用上了OpenClaw!
4259 3月前
即梦CLI:如何用OpenClaw搭建AI工作流实现24小时自动化生图、生视频创作
4006 3月前
OpenClaw 升级到 2026.3.24 后,微信 ClawBot 插件更新指南
3938 3月前
Star-Office-UI:用像素办公室实时可视化 OpenClaw(小龙虾)的工作状态
3751 3月前
OpenClaw 飞书多 Agent 实战:一只龙虾不够用?教你养一池子龙虾
3459 3月前
新手入门小龙虾(OpenClaw)完整配置指南
3100 3月前
7 个高质量前端UI设计的 Skills(技能包),让 AI 编程生成高质量UI代码
3081 2月前
OpenClaw 2026.3.2 版本权限隔离导致工具失效,两招教你满血复活!
2703 4月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Agentic RL:强化学习如何训练 AI Agent 的长周期决策能力
2 SGLang 团队把工程经验写进 Agent:3 个 Kernel PR 合并,B200 加速 2.75x
3 Vercel 和 Linear 设计工程师开源的 AI 动效审美 Skill
4 Harness Engineering:用 Markdown 构建可读可验证的 AI Agent 仓库
5 QClaw多Agent协作实测:3个智能体接力完成复杂数据分析任务
6 AI Agent 平台架构设计:为什么不应该让每个业务都 fork 一套 Agent 系统
7 PM 别再手动记需求了,我用 Skill 搭了个自动分拣的「需求池」
8 构建 AI 时代的知识底座:LLM Wiki 编译流水线实践
9 Agent 核心架构拆解:规划、记忆、工具三模块的 PM 设计指南
10 Hermes /learn 模式上线:一句话将经验提炼为可复用 skill
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 产品经理导航 爱克硕儿 产品经理AI资讯 Axure元件库下载 申请友联