#强化学习

Agentic RL:强化学习如何训练 AI Agent 的长周期决策能力
大模型的强化学习训练走过了三个阶段:RLHF 告诉模型人类喜欢哪种回答,Reasoning RL 训练思维链(o1、DeepSeek R1),而现在正在发生的第三个阶段目标更大——训练模型在真实环境里持续行动的能力。…