#强化学习

大模型的强化学习训练走过了三个阶段：RLHF 告诉模型人类喜欢哪种回答，Reasoning RL 训练思维链（o1、DeepSeek R1），而现在正在发生的第三个阶段目标更大——训练模型在真实环境里持续行动的能力。…

3小时前

AI智能体