2024 年底,一篇题为「流式深度强化学习终于跑通了」的论文(arXiv:2410.14606)在学界引发广泛讨论。作者来自阿尔伯塔大学的 Mahmood ...
当我们谈论大型语言模型(LLM)的"强化学习"(RL)时,我们在谈论什么?从去年至今,RL可以说是当前AI领域最炙手可热的词汇。 在过去很长一段时间里,这个词几乎等同于 RLHF(人类反馈强化学习)一种用于"对齐"的技术,它教会模型拒绝有害问题、生成更符合 ...
Andrew Barto 和 Richard Sutton 因其在强化学习(Reinforcement Learning, RL) 领域做出的奠基性贡献而共同获得 2024 年图灵奖。他们被公认为强化学习领域的创始人,其研究成果对人工智能的发展产生了深远影响。 【核心贡献】: 1、共同撰写了强化学习领域的经典教材 ...
由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。然而,针对大语言模型的大规模强化学习训练门槛一直很高: 流程复杂、涉及模块多(生成 ...
据通义千问Qwen,为了能够持续拓展强化学习 (Reinforcement Learning,RL),提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法,GSPO定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。