Reinforcement Learning RL

18 天

图灵奖得主Sutton新作：用一个1967年的公式，解决流式强化学习一大缺陷

2024 年底，一篇题为「流式深度强化学习终于跑通了」的论文（arXiv:2410.14606）在学界引发广泛讨论。作者来自阿尔伯塔大学的 Mahmood ...

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

当我们谈论大型语言模型（LLM）的"强化学习"（RL）时，我们在谈论什么？从去年至今，RL可以说是当前AI领域最炙手可热的词汇。在过去很长一段时间里，这个词几乎等同于 RLHF（人类反馈强化学习）一种用于"对齐"的技术，它教会模型拒绝有害问题、生成更符合 ...

腾讯网

2024图灵奖揭晓！强化学习之父Richard Sutton与导师Andrew Barto荣膺桂冠

Andrew Barto 和 Richard Sutton 因其在强化学习（Reinforcement Learning, RL）领域做出的奠基性贡献而共同获得 2024 年图灵奖。他们被公认为强化学习领域的创始人，其研究成果对人工智能的发展产生了深远影响。【核心贡献】： 1、共同撰写了强化学习领域的经典教材 ...

来自MSN

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：流程复杂、涉及模块多（生成 ...

来自MSN

阿里Qwen提出强化学习新算法GSPO

据通义千问Qwen，为了能够持续拓展强化学习（Reinforcement Learning，RL），提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法，GSPO定义了序列级别的重要性比率，并在序列层面执行裁剪、奖励和优化。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果