reinforcement learning

7 小时

2025年3月10日，国家超算互联网平台宣布接入阿里通义千问大模型。这一动作绝非偶然，尤其是在千问 QwQ-32B 推理模型登顶开源社区榜单之际，标志着中国正在将国家级算力资源与顶尖算法深度绑定，构建起基础算力+核心模型的自主AI生态。

诡变与欺诈强化学习：这些博弈环境通常是“不完全信息”的。智能体不一定知道其他对手的完整信息，而是依赖推理和假设对手的行为。诡变和欺诈强化学习尤其注重在不完全信息的情况下如何通过欺骗和误导使对方做出有利于自己的决策。例如，智能体可能会隐藏其真实意图，通 ...

刚刚，计算机学会（ACM）宣布了 2024 年的「图灵奖」获得者：- Andrew G. Barto (马萨诸塞大学阿默斯特分校荣誉退休教授，Sutton 的博士导师)- Richard S. Sutton ...

十轮网科技资讯 on MSN4 天

有计算机科学界诺贝尔奖之称的ACM图灵奖（ACM A.M. Turing Award），揭晓2024年得主，为强化学习（Reinforcement Learning）领域的两位先驱，分别是Andrew Barto与Richard ...

知乎专栏 on MSN2 小时

西风发自凹非寺量子位 | 公众号 QbitAI 国产AI几何模型性能达IMO金牌水平，打平谷歌DeepMind最新AlphaGeometry系列—— TongGeometry，使用的策略网络和价值网络还来自微调版本的DeepSeek-Coder。

6 小时

其中，约书亚·本希奥和杰弗里·辛顿（亦是 2024 年诺贝尔物理学奖获奖者）两位「人工智能教父」在最近两年的 AI 浪潮里，也频繁呼吁全球社会和科学界警惕大公司对人工智能的滥用。

5 天

【新智元导读】强化学习之父Richard Sutton和他的导师Andrew Barto，获得了2024年图灵奖。有人说，图灵奖终于颁给了强化学习，这是迟到的「奖励」。就在刚刚，计算机学会ACM宣布：Andrew G. Barto和Richard ...

4 天

计算机科学领域的诺贝尔奖——2024图灵奖近日揭晓，强化学习领域的两位先驱Andrew Barto和Richard ...

人工智能 (AI)大战日日上演！阿里巴巴 ( 09988 )的通义千问Qwen团队周三 (5日)晚间发文宣布最新研究成果—QwQ-32B大语言模型，在仅有DeepSeek-R1约二十分之一参数量的情况下，用强化学习 (Reinforcement ...

20 小时

谷歌首席科学家 Jeff Dean 在颁奖词里写道「由巴托和萨顿开创的强化学习技术，直接回答了图灵的问题。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍是 AI 繁荣的核心支柱……谷歌很荣幸赞助 ACM A.M. 图灵奖。」 ...

重磅消息！“计算机科学界诺贝尔奖”的 ACM图灵奖，刚刚揭晓了2024年的得主！ Andrew Barto 和 Richard Sutton 两位大神，因在强化学习（Reinforcement Learning, RL） ...

一些您可能无法访问的结果已被隐去。