reinforcement learning

诡变与欺诈强化学习：这些博弈环境通常是“不完全信息”的。智能体不一定知道其他对手的完整信息，而是依赖推理和假设对手的行为。诡变和欺诈强化学习尤其注重在不完全信息的情况下如何通过欺骗和误导使对方做出有利于自己的决策。例如，智能体可能会隐藏其真实意图，通 ...

刚刚，计算机学会（ACM）宣布了 2024 年的「图灵奖」获得者：- Andrew G. Barto (马萨诸塞大学阿默斯特分校荣誉退休教授，Sutton 的博士导师)- Richard S. Sutton ...

38 分钟

其中，约书亚·本希奥和杰弗里·辛顿（亦是 2024 年诺贝尔物理学奖获奖者）两位「人工智能教父」在最近两年的 AI 浪潮里，也频繁呼吁全球社会和科学界警惕大公司对人工智能的滥用。

2025年3月10日，国家超算互联网平台宣布接入阿里通义千问大模型。这一动作绝非偶然，尤其是在千问 QwQ-32B ...

十轮网科技资讯 on MSN4 天

有计算机科学界诺贝尔奖之称的ACM图灵奖（ACM A.M. Turing Award），揭晓2024年得主，为强化学习（Reinforcement Learning）领域的两位先驱，分别是Andrew Barto与Richard ...

来自MSN18 小时

深度强化学习赋能VR流媒体传输，引领新一代视频传输技术革新（文/梁原）随着5G时代的到来，虚拟现实（Virtual Reality, ...

13 小时

人工智能（AI）产业一直是科技发展的前沿阵地，随着技术的不断进步和政策的支持，AI相关产业的步伐也越来越快。近期，来自中国的创业公司Monica正式发布了其全新的通用型AI智能体产品——Manus。这一发布引发了业界的热议，Manus以其先进的表现，成为了AI智能技术的新标杆。

4 天

计算机科学领域的诺贝尔奖——2024图灵奖近日揭晓，强化学习领域的两位先驱Andrew Barto和Richard ...

人工智能 (AI)大战日日上演！阿里巴巴 ( 09988 )的通义千问Qwen团队周三 (5日)晚间发文宣布最新研究成果—QwQ-32B大语言模型，在仅有DeepSeek-R1约二十分之一参数量的情况下，用强化学习 (Reinforcement ...

4 天

ACM A.M. 图灵奖常被誉为「计算机领域的诺贝尔奖」，奖金高达100万美元，由谷歌提供资金支持。该奖项以奠定了计算科学数学理论基础的英国数学家艾伦·图灵（Alan M. Turing）的名字命名。

15 小时

谷歌首席科学家 Jeff Dean 在颁奖词里写道「由巴托和萨顿开创的强化学习技术，直接回答了图灵的问题。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍是 AI 繁荣的核心支柱……谷歌很荣幸赞助 ACM A.M. 图灵奖。」 ...

5 天

全球科创再现杭州力量！近日，菜鸟研发出业内首个自动驾驶高性能大规模强化学习规划器，将提升菜鸟无人车应对复杂场景的能力。该项研究成果已经被国际顶级学术会议CVPR 2025收录。

一些您可能无法访问的结果已被隐去。