搜索优化
English
全部
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
搜索
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 30 天
时间不限
过去 1 小时
过去 24 小时
过去 7 天
按相关度排序
按时间排序
7 小时
中国大模型2024AI狂飙不止:从白热化竞争到市场版图重塑
2024年,随着OpenAI等国际大模型企业的持续推进,国内大模型企业也在不断追赶和超越。总体上,中国大模型在经历2023年白热化的“百模大战”后,2024年迎来了“大浪淘沙”,竞争格局趋于稳定,呈现互联网大厂与初创公司“共舞”的局面。
4 小时
LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI ...
导读:奥特曼罕见地承认了自己犯下的‘历史错误’,LeCun发文痛批硅谷一大常见病——错位优越感。DeepSeek的终极意义在哪?圈内热转的这篇分析指出,相比R1,R1-Zero具有更重要的研究价值,因为它打破了终极的人类输入瓶颈!
18 天
阿里云通义Qwen2.5-Math-PRM:7B模型超越GPT-4o,数学推理新突破
1月16日消息,阿里云通义团队发布了新一代数学推理过程奖励模型——Qwen2.5-Math-PRM。该模型引入了72B与7B两种尺寸,其在推理过程中的表现显著优于现有的开源模型,尤其在推理错误识别方面,7B版本的性能甚至超过了闭源的GPT-4o。这一创新不仅为智能推理提供了新的可能性,也为相关领域的技术进步注入了新的活力。 Qwen2.5-Math-PRM模型的设计旨在解决大型语言模型在处理推理时 ...
18 天
阿里云通义推出Qwen2.5-Math-PRM模型与首个推理评估标准
在科技快速发展的今天,阿里云再一次为人工智能领域推陈出新。1月16日,钛媒体App报道了阿里云通义开源了全新的数学推理过程奖励模型——Qwen2.5-Math-PRM。这一模型的推出,标志着在72B与7B尺寸下,其性能远超同类开源过程奖励模型。
腾讯网
18 小时
DeepSeek到底是真开源还是假开源?业内:有足够多细节值得学习
近日,在国内某问答平台上,一则关于 DeepSeek 的提问登上问题热门排行榜。这一问题的描述是:“如何评价 DeepSeek 自称开源?但似乎并未开源(Open Source),仅为 Open Model?”(来源:资料图)那么,DeepSeek ...
IT之家
22 天
微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃 ...
IT之家1 月 11 日消息,微软亚洲研究院旗下数学和人工智能研究团队昨日(1 月 10 日)发布博文,针对小语言模型,设计并开发了 rStar-Math 技术,专门用于解决数学问题。 和微软之前推出的 Phi-4 不同,rStar-Math 采用蒙特卡洛树搜索(Monte Carlo Tree Search)进行推理 ...
腾讯网
18 小时
从特朗普政府“星际之门”到 DeepSeek:是什么在左右全球科技、经济 ...
特朗普政府上任伊始就展现了对AI领域的雄心壮志。1月21日,特朗普在白宫宣布了名为"星际之门"的庞大AI基础设施计划,预计在未来四年内投资5000亿美元,用于建设支持AI发展的基础设施(点击查看相关报道)。这一计划由OpenAI、软银集团和甲骨文公司 ...
腾讯网
1 天
o3-mini物理推理粉碎DeepSeek R1?全网最全实测来袭
新智元报道 编辑:KingHZ 桃子【新智元导读】一场改写AI历史的震撼对决正在上演!就在昨天,当DeepSeek ...
8 天
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻
就在刚刚,网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,30美元就能见证「啊哈时刻」!全球AI大模型,或许正在进入下一分水岭。
中华网
8 天
全球掀DeepSeek复现狂潮 硅谷巨头神话崩塌!
硅谷正经历由中国公司引发的重大变革。全美都在担忧全球人工智能的中心是否已经转向中国。此时,全球范围内掀起了复现DeepSeek模型的热潮。正如LeCun所说:“这是开源对闭源的一次胜利。”这些讨论引发了人们对数百亿美元支出必要性的质疑,甚至有人预测中 ...
来自MSN
12 天
如何评价 DeepSeek 正式发布的 DeepSeek-R1与DeepSeek-R1-Zero模型?
力大砖飞,简洁优雅。 我觉得最大的价值是证明了:基于一个很强的模型(deepseekv3-base),用最简单的rule-based reward来做rl,经过大量训练(8k steps * bs 512/1024),也能达到目前reasoning ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈