由于中国AI企业DeepSeek开发出了高性能的低成本大语言模型,2025年1月下旬,英伟达(NVIDIA)等美国高科技公司的股价暴跌。“DeepSeek冲击”这一说法,可能模仿了前苏联在1957年成功发射全世界第一颗人造卫星“斯普特尼克1号(Spu ...
Qwen 团队是中国电商巨头阿里巴巴的一个部门,专注于开发其不断扩展的开源 Qwen 大语言模型(LLM)系列。该团队推出了 QwQ-32B,这是一种新的 320 亿参数推理模型,旨在通过强化学习(RL)提高复杂问题解决任务的性能。
21 小时
知乎 on MSN拥有Deepseek、可灵AI等现象级国产大模型,中国AI资产是否被低估?2024年底我在推特上看到这么一条推文,时间是恰逢DeepSeek声名鹊起的时刻,但这个博主并没有一味的提DeepSeek,而是是说中国的AI军团不只是DeepSeek,还有一大堆的干将。
在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜” LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。
3月6日,阿里巴巴旗下Qwen团队正式发布最新研究成果QwQ-32B推理模型,以320亿参数规模实现与6710亿参数的DeepSeek-R1相媲美的性能表现,引发行业高度关注。该模型在数学推理和代码生成领域尤为突出,实测数据显示其能力已全面超越GPT ...
近期,阿里巴巴达摩院旗下的玄铁(XuanTie)品牌取得了重要进展,宣布了其首款基于开源RISC-V架构的服务器级CPU——玄铁C930。这款处理器的问世,不仅标志着阿里在人工智能(AI)硬件领域的一次飞跃,也预示着RISC-V架构在全球芯片产业的崛 ...
Hace poco, la empresa china de inteligencia artificial (IA) DeepSeek causó sensación en el mundo con el lanzamiento de su ...
在初始阶段专门针对数学和编码任务扩展强化学习,没有依赖传统的奖励模型,而是使用一个数学问题准确性验证器来确保最终解决方案的正确性,并使用一个代码执行服务器来评估生成的代码是否成功通过预定义的测试用例。
DeepSeek今年1月底推出AI模型R1,其以极低成本达到与OpenAI o1模型一样的表现,让外界相当惊艷,如今DeepSeek又有大动作,日前宣布举行「开源周」,共开源5个代码库(repository),以完全透明的方式分享公司新进展 ...
使用微信扫码将网页分享到微信 腾讯元宝不语,只是一味地更新。 当 DeepSeek 在春节期间爆火,所有人都在猜测国内 AI 厂商将会如何跟进时 ...
直到 2025 年初 DeepSeek R1 展现的推理能力,AI 从仅仅观察影子的阶段,转向以自省和辩证的方式探寻真知。 DeepSeek 让模型走出「洞穴」,也在改变 ...
快科技2月24日消息,大家有没有发现,最近DeepSeek很少再出现“服务器繁忙,请稍后再试”了? 据国内媒体报道,有用户反馈,DeepSeek算力紧张的 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果