今年春晚的语言类节目,由于时长限制,大家可能还有些意犹未尽。其实,近来有不少小品都是源自《一年一度喜剧大会》的精彩改编。文心一言不仅准确无误地报出了改编节目的数量,甚至对《小明一家》将原版妈妈的角色改成了爷爷这一细节都了如指掌。o3 mini ...
在AI大模型领域的激烈竞争中,DeepSeek如同一股强劲的鲶鱼效应,加速了全球各大模型的创新步伐。近日,OpenAI在北京时间2月1日凌晨宣布推出其最新的推理模型o3-mini,标志着这场竞赛的又一轮高潮。
此前,DeepSeek因推出了性能良好、开源且免费的V3和R1模型而受到广泛关注,也由于低廉的模型训练成本而走出了一条独特的道路,通过开源重构了全球的AI竞争格局,使低成本创新成为颠覆行业的创新路径。过去一周多的时间里,国内外大模型厂商从“紧急上线” ...
中国在生成式AI领域正在赶超美国,这将对AI供应链产生深远影响。开源权重模型正在将基础模型层商品化,为应用开发者创造了巨大的机遇。规模化并非AI进步的唯一道路,尽管算力备受瞩目和炒作,但算法创新正在迅速降低训练成本。
1月最后一天,DeepSeek的热度依旧高涨。在美国,无论是AI从业者还是普通民众,都感受到了来自中国AI技术的冲击。Anthropic ...
随着Qwen(吴恩达团队已经用了几个月)、Kimi、InternVL和DeepSeek等模型的推出,中国在文本模型上的差距正在缩小,而在视频生成等领域,中国甚至已经展现出了一些领先优势。 受到美国AI芯片禁令的影响,DeepSeek团队不得不在性能相对较低的H800 GPU上跑模型,而这也推动了他们在优化方面的大量创新。最终,模型训练成本(不包括研究成本)不到600万美元。
1月30日,阿里巴巴发布Qwen 2.5-Max模型,Qwen2.5-Max模型代表阿里云团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens,在多项基准测试中几乎全面超越了DeepSeek-V3、GPT-4o和Llama-3.1-405B。阿里过去在云业务总体capex投入长期位居互联网大厂前列,Qwen2.5-Max模型表现优越,本轮中概AI资产重估,以阿里为代表的低估值、主业企 ...
同样面对 AI 大模型领域的“鲶鱼”DeepSeek,不同于美国 AI 公司 Anthropic CEO 达里奥·阿莫迪(Dario Amodei)用“万字檄文”施压白宫加强管制的敌对态度,法国明星 AI 公司 Mistral AI ...
阿里云发布最新大语言模型 Qwen 2.5-Max,声称性能超越当前最强 AI 模型。该模型采用专家混合架构,经过 20 万亿 token 预训练和后续强化学习,在多项基准测试中超越 DeepSeek-V3 等模型。Qwen 2.5-Max ...
阿里云发布其全新的通义千问 Qwen 2.5-Max超大规模混合专家 (MoE)模型的时间较不寻常,正值农历新年第一天,大多数中国人正在放假与家人团聚。这意味着中国AI初创公司深度求索 ...
1月28日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。新的Qwen2.5-VL能 ...
今天,阿里云通义团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B 和7B 两种尺寸,性能表现均显著优于同类的开源过程奖励模型,尤其是在识别推理错误方面表现突出。 Qwen2.5-Math-PRM 的7B 版本令人惊讶地超越了业界广受欢迎的 GPT-4o ...