有观点认为,如果十年前Wolfram开源,LLM今天就会把Wolfram Language当成第一语言去用,就像Python一样。Python没有独占任何算法,却成了整个AI时代的地基。这个比较对Wolfram有点残忍,但并非没有道理。
在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 Humaneval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我们究竟是在评估其真实的泛化推理能力,还是在检验其对训练语料库的「记忆力」? 现有的代码基准正面临两大核心挑战:数据污染的风险,以及测试严谨性不足。前者使评测可能退化为「开卷考试」,后者则常常导致一种「正确的幻觉」(Illusion of Co ...
财报数据显示,格罗方德2025全年营收67.91亿美元,汽车、通信基础设施与数据中心三大高增长板块合计贡献约三分之一收入。硅光子业务营收翻倍突破2亿美元,成为增长亮点。 第四季度业绩表现强劲,营收、毛利率、运营利润率及每股收益均触及或超出指引上限,非IFRS毛利率同比提升近400个基点,反映成本控制与产品结构优化成效显著。董事会同步批准最高5亿美元普通股回购,彰显对现金流与长期价值的信心。
芯动联科表示,2025年业绩增长的主要原因系凭借MEMS惯性传感器性能领先、自主研发等优势,公司产品的应用领域不断增加,市场渗透率提升,下游客户订单旺盛,使公司MEMS销售收入放量增长。
论文的核心主张只有一句话:与其修改模型的权重,不如让模型的"记忆"越来越好用。发表后,这篇论文在AI社区引发了不小的讨论,甚至有工程师直接喊出"微调已死"。原因在于,他们用一个更小的开源模型,通过这套方法,在公开榜单上追平了IBM用GPT-4.1构建的生产级智能体——而且没有花一分钱去做微调。
继本月初小范围测试后,OpenAI 旗下的编程大模型 GPT-5.3-Codex 现已正式面向全球开发者全线开放。现在,所有用户均可通过 OpenAI API 官方平台或 OpenRouter 等第三方平台直接调用这款目前最强的智能体式编程工具。
Part.1Clawdbot火爆,也想开发一个?最近,ClawdBot从硅谷火向了全世界,它看似充满黑科技感,能思考、能干活、可落地,但本质上就是一款标准、典型的AI Agent应用:核心能力围绕“理解需求、拆解复杂任务、自主调用工具、执行操作并记忆”展开。
在ARC-AGI-2这个公认的推理基准测试中,Gemini 3.1 Pro拿到了77.1%的分数。什么概念?它的前辈Gemini 3 Pro只有31.1%,就连专门用来「深度思考」的Gemini 3 Deep Think也只有45.1%。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果