望得到Claude Code的背影吗? 过去半年,以 Claude Code/Cowork、Codex 为代表的 Agent 产品毫无疑问是整个 AI 行业最清晰的一条主线。 6 月 30 日Anthropic 低调推出了 Claude ...
一个值得关注的变化是,Coding 正在从眼花缭乱的 Benchmark 榜单中脱颖而出,成为一种模型竞争的基础设施级指标。无论 OpenAI、Anthropic、Google 还是其他厂商,在发布新模型时几乎都会将 Coding ...
作者 | 桦林舞王 编辑 | 靖宇 OpenAI 的模型迭代速度,正在逼近让人来不及消化的临界点。 6 月 12 日,GPT-5.2 刚刚从 ChatGPT 退役,所有用户被静默迁移到 GPT-5.5。 6 月 22 日,Daybreak ...
过去半年,以 Claude Code/Cowork、Codex 为代表的 Agent 产品毫无疑问是整个 AI 行业最清晰的一条主线。 6 月 30 日Anthropic 低调推出了 Claude Science,一个面向科学家的 AI 工作台。
普林斯顿大学最近搞了个CEO-Bench,让AI运营一家虚拟SaaS初创,为期500天。 谁曾想,14位硅基CEO上场,只有4个保住了本金。 至少现在,还是个大问号。 当然,也有一些能力突出的模型,已经展现出潜力了—— Fable ...
“性价比模型”价格明降暗涨 ...
普林斯顿大学近期开展了一项引人注目的实验:让AI担任虚拟SaaS公司的CEO,在500天的模拟运营中接受市场考验。这场名为CEO-Bench的竞赛吸引了14个AI模型参与角逐,最终仅有4个成功保住初始资金,其中表现最优异的竟是一个基于固定规则的传统算法。
这项由斯坦福大学、加州大学伯克利分校、德克萨斯大学奥斯汀分校、加州大学洛杉矶分校、纽约大学、哈佛大学等数十家顶尖机构联合完成的研究,以预印本形式于2026年6月23日公开发布,论文编号为arXiv:2606.24855。感兴趣的读者可以通过这个编号在 ...
一项最新科学研究显示,部分地球微生物在模拟火星极端环境中展现出惊人的生存能力,甚至可能对人类免疫系统产生未知影响。这项突破性发现由国际科研团队通过模拟实验获得,相关成果已引发航天医学领域高度关注。 实验中,科研人员将包含致病菌在内的 ...