就在两周前,英伟达刚刚宣布向Anthropic投资100亿美元,这笔钱让Anthropic的估值飙升到3500亿美元。 两家公司都计划在2026年下半年到2027年左右启动上市程序,现在正是证明自己技术实力、争夺市场定价权的关键时刻。
Anthropic刚发了Claude Opus 4.6,OpenAI也发了GPT‑5.3-Codex,在Codex app里已经能用了。我这稿子写一半直接重新写啊。马上来看看这两模型的评分,它们强化了那些点,以及除了模型本身,还带来了什么更新。
OSWorld-Verified于2025年7月28日发布,是一次全面重构,修复了原版中300+已识别问题,包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令,以及过严/过松的评测脚本。
在知识工作能力的评测GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2高出约144Elo分,比自己的前代Opus 4.5高出190分。这个测试涵盖了金融、法律等领域的实际工作任务,比如制作财务分析报告、起草法律文件、做市场调研等。