JavaScript Projets - 搜索 News

7 小时

97.6%接近满分：Claude最强模型发布却不开放，是营销还是有隐情？

面向软件工程的 SWE-bench Verified 从 Opus 4.6 的 80.8% 暴涨到 93.9%，SWE-bench Pro 从 53.4% 冲到 77.8%；面向高难度数学推理的 USAMO 2026，更是从从 42.3% 直接飙到 97.6%——几乎满分。

10 小时

回过头来，Mythos 预览版寻找漏洞的能力已经初见端倪。尤其对比之前 Claude 最强模型 Opus 4.6 自主发现并利用漏洞的成功率接近 0%，Mythos 预览版的表现可以堪称逆天。

23 小时

这个模型叫Claude Mythos Preview。名字来自古希腊语，意为“话语”或“叙述”，代表着人类文明用来理解世界的故事体系。而现在，这个数字文明的产物正在用极其震撼的方式重塑我们对技术的认知。

另外从测试报告来看，在过去几周的内部红队测试里，Mythos 预览版展现出的进攻能力，已经远超人类顶尖安全专家。它不只是「能找漏洞」，而是能自主发现、链式利用、数千个高危零日漏洞。

知乎 on MSN

这东西的竞争力根本不在模型上，在 harness 工程上。除了模型能力，harness 层的工程能力也是一层壁垒。熟悉的人都知道，我是Claude Code的高强度使用者。在用的的过程中总是有困惑，包括有的命令怎么有点卡/记忆机制/终端的流畅度等 ...

一些您可能无法访问的结果已被隐去。