Autocoderover - 搜索 News

同一个模型，换套框架成绩差27%：SWE-bench分数到底谁说了算？

专注AIGC技术的专业社区，关注大语言模型（LLM）的发展和应用落地，聚焦LLM及AI技术的市场研究和开发者生态，欢迎关注！编程 Agent 评测一直是一笔糊涂账。SWE-bench 虽已成事实标准，厂商发布新模型或 Agent ...

打破SWE-bench唯分数论，首个独立测量harness的基准开源了

编辑｜杨文编程 Agent 的评测，一直是本糊涂账。SWE-bench 如今已成事实标准，几乎每家发布新模型或新 Agent 框架，都会拿出一个 SWE-bench 分数来证明自己有多强。但这些数字真的能直接横向比较吗？LLM Agent 的能力，本质上是模型和 harness 共同决定的，同一个模型换一套 harness，在 SWE-bench、Terminal-bench ...

GitHub

Edit and raw actions

背景：以 OpenClaw 为代表的通用智能体正被广泛用于自主工具使用，但其在真实软件工程任务中的编码能力难以通过现有的 SWE-bench 标准进行准确衡量。已有工作为什么解决不了：现有的 SWE-bench 风格评估通常将提示模板、智能体循环、工具接口、超时设置等打包 ...

51CTO

打破SWE-bench唯分数论，首个独立测量harness的基准开源了

近日，基元律动联合无问芯穹，清华大学、北京大学、SEE 基金等机构发了篇论文，并完全开源代码和数据，试图把这笔糊涂账理清楚。编程 Agent 的评测，一直是本糊涂账。 SWE-bench 如今已成事实标准，几乎每家发布新模型或新 Agent 框架，都会拿出一个 SWE-bench ...

搜狐

打破SWE-bench唯分数论，首个独立测量harness的基准开源了

SWE-agent、AutoCodeRover、OpenHands、mini-SWE-agent，每个系统都有自己的提示词模板、工具接口、最大轮数、超时策略和停止逻辑。模型、harness、任务集，三个变量打包在一起，很难判断 A 比 B 高出的那几个点，是模型更强、harness 设计更优，还是任务集选得更有利。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果