专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!编程 Agent 评测一直是一笔糊涂账。SWE-bench 虽已成事实标准,厂商发布新模型或 Agent ...
编辑|杨文编程 Agent 的评测,一直是本糊涂账。SWE-bench 如今已成事实标准,几乎每家发布新模型或新 Agent 框架,都会拿出一个 SWE-bench 分数来证明自己有多强。但这些数字真的能直接横向比较吗?LLM Agent 的能力,本质上是模型和 harness 共同决定的,同一个模型换一套 harness,在 SWE-bench、Terminal-bench ...
背景:以 OpenClaw 为代表的通用智能体正被广泛用于自主工具使用,但其在真实软件工程任务中的编码能力难以通过现有的 SWE-bench 标准进行准确衡量。 已有工作为什么解决不了:现有的 SWE-bench 风格评估通常将提示模板、智能体循环、工具接口、超时设置等打包 ...
近日,基元律动联合无问芯穹,清华大学、北京大学、SEE 基金等机构发了篇论文,并完全开源代码和数据,试图把这笔糊涂账理清楚。 编程 Agent 的评测,一直是本糊涂账。 SWE-bench 如今已成事实标准,几乎每家发布新模型或新 Agent 框架,都会拿出一个 SWE-bench ...
SWE-agent、AutoCodeRover、OpenHands、mini-SWE-agent,每个系统都有自己的提示词模板、工具接口、最大轮数、超时策略和停止逻辑。模型、harness、任务集,三个变量打包在一起,很难判断 A 比 B 高出的那几个点,是模型更强、harness 设计更优,还是任务集选得更有利。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果