Bench - 搜索 News

1 天

UCSD 推出 AIBuildAI 智能体，斩获OpenAI MLE-Bench榜单第一

近日，加州大学圣地亚哥分校的研究团队开发了 AIBuildAI 智能体，可以全自动构建 AI 模型（包括模型设计，代码实现，模型训练，调参，性能评估，迭代优化）。团队成员包括博士生 Ruiyi Zhang，Peijia Qin，Qi Cao，Li ...

8 天

龙虾也能养龙虾！UCSD发布AIBuildAI智能体，MLE-Bench榜单第一

UCSD团队推出AIBuildAI智能体，无需编程，仅用自然语言描述任务，即可自动设计、编码、训练、调参并优化AI模型，分工协作，端到端完成AI开发。在OpenAI ...

腾讯网

Terminal-Bench解决率暴涨20%！华为CLI-Gym：环境交互类任务首个公开的 ...

「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布！」开源完整自动化数据构建算法构建 1655 个高可靠 CLI 任务环境镜像通过 291 条轨迹数据带来 20% 解决率提升在 Agentic Coding ...

36氪

龙虾也能养龙虾，UCSD发布AIBuildAI智能体，MLE-Bench榜单第一

UCSD推出AIBuildAI，自然语言自动构建AI模型，MLE-Bench夺冠。 UCSD团队推出AIBuildAI智能体，无需编程，仅用自然语言描述任务，即可自动设计、编码、训练、调参并优化AI模型，分工协作，端到端完成AI开发。在OpenAI MLE-Bench测试中，AIBuildAI以63.1%的获奖率位居第一 ...

36氪

AI科学家太多，谁靠谱一试便知，普林斯顿新基准CORE-Bench：最强模型 ...

普林斯顿大学发布CORE-Bench评测AI复现科研。普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21% 大模型的能力越来越强，用户在 ...

来自MSN

马斯克xAI推出Grok编码模型，编程实力冲进SWE-bench前五

在人工智能编程领域，一项重大突破悄然诞生。xAI公司推出的首个编码模型Grok Code Fast 1，从零开始构建，以其卓越的编程实力震撼业界，成功跻身SWE-bench基准测试前五名，仅次于OpenAI的Codex-1。尤为引人注目的是，该模型背后的核心团队中，华人学者占据了显著比例。这一消息如同马斯克曾承诺的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果