johnny bench - 搜索 News

资讯

IT之家4 月 10 日消息，豆包大模型团队今日通过官方公众号宣布，首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源，可用于评估和提升大模型“自动修 Bug”能力。在 SWE-bench 基础上，Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言，是真正面向“全栈工程 ...

IT之家10 个月

OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

IT之家8 月 15 日消息，OpenAI 公司于 8 月 13 日发布新闻稿，宣布推出 SWE-bench Verified 代码生成评估基准，解决了此前的局限性问题，能够更准确地评估人工智能模型在软件工程任务中的表现。 IT之家注：SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的 ...

GitHub1 年

AlignBench: 多维度中文对齐评测基准 (ACL 2024)

AlignBench 是第一个多维度全面评估中文大模型对齐水平的评测基准。此仓库包含了 AlignBench 的介绍信息、数据和代码。 🔥 近期更新 [2024.06.15] 更新了 AlignBench v1.1，对涉及较强事实性内容的测试指令的参考答案进行了一轮人工检查修正。其中，约 22% 的答案除了 ...

GitHub1 年

Benchmarking Legal Knowledge of Large Language Models

大语言模型（LLMs）在各个方面都展现出了其强大的能力。然而，当将它们应用于高度专业化、安全关键的法律领域时，它们究竟掌握了多少法律知识以及它们是否能可靠地执行法律相关任务我们却不得而知。为了填补这一空白，我们提出了一个综合评估基准 ...

搜狐2 年

我们做了一个大模型测试集「Z-Bench」，300个问题全方位考察大语言 ...

那么，我们在用哪些 Prompts 进行测试呢？ OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力，在 NLP 领域，也有 SuperGLUE、 MMLU、 Google BIG-bench 等被广泛使用的测试集。同时，鉴于随着参数和数据规模增大，大模型会涌现出新能力，与这些新能力相关的测试集也在 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果