聚合人工智能话题下,包括 机器学习、深度学习、计算机视觉、自然语言处理等领域的新闻资讯、前沿理论、技术知识、应用案例。 问到大模型评测指标,最重要的是先把学术 Benchmark 和业务评测的关系讲清楚。学术 Benchmark(MMLU、HumanEval、GSM8K、MT-Bench、HELM 等 ...