作者|黄小艺邮箱|huangxiaoyi@pingwest.com我们最近在重新思考一件事:到底什么样的 Benchmark,才值得今天继续做?过去几年,大模型的发展几乎一直被 Benchmark 牵引。GLUE/SuperGLUE 推动了 NLP ...