编程大考,全球顶尖LLM夺金,真无敌了?最难编码基准SWE-Bench Pro出世,汇集了平均超100行代码的难题。没想到,最能打的LLM纷纷溃败,GPT-5仅拿下23.3%高分。 新智元 ,赞63 继IMO 2025登顶后,谷歌、OpenAI的模型 ...