空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验 ...
你有没有想过,当人工智能需要理解并推理多张图片之间的空间关系时,它的表现如何?例如,当你走进一个房间,拍了几张不同角度的照片,然后问AI:"从门口进入时,床相对于书桌的位置在哪个方向?"——这类看似简单的问题,对于最先进的人工智能模型 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果