引言
最近,大言语模型(LLMs)在各种与言语相关的义务上取得了清楚的体现。但是,虽然它们在数学推理、知识推理以及其余推理义务,如符号推理或逻辑推理等方面取得了完成,但它们在空间推理方面的才干依然未被充沛探求。
空间推理是人类认知的基本配置 ,使咱们能够与环境互动。它促成了须要了解和推理物体及其静止之间空间相关的义务。言语模型的空间推理在很大水平上依赖于言语来推理空间消息,而人类的认知才干远远超出了言语推理。人类不只可以从视觉感知中创立与义务相关的形象示意,还可以经过心灵之眼构想看不见的场景。这在神经迷信、心灵哲学和认知迷信畛域被称为 心智图像 的钻研课题。建设在这一认知配置之上,人类经过心智图像的操作来促成空间推理,比如导航、心思旋转、心思纸张折叠和心思模拟。图1说明了在导航义务中触及的人类环节。人类经过创立门路的心智图像来增强其空间看法并指点其决策,应用各种感官输入,如导航指令或地图图像。随后,他们经过心灵之眼模拟门路布局。
图1:人类可以经过在空间推理环节中创立心智图像来增强他们的空间看法并指点决策。雷同地,大言语模型(LLMs)可以创立外部心智图像。钻研人员提出了VoT,经过可视化它们在每个两边步骤的思想,来引发LLMs的“心灵之眼”,从而促成空间推理。
遭到这一认知机制的启示,钻研人员推测LLMs具备在心灵之眼中创立和操作心智图像的才干来启动空间推理。正如图1所示,LLMs或者潜在地处置和了解各种格局的空间消息。它们或者能够可视化外部形态,并经过心灵之眼操作这些心智图像,从而疏导后续推理步骤以增强空间推理。因此,钻研人员提出了 “思想可视化”(VoT) 揭示来引发这种才干。该方法经过为LLMs参与一个视觉空间素描板来可视化其推理步骤并指点后续步骤。VoT驳回零示范揭示,而不是依赖于大指示范或经常使用CLIP启动文本到图像的可视化。这个选用源自LLMs从基于文本的视觉艺术中取得各种心智图像的才干。
为了评价VoT在空间推理中的有效性,钻研人员选用了三个须要LLMs空间看法的义务,包含 人造言语导航、视觉导航和视觉铺设 。这些义务须要了解空间、方向和几何形态推理。为了模拟人类般的多感官感知,钻研人员设计了经常使用不凡字符作为LLMs视觉导航和视觉铺设义务中丰盛输入格局的2D网格环球。在这三个义务中比拟了不同的模型(GPT-4、GPT-4V)和揭示技术。钻研结果显示, VoT揭示一直促使LLMs可视化其推理步骤并指点后续步骤 。因此,这种方法在相应义务上取得了清楚的性能优化。
图2:不同设置下的导航地图示例,房子的表情符号示意终点,办公室的表情符号示意目的地。
空间推理
空间推理指的是了解和推理物体之间的空间相关、它们的移动和互动的才干 。这种技艺关于宽泛的事实环球运行十分关键,如导航、机器人技术和智能驾驶。这些畛域须要基于视觉感知和对空间维度的详细了解启动执行布局。虽然曾经开发了几项义务和数据集来探求嵌入在文本中的空间语义,钻研上班理论集中在空间术语如何在言语上结构化上。最近,经过将空间术语转换为逻辑方式并驳回逻辑编程,在这些基准测试中取得了清楚的成就和令人印象深入的结果。这象征着在这些义务中取得优秀效果并不必定象征着大型言语模型(LLMs)真歪了解了空间消息,也不提供它们空间看法的准确权衡规范。空间看法触及了解空间相关、方向、距离和几何形态,这些都关于在物理环球中启动执行布局至关关键。为了评价LLMs的空间看法和空间推理才干,钻研人员选用了一些测试导航和几何推理技艺的义务,包含人造言语导航、视觉导航和视觉铺设。
人造言语导航
人造言语导航触及经过随机散步阅读底层空间结构,旨在识别先前访问过的位置 。这个概念遭到先前关于人类认知的钻研的启示,其驳回了相似于沿着图结构启动随机散步的方法。这个环节须要了解循环闭合,这关于空间导航至关关键。
视觉导航
视觉导航义务向LLMs展现了一个分解的二维网格环球,应战其应用视觉线索启动导航。模型必定生成导航指令,以四个方向(左、右、上、下)移动,从终点抵达目的地,同时避开阻碍物。这触及到两个子义务:路途布局和下一步预测,须要启动多跳空间推理,其中前者更为复杂。
视觉铺设
视觉铺设是一个经典的空间推理当战。将这个概念裁减到测试LLMs在有限区域内了解、组织和推理形态的才干,从而增强了空间推理技艺的评价。义务触及一个带有未填充单元格和各种多米诺块的矩形,比如由四个对齐的方块组成的I-多米诺块。模型必定选用适当的多米诺块变体,例如选用I-多米诺块的方向,以处置问答谜题。
图3:带有掩码多米诺块的视觉铺设示例。该图未显示多米诺块的旋转和镜像变体。
思想可视化揭示
思索到人类在导航等义务中处置空间消息的方式,经常会创立心智图像,如地图,以增强空间看法或模拟移动以指点决策。钻研指标是唤起LLMs的空间看法,并经过可视化它们的两边推理步骤来基于实践状况启动推理。
钻研人员引入了“思想可视化”(VoT)揭示: "在每个推理步骤之后可视化形态"。这种新的空间推理范式旨在以交织的方式生成推理迹象和可视化结果。
图4:三个义务中VoT揭示的示例,LLM以交织方式生成推理迹象和可视化来跟踪随期间变动的形态。
论文:
原文链接: