文章链接:
github地址:
大言语模型(LLMs)在为基于文本的AI智能体提供能源方面取得了出色的体现,赋予它们相似于人类的决策和推理才干。与此同时,出现了一个新兴的钻研趋向,专一于将这些由LLMs驱动的AI智能体扩展到多模态畛域。这种扩展使得AI智能体能够解释和照应各种多模态用户queries,从而处置愈加复杂和巧妙的义务。
本文对LLMs驱动的多模态智能体启动了系统性审查,将其称为大型多模态智能体(简称LMAs)。
首先,引见了开发LMAs所触及的基本组件,并将的钻研成绩分类为四种不同类型。
随后,审查了整合多个LMAs的单干框架,增强了群体效劳。该畛域的一个关键应战是现有钻研中经常使用了多种不同的评价方法,这些方法阻碍了对不同LMAs启动有效比拟。因此,本文编制了这些评价方法,并建设了一个片面的框架来弥合这些差距。该框架旨在规范化评价,促成更无心义的比拟。在审查完结时,强调了LMAs的宽泛运行,并提出了或者的未来钻研方向。
本文探讨旨在为这一极速开展的畛域的未来钻研提供有价值的见地和指点。
引见
智能体(agent)是一个能够感知其环境并依据这些感知做出决策以到达特定目的的系统。虽然在狭窄畛域内体现出色,早期智能体往往缺乏顺应性和泛化才干,与人类智能存在清楚差异。最近大言语模型(LLMs)的停顿开局弥合这一差距,LLMs增强了它们在命令解释、常识排汇和模拟人类推理和学习方面的才干。这些智能体经常使用LLMs作为它们的关键决策工具,并进一步增强了关键的类人特色,如记忆。这种增强使它们能够处置各种人造言语处置义务,并经常使用言语与环境启动交互。
但是,事实环球的场景往往触及逾越文本的消息,包括多种模态,其中视觉方面的关键性很大。因此,由LLMs驱动的智能智能体的下一个退化步骤是取得处置和生成多模态消息的才干,特意是视觉数据。这种才干关于这些智能体退化为更弱小的AI实体,模拟人类级别的智能至关关键。本文具有这种才干的智能体被称为大型多模态智能体(LMAs)。理论,它们面临的应战比仅蕴含言语的智能体更为复杂。
以网络搜查为例,一个LMA首先须要经过搜查栏输入用户的要求,以查找关系消息。随后,它经过鼠标点击和滚动导航到网页,以阅读实时网页内容。最后,LMA须要处置多模态数据(如文本、视频和图像)并启动多步推理,包括从网络文章、视频报道和社交媒体降级中提取关键消息,并将这些消息整合以响运行户的查问。咱们留意到,现有的LMAs钻研是孤立启动的,因此有必要经过总结和比拟现有的框架来进一步推进该畛域的开展。存在一些与LLM驱动智能体关系的考查,但其中很少有关注多模态方面的。
本文旨在经过总结LMAs的关键开展来填补这一空白。首先,引见了**组件,并提出了现有钻研的新分类法,进一步探讨了现有的单干框架。关于评价,概述了评价LMAs性能的现有方法,并启动了片面的总结。而后,运行局部提供了多模态智能体及其关系义务宽泛的事实环球运行的详尽概述。最后,经过探讨并提出LMAs或者的未来开展方向来总结这项上班,为有用的钻研指点提供允许。
LMAs的**组件
本节详细引见了LMAs的四个**元素,包括感知、布局、执行和记忆。
感知 。感知是一种复杂的认知环节,使人类能够搜集和解释环境消息。在LMAs中,感知组件关键集中在处置来自不同环境的多模态消息上。如下表1所示,在不同义务中的LMAs触及各种模态。它们须要从这些不同的模态中提取对义务成功最无利的关键消息,从而促成义务的更有效布局和执行。
早期的处置多模态消息的钻研理论依赖于便捷的关系模型或工具,将图像或音频转换为文本形容。但是,这种转换方法往往会发生少量有关和冗余消息,特意是关于复杂的模态(例如视频)。除了输入长度限度,LLMs经常面临有效提取关系消息启动布局的应战。为处置这一疑问,近期的钻研引入了子义待业具的概念,旨在处置复杂的数据类型。在相似实在环球的环境(即开明环球游戏)中,[51]提出了一种处置非文本模态消息的新方法。该方法首先从环境中提取关键的视觉词汇,而后经常使用GPT模型进一步将这些词汇细化为一系列形容性句子。当LLMs感知环境中的视觉模态时,它们经常使用这些模态来检索最关系的形容性句子,从而有效增强了对环境的了解。
布局。 布局者在LMAs中起着**作用,相似于人类大脑的配置。它们担任对义务启动深化推理,并制订相应的方案。与仅经常使用言语的智能体相比,LMAs在更复杂的环境中运转,制勘误当方案更具应战性。从四个角度(模型、格局、审核和反思、布局方法)详细引见了布局者:
执行。 多模态智能体系统中的执行组件担任执行布局者制订的布局和决策。它将这些布局转化为详细的执行,例如经常使用工具、身材举措或与界面交互,从而确保智能体能够准确高效地成功其目的并与环境启动交互。探讨重点在于两个方面:类型和方法。
在前面表1中,执行被分类为三种类型:工具经常使用(T)、实体举措(E)和虚构举措(V),其中工具包括视觉基础模型(VFMs)、API、Python等(如表2所列);实体举措是由物理实体执行的,如机器人或虚构角色;虚构举措包括网络义务(例如,点击链接、滚动和键盘经常使用)。
就方法而言,如表1所示,关键有两种类型。第一种类型触及经常使用揭示向智能体提供有关可执行执行的消息,例如可用的工具及其配置;第二种类型触及搜集关于执行的数据,并应用这些消息来自我指点开源大型模型的微调环节,例如LLaVA。这些数据理论由先进的模型生成,例如GPT-4。与仅经常使用言语的智能体相比,与执行关系的消息和数据的复杂性须要更复杂的方法来提升学习战略。
记忆。 早期钻研标明,记忆机制在通用智能体的运作中起着至关关键的作用。与人类相似,智能体的记忆可以分为常年记忆和短期记忆。在便捷的环境中,短期记忆足以让智能体处置手头的义务。但是,在更复杂和更事实的环境中,常年记忆变得至关关键。在表1中,可以看到只要少数LMAs蕴含常年记忆。与仅经常使用言语的智能体不同,这些多模态智能体须要能够逾越各种模态存储消息的常年记忆。在一些钻研中,一切模态都被转换为文本格局启动存储。但是,在某些钻研中,提出了一种多模态常年记忆系统,专门设计用于存档以前的成功阅历。详细而言,这些记忆被存储为键值对,其中键是多模态形态,值是成功的方案。在遇到新的多模态形态时,依据它们的编码相似性检索最相似的例子。
其中,代表经过CLIP模型编码的键的视觉消息,与由CLIP编码的视觉形态启动相似性比拟。
LMAs的分类法
经过将现有钻研分类为四种类型,提出了一种分类法。
类型I:闭源LLMs作为没有常年记忆的布局者。 早期的钻研驳回揭示来应用闭源的大言语模型(如GPT-3.5)作为推理和布局的布局者,如图2(a)所示。依据特定的环境或义务要求,这些方案的执行可以经过下游工具包或经过经常使用鼠标或机器人手臂等物理设施直接与环境启动交互。这种类型的LMAs理论在更便捷的环境中运转,承当着传统的义务,如图像编辑、视觉定位和视觉问答(VQA)。
类型II:经过微调的LLMs作为没有常年记忆的布局者。 这种类型的LMAs触及搜集多模态指令追随数据或经常使用自我指点来微调开源的大言语模型(如LLaMA)或多模态模型(如LLaVA),如图2(b)所示。这种增强不只使模型能够作为推理和布局的中心“大脑”,还使其能够执行这些方案。类型II LMAs面临的环境和义务与类型I相似,理论触及传统的视觉或多模态义务。与相对便捷的灵活个性、敞开环境和基转义务的典型场景相比,在像Minecraft这样的开明环球游戏中,LMAs须要在灵活背景下执行准确的布局,在高复杂性的义务中启动处置,并启动永恒学习以顺应新的应战。因此,在类型I和类型II的基础上,类型III和类型IV的LMAs集成了记忆组件,展现了向人工智能畛域中的通用智能体开展的渺小后劲。
类型III:具有直接常年记忆的布局者。 关于类型III的LMAs,如图2(c)所示,LLMs充任中央布局者,并装备有常年记忆。这些布局者经过调用关系工具访问和检索常年记忆,应用这些记忆来增强推理和布局。例如,在[71]中开发的多模态智能体框架专为视频处置等灵活义务量身定制。该框架包括一个布局者、一个工具包和一个与义务关系的记忆库,目录了空间和期间属性。布局者经常使用专门的子义待业具查问记忆库,以失掉与视频内容关系的时空属性,从而推断出与义务关系的期间和空间数据。存储在工具包中的每个工具都专为特定类型的时空推理而设计,并在框架内作为执行者。
类型IV:具有本地常年记忆的布局者。 与类型III不同,类型IV的LMAs具有LLMs直接与常年记忆启动交互,绕过了经常使用工具访问常年记忆的须要,如图2(d)所示。例如,在[51]中提出的多模态智能体展现了在Minecraft的开明环球环境中成功200多个不同义务的熟练技艺。在他们的多模态智能体设计中,交互式布局者将多模态基础模型与LLM相结合,首先将环境多模态输入转换为文本。布局者进一步驳回自检机制来预测和评价执行中的每个步骤,被动发现潜在缺陷,并结合环境反应和自我解释,迅速纠正和完善方案,而无需额外消息。此外,该多模态智能体框架包括一个陈腐的多模态记忆。成功的义务方案及其初始多模态形态被存储,布局者从该数据库中检索相似的形态用于新义务,应用积攒的阅历以成功更快、更有效的义务成功。
多智能体单干
本节进一步引见了超出孤立智能体探讨范围的LMAs的单干框架。
如下图3(a)(b)所示,这些框架驳回多个LMAs协同上班。这两种框架之间的关键区别在于能否存在记忆组件,但它们的基本原理是分歧的:多个LMAs领有不同的角色和责任,使它们能够协调执行,独特成功独特目的。这种结构减轻了单个智能体的累赘,从而增强了义务性能。
例如,在[37]的多模态智能体框架中,引入了一个感知者智能体来感知多模态环境,由大型多模态模型组成。一个被指定为Patroller的智能体担任与感知者智能体启动屡次交互,对感知到的环境数据启动实时审核和反应,以确保方案和执行的准确性。当检测到执行失败或须要从新评价时,Patroller向布局者提供关系消息,促使从新组织或降级子目的下的举措序列。
MemoDroid框架由几个关键智能体组成,它们独特上班以智能化移动义务。探求智能体担任对目的运行程序界面启动离线剖析,依据UI元素生成潜在子义务列表,而后将其存储在运行程序内存中。在在线执行阶段,选用智能体依据用户命令和屏幕形态从探求的汇合中确定要执行的特定子义务。推断智能体进一步经过揭示LLM识别并成功所选子义务所需的基础举措序列。同时,当遇到与先前学习的义务相似的义务时,Recall智能体可以直接从内存中调用和执行相应的子义务和举措序列。
评价
钻研的关键焦点是增强LMAs的才干。但是,关于这些智能体的评价和评价方法,却付出了有限的努力。大少数钻研依然依赖于传统的性能评价目的,这清楚地说明了评价LMAs的应战。这也强调了在这一畛域开发适用的评价规范和建设基准数据集的必要性。本节总结了对LMAs的现有评价,并提供了对未来开展的展望。
客观评价
客观评价关键是支经常使用人类来评价这些LMAs的才干。最终目的是创立一个能够像人类一样了解环球并自主执行各种义务的LMA。因此,驳回人类用户对LMAs才干的客观评价至关关键。关键的评价目的包括多配置性、用户友好性、可扩展性以及价值和安保性。
多配置性。 多配置性示意LMA灵敏运用各种工具、执行物理和虚构执行以及治理各种义务的才干。[30]提出了比拟现有LMAs经常使用的工具的规模和类型,以及评价它们配置多样性的方法。
用户友好性。 用户友好性触及用户对LMAs成功义务结果的满意度,包括效率、准确性和结果的丰盛水平。这种评价相对较客观。在[64]中,人类对LMAs的评价关于准确评价其在解释和执行用户指令方面的有效性至关关键。
可扩展性。 可扩展性基本评价LMAs排汇新才干并应答新兴应战的才干。鉴于人类需求的灵活性,严厉评价LMAs的顺应性和永恒学习后劲至关关键。例如,[23]中的评价并重于智能体经常使用以前未见过的工具成功义务的熟练水平。
价值和安保性。 除了之前提到的目的外,“价值和安保性”目的在确定智能体对人类用户的实践意义和安保性方面起着至关关键的作用。虽然许多的评价漠视了这一目的,但思索到LMAs的“价值和安保性”是至关关键的。与言语智能体相比,LMAs可以处置更宽泛的义务类别,因此更关键的是让它们遵照与人类社会价值观分歧的品德和伦理准则。
客观评价
客观评价与客观评价不同,依赖于定量目的片面、系统地、规范化地评价LMAs的才干。目前,这是多模态智能体钻研中最宽泛驳回的评价方法。
目的。 目的在客观评价中施展着至关关键的作用。在的多模态智能体钻研中,驳回了特定的与义务关系的目的,例如智能体生成答案的准确性,如视觉问答(VQA)中的准确性。但是,LLMs出现之前建设的传统义务目的在评价llm驱动的LMAs时并无余够有效。因此,越来越多的钻研上班努力于确定更适宜的评价目的。例如,在VisualWebArena中,设计了一种专门的评价目的,用于评价LMAs处置视觉疏导义务的性能。这包括测量智能体对网页内容的视觉了解的准确性,例如识别和应用由标志集定义的可交互元素启动操作,并依据手动设计的鼓励函数定义的义务目的成功形态转换的才干。此外,还包括对特定视觉场景疑问的照应的准确性以及依据视觉消息执行的操作的分歧性。
基准测试。 基准测试代表着一个测试环境,其中蕴含一系列评价规范、数据集和义务。它被用于评价和比拟不同算法或系统的性能。与传统义务的基准测试相比,SmartPlay 应用精心设计的一套游戏片面权衡LMAs的各种才干,为每种才干建设了详细的评价目的和应战级别。与经常使用游戏启动评价的方法相比,GAIA 开发了一个蕴含466个疑问及其答案的测试集。这些疑问要求AI系统具有一系列基天性力,例如推理、处置多模态消息、网络导航和熟练经常使用工具。与创立越来越艰巨的义务以测试人类才干的趋向不同,GAIA并重于对现有初级AI系统提出概念上便捷但具有应战性的疑问。这些疑问触及须要准确执行复杂操作序列的实在场景,其输入易于验证。相似地,VisualWebArena是一个基准测试套件,旨在评价和推进LMAs在处置视觉和文本了解义务上的才干,适用于实在网页。还有其余基准测试有效地测试了智能体的才干。
运行
LMAs长于处置多种数据模态,在各种情形下的决策和照应生成方面胜过仅限于言语的智能体。它们的顺应性使它们在实在环球的多感官环境中意外有用,如图4所示。
GUI智能化。 在这个运行中,LMAs的目的是了解和模拟用户界面内的人类操作,成功重复义务的执行、跨多个运行程序的导航以及简化复杂的上班流程。这种智能化有望节俭用户的期间和精神,让他们可以专一于上班的更关键和更有发明性的方面。例如,GPT-4V-Act是一种先进的人工智能,将GPT-4V的才干与网络阅读相结合,以改良人机交互。它的关键目的是经常使用户界面更易于访问,简化上班流程智能化,并增强智能化的UI测试。这种人工智能关于残疾人或技术才干有限的人来说特意有益,协助他们更轻松地阅读复杂的界面。
机器人技术与实体人工智能。 这个运行专一于将机器人的感知、推理和执行才干与其环境中的物理交相互结合。经过经常使用多模态智能体,机器人可以应用多种感官通道,如视觉、听觉和触觉,失掉片面的环境数据。例如,MP5系统是一种先进的多模态实体系统,用于Minecraft,应用被动感知来智能地合成并执行宽泛的、有限期的义务,经常使用大言语模型。
游戏开发。 游戏人工智能努力于设计和成功这些智能体,以展现智能和实在感,从而提供引人入胜和具有应战性的玩家体验。将智能体技术成功地整合到游戏中,曾经造成了更复杂和交互式的虚构环境的创立。
智能驾驶。 传统的智能驾驶方法在有效感知和解释复杂场景方面面临艰巨。最近基于多模态智能体技术的停顿,特意是由LLMs驱动,标志着在克制这些应战和弥合感知差距方面取得了严重停顿。GPT-Driver,这是一种先进的方法,驳回OpenAI GPT-3.5模型作为智能驾驶车辆的牢靠静止布局器,特意注新生成安保温馨的驾驶轨迹。应用LLMs固有的推理才干,他们的方法为陈腐驾驶场景中有限的泛化疑问提供了有宿愿的处置方案。
视频了解。 视频了解智能体是专门用于剖析和了解视频内容的人工智能系统。它应用深度学习技术从视频中提取关键消息,识别对象、举措和场景,以增强对视频内容的了解。
视觉生成和编辑。 这种类型的运行旨在创立和编辑视觉内容。应用先进的技术,这个工具轻松地创立和修正图像,为用户提供了创意名目的灵敏选用。例如,LLaVA-Interactive是一个开源的多模态交互系统,将预训练的AI模型的才干融合在一同,以便于与视觉线索启动多轮对话并生成编辑后的图像,从而成功了一种经济高效、灵敏直观的AI辅佐视觉内容创立体验。
复杂的视觉推理义务。 这个畛域是多模态智能体钻研的重点,关键强调多模态内容的剖析。这种盛行归因于LLMs无了解和推理基于常识的查问方面的优越认知才干,逾越了以前模型的才干。在这些运行中,关键关注的是问答义务。这包括应用视觉模态(图像或视频)和文本模态(带有疑问或附带文档的疑问)启动推理照应。
音频编辑与生成。 这个运行中的LMAs集成了音频畛域的基础专家模型,使音乐的编辑和创作变得高效。
论断
本考查对由LLMs驱动的多模态智能体(LMAs)的最新钻研启动了彻底的概述。首先引见了LMAs的**组件(即感知、布局、执行和记忆),并将现有钻研分类为四类。随后,整顿了评价LMAs的现有方法,并设计了一个片面的评价框架。最后,重点引见了LMAs畛域内一系列和关键的运行场景。虽然取得了清楚停顿,但这个畛域仍面临许多未处置的应战,有很大的改良空间。咱们最后依据审查的停顿,强调了几个有出路的方向:
原文链接: