文章链接:
衔接文本和视觉模态在生成式AI中起着至关关键的作用。遭到大言语模型(本文简称LLM)成功的启示,人们正在努力于开发多模态大言语模型(MLLMs)。这些模型可以无缝地集成视觉和文本模态,既作为输入又作为输入,同时提供基于对话的界面和指令遵照的才干。本文片面回忆了最近基于视觉的MLLMs,剖析了它们的架构选用、多模态对齐战略和训练技术。还对这些模型在各种义务上启动了详细剖析,包括视觉定位、图像生成和编辑、视觉了解以及畛域特定运行。此外编制并形容了训练数据集和评价基准,对现有模型在性能和计算要求方面启动了比拟。总体上,本综述提供了对技术水平的片面概述,为未来MLLMs奠定了基础。
引见
留意力算子和Transformer架构的引入使得咱们可以创立大规模的,能够处置各种模态的模型。这一提高关键归因于算子的多配置性和架构的顺应性。最后,它们关键运行于言语模型,但很快就扩展到支持视觉处置主干,并最终用于集成多种模态的模型。
随着复杂的大言语模型的激增,尤其是它们在高低文学习方面的才干的提高,激励钻研人员将这些模型的范围扩展到多种模态,既作为输入又作为输入。这种扩展促使了像GPT-4V和Gemini这样的尖端模型的开发,并展现了相领先进的才干。
多模态大言语模型(MLLMs)的开展触及将视觉和言语的单模态架构启动融合,经过视觉到言语适配器之间建设有效的衔接,并发明出新的训练方法,这些方法关于确保模态对齐和准确遵照指令的才干至关关键。
新模型颁布迅速,咱们的指标是提供关于MLLM畛域的详尽概述,偏重点关注应用视觉模态的模型。本综述既是对现状的更新,也是对未来开展的启示。
本文定义了这类模型的三个**方面:它们的架构、训练方法和设计义务。本文首先详细引见了盛行的视觉编码器和适配器模块,这些模块赋予了LLMs跨模态的才干。接着,深化讨论了训练环节和经常使用的数据。然后,讨论了MLLMs所触及的义务范围。最后讨论了该畛域继续存在的应战以及未来钻研的方向。关于训练数据、评价数据集以及性能和计算要求的更多细节可以在原文的附录中找到。
为LLMs赋予多模态才干
基础常识
「大言语模型」 Brown等人发现,在揭示中参与几个示例,演示LLM的希冀输入,即高低文学习,可以提高其性能,尤其是在新义务上。为LLM提供每个训练样本所需义务的一段人造言语形容可以进一步提高泛化才干。这种技术被称为指令微调,它关于调整LLM的行为与人类行为分歧至关关键,最终经过从人类反应中增强学习(RLHF)。
「PEFT (Parameter-Efficient Fine-Tuning) 参数高效微调」 当须要将预训练的LLM运行于特定畛域时,参数高效微调(PEFT)就成为训练整个LLM的一个关键代替打算,由于这些畛域只引入了大批的新参数。其中,prompt调整学习了一小组向量,在输入文本之前作为软揭示输入到模型中。另一方面,LoRA(Low-Rank Adaptation of Large Language Models)经过学习低秩矩阵来限度新权重的数量。这种技术与量化方法(如QLoRA(Quant LoRA))是正交的,后者相比理论的半精度权重进一步缩小了LLM的内存占用。
「向多模态LLMs的方向开展」 MLLMs的开展门路与LLMs相似,Flamingo是第一个在视觉-言语畛域大规模探求高低文学习的模型。然后,视觉指令微调迅速成为多模态畛域中最突出的训练范式,连带经常使用PEFT技术微调LLM。任何MLLM至少蕴含三个组件(见下图1):LLM主干作为与用户的接口,一个(或多个)视觉编码器,以及一个或多个视觉到言语适配器模块。
罕用的LLM主体理论属于LLaMA家族系列,由于它们的权重可以自在调整,它们只在公共数据上启动了训练,并且领有不同的尺寸以顺应各种场景。此外,它们的衍生版本也很受欢迎,如Alpaca和Vicuna。前者在经常使用GPT-3编写的指令上对LLaMA启动微调,然后者应用用户与ChatGPT分享的对话。其余选用包括OPT、Magnet、MPT以及指令微调或多言语版本的T5(一个为多个义务预先训练的编码器-解码器言语模型)。
本文调研的MLLMs的总结如下表1所示。关于每个模型,表中列出了它所基于的LLM,视觉编码器,衔接视觉和言语组件的适配器,MLLM能否经常使用视觉指令调整启动训练,以及关键义务和才干。
视觉编码器
在MLLMs中,视觉编码器是一个关键组件,它专门用于向LLM提供从视觉中提取的特色。理论驳回解冻的预训练视觉编码器,同时仅训练一个可学习的接口,将视觉特色与基础LLM衔接起来。最罕用的视觉编码器基于预训练的Vision Transformer(ViT)模型,它基于CLIP,目的是应用CLIP嵌入的固有对齐性。
一些罕用的选用包括:CLIP中的ViT-L模型、OpenCLIP中的ViT-H主干和EVA-CLIP中的ViT-g版本。CLIP和OpenCLIP编码器是在网络搜集的图像上训练的,驳回对比方法来对齐正确的图像-文本对。相反,EVA-CLIP是一系列模型,为训练CLIP模型提供了适用且有效的处置打算:EVA模型是预训练的,以可见图像块为条件,重建遮挡的图像-文本对齐的视觉图像特色。
更弱小的图像编码器会提高性能。基于这一意识,一些钻研者提出了一种解冻的视觉主干的合集,以捕捉弱小的视觉示意和不同档次的消息粒度。与此同时,PaLI模型留意到言语和视觉参数之间存在不平衡,提议将视觉主干扩展到一个40亿和220亿参数的ViT。
应用这些弱小的模型的理论做法是在训练环节中坚持视觉编码器解冻。但是,经常使用解冻的视觉编码器也存在一些局限性,关键是由于参数数量受限,造成视觉和言语模态之间不可准确对齐。详细来说,当输入言语模型时,从视觉模型中提取的密集特色或许会破坏细粒度的图像消息,并且由于序列长度而引入少量计算。
为了缓解这个疑问,其余钻研人员驳回了一个两阶段的训练范式。在第一阶段,他们将一个可训练的视觉主干引入,同时坚持预训练的LLM解冻。依据他们的钻研结果,使视觉编码器可训练可以优化视觉疑问回答或视觉形容等义务的性能。但是,这或许造成其余义务性能降低,标明这种打算存在必定水平的忘记,而且破坏了通用视觉示意。
视觉——言语适配器
由于来自不同模态的输入同时存在,那么在这些单模态内整合能够描画其潜在对应相关的模块就十分必要了,这些模块被称为“适配器”,目的在于促成视觉和文本畛域之间的互通性。在经常出现的MLLMs中,经常使用了各种适配器,从基本的架构(如线性层或多层感知机(MLP)),到初级方法(如基于Transformer的处置打算,例如Q-Former模型),并在LLM中参与了条件交叉留意力层。
「线性MLP投影」 将视觉输入投影到文本embedding的最间接的方法,它触及到学习线性映射,行将视觉特色转换为相反维度的对应文本。一些方法只经常使用单个线性层来口头多模态衔接,如LLaMA-Adapter和FROMAGe,而LLaVA-1.5驳回了两层MLP,显示出改良的多模态才干。虽然线性投影在早期MLLMs中被宽泛驳回,但即使在最近的对视觉输入有更初级了解的方法中,线性投影的经常使用也被证实十分有效。因此,这是一种繁难但有效的技术,用于将视觉特色与文本对应物对齐。另一种方法提出用卷积层交流线性层,也有适当的的改良。
「Q-Former」 是在BLIP-2中提出的基于Transformer的模型,并在之后的几种其余方法中经常使用。它的特点是其可顺应性架构,由两个Transformer块组成,这些块共享各自的自留意力层,促成了视觉和文本示意之间的对齐环节。它包括一组可学习的query,这些query在自留意力层内启动交互,并经过交叉留意力机制与视觉特色启动交互。而文本和视觉元素经过模块内的共享自留意力启动通讯。
遭到Q-Former的启示,又降生了各种修正版本。比如,mPLUG-Owl模型简化了Q-Former的架构,并提出了一个视觉形象器组件,经过将视觉消息紧缩成不同的可学习token,从而取得更丰盛的语义视觉示意。在雷同的方向上,Qwen-VL经常使用一个单层交叉留意力模块紧缩视觉特色,该模块具备可学习的query,并且还蕴含2D位置编码。
「附加跨留意力层」 这种方法在Flamingo中提出,经过在现有的预训练LLM层之间集成密集的交叉留意力块。新参与的层理论与初始化的tanh-gating机制结合在一同,以确保在初始化时,条件模型的行为与其原始版本相反。经常使用额外的交叉留意力层须要从头开局训练它们,参与了可训练参数的数量,与其余代替打算相比。为了降低计算复杂度,这种战略理论与一个Perceiver-based组件配对,该组件在传递到LLM之前缩小了视觉token的数量。自其引入以来,几个模型经常使用这种技术来将视觉模态与基础LLM衔接起来,优化了训练稳固性和性能。
多模态训练
从预训练的LLM开局,MLLM的训练教训了单阶段或两阶段的环节。在两种状况下,都经常使用规范的交叉熵损失来预测下一个token,作为自回归指标。
「单阶段训练」 这是LLaMA-Adapter模型探求的,该模型引入了额外的可训练参数,以同时封装视觉常识并治理仅支持文本的指令学习。为了成功这一点,模型经过经常使用图像-文本对和指令启动联结训练,操作不同的参数。与此同时,还有一些模型经过将两个对比损失函数用于图像-文本检索,以此来调整最终损失函数。在训练环节中,只要三个线性层被更新。另一方面,Kosmos-1思考了一个解冻的视觉主干,并从零开局训练了1.3B(13亿)参数的言语模型。
相反,Flamingo及其开源变体训练交叉留意力层和基于Perceiver的组件,以衔接视觉特色与解冻的LLM模块。此外,Otter扩展了Flamingo的训练,以增强其高低文才干。
思考到可用的少量训练数据,像SPHINX-X这样的模型选用口头单个一体化训练阶段,更新一切模型组件,还可以仅经常使用文本数据来保管LLM的对话才干。
「两阶段训练」 在两个训练阶段中的第一阶段,指标是将图像特色与文本embedding空间对齐。在此阶段之后,输入往往会产生碎片且不连接。因此,实施第二步以提高多模态对话才干。LLaVA是最早引入视觉指令追随训练打算的模型之一,该打算作为第二个训练阶段,更新了多模态适配器和LLM的参数。在第一阶段,只要多模态适配器是可训练的。与之不同的是,MiniGPT-4仅训练担任两个阶段中的多模态对齐的线性层。在第二阶段,它经常使用经过第一阶段模型自身搜集和精炼的过滤数据。
另一种方法在"InstructBLIP"中提到,它触及解冻视觉编码器和LLM。在两个训练阶段中,只要Q-Former和衔接模块是可训练的。与先前的方法不同,在这些方法中,视觉主干坚持解冻形态,而"mPLUG-Owl"在初始阶段更新视觉主干,有助于捕捉低级和初级视觉消息。此外,在第二阶段,文本数据和多模态数据一同经常使用,以参与对齐度。与此不同的是,"Shikra"在两个阶段中更新一切权重,不同之处是坚持视觉主干解冻形态。
「训练数据」 在第一训练阶段(或许单阶段)中,理论经常使用来自不同起源的图像-文本对,经常使用诸如LAION-2B、LAION-M、Conceptual Captions、COYO-700M和DataComp等数据集。一些方法将这些数据与一个或多个特点是文本与图像交织的数据集(理论是从网络上抓取的)结合经常使用,比如WebLI、MMC4、MMDialog和OBELICS。为了处置先前数据集中的偏向和噪声,StableLLaVA在第一阶段引入了新搜集的数据。该方法应用ChatGPT生成图像揭示和基于内容的对话的数据,并应用Stable Diffusion生成相应的图像。
在接上去的阶段中,应用了用于视觉指令微调的数据集。其中,罕用的LLaVA-Instruct应用GPT-4生成的指令扩展了COCO。随着这一趋向的开展,有人经过整合手工制造和生成的高品质多样化数据,扩展了维度规模。此外,还提出了其余多轮对话数据集,例如引入了一个将26个地下可用数据集转换为其视觉指令版本的数据集,LLR-Instruction旨在经过更弱小的指令缩小幻觉,而LLaVAR则专一于文本丰盛的图像。
应用MLLMs处置视觉义务
规范MLLMs可以处置视觉了解义务,如视觉问答(VQA)、图像形容和多轮对话。但是,最近人们对处置更精细的视觉义务体现出了兴味,如视觉定位和图像生成。
视觉定位
MLLM的视觉定位才干指能够与用户启动包括内容定位的对话,也被称为指代对话。也有人将指代定义为了解输入区域内容的才干,可以在区域形容和指代表白生成等义务上启动评价。相反,视觉定位则与定位给定文本形容的区域相关联,对应于义务,如指代表白了解(REC)、指代表白宰割(RES)、短语定位和定位式图像形容生成。为了赋予MLLMs这些才干,须要两个**配置:一个用于处置输入区域的区域转换序列方法,以及一个用于将名词和短语与区域关联的序列到区域方法。下表2总结了具备视觉定位才干的MLLMs。
「区域转换文本」 输入区域的最经常出现模式是间接将它们拔出生成的文本中,作为一系列坐标,示意成数字或公用于位置范围的不凡标志。Shikra、Kosmos-2、MiniGPT-v2、Ferret、CogVLM、SPHINX、QwenVL和Griffon经过指定两个点将边界框转换为文本。VisionLLM、VistaLLM、LLaFS和ChatSpot准许MLLM经过将多边形示意为一系列点的模式来处置它们。
「Embedding-as-Region」 另一种处置打算是经过区域编码器读取输入区域,并将输入区域作为MLLM最后一层提取的embedding传递给解码器。关于输入区域,GLaMM、GPT4RoI、ASM和ChatterBox应用图像编码器的特色对边界框口头ROI对齐,而PVIT则应用RegionCLIP。PixelLLM和LLaVA-G区分经常使用SAM的揭示编码器和Semantic-SAM。关于输入区域,LISA、GLaMM、GSVA、NeXtChat和LISA++将与不凡标志对应的embedding发送到SAM的mask解码器。LLaVA-G转换为OpenSeeD,Lenna转换为Grounding-DINO,PixelLM转换为自定义轻量级像素解码器。
不同的是,ContextDET引入了一个解码器,接纳带有可学习query的名词的潜在embedding,口头与图像特色的交叉留意力,然后经常使用宰割头。ChatterBox将iTPN-B编码器和MLLM的特色组合起来,并提供应DINO检测器。GELLA在Mask2Former中提出了一个融合模块,基于多模态图像特色提出mask,并经常使用关联模块将潜在embedding调配给它们。PaLI-3经过VQ-VAE解码器将embedding转换为宰割mask。
「文本转换位置」 其余方法基于接受文本类别作为输入的开明词汇模型。DetGPT为Grounding-DINO生成类别列表。BuboGPT应用RAM、Grounding-DINO和SAM的组合,并将标签与输入序列中的名词启动婚配。
图像生成与编辑
虽然最后的MLLMs展现了从视觉数据中提敞开息的才干,但最新钻研曾经将其重点扩展到了生成视觉输入。这一停顿是经过将MLLM框架与图像生成机制相结分解功的,关键体如今 Stable Diffusion模型中。这些模型具备一个以文本或视觉embedding为条件的去噪U-Net架构,经过交叉留意力层成功。所剖析模型的完整列表如下表3所示。
「将MLLM与分散模型衔接起来」 GILL是将MLLM的输入embedding空间映射到解冻分散模型的输入空间的先驱。详细来说,受Q-Former启示,他们训练了一个映射组件,经过最小化言语模型的图像输入示意与分散模型的预期条件embedding之间的ℓ2距离来成功。
虽然GILL防止了对LLM和分散U-Net启动微调,但是代替方法依然微调了言语模型以扩展其多模态生成才干。在这方面,Kosmos-G是经过一个训练打算开发的,该打算将LLM的输入与编码器-解码器结构相结合,应用重构损失和在CLIP-文本embedding中的距离最小化。相似地,MiniGPT-5除了GILL的对齐损失外,还包括分散模型的重构损失。
此外,它将整个训练环节分为两个不同的阶段:初始阶段专一于文本到图像的生成,然后续阶段则专一于交织的视觉和言语生成。显然,钻研人员曾经钻研了从输入图像中提取的团圆和延续视觉标志与Stable Diffusion条件embedding的对齐。这理论经过对文本模型启动微调来成功。当然,也有人微调了LLM和Stable Diffusion U-Net。
有钻研者提出了一种不同的方法,他们倡导经过参与两个不凡标志(即start和end)对LLM启动微调,并间接经常使用Stable Diffusion模型中的文本编码器在这两个标志之间对生成的文本启动编码。LLM被训练以输入详细的基于言语的生成揭示,这些揭示用于生成或编辑义务。U-Net经过更长、更详细的文本说明启动微调。此外,在DreamLLM中,丢弃了对齐损失,而是选用了分数蒸馏损失,同时坚持U-Net解冻。此外,其余钻研者还启动了额外的钻研努力,将MLLM引入图像编辑畛域。
「端到端Pipelines」 另一个方向是开发端到端训练战略。Stable Diffusion U-Net间接经过LLM生成的延续视觉embedding启动微调。经常使用特色同步器,在LLM和分散解码器的两边层中跨多尺度高分辨率图像特色启动交叉关注。此外,端到端训练方法曾经被用于非基于分散的生成器,比如VQ-GAN。Aiello提出了一种不同的方法,经过双向跨模型架构的交叉关注来混合LLM架构和自回归生成器CM3Leon。
其余模态与运行
「视频了解」 前面提到的大局部钻研都集中在图像上,但也有一些上班提出了专门用于处置视频序列的MLLMs。这些模型独立地处置视频帧,经常使用基于CLIP的主干提取帧级特色,然后应用池化机制或基于Q-Former的处置打算将这些特色组合起来。视觉特色与言语模型之间的衔接和基于图像的MLLMs趋向分歧,最经常出现的选用是线性投影。但是,也有一些尝试开发视频特定的适配器,可以捕捉细粒度的期间消息。除了编码视频帧外,一些上班还应用音频特色来丰盛输入视频序列的示意。
「恣意模态模型」 到目前为止,简直所无形容的模型都将繁多模态作为LLM的输入。但是,也有少量上班集中在设计出能够有效处置多模态的处置打算。理论,这是经过经常使用Transformer块(如Q-Former和Perceiver)来对齐多模态特色成功的,或许经过应用ImageBind来有效提取固有多模态特色。图像、视频和音频是最常处置的模态。此外,一些上班还有效地编码了3D数据和IMU传感器信号。虽然一切这些处置打算都可以治理多模态输入,但像NExT-GPT和Unified-IO 2这样的方法也能够生成不同模态的输入。
「特定畛域的MLLM」 除了处置通用的视觉输入之外,一些钻研上班努力于开发针对特定畛域和运行的MLLM,可以从预训练的LLM开局训练模型,也可以经常使用特定畛域的数据对现有的MLLM启动微调。一些例子包括用于文档剖析和文本密集型视觉输入的MLLM,为体验式人工智能和机器人技术设计的MLLM,以及针对特定畛域(如医学和智能驾驶)量身定制的MLLM。附录中展现了不同特定畛域的MLLM的完整列表。
总结与未来方向
本综述提供了对MLLM最近开展的片面概述,首先关注了如何为LLM提供多模态才干,然后讨论了这些模型处置的关键义务。依据综述剖析,论述了后续关键的开明性应战和有前景的未来钻研方向,以进一步增强MLLM的才干。
「幻觉改过」 一些钻研标明,MLLMs在生成较长对话时产生幻觉的概率较高。虽然一些处置打算正在尝试处置这一疑问,但了解和纠正幻觉的基本要素依然是一个关键的应战。关于将这些模型运行于更为关键的场境(例如医学),处置这一疑问并确保其准确性和可信度至关关键。
「预防生成有害和成见内容」 社会十分关注大模型的安保性和偏心性。最新的钻研标明,经常使用网络抓取的数据训练的模型很容易生成不当和有成见的内容。虽然最近在努力缩小文本到图像生成模型中这种现象了,但须要进一步探求如何防止MLLMs中产生相反的行为。
「降低计算负载」 正如补充资料所示,MLLMs须要极高的计算资源。须要采取有效战略(Chu等,2024)来降低计算需求,从而使MLLMs的开发愈加容易。或许的方向包括缩小模型规模和数据量方面的训练要求,并优化推理阶段。
原文链接: