去年 6 月底,咱们在 arXiv 上颁布了 业内首篇 多模态大言语模型畛域的综述《A Survey on Multimodal Large Language Models》,系统性梳理了多模态大言语模型的停顿和开展方向,目前 论文援用 120+ ,开源 GitHub 名目取得。自论文颁布以来,咱们收到了很多读者十分贵重的意见,感谢大家的允许!
去年以来,咱们见证了以 GPT-4V 为代表的多模态大言语模型(Multimodal Large Language Model,MLLM)的飞速开展。为此咱们对综述启动了严重更新,协助大家片面了解该畛域的开展现状以及潜在的开展方向。
MLLM 开展头绪图
MLLM 脱胎于近年来广受关注的大言语模型(Large Language Model , LLM),在其原有的弱小泛化和推理才干基础上,进一步引入了多模态消息处置才干。相比于以往的多模态方法,例如以 CLIP 为代表的判断式,或以 OFA 为代表的生成式,新兴的 MLLM 展现出一些典型的特质:
(1) 模型大 。MLLM 理论具有数十亿的参数量,更多的参数量带来更多的后劲;
(2) 新的训练范式 。为了激活渺小参数量的后劲,MLLM 驳回了多模态预训练、多模态指令微调等新的训练范式,与之婚配的是相应的数据集结构方式和评测方法等。
在这两种特质的加持下,MLLM 涌现出一些以往多模态模型所不具有的才干,例如给定图片启动 OCRFree 的数学推理、给定图片启动故事创作和了解表情包的深层含意等。
本综述关键围绕 MLLM 的基础方式、拓展加长以及相关钻研课题启动开展,详细包括:
架构
关于多模态输入-文本输入的典型 MLLM,其架构普通包括 编码器 、 衔接器 以及。如要允许更多模态的输入(如图片、音频、视频),普通须要额外接入 生成器 ,如下图所示:
MLLM 架构图
其中,模态编码器担任将原始的消息(如图片)编码成特色,衔接器则进一步将特色处置成LLM 易于了解的方式,即视觉 Token。LLM 则作为“大脑”综合这些消息启动了解和推理,生成回答。目前,三者的参数量并不同等,以 Qwen-VL[1]为例,LLM 作为“大脑”参数量为 7.7B,约占总参数量的 80.2%,视觉编码器次之(1.9B,约占 19.7%),而衔接器参数量仅有 0.08B。
关于视觉编码器而言,增大输入图片的分辨率是优化功能的有效方法。一种方式是直接优化分辨率,这种状况下须要开放视觉编码器启动训练以顺应更高的分辨率,如 Qwen-VL[1]等。另一种方式是将大分辨率图片切分红多个子图,每个子图以低分辨率送入视觉编码器中,这样可以直接优化输入的分辨率,如 Monkey[2]等上班。
关于预训练的 LLM,罕用的包括 LLaMA[3]系列、Qwen[4]系列和 InternLM[5]系列等,前者关键允许英文,然后两者中英双语允许得更好。就功能影响而言,放大 LLM 的参数量可以带来清楚的功能增益,如 LLaVA-NeXT[6]等上班在 7B/13B/34B 的 LLM 上启动试验,发现优化LLM 大小可以带来各 benchmark 上的清楚优化,在 34B 的模型上更涌现出 zero-shot 的中文才干。除了直接增大 LLM 参数量,近期炽热的 MoE 架构则提供了更高效成功的或者性,即经过稠密计算的方式,在不增大实践计算参数量的前提下提高总的模型参数量。
相对前两者来说,衔接器的关键性略低。例如,MM1[7]经过试验发现,衔接器的类型不如视觉 token 数量(选择之后 LLM 可用的视觉消息)及图片的分辨率(选择视觉编码器的输入消息量)关键。
数据与训练
MLLM 的训练大抵可以划分为 预训练阶段 、 指令微调阶段 和 对齐微调阶段 。预训练阶段关键经过少量配对数据将图片消息对齐到 LLM 的表征空间,即让 LLM 读懂视觉 Token。指令微调阶段则经过多样化的各种类型的义务数据优化模型在下游义务上的功能,以及模型了解和听从指令的才干。对齐微调阶段普通经常使用强化学习技术使模型对齐人类价值观或某些特定需求(如更少幻觉)。
早期上班在第一阶段关键经常使用粗粒度的图文对数据,如 LAION-5B,这些数据关键起源于互联网上的图片及其附带的文字说明,因此具有 规模大(数 10 亿规模)但噪声多、文本短的特点 ,容易影响对齐的成果。起初的上班则探求经常使用更洁净、文本内容更丰盛的数据做对齐。如 ShareGPT4V[8]经常使用 GPT-4V 生成的详细形容来做更细粒度的对齐,在必定水平上缓解了对齐不充沛的疑问,取得了更好的功能。但因为 GPT-4V 是不要钱的,这种类型的数据规模理论较小(数百万规模)。此外,因为数据规模受限,其蕴含的环球常识也是有限的,比如能否能够识别出图像中的修建为广州塔。此类环球常识理论储藏于大规模的粗粒度图文对中。
第二阶段的微调数据一方面可以起源于各种义务的数据,如 VQA 数据、OCR 数据等,也可以起源于 GPT-4V 生成的数据,如问答对。只管后者普通能够生成更复杂、更多样化的指令数据,但这种方式也清楚地参与了老本。值得一提的是,第二阶段的训练中普通还会混合局部纯文本的对话数据,这类数据可以视为正则化的手腕,保管 LLM 原有的才干与内嵌常识。
第三阶段的数据关键是针关于回答的偏好数据。这类数据理论由人工标注搜集,因此老本较高。近期产生一些上班经常使用智能化的方法对来自不同模型的回复启动偏好排序,如 Silkie[9]经过调用 GPT-4V 来搜集偏好数据。
其余技术方向
除了优化模型的基础才干(如允许的输入/输入方式、功能目的)外,还有一些无心思的疑问以及待探求的方向。本综述中关键引见了多模态幻觉、多模态高低文学习(Multimodal InContext Learning,M-ICL)、多模态思想链(Multimodal Chain of Thought,M-CoT)和 LLM 辅佐的视觉推理(LLM-Aided Visual Reasoning,LAVR)等。
多模态幻觉 的钻研关键关注模型生成的回答与图片内容不符的疑问。视觉和文本实质上是异构的消息,齐全对齐两者自身就具有相当大的应战。增大图像分辨率和优化训练数据品质是降落多模态幻觉的两种最直观的方式,此外咱们依然须要在原理上探求多模态幻觉的成因和解法。例如,的视觉消息的 Token 化方法、多模态对齐的范式、多模态数据和 LLM 存储常识的抵触等对多模态幻觉的影响仍需深化钻研。
多模态高低文学习 技术为少样本学习方法,旨在经常使用大批的问答样例揭示模型,优化模型的few-shot 功能。优化功能的关键在于让模型有效地关注高低文,并将外在的疑问形式泛化到新的疑问上。以 Flamingo[10]为代表的上班经过在图文交织的数据上训练来优化模型关注高低文的才干。目前关于多模态高低文学习的钻研还比拟初步,有待进一步探求。
多模态思想链 的基本思想是经过将复杂的疑问合成为较便捷的子疑问,然后区分处置并汇总。相较于纯文本的推理,多模态的推理触及更多的消息起源和更复杂的逻辑相关,因此要复杂得多。该方面的上班也比拟少。
LLM 辅佐的视觉推理 方法探求如何应用 LLM 弱小的内嵌常识与才干,并借助其余工具,设计各种视觉推理系统,处置各种事实疑问。相比于经过端到端训练取得繁多模型,这类方法普通关注如何经过免训练的方式裁减和增强 LLM 的才干,从而构建一个综合性的系统。
应战和未来方向
针对 MLLM 的钻研现状,咱们启动了深化思索,将应战与或者的未来开展方向总结如下:
更详细内容请阅读
原文链接: