一、论断写在前面
近期,多模态大型言语模型(LLMs)的开展关键集中在经过参与文本-图像配对数据和增强LLMs来提高多模态义务的性能。但是,这些裁减方法计算老本高昂,且漠视了从视觉方面有效优化模型才干的关键性。遭到混合专家(MoE)在LLMs中成功运行的启示,该技术在训练环节中提高了模型的可裁减性,同时坚持推理老本与小型模型相似,论文将稠密混合专家设计引入了多模态大型言语模型。
详细而言,论文用Top-K稠密MoE块交流了MLP衔接器和视觉编码器中的每个MLP块。为了增强训练稳固性,论文驳回了三阶段训练方法,在视觉指令调优阶段引入了再应用的MoE块,以及辅佐bzloss来维持专家的平衡加载。一切CuMo模型都在齐全开源的数据集和基准测试上启动训练和评价。经过宽泛的试验和消融钻研,论文验证了每个模块中再应用的MoE块的有效性。CuMo在多个竞争基准测试中超越了等同模型大小组别内的最新模型。
CuMo的代码和模型权重已在 上开源。
二、论文的便捷引见
2.1 论文的背景
最近的多模态LLMs 通常将预训练的视觉编码器和LLMs与视觉指令调整数据集成,以微调预训练的LLMs,增强其视觉了解才干。为了进一步裁减多模态LLMs,以往的致力关键集中在经常使用更宽泛的文本-图像配对数据集训练模型,并驳回更弱小的LLMs,清楚参与了训练上班量。在视觉方面,最近的上班集中在应用多个视觉编码器来丰盛视觉内容,驳回更大的视觉编码器,并经常使用先进的视觉-言语衔接器来提高多模态义务的性能。但是,这些技术造成了额外的参数数量参与,并为LLMs处置生成了额外的视觉token,使得裁减变得低效。
在高效裁减模型方面,混合专家(MoE)已成为现代大规模神经网络,特意是在人造言语处置(NLP)中的理想规范框架。大少数大型言语模型(LLM)都是基于transformer 架构,其中稠密MoE被用来交流密集MLP块,驳回Top-K稠密门控MoE块。最近,最先进的开源和私有LLMs关键驳回了稠密MoE架构。这些模型在训练环节中经过MoE设计启动裁减,同时坚持相对较低的推理老本,由于只要选定的MLP专家在向前流传环节中被激活。但是,MoE模型的开发和优化关键针对LLMs,而经常使用MoE裁减多模态LLMs,特意是在视觉方面的探求,依然很大水平上未被探求。
受这些观察的启示,论文引入了CuMo,它将Top-K稠密门控MoE块融入多模态LLMs的视觉编码器和MLP衔接器中,如图2所示。论文还探求了CuMo关系的训练配方和方法。首先,论文预训练MLP衔接器,并在不引入MoE架构的状况下启动预微调,以稳固后续的视觉指令调整阶段,该阶段引入了新的稠密MoE块。而后,论文经过协同更新,将MLP衔接器和视觉编码器中的每个MLP块交流为稠密MoE块。稠密MoE块中的每个专家都从预训练和预微调阶段的相应MLP块初始化。此外,每个MoE块蕴含一个从头开局训练的Top-K路由器,在视觉指令调整阶段选用专家,路由器上的辅佐损失用于维持专家负载的平衡。论文进一步比拟了协同更新的LLMs和预训练的MoE基LLMs。
2.2 论文的方法
2.2.1. 回忆稠密MoE
稠密MoE结构:以前的干流通常[60]是交流密集MLP块与稠密门控专家混合块。为了经过并行多个MLP块裁减模型,稠密MoE块包括一个路由网络来从S个总专家当选用Top-K专家。这个路由网络有一个线性层来依据输入计算归一化权重矩阵以启动投票。关于每个token,依据选用前K个专家,并经常使用下式计算从新归一化的权重 。每个选用的专家都由一个多层感知器(MLP)块示意,最终的输入是经过对这些专家的加权求和取得的。
从头开局训练基于MoE的设计或者不稳固且老本高昂。稠密再应用[33]经过从预训练的密集审核点中对应的MLP块初始化每个MoE块中的专家,来处置这一应战。这种初始化模式为训练基于MoE的模型提供了一个更好的终点,并且与从头训练相比降低了训练老本。
图4. CuMo的训练阶段。第一阶段触及预训练MLP以取得更好的对齐。随后,预微调阶段训练一切参数作为下一阶段的预热。最后,每个MoE块内的MLP专家从相应MLP块的权重初始化,随后在视觉指令调优阶段训练一切参数
2.2.2. CuMo架构
MLP衔接器中的稠密MoE: MLP衔接器将视觉token转换为单词嵌入空间,对齐视觉和文本token之间的维度。视觉言语衔接器的有效架构是一个蕴含两个线性层的MLP块。论文从单个MLP块开局,将其交流为Top-K稠密MoE块,联合Top-K路由器和一组专家将视觉token投影到单词嵌入空间。
视觉编码器中的稠密MoE: 视觉编码器提取图像特色作为视觉token序列,用于在LLMs中启动推理。CLIP是多模态LLM最盛行的预训练视觉编码器之一,由于它在大规模图像-文本对上启动了预训练,适宜处置多模态用途的图像。CLIP的视觉编码局部是一个ViT模型,其转换器编码器中有延续的MLP块。论文将每个MLP块交流为Top-K稠密MoE块,保管MoE块输入的腾跃衔接。
LLM中的稠密MoE: 在经常使用MoE的LLM方面,论文将共更新的LLM与预训练的基于MoE的LLM启动比拟。论文从Mistral-7B开局,更新的Mistral-7B-MoE在某些基准测试中稍微优于Mistral-7B。但是,思考到从Mistral-7B更新的专家的常识库有限,论文将其与具备多样化常识库预训练专家的预训练Mixtral 8x7B启动比拟。试验结果标明,预训练的Mixtral 8x7B清楚优于Mistral-7B-MoE。因此,LLM没有与CLIP和MLP衔接器共更新,由于它带来了边沿改良,但参数参与了很多。
2.2.3. 训练配方
共更新MoE块:论文从从头开局训练参与的MoE块开局,而模型在收敛方面遇到艰巨。尝试经过降低学习率来处置这个疑问,但结果比基线更差。因此,论文驳回共更新方法,将每个集成稠密门控MoE块的模块初始化为预训练的MLP,以交流相应的MLP块,如图3所示。
三阶段训练:为了进一步增强训练稳固性,论文为CuMo模型驳回了一种三阶段训练战略,如图4所示。在第一阶段,论文只预训练MLP衔接器,由于视觉编码器和LLM曾经在大型数据上启动了预训练。在第二阶段预微调时期,论文经常使用高品质的题目数据训练一切参数,以在引入MoE块的后续阶段之前预热整个模型。第三阶段触及视觉指令微调,其中多模态LLM经过更新的MoE块启动裁减,并在视觉指令微调数据上启动训练。
*表1. CuMo与其余最先进的多模态LLM在竞争基准上的比拟。这些模型依据基础LLM的大小分组。由于空间有限,基准测试是双行的:SQA-IMG [50];TextVQA[62];GQA [24];POPE [40];MME [19];MMBench [49];MMVet [71];VQAv2 [21];LLaVA-Wild [47];SEED-IMG [37];MMMU [72];MathVista [51]。激活参数。数字†是经过查问GPT API的三次推理运转平均获取的*
损失函数:为了在每个MoE块中坚持专家之间的负载平衡,论文驳回了基于言语建模交叉熵损失的辅佐损失。辅佐损失包括加载平衡损失和路由器z损失[77]。
2.3 论文的成果
论文在一个混合的开源数据集上训练CuMo模型,这些数据集被转换为视觉指令调整格局。而后,论文在各种竞争性的VQA基础和指令遵照基础的基准上对CuMo模型的性能启动片面评价。此外,论文对每个模块启动消融钻研,经常使用更新的MoE块,并对结果启动定性剖析。
2.3.1. 成功细节
训练数据集 在预训练时期,论文仅经常使用LLaVA-558K [47]来训练MLP衔接器,以取得更好的对齐。在随后的预微调阶段,经常使用来自ALLaVA 的详细的图像题目数据来预热多模态LLM的一切参数。关于最终的视觉指令调整阶段,经常使用包括LLaVA-665K 、ShareGPT4V 、LAION-GPT-V 、DocVQA 、ChartQA 、AI2D 、InfoVQA 、SynDog-EN 、ALLaVA和LIMA在内的混合数据集来训练带有更新MoE块的CuMo模型。视觉指令调整的总数据大小约为165万,一切训练数据都是地下可访问的。
表2. CuMo Mistral-7B与其余具备有限训练数据的多模态LMM模型的比拟
表3. 对MLP-MoE模块的消融钻研。每一行代表一个不同的性能,经常使用⇌和+符号token更改或参与。在表1中为MLP-MoE模块驳回的设置以浅蓝色背景突出显示
表4. 对CLIP-MoE模块的消融钻研。一切CLIP中的MoE块都经常使用更新启动初始化
表5. 对LLM-MoE模块的消融钻研。Mixtral 8×7B在很大水平上优于更新的Mistral MoE模型。
评价基准:CuMo模型的评价关键集中在学术VQA基础数据集,如VQAv2 、GQA 、Science-QA 和TextVQA ,以及指令遵照基础的LMM基准,包括POPE 、MME 、MM-Bench 、SEED-Bench 、LLaVA-Wild和MM-Vet。此外,还评价了具备应战性的MMMU [72]和MathVista [51]数据集,以评价多模态LLM的视觉推理才干。
训练设置:论文驳回预训练的CLIP ViT-L 作为视觉编码器,一个两层MLP作为视觉-言语衔接器,以及Mistral-7B 作为LLM,以遵照LLaVA v1.5 建设基线模型。论文仅经常使用LLaVA-558K作为预训练数据,经常使用LLaVA-665K 作为视觉指令调整数据来训练基线模型,并启动消融钻研以启动比拟。学习率设置为1e-3用于预训练MLP衔接器,并降低到2e-5用于MLP衔接器和CLIP的视觉指令调整。为了在裁减额外数据后进一步稳固视觉指令调整环节,最终结果中CuMo模型的一切参数的学习率降低到2e-6。
评价设置:在评价环节中,论文遵照LLaVA系列中概述的设置,为一切基准测试驳回贪心解码战略。数据和疑问被转换成视觉指令,以揭示多模态大型言语模型(LLMs)。关于经常使用GPT API启动评价的基准测试,论文为LLaVA-Wild驳回gpt-4-0613,为MathVista[51]驳回gpt-3.5-turbo。
2.3.2. 关键结果
与最先进的(SoTA)多模态LLMs的比拟:在表1中,论文展现了CuMo模型与其余基于指令追随的最先进多模态LLMs的比拟。论文依据基础LLMs的大小对模型启动分类,包括7B模型、13B模型和7B MoE模型。CuMo Mistral-7B在多个基准测试中逾越了其余基于7B的最先进多模态LLMs。此外,CuMo Mistral-7B模型的性能与许多基于13B的多模态LLMs相当。在Mixtral-8×7B模型的状况下,CuMo成功了与SPHINX-MoE、MM1和Mini-Gemini相当的结果。由于容许限度,论文没有在论文的试验中经常使用基于LLaMA的LLMs。
在有限训练数据下的比拟:为了进一步评价独特更新的MoE块的有效性,论文在表2中展现了在有限训练数据下训练的纯CuMo mistral-7B。结果显示,CuMo在相反的训练数据下逾越了其余7B模型,并到达了与LLaVA-v1.5 Vicuna-13B相当的性能。
2.3.3. 消融钻研
将MLP衔接器更新为MLP-MoE:论文经过将MLP衔接器交流为更新的MLP-MoE来开局消融钻研,如表3所示。论文从一个Top 2-in-4路由器开局,并从头开局训练MoE块,这造成在一切基准测试上的性能清楚降低。而后,论文驳回更新战略来初始化MLP专家。论文观察到相关于基线有边沿改良,思考到每个专家只蕴含两个线性层。随后,将bzloss归入以确保MLP-MoE中专家的平衡加载,在MMVet上发生了清楚的改良。但是,经常使用带有更新和bzloss的Top 2-in-8路由器造成性能略有降低,或者是由于训练弱小的、平衡的八个专家所需的视觉指令调整数据有限。
增强CLIP与CLIP-MoE:在表4中,最后基于MLP-MoE解冻CLIP在TextVQA和MMVet基准测试上造成了清楚的改良。但是,从头开局训练参与的Top2-in-4 MoE块在CLIP中被证实是不成功的,由于即使经常使用降低的学习率,模型也不可收敛。因此,在视觉指令调整阶段驳回更新的MoE块在TextVQA、MMVet和SEED基准测试上发生了进一步的改良。
更新LLM与预训练LLM-MoE:在视觉局部交流一切MLP块为稠密门控MoE块后,论文进一步钻研了LLM中MoE架构的经常使用。从Mistral-7B模型开局,论文首先将学习率降低到2e-6以设置基线和随后的试验,由于2e-5的学习率会造成训练不稳固。而后,论文将每个MLP块与一个稠密门控MoE块更新,每个专家的权重从预训练的MLP块初始化。如表5所示,更新的Mistral-4×7B和8×7B在除了TextVQA之外稍微逾越了Mistral-7B模型。但是,思考到更新的专家清楚参与了参数而没有引入新常识,论文将更新的Mistral 8×7B交流为Mixtral 8×7B[30]。在Mixtral 8×7B中,一切专家层都在大规模言语数据上预训练,提供了比更新更优越的初始化。结果标明,CuMo Mixtral-8x7B清楚逾越了其更新的对应物,并在最终模型中经常使用bzloss来维持专家的平衡加载。
多分辨率视觉特色:将多分辨率输入归入关于增强多模态LLMs对图像内容的了解至关关键。遵照S2[61]中概述的方法,论文将多分辨率输入引入到CLIP中,并在通道上衔接特色图,以坚持与低分辨率输入分歧的总视觉token数。如表6所示,3×和1×的阅历组合发生了最佳性能,论文为最终的CuMo模型驳回了这种性能。
预微调阶段:之前的消融钻研间接在MLP衔接器预训练后启动,造成在视觉指令调优时期观察到训练不稳固性。为了处置这个疑问,论文引入了一个应用高品质图像形容数据的预微调阶段,在这个阶段一切参数都被解冻。在表7中,论文应用ALLaVA数据集启动这个阶段的训练。结果标明,ALLaVA数据证实是一个更好的选用,它提供的形容数据只管更少但品质更高,最终造成性能的优化。
图6. 用户与多模态LLMs在应战性图像上的对话。论文强调了多模态LLMs回答中的正确答案和幻觉
2.3.4. 定性剖析
专家散布: 如图5所示,论文可视化了CLIP-MoE当选定层的MoE块中的专家散布。剖析的数据集是MME基准测试集。散布显示,在推理环节当选用的专家平均散布在各层,进一步证实了辅佐损失在维持负载平衡方面的有效性。
对话比拟: 在图6中,论文对比了CuMo-Mistral-7B、LLaVA-Yi-34B和MiniGemini-Yi-34B的照应。它展现了CuMo-Mistral7B能够有效地口头指令,并且关键能对源自复杂场景的具备应战性的疑问给出正确回答。但是,CuMo也展现了一些发生幻觉的状况,比如回答"2团体站在桌子上",这凸显了须要进一步钻研来缩小CuMo中的幻觉。
论文题目:CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts
论文链接:
本文转载自,作者: