当天给大家引见一篇南京大学、阿里巴巴联结宣布的多模态模型建模方法WINGS,处置基于LLM的多模态模型在启动跨模态建模时的劫难忘记疑问。
论文题目 :WINGS: Learning Multimodal LLMs without Text-only Forgetting
下载地址 :
钻研背景
随着人工自动技术的提高,多模态大型言语模型(MLLMs)作为大型言语模型(LLMs)的裁减,曾经在视觉相关的形容生成、了解、推理等方面展现出惊人的功能。这些模型经过整合视觉输入(如图像)和文本输入,能够处置更复杂的义务。
虽然MLLMs在多模态义务中体现出色,但钻研发现它们在训练环节中会忘记初始LLM所把握的纯文本指令。这种现象被称为“ 劫难性忘记 ”,重大影响了模型在仅触及文本的义务上的功能。
为了处置劫难性忘记疑问,现有的方法通常须要额外的文本数据启动训练,这不只参与了计算开支,还面临数据搜集的应战。此外,一些方法经过在LLM和MLLM之间切换来处置图像能否蕴含的状况,这参与了部署内存的需求,并且在常年的视觉和言语交替对话中不太高效。
为了使MLLMs在实践运行中愈加有效,须要它们既能处置纯文转义务,也能处置多模态义务。用户经常以纯文本查问开局,假设不满足,则或者会补充图像内容。因此,MLLMs须要在坚持对文本消息关注的同时,也能处置视觉消息。
论文经过剖析MLLM的留意力权重,发现文本忘记现象与留意力从图像前文本转移到图像后文本无关。这种留意力的转移标明模型适度关注视觉元素,而漠视了文本元素。
为了处置上述疑问,论文提出了WINGS模型,它经过引入额外的模块来补救留意力转移,这些模块作为增强学习者,与主留意力并行上班,以平衡对视觉和文本元素的关注。
WINGS模型驳回了低秩残差留意力(LoRRA)设计,以保障高效率,同时在文本和视觉问答义务中成功出色的功能。
综上所述,这篇论文的背景和动机是处置MLLMs在多模态学习中遇到的劫难性忘记疑问,并提高模型在处置纯文本和多模态义务时的效率和功能,以成功更宽泛的运行和更好的用户体验。
建模方法
WINGS模型和**点蕴含以下几个方面。
视觉和文本学习者的并行结构 :WINGS经过在每个留意力层级中引入视觉学习者(LearnerV)和文本学习者(LearnerT),这两个学习者并行上班,区分增强模型对视觉和文本特色的关注,这种结构设计提高了模型处置多模态数据的才干。
基于留意力权重的灵活路由 :WINGS应用基于留意力权重的路由机制来灵活调整视觉和文本学习者的输入,这种机制可以依据的留意力散布来优化模型的照应,提高了模型的顺应性和灵敏性。
低秩残差留意力(LoRRA) :WINGS驳回了低秩残差留意力(Low-Rank Residual Attention, LoRRA)架构,这种架构经过经常使用低秩矩阵来缩小参数数量和计算需求,同时坚持了模型的效率和功能。
分阶段训练战略 :WINGS驳回了分阶段训练战略,首先对视觉学习者启动训练,而后逐渐引入文本学习者和路由机制,这种战略有助于逐渐调整和优化模型,使其更好地顺应多模态数据。
新构建的交织图像-文本(IIT)基准测试 :WINGS的钻研人员构建了一个新的基准测试,即交织图像-文本(Interleaved Image-Text, IIT)基准测试,这个基准测试蕴含了从纯文本到剧烈图像相关的多轮对话,用于更片面地评价模型在多模态义务上的功能。
多模态混合输入的处置才干 :WINGS能够处置混合了视觉和文本特色的输入,这种才干使得模型可以更灵敏地运行于各种实践场景,如视觉问答、图像形容生成等。
模型的可裁减性和顺应性 :WINGS展现了在不同规模的模型中的可裁减性,包括WINGSbase、WINGSpro和WINGS1.8B版本,这些版本顺应不同的运行场景和设施要求,显示了模型的宽泛实用性。
对留意力机制的深化剖析和运行 :WINGS经过深化剖析MLLM的留意力机制,提醒了留意力权重与模型功能之间的相关,并据此设计了模型结构和训练战略,这种对留意力机制的深化了解和运行是WINGS的一个清楚特点。
这些翻新点独特使得WINGS模型在多模态义务中体现出色,不只处置了劫难性忘记疑问,还提高了模型的效率、顺应性和泛化才干。
试验剖析
在处置多模态训练环节中对文本指令的劫难性忘记疑问。试验论断重要包括以下几点:
文本指令忘记现象 :论文验证了多模态大型言语模型(MLLM)在训练环节中对初始大型言语模型(LLM)已把握的纯文本指令的忘记现象,并将此现象与跨层MLLM-LAWS(Layer-level Attention Weights)前后图像的留意力转移相关联。
WINGS架构的有效性 :WINGS经过引入视觉和文本学习者以及基于转移留意力权重的路由机制,有效地补救了留意力转移。试验结果标明,WINGS在等同规模的MLLM中,在文本指令和视觉问答义务上均体现优秀。
功能比拟 :WINGS在多个基准测试中逾越了其余等同规模的MLLM,包括文本指令忘记测试、通用多模态基准测试,以及新构建的交织图像-文本(IIT)基准测试。WINGS在从纯文本到多模态丰盛的问答义务中展现了出色的功能。
效率与功能 :WINGS驳回了低秩残差留意力(LoRRA)设计,确保了学习者的高效率。试验结果标明,WINGS在坚持文本指令功能的同时,也能在多模态义务中提高功能,尤其是在资源受限的状况下。
可裁减性 :WINGS证实了其在不同规模的模型中的可裁减性,包括WINGSbase、WINGSpro和WINGS1.8B版本,顺应不同的运行场景和设施要求。
训练战略 :论文还讨论了不同的训练战略,包括学习率设置和训练阶段,发现较低的学习率有助于坚持文转义务的功能,而较高的学习率则有助于优化多模态义务的功能。
组件有效性 :经过消融钻研,论文剖析了WINGS各个组件的有效性,发现仅蕴含视觉学习者可以细微坚持文转义务的功能,但会降落多模态义务的功能。
综上所述,WINGS经过其翻新的架构和训练战略,在处置纯文本和多模态义务时均展现出了出色的功能和泛化才干。
本文转载自,作者: