美团、浙大等于近日推出了 MobileVLM V2,其中蕴含参数量 1.7B、3B、以及 7B 的一系列视觉-言语模型。代码与模型以及适配的端侧推理打算都已开源。
论文地址:
模型地址:
代码地址:
大模型涌向移动端的浪潮愈演愈烈,作为第一个针对端侧的视觉言语模型的上班,归功于 MobileVLM 在小参数量下的弱小性能和完善的端侧实时运转端侧推理打算,MobileVLM 一经推出就遭到了国际外开源社区的宽泛关注。
在间断前作长处的基础上,MobileVLM V2 启动了清楚的改良,经常使用了陈腐的架构设计、针对移动端 VLM 量身定制训练打算、并丰盛了高品质数据,使 MobileVLM V2 的性能体现更上一层楼的同时,也为业界关于端侧视觉言语模型处置打算提供了新的思绪。
详细而言,与参数量更大的 3B VLM 相比,MobileVLM V2 1.7B 在规范 VLM 基准测试中到达了等同甚至更好的的性能;特意是 MobileVLM V2 3B 模型在某些规范测试基准上甚至优于参数规模 7B 甚至更大的 VLM。
一、简介
视觉-言语模型(VLM)已成为当今人工智能畛域的一个钻研热点。经过融合大型言语模型(LLM)和多模态性能,视觉-言语模型展现出史无前例的多性能性。例如,Gemini 和 GPT-4V 等专有模型在多种义务中展现了出色的性能。虽然 VLM 体现出色,但如何将其部署到如移动设施、智能驾驶汽车和嵌入式人工智能系统等实践运行中,依然面临着应战。
最近,MobileVLM 在探求移动端配件架构导向的小规模 VLMs 的才干方面走在了前列。MoE-LLaVA 驳回了 mixture-of-experts 方法,清楚优化了小型模型的性能,使其逾越了许多大型模型。最新钻研显示,VLMs 正朝着扩展模态、优化训练流程、高效架构和高品质训练数据集的方向开展。
本文基于 MobileVLM 启动了大幅改良,关键集中在三个方面:首先是训练数据的应用:本文经过经常使用 ShareGPT4V 搜集的 120 万对高品质图像-文本配对数据,有效地对齐了视觉-言语特色。这一数据集的引入提高了数据的多样性,并增强了模型遵照指令的才干,同时归入了更多学术义务,例如 ScienceQA、TextVQA、SBU 等。
其次是训练战略的探求:在训练战略方面,该方法在预训练和指令微调阶段对投影网络和言语模型的一切参数启动了训练,这种做法在充沛应用高品质数据后劲方面显示出了有效性。
轻量级高性能投影网络的降级:引入了一个愈加精简而弱小的轻量级投影机制并经过该机制衔接视觉和言语模型。经过改良图像 token 的示意、增强了位置消息的手腕,MobileVLM V2 能够在简直不降低性能的状况下清楚增加言语模型所需的输入图像 token 的数量。本文的关键奉献如下:
二、MobileVLM V2
1. 总体架构设计
本文的方法间断了与 MobileVLM 相似的框架。如图 2 所示,MobileVLM V2 的全体架构包括一个预训练的用于提取图像特色视觉编码器,一个预训练的端侧言语模型 MobileLLaMA 来处置多模态 token 并生成最终回答,以及一个针对端侧设计的投影网络,即轻量级下采样投影器(示意为 LDPv2),用于将图像特色在特色空间层面与言语模型对齐。
2. 视觉编码器
间断 MobileVLM 的思维,本文经常使用 CLIP ViT-L/14 作为视觉编码器
,该编码器经过对比学习在数百万图像-言语对上启动预训练,并已被证实对 VLMs 有效。
特意地,图像 首先被调整大小至 336 × 336 分辨率,并以 14 为步长
切割成块。而后提取初级视觉嵌入 来示意图像的语义消息,其中 示意视觉嵌入的序列长度, 示意视觉嵌入的 hidden size。详细如下式所示:
3. 言语模型
本文驳回 MobileLLaMA 系列作为基础的言语模型(LLM)。该选用有三个要素:首先,MobileLLaMA 设计用于即插即用部署,并已在资源有限的设施上展现了实时推理才干和牢靠的性能。坚持言语模型不变有助于启动受控试验,以探求其余要素的影响,例如扩展数据语料库、改良训练战略、降级投影网络等新设计。
其次,MobileLLaMA 与 LLaMA2 共享相反的分词器,这有助于启动无阻碍的常识蒸馏。最后,它是在开明数据集上训练的,并且没有因数据暴露而造成评价污染的危险。这也有助于确认这个模型能否能够在性能上取得长处。
详细来说,本文驳回 MobileLLaMA-1.4B-Chat 和 MobileLLaMA-2.7B-Chat 作为言语模型。文本输入
首先被分词并处置成文本 token
是单词嵌入空间的暗藏尺寸。文本 token
4. 轻量级的降采样投影网络
受 MobileVLM 的 LDP 设计启示,本文引入了一个新的投影网络,以更少的参数成功更好的视觉-言语特色对齐。它蕴含三个组成部分,即特色转换、增加 token 数、位置消息增强。
首先,投影网络在图像 token 上经常使用两个逐点卷积层来婚配 LLM 的特色维度。而后,引入了一个平均池化层来极度紧缩图像 token 的数量。最后,运行了一个十分便捷但有效的模块 PEG,它带有腾跃衔接,能够增强位置消息。与 LDP 相比,该投影网络愈加高效,增加了 99.8% 的参数数量,并且在运转速度上略有优化。
在公式化中,轻量级降采样投影网络 LDPv2(标志为 转换为具有位置增强的模态对齐视觉 token 。这种设计针对部署十分友好,由于它由干流推理框架允许的算子组成。给定一个平均核 ,残余 token 的数量只要输入特色的 。详细来说,如下 LDPv2 的公式化如下所示:
其中 PW 和 DW 区分代表逐点卷积和深度卷积,GELU 是 GELU 激活层,AvgPool2×2 是 2×2 平均池化层。
5. 训练战略
MobileVLM V2 的训练环节分为两个阶段:预训练和多义务训练。如表 1 所示,与LLaVA-1.5 和之前的 MobileVLM 的训练范式不同,MobileVLM V2 在两个阶段中一直训练投影网络和大型言语模型的权重,同时解冻视觉编码器的权重。
(1) 预训练
大少数视觉-言语模型(VLMs)在预训练时期通常会解冻视觉编码器和言语模型,以防止优化难题。ShareGPT-4V 部合成冻视觉编码器并训练言语模型。在本文中区分从 CLIP ViT-L/14 和 MobileLLaMA 初始化视觉编码器和言语模型的权重。这种初始化为随后的一致训练环节提供了一个松软的基础。
本文对投影网络和 LLM 启动完整训练,同时微调视觉编码器,在训练环节中解冻 ViT 降低了训练老本。而后,模型应用一个自回归损失函数,将训练指标集中在下一个 token 的预测上。经过专一于这个特定义务,模型更好地学习视觉消息背景下言语生成的复杂性,从而提高了多模态义务的性能。
如表 2 所示,在预训练阶段,模型经常使用 ShareGPT4V-PT 数据集启动训练,该数据集蕴含 120 万图像-文本对。该数据集在提高模型的图像-文本对齐才干方面起着至关关键的作用,是多模态示意学习的一个关键方面。
(2) 多义务训练
在图像-文本对齐学习的预训练阶段之后,MobileVLM V2 曾经取得了基本的图像内容了解才干。但是,它应用视觉消息启动剖析和对话的才干还不成熟,尤其是在一系列特定的下游义务中。因此,在多义务训练阶段,本文引入了多个视觉-言语义务,经过对训练环节中的参数启动调整,使模型具有多义务剖析和图像-文本对话的才干。
在多义务训练阶段,本文经常使用了少量的数据集,蕴含了多种义务,以进一步扩大模型的才干汇合。如表 2 所概述,这些数据集依据性能不同精挑细选,例如经常使用 Visual Dialog 数据集提高对话才干,经过 TextVQA 数据集提高 OCR 技艺,经过 COCO Caption 和 SBU 数据集提高场景了解才干,以及经过 VSR 数据集等提洼位置了解才干。
总的来说,这一阶段的聚合数据蕴含了 240 万个样本,确保了跨不同模态和义务的片面学习。
三、试验结果
表三中列出了本文方法在训练环节中所触及的参数设置:
1. 与SOTA视觉-言语模型的比拟
本文评价了 MobileVLM V2 的性能,并在表 4 中展现了准确性结果。与 MobileVLM 相反,本文驳回了一系列基准测试,包括图像问答系列 GQA、SQA、TextVQA,综合基准测试 MME、MMBench,以及物体幻觉基准测试 POPE。
本文的模型的指标虽然是针对实在运行场景而取得准确性与运转时提前两个方面的平衡,但它们的性能超越了大少数以前的模型,并有在实时推理性能上具有清楚的长处。仰仗快 75% 的推理速度长处,MobileVLM V2 3B 在平均性能上依然比最近的上班 MoE-LLaVA-2.7B×4 高出 1.4 个百分点。
值得留意的是,MoE-LLaVA-2.7B×4 与许多 7B+ 的 VLMs 相比展现出可比或更好性能。这些 VLM 中的大部分都引入了少量的额外训练老本。相比之下,本文的方法在到达最平衡的性能体现的同时,训练老本与计算友好的 LLaVA-1.5 相当。
(1) 与MoE-LLaVA比拟
MoE-LLaVA 应用多个专家模型来成功良好的性能,每个专家模型规模都较小,以提高推理速度。虽然只要一部分参数被激活,但它依然须要存储一切参数,这在移动端运行场景中无法防止地会造成 IO 开支。此外,将模型紧缩技术运行到这些模型上十分艰巨。
相比之下,本文的方法在实践优化部署方面长处很大。本文所提出的模型在 Tesla A100 GPU 上评价的推理速度上游于 MoE-LLaVA,假设在实在的端侧环境中测试,长处将会进一步扩展。准则上,MobileVLM V2 也可以与其 MoE 设计相结合,但在不就义 MobileVLM V2 的内存占用和推理提前长处前提下提出一种新的结合模式,还有待钻研。
(2)与MobileVLM比拟
表 4 显示,MobileVLM V2 清楚提高了 MobileVLM 的性能体现,平均准确率提高了 5.3 个百分点。由于这两种方法共享相反的视觉-言语模态编码器,性能的提高归功于更优的数据、更好的训练战略、以及更有效的投影网络。
MobileVLM V2 的良好性能体现说明,MobileLLaMA 作为小型言语模型也能够成为一个很好的基线,由于它是基于开明资源数据集 Redpajama 构建的,该数据集可复现且评价数据暴露的危险低。
(3)NVIDIA A100上的运转提前比拟
由于许多模型尚未获取最新的移动推理框架允许,本文经常使用 PyTorch 框架在 NVIDIA A100 GPU 上比拟了一些模型的推理提前,如图 3 所示。
MobileVLM V2 模型在 token 生成速度和测试基准平均得分两方面通常都有长处。MoileVLM V2 1B/3B 的速度区分为 37.37tokens /秒和 28.97tokens /秒,这比 MoE-LLaVA 的对应参数量的模型快 1.65 倍,且平均性能更好。
2. 模型规模剖析
虽然本文的指标是设计运行在端侧的多模态模型,但本文进一步扩展了模型的参数规模到 7B,以验证性能的下限。这也使得 MobileVLM V2 能够与许多现有 VLM 启动同同性比拟。在都经常使用 Vicuna-7B 作为 LLM 模型的条件下,MobileVLM V2 在图 4 中的结果展现出片面的多模态性能改良。
如图 5 和表 5 所示,文中将 MobileVLM V2 7B 与干流的大型 VLM 如 LLaVA-1.5 7B 和 ShareGPT4V 7B 在性能和推理速度上启动了比拟,可以看出 MobileVLM V2 7B 不只在多个基准测试中取得了清楚的性能长处,而且在推理速度上也清楚上游。
在简直快了 20% 的状况下,MobileVLM V2 7B 在平均性能上比 ShareGPT4V 高出 1.3%。这进一步说明了本文数据扩展战略、训练战略和新的投影网络设计的有效性。
可以观察到,7B 模型的推理速度差距较小,所以在去除了增加 token 数的组件的设置下,本文的 7B 模型具有与 ShareGPT4V 相反的提前速度,并且能够到达性能上界。
表 4 的最后一行展现了这种设置下的比拟结果,MobileVLM V2 7B(无 AvgPool)到达了 73.5% 的平均得分,清楚优于 LLaVA-1.5 4.7 个百分点。与MobileVLM V2 7B(带 AvgPool)相比,性能优化关键来自 TextVQA 义务分数的提高,这是一个 OCR 义务,这项义务蕴含许多小物体,因此 token 数增加或者是有害的,本文作者将继续关注如何在未来的上班中有效应用高分辨率输入的疑问。
3. NVIDIA Jetson Orin上的运转提前
在 Jetson Orin 平台上, MobileVLM V2 在相反参数规模下展现了比其余模型更低的推理提前。如表 5 所示,MobileVLM V2 具有最快的推理速度,这归功于愈加轻量化的投影网络设计:将原始的 576 个视觉揭示 token 数优化为 144 个,同时在平均准确率上的体现坚持不变甚至更好。
四、消融试验
1. 数据规模的影响
如表 6 所示,第一行代表 MobileVLM 1.7B 的基线。本文用 ShareGPT4V 数据集交流了预训练数据集,并将指令调优数据集规模扩展到 240 万图文对,训练战略和模型架构与基线坚持分歧。
在 GQA、SQA 和 TextVQA 上的性能优化标明,模型在认知和对话方面的才干在数据增强后有所提高。但是,在更高品质数据的性能下,坚持原始训练战略不能充沛应用数据长处,因此模型在 MME 和 MMBench 上的性能降低。
2. 训练战略的影响
基于对训练数据规模影线的观察,本文进一步探求了更正当的训练战略。在增强数据和小参数量 VLMs 的设置下,在所有阶段对言语模型启动训练能够成功更高效的学习。因此,本文选用同时对投影网络和言语模型启动微调。比拟结果显示在表 6 的第二行和第三行,可以看到,这种训练设置使模型在大少数 VLM 基准测试中都成功了片面的性能优化,平均准确率提高了 2%。
3. 投影网络的影响
表 7 的第一行和第二行显示,MobileVLM 提出的 LDPv1 在增加了 75% 的 token 数(从 576 增加到 144)的状况下,简直坚持性能不变。基于新提出的数据性能和训练战略,上述相应的架构区分能够成功平均 5.4 和 4.5 的性能优化(见表 7 的第三行和第四行)。
但是,当尝试继续探求视觉和言语特色更好的对齐方法时,本文观察到参与可学习参数的数量容易造成训练环节堕入优化困境,从而造成全体特色对齐成果的降低。
基于这一现象,本文首先用一个十分便捷的无参数操作,即 2×2 平均池化,交流了 LDPv1 中的 [DW^kPW] 块,发现可以取得平均 0.4 的性能优化(见表7的第五行)。
其次,为了使对齐的视觉特色具有更强的位置消息,本文经常使用可学习的位置编码对位置消息启动增强,取得了 0.5 的性能优化。PEG 的位置编码是灵活生成的,并且取决于输入 token 的部分邻域,受其启示,本文随后用 PEG 层交流了可学习的 PE,以取得更好的增强特色。表7的第7行显示,这种设计带来了 0.5 的平均性能改优化。
值得一提的是,在 MobileVLM V2 1.7B 中运行的 PEG 层只蕴含 0.02M(2048×3×3)参数,与 MobileVLM 中的 [DW^PW] 块相比,可学习参数的数量增加了近 630 倍(从 12.64M 增加到 0.02M),但总体性能提高了 1.4,这证实了本文投影网络结构设计的有效性。
论断
本文提出了一系列基于 MobileVLM 的高效视觉-言语模型,称为 MobileVLM V2。本文深化探求了数据配比、训练战略、以及模态对齐网络的设计,以在小参数量 VLM 模型的设置下提高全体性能。
在与 LLaVA-v1.5 相当的训练老本下,本文的方法在精度和实时推理性能方面到达了针对实在的运行环境的最优综合性能。在性能相当的前提下,本文的模型在推理长处方面逾越了许多更大的模型,这为在资源有限的场景中运行先进的 AI 技术提供了有效的打算。
原文链接: