本文回忆了多模态LLM (视觉-言语模型) 近一年来的模型架构演进,对其中有代表性的上班启动了精炼总结,截止2024.04,继续更新ing...
A Survey on Multimodal Large Language Models(arxiv.org/abs/2306.13549)Awesome-Multimodal-Large-Language-Models(github.com/BradyFU/Awesome-Multimodal-Large-Language-Models)
这篇综述一张图总结了多模态LLM的典型架构:
【2022.01颁布】
一致视觉-言语了解和生成,经常使用captioner+filter高效应用互联网有噪数据
模型架构:
BLIP的bootstrapping训练环节:
【2023.01颁布】
经常使用相对轻量的Q-Former衔接视觉-言语模态,经过两阶段训练:第1阶段基于冻住的视觉编码器,第2阶段基于冻住的LLM
第1阶段 :雷同优化ITC/ITM/LM loss,经常使用不同的self-attention mask,query和text端共享self-attention参数,使得可学习的query embedding提取与text语义最关系的视觉表征;经常使用BERT-base初始化,32个768维的query作为消息瓶颈
第2阶段 :可基于decoder-only/encoder-decoder LLM启动适配,FC层对齐维度
【2023.04颁布】
经常使用图片的dense captions和bounding boxes作为prompt,可以生成对话、细节形容、复杂推理等指令
stage1. 预训练特色对齐:冻住vision encoder和LLM,只训练projection,学习一个兼容的visual tokenizer
stage2. 端到端微调:冻住vision encoder,在单轮/多轮对话数据上微调projection和LLM
【2023.04颁布】
stage1. 预训练:经常使用image-text pair微调linear projection layer,vision encoder和LLM坚持冻住
stage2. 指令微调:指令格局为:###Human: <Img><ImageFeature></Img><Instruction>###Assistant:
InstructBLIP
【2023.05颁布】
stage1. 预训练:BLIP-2(经常使用image-text pairs启动两阶段训练)
stage2. 指令微调:只微调instruction-aware Q-former,冻住vision encoder和LLM
允许FlanT5(encoder-decoder)和Vicuna(decoder-only)
Qwen-VL 【2023.08颁布】
允许中英双语、多图像输入
Qwen-7B + OpenCLIP ViT-bigG,输入图像间接resize到视觉编码器输入
位置感知的VL adapter:经常使用基于Q-former的单层的cross-attention,将图像特色维度压
缩到256,在query-key pairs中引入2D相对位置编码增强位置消息
图像输入:<img>256-dim图像特色</img>
bounding box输入输入:<box>(X_topleft, Y_topleft), (X_bottomright, Y_bottomright)</box>, <ref>…</ref>标志box所指内容
三阶段训练:
stage1. 预训练:基于大规模、弱标注、网络爬取的图像-文本对,输入分辨率224x224,冻住LLM,训练ViT和Q-former,重要目标是模态对齐
stage2. 多义务预训练:基于7种下游视觉-言语了解义务的高品质、细粒度标注数据训练,输入分辨率448x448,图像/文本数据交织,训练整个模型
stage3. 指令微调:优化指令遵照和多轮对话才干,冻住ViT,训练LLM和Q-former
Qwen-VL-Plus和Qwen-VL-Max优化了视觉推理才干、图像细节的识别/提取/剖析才干(尤其是文本导向的义务)、允许高分辨率和极其纵横比的输入图像;在局部中文场景超越了GPT-4V和Gemini
InternLM-XComposer
【2023.09颁布】
交织图文导致:智能在输入文本中拔出适合的图片
EVA-CLIP ViT + InternLM-7B + Q-former (将图像特色紧缩到64个embedding)
两阶段训练:
stage1. 预训练:冻住ViT,训练LLM和Q-former
stage2. 监视微调:包含多义务训练和指令微调,冻住ViT和LLM,训练Q-former,对LLM启动LoRA微调,增强指令遵照和图文混排才干
【2023.10颁布】
模型架构和训练环节便捷,易于scaling;允许任用意像分辨率;推理速度快
decoder-only的transformer,没有专门的图像编码器;image patch间接线性映射到transformer第一层
【2023.10颁布】
仍经常使用MLP作为模态衔接,突出了训练的数据高效性
【2023.11颁布】
深度视觉-言语模态融合,而不影响LLM原有的言语才干:冻住LLM和ViT,在attention和FFN层训练一份视觉专家模块
【2023.12颁布】
针对GUI场景的多模态了解和导引,经常使用高分辨率-低分辨率双编码器,允许1120x1120的屏幕输入
高分辨率分指经常使用更轻量的ViT,基于cross-attention将高分辨率图像特色与LLM每层启动融合
【2023.12颁布】
探求了视觉-言语模型训练的设计选用:
LLaVA-Next
【2024.01颁布】
相关于LLaVA-1.5,坚持了极简的设计和数据高效性:
灵活高分辨率:视觉编码器允许336x336的图像输入,关于672x672的图像,依照{2,2}的grid split成4个图像patch过encoder,downsample到336x336也过encoder,特色拼接作为visual tokens输入到LLM中
搜集高品质用户数据,包含实在场景中反映用户更宽泛用意的指令数据,应用GPT-4V启动数据结构
多模态文档/图表数据,增强文档OCR和图表了解才干
InternLM-XComposer2
【2024.01颁布】
提出了新的模态对齐方法partial LoRA:只在image token上减少LoRA参数,保障预训练言语常识的完整性,这样一个更轻量的视觉编码器雷同有效
OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)
两阶段训练:
stage1. 预训练:冻住LLM,微调ViT和partial LoRA模块,包含通用语义对齐(了解图像基本内容)、环球常识对齐(启动复杂的常识推理)、视觉才干增强(OCR、物体定位、图表了解)
stage2. 监视微调:微调整个模型,包含多义务训练、自在方式图文排布
InternLM-XComposer2-4KHD
2024.04颁布了4KHD版本:
允许灵活分辨率(336px → 4K (3840x1600)):改良了patch division范式,坚持训练图像原有的纵横比,智能变动patch数目,基于336x336的ViT性能layout
灵活图像划分:将输入图像resize and pad到336的整数倍宽高
结合图像的global和local视角:global视角由输入间接resize到336x336,经常使用sep token分隔两种视角的token
图像2D结构的换行符:可学习的\n token分隔图像token行
Mini-Gemini
【2024.03颁布】
经常使用双视觉编码器提取低分辨率embedding作为query,高分辨率特色区域作为key/value,两者之间做cross-attention,输入开掘的tokens作为prompt前缀,输入到LLM做推理,外接图像解码器生成图像(SDXL)
原文链接: