多项图文义务取得SOTA成果阿里达摩院最新多模态大模型引见

这篇文章给大家引见一下阿里宣布的多模态大模型上班mPLUG-Owl，共2篇文章，建设在前序图像表征对齐预训练大言语模型的思绪，提出了不同的参数训练模式、多模态解耦映射等优化方法，在多项义务取得了SOTA成果。

关系论文：

mPLUG-Owl Language Models with Multimodality

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

**理路

多模态大模型宿愿构建一个能同时处置文本、图像等不同模态消息的数据，处置复杂的图文推理等多模态义务。在NLP中的大言语模型逐渐兴起后，多模态模型的一个关键构建思绪为：以预训练的大言语模型LLM为基座，经过ViT等Vision Encoder将图像映射成表征，和文本token embedding拼接到一同输入大模型，结合预训练、Instruction Tuning等方法启动训练。

这种多模态大模型的建模方法，经过2年的钻研，逐渐完善起来。阿里的mPLUG-Owl上班，就建设在这个思绪基础之上。

基础模型结构

第一版本的mPLUG-Owl**结构如下图，关键包括 一个预训练的LLM、一个图像编码器、一个视觉形象器 3个局部。

其中的**是，如何将图像消息启动比拟好的处置，和LLM的表征空间对齐。关于图像消息，对图像分patch后，驳回预训练ViT启动处置，生成每个patch的embedding。因为图像中蕴含背景等噪声消息，且维度较高，间接将原始图像消息输入言语模型难以学习且复杂度高。因此， 文中引入了Visual Abstractor模块 ，对基础的图像特色启动形象。

Visual Abstractor由cross attention导致，经常使用一些可学习的token embedding和原始图像的patch embedding启动cross attention计算，token的数量远小于patch的数量，选用性的将patch embedding的关键消息会聚到可学习token上。

Visual Abstractor输入多个视觉token embedding，和文本的token embedding拼接到一同，输入到预训练的LLM中。

训练模式

视觉特色对齐言语模型的多模态大模型，普通驳回两个阶段启动训练。 在第一个阶段，经常使用基础的图文数据构建生成式义务，第二阶段应用Instruction Tuning的模式让模型进一步优化复杂多模态了解才干 。

在之前的很多上班中，都驳回这种两阶段的训练，然而降级的参数不同。比如MiniGPT4只降级图像表征到LLM输入的MLP映射网络，其余方法也对Visual Encoder启动了解冻。为了优化多模态的联结学习才干，本文在预训练阶段， 关上Visual Encoder的参数降级，强化模型的多模态训练环节 。在第二阶段，解冻Visual Encoder参数，finetune言语模型参数。

V2版本优化

在近期阿里颁布的mPLUG-Owl2上班中，关键对多模态的对齐启动了优化。

这里的**优化点是对言语模型的self-attention机制启动了优化，关于两个模态的表征，区分经常使用独立layer normalization缩放到相反scale后，经常使用两组不同的MLP网络区分启动两个模态表征到同空间的映射。

相比之前共享MLP的映射方法， 这种独立映射的方法保管了两个模态共性化的消息，又能映射到相反空间 。在attention后再区分接各自模态的layer normalization生成最终预测结果。

在常识星球中，也为大家整顿了这种视觉对齐LLM的多模态大模型历史上班，感兴味的同窗可以加退学习。

试验成果

文中对比了mPLUG-Owl在各项义务上和MiniGPT、BLIP、LLaVA等多模态大模型的成果，均取得了SOTA成果，验证了mPLUG-Owl的多模态了解才干。

本文转载自，作者：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#盘古 #混元 #通义千问 #Bard #言犀 #Agent #AIGC运行 #开源大模型 #孟子 #GPT #OpenAI #多模态 #LaMDA #云雀 #清言 #AIGC #悟道 #ChatGPT #AI #Copilot #SOTA #文心一言 #成果 #人工智能 #大模型 #4 #紫东太初 #Sora #日日新

多项图文义务取得SOTA成果 阿里达摩院最新多模态大模型引见