数据集是大模型竞争的关键要素之一,AI大模型的打破得益于高品质数据的开展。训练大模型须要大规模、高品质、多模态的数据集,通常须要从各个畛域和多个数据源搜集数据,这些数据可以是文本、图像、语音、视频等多种方式。大言语模型训练经常使用的数据集规模迸发式增长。从2018年GPT-1数据粗放为4.6GB,2020年GPT-3数据集到达了753GB,而ChatGPT的数据集为超万亿单词的人类言语数据集(约45TB)。OpenAI并没有地下训练ChatGPT的相关数据集起源和详细消息,这也构成了一道有形的技术壁垒。经常出现的数据集如图1所示,关键由海外开源组织、高校、互联网巨头、政府机构等把握。
截至2023年7月底,国际10亿参数以上的各类大模型,已达113个,模型的裁减速度比数据集快3倍。谷歌钻研发现,数据集大小至少与模型大小一样关键,数据集和模型大小应该大概1:1以到达给定数量的训练计算下的最佳功能。因此下阶段AI的打破将得益于高品质数据,这是大模型功能优化、行业运行落地的关键,是否掌控相应的数据集,间接选择是否构建产业竞争长处[1]。
▲图1 经常出现多模态大模型训练数据集
一、典型数据集及指令剖析
现有低劣的多模态大模型如LLAVA[2]、miniGPT4[3]、pink[4]、cogvlm[5]等,具备相似的模型范式,模型结构普通包括VIT、对齐层、LLM三个局部。训练流程总体可分为两个步骤:
MLLM数据总体可分为三种:
上方重点剖析cogvlm中经常使用到的多模态数据集。
1.pretrain阶段
1) image caption数据
关键经常使用LAION-2B和COYO-700M数据集,为了提高模型的准确率,作者区分删除损坏的URL、NSFW图像、带有喧闹字幕的图像、带有政治成见的图像以及长宽比大于6或小于1/6的图像,最后构成大概1.5B规模的数据集用于模型预训练。
2)带有坐标的image caption数据
▲图2 Kosmos-2数据集标注示例图
2.finetune阶段
二、多模态大模型通常
1模型架构
自研多模态大模型基于LLAVA架构如图3所示,图片经视觉编码器,再经过特征对齐层输入维度与大言语模型婚配的词元向量,兼并揭示词生成的词元向量兼并输入大言语模型,大言语模型会输入相应的回答。
▲图3 模型架构图
2.数据建模
训练集中数据总规模约为1313.2k,数据构成如表3所示。由于多模态大模型数据标注老本较高,现有数据中大局部为开源数据,极少局部为自有标注数据。
数据以对话为主,能够训练模型的图像了解才干,模型领有基于单张图片和人类对话的才干。目前开源数据都是英文的,自有场景标注数据中英文版本都有,训练中采取全英文训练。前期可以参与带位置的图像对话数据,来训练模型的目的定位才干,有相关钻研提到这也能缩小幻视疑问。前期还可以参与视频文本对话数据,来训练模型跨图像对话才干、视频了解才干。
▲表3 训练数据集
自有场景数据prompt数据构建打算如表4所示,以越门运营为例,数据包括提问、选项、回答。
▲表4 数据构建展现
提问要将神眼场景的含意阐释分明,越门运营蕴含“饭店把餐桌放在门外”以及“商店把货物放在门外”。
选项设置很关键。在定义各个选项时,尽量使各个选项的含意和字面差异大,否则会发生理由正确然而选项选错的状况;多模态大模型是因果言语模型,模型做选项时偏差于选用离选项最近的选项,所以假设要缩小假阳性,要把阴性答案放在最后一个选项;选项要尽量便捷,要让模型容易了解。
回答理由尽量便捷间接,假设模型给的理由给太多,由于因果言语模型以及位置编码的影响,模型自己说的token影响力会盖过实在的图像token,从而造成乱选。
回答选项参考LLAVA经常使用“.\n###\nANSWER:”作为不凡标志符号,便于智能化提取。
3.模型训练
目前模型微调驳回三阶段训练,如表5所示。在第1阶段经常使用图像文本对训练,可以对齐视觉编码器大言语模型模型的特征空间;第二阶段经常使用图像选用题、图像本文对话训练模型的图像了解和对话才干;第三阶段经常使用自有场景选用题数据,可以优化模型在特定场景上的准确率。
▲表5 训练打算
4.模型效果
▲表6 测试结果
三、总结与展望
本文关键对大模型数据集启动了引见,对数据多样性和指令多样性提出了一些见地。便捷引见了团队在大模型上的一些成绩。后续团队将继续关注多模态大模型的开展,继续优化自有大模型。
参考文献
[1]大模型数据集现状与启发.
[2]Visual Instruction Tuning.
[3]MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models.
[4]Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs.
[5]CogVLM: a state-of-the-art-level open visual language model.
[6]Kosmos-2: Grounding Multimodal Large Language Models to the World.
本文转载自,作者: