在 ChatGPT 引爆 AI 圈之后,很多人预言 2024 年将会是多模态的元年。确实,咱们在 23 年的最后一季度见证了 GPT-4V 的颁布,前不久Google 家的 Gemini 和 Anthropic 的 Claude 3 也雷同允许多模态(Multimodal to Text),并且 Gemini 1.5 中能够从两小时的视频中准确“捞针”出其中一帧蕴含的画面。
国际这方面的上班以Qwen-VL为代表,也雷同取得了十分不错的效果。咱们最近也在大视觉言语模型(LMM)做了一些尝试,颁布了Reka Flash,能够接受图片、音频和视频的输入,在 MMMU 上也靠着相对较小的基础言语模型(21B)也排名能够排名靠前(截至 2024 年 3 月 9 日,这各畛域变动太快了谁知道明日会是什么样呢哈哈),且 vibe test 上去觉得还行)。
然而咱们真的距离 GPT-4V 很近了吗?The Dawn of LMMs展现了很多目前不可被 benchmark 分数所涵盖的才干,仿佛还在提示着咱们,前面的路还很长。这篇文章,我将尝试结合自己的阅历和地下的资料,分享一下对未来视觉言语模型开展的一些想法。
01 Why LMMs?
为什么大家都会预测视觉言语模型会在 2024 年迸发?我觉得要素关键有两点:
1. 视觉的基础模型泛滥 + 数据短缺: CV 的自监视学习随着 BERT 开局就曾经有一系列上班,CLIP、MAE 、DINO 等能够很好地编码图片,很好地起到了 visual tokenizer 的效果。
此外,应答高低文的限度,QFormer、Perceiever 也曾经被宽泛地验证了其有效性。除了纯文本以外,图文对也是少数咱们能够随便失掉到的少量的数据 (e.g,Laion5B),image captioning 实质也是一种 next token prediction。
2. 运行场景宽泛: 这个也很间接,日常生存中大少数数据的出现方式就是,图片 + 文本 -> 文本的范式能够极大扩大模型处置义务的范围。
另外,随着大言语模型开展催生出的一系列 Agent 钻研,在阅读网页的时刻会依赖 html 作为输入。假设能够间接让 Agent 看到屏幕,输入对应的操作坐标,愈加繁复优雅。进一步地,Deepmind 的RT 2也验证了视觉言语模型能够很快地迁徙到诸如 robotic 场景,在 embodied 环境中施展关键的作用。
这两个条件堪称是大视觉言语模型开展的天时和天时,咱们也雷同可以用这一条门路来进一步验 紧缩即自动这一想法,看看这一框架能否能够在具有了更丰盛模态消息后,面前环球模型的学习速率能否会进一步放慢 。
关于这一点,之前咱们的一个上班VEC就发现即使基于纯文本 NTP 训练的 LLMs 也能够学习到视觉环球的一些基础概念,但更 embodied 的一些常识则很难(或许以相当低的速率)被学习到,须要借助视觉言语模型来辅佐学习。
目前干流的 LMM 架构基本上是以大言语模型 LLM 为**骨架,然后将图片视觉消息整合到 LLM 的预测环节中,因此这个框架里普通有以下几个组件:
1. 基座言语模型: 担任处置多模态的 embedding,并且口头预测推理的配置。普通选用能够失掉到的最强、大小最适合的言语模型即可;
2. 视觉编码器: 担任将图片消息编码成一组向量,罕用的选用是 CLIP-style 的各个模型(e.g., CLIP-ViT-L/14),最新的Prismatic VLM标明,CLIP 失掉的图片示意缺少细粒度的消息,可以经过和另外的视觉编码器结合来优化在 grounding 等义务上的性能。
3. 模态桥接(Modality Bridge): 担任将视觉编码器失掉的图片示意启动变换映射到新的空间繁难 LLM 启动处置。这里的做法有一些不同的打算:
而在很多场景下这样的分辨率齐全不够用(OCR 识别、Agent 阅读等),可以经过 post-training 来优化图片的分辨率也可以 bypass 掉 image encoder(没有了预训练分辨率的限度),间接将图片切成小块,随后映射到 word embedding 空间。
Fuyu-8B 就是这样一个思绪,在高分辨率的场景下展现出了十分杰出的性能。分辨率优化带来的图片向量数量平方级增长带来的计算开支,可以经过应用 QFormer 或许是 Perceiver 来映射到固定数量来处置。
这种打算对辨别不同模态有着愈增强的先验,但后续看到的一些开源成功和改良,都很难逾越前一种打算。 假设训练量足够大,那么在前一种打算中 LLM 也能够自顺应地学习到这种先验 ,因此我团体觉得这个打算或许在 2 年前是有情理,但在当天 scaling law 的暴力美学下,或许更少先验,更少数据会是浮夸且有效的打算。
GPT-4V 是什么架构? 只管 tech report 里啥也没说,然而咱们从GPT-4V的不要钱计算的方式以及API Doc,或许可以猜想一下面前视觉模块的打算。不要钱形式分两种:
官网给出的示例:
由此咱们可以看到,一个 512 x 512 的 image tile 被 170 个 token 所示意。假定面前也是 VIT,那咱们可以推测:
最近开源的LLaVA-Next也驳回了相似的打算,并且在一种 benchmark 上都取得了杰出的性能,正面验证了这种方法的有效性。还有一种是 adaptive 的搜查式的打算V*,依据须要来切分图片里的小块从新交给模型,相似起到 re-attention 的效果,在小物体的检测疑问下面有很大的后劲。总的来说,这些打算都是为了处置 输入图片分辨率不够的疑问 。
数据不时是这波大言语模型开展的重中之重,从训练和测评的角度,目前我团体的感触是:
咱们大抵的可以将训练分红两个阶段:Modality Alignment Training 和 Supervised fine tuning(SFT),前者为了图片映射到 LLM 的语义空间,然后者则是激起模型的才干来做各种下游义务。
Alignment>
一种处置思绪是对 alignment数据集启动愈加细粒度的表述 ,进而能够协助模型更好地学习图片中物体的相关位置等相关,和LLM原先的常识挂上钩。ShareGPT4V就是一个很好的尝试,验证了应用 GPT-4V 从新标注 image captions,就能够带来显著的优化。除了 ShareGPT4V 以外,CapsFusion也展现了用更丰盛的 caption 带来的优化。
SFT> 应用 bounding box 等辅佐消息将图片文本化后,应用 ChatGPT/GPT-4 来生成了少量的 pseudo multimodal pair (detailed captioning, reasoning and conversation) 。
这个范式十分有效,也是为什么 LLaVA 系列一进去效果很冷艳的要素。但他照旧存在着一些疑问:
经过这些钻研咱们可以猜想,GPT-4V 面前肯定是少量的数据工程,详细地或许体如今:
Alignment 端: 相比于开源模型应用 CLIP 等作为 vision encoder,OpenAI 应该驳回了强化版的 CLIP 模型(毕竟如今的 CLIP 还都是他们 2021 年的成绩)。之前的 CLIP 不够好的很大要素就在于 图片和文本的消息量不平等 ,caption 大多是繁难的几个词来形容物体,而图片中则有丰盛的色彩、位置等时空消息。
无妨可以构想一下,咱们用如今的 GPT-4V 标注整个 web images(~ 10B level ?),优化文本端的丰盛度并对 hallucination 做控制。在此数据集基础上咱们训练一个 vision encoder,再迭代地降级 GPT-4V,置信会有一个显著的优化;
SFT 端: 我以为在足够好的对齐 + 在基模型足够弱小这两个条件下,或许只有要足够多样的(品质 >> 数量)的 prompting 数据就能够在如今的 VQA、Captioning benchmark 上表现杰出。由于主观来说,如今的测评数据集也都集中在这两个义务方式上,因此大批的 prompt 就能够泛化到下游的数据集上。
目前关注 LMM 测评的上班有很多,大抵归类一下:
综合性 Benchmark: 融合了各种多模态义务,综合地评价 LMM 各个方面的才干,关键方式是 VQA,给定疑问和图片让模型回答 Yes/No 或许是给出选项,代表的上班有MME还有MM-Vet。
这里有一些无心思的事件是 MME 驳回 Yes/No parsing 来评价,而 MM-Vet 则会驳回 ChatGPT 打分的方式评价,前者其实对 GPT-4V 青睐给出带理由的回答的模型并不友好,模型或许回答正确但没有被正确解析;然后者则容易偏差于 prefer ChatGPT style 的模型,偏好经常使用了凑近数据的模型。
特定畛域的 Benchmark: hallucination 是多模态更容易表现进去的一个疑问,形成的潜在结果也挺大,这方面测评的 benchmark 像POPE和MMHal。然而 POPE 有个疑问这个数据集依赖于 COCO 的 tag,就我团体的阅历而言,那个 tag 的准确率并不高,POPE 上的分数因此会收到肯定水平的影响。
此外,大家以为 math reasoning 或许是比拟有应战性的义务,因此像 MMMU 和 MathVista 的关注度都比拟高,目前 GPT-4V 也距离人类还是有很大差距。这块咱们最近的一个上班是看法到 ArXiv 上的很多 paper 自然也是多模态的,并且涵盖了丰盛的学科内容,因此咱们构建了一个Multimodal ArXiv,提供 captioning 和 QA (GPT-4V generated) 的数据集,能够很有效地优化模型数学推理的才干。
这些基准上的分数照旧很难比拟片面的反响模型的才干, 模型会做题不代表这个模型可用性高 。能够给用户体验让用户有 wow 觉得的模型,才或许说真的是看到了 GPT-4V 的尾巴,而目前能做到这点的模型,还不多。
总体来看,我以为咱们和 GPT4-V 的差距在于 (i) 基模型的指令追随和了解才干;(ii) 模态对齐的训练品质和数量,以及 (iii) 多样的 SFT 数据的构建。
其中 (i) 是国际很多公司和钻研组致力的方向,置信在大伙的致力下咱们会有一个弱小的基模型,如今有的 Qwen 、Deepseek、Skywork 等系列模型都很无时机。
(ii) 目前开源进去数据集的量级还不够大,而这件事件的投入(re-annotating the image world)应该也是渺小。但值得留意的是,DALLE 3 和 Sora 也是用了相似的打算来对 image/video的形容启动细节化,因此进一步优化了生成图片和视频的品质。做这件事件的意义或许关于咱们去建模一个高分辨率的环球模型是有严重意义的。
(iii) 这件事件或容许以交给学术界来搞,定义和标注无心义的多模态义务,进而整合到 SFT 环节中即可。
除去这些看似比拟 boring 的搞数据以外,还有什么值得探求的方向呢,这边我也剖析一些我团体比拟感兴味的疑问(带货环节):
1. LMM Hallucination 构成的要素? 在文本畛域的 Hallucination 的要素大家也都还在宽泛地探讨中,那引入一个额外模态之后,hallucination 的起源会更多了吗?是数据还是模型架构带来的疑问?假设咱们能够更明晰的看到模型外部的一些信号,或许会对了解这些疑问更有协助。
2. LMM 的安保性: ChatGPT 进去之后就有很多 Red Teaming 和 Jailbreaking的尝试,那 GPT-4V 会不会也有这种安保性上的 concern 呢?
Red Teaming VLM提供了一个很好的 benchmark 来做这方面的探求;此外,ImgTrojan也发现之前 NLP 宽泛存在的后门攻打雷同实用于 LMM,并且会成为更为隐蔽的特洛伊木马来规避掉 safe alignment。这里后续的钻研又可以启动攻打、进攻、消弭的探求。
3. RLHF/DPO for LMM: 前面提到的 alignment 和 sft 更多地还是依赖于人类标注的数据,当人类不可给出 ground-truth 的标注的时刻,咱们就须要构建一个 reward model 来通知咱们哪些回复是更适合的。
RLHF 和 DPO 曾经在大言语模型上被验证了有效性,但当存在额外的模态的时刻,如何定义哪个回复是更好的(例如会有更多样的成见),如何更好地协调分歧的 reward label 的标注等等都会带来新的疑问和应战。
咱们的VLFeedback提供了一个很直给的打算,让 GPT-4V 来标注不同的方面,并且也验证了这个框架的有效性。但最近咱们也发现 DPO 在不同基模型上的效果还不太一样,照旧存在很多细节的疑问,值得进一步的剖析。
总的来说,LMM 在无论是学术界还是工业界,都照旧大有可为。
宿愿能和这一畛域的钻研者们一同,凑近 GPT-4V,逾越 OpenAI!
原文链接: