CLIP(Contrastive Language–Image Pre-training)模型自推出以来,在图像-文本跨模态了解和生成畛域取得了清楚成绩。但是,经典模型CLIP还是存在许多短板,对此,学界对CLIP模型的变革与增强还在继续启动中,宿愿经过变革CLIP模型架构、参与某些模块来补偿CLIP的才干短板, 始终优化其在跨模态、少样转义务中的泛化性能与实用性 。详细如下:
本期推送再次清点了CLIP模型架构还能如何变革,让咱们一同来看看吧!
GroupViT: 从文本监视中成功语义宰割
文章引见了一个名为 GroupViT(Grouping Vision Transformer)的模型 ,它是为了成功仅经过文本监视启动语义宰割的义务而设计的。GroupViT经过一个 分层的Transformer架构 启动视觉概念的逐渐分组,从较小的图像片段兼并成较大的任异常形的语义段。GroupViT首先将输入图像划分为多个不堆叠的小patch,并将每个patch线性投影到潜在空间,构成输入的image token。在 每个分组阶段 ,image token和group token经过Transformer层启动消息流传,经过自留意力机制(self-attention)聚合全局消息。每个分组阶段的末尾都有一个 grouping block ,担任将相似的image token兼并为更大的语义段(segment)。Grouping block经过计算group token和segment token之间的相似性矩阵来成功兼并。在Grouping Block中,经常使用Gumbel-Softmax操作和直通技巧(straight through trick)来启动硬调配,使得segment tokens能够明白地调配给不同的group tokens。为了训练GroupViT口头分层分组,模型驳回了特意设计的对比损失函数,包括原始的图像-文本对比损失和 多标签对比损失 。
相关于CLIP,GroupViT引入了 分组机制 ,准许模型智能地将图像区域分组为语义段,而CLIP是一个基于对比学习的模型,关键用于图像和文本的联结示意学习,并没有显式的分组机制。GroupViT还驳回了 分层的Transformer架构 ,能够处置任异常形的图像段,而CLIP通常处置的是固定大小的图像patch。此外,GroupViT特有的 Grouping Block模块 ,用于将图像tokens兼并为更大的语义段。最后,GroupViT经常使用了 多标签对比损失 ,经过从文本中提取名词并经常使用句子模板生成额外的文本标签,增强了模型对视觉分组的学习才干。
FFF:在对比性预训练中修复有缺陷的基础发生的视觉言语模型
文章提出了一种改良的对比性预训练方法,称为FFF(Fixing Flawed Foundations),旨在经过处置现有视觉-言语模型训练中的两个关键疑问来增强模型性能: 失误调配的负对(false negative pairs)和低品质及多样性无余的字幕(captions) 。
文章展现了FFF方法在图像识别(在11个数据集上平均提高了约6%)和图像检索(在Flickr30k上提高了约19%,在MSCOCO上提高了约15%)方面的清楚性能优化。总之,FFF方法经过处置负对调配失误和优化字幕品质与多样性,清楚提高了视觉-言语模型的预训练效果,并经过经常使用sigmoid loss作为训练损失函数,有效地利用了多个正对启动训练。
DreamLIP:带有长字幕的言语图像预训练
文章提出的DreamLIP模型成功了 从长题目中灵活采样子题目,并与图像的部分区域启动细粒度对齐 。
在多种下游义务上启动试验,包括图像-文本检索、语义宰割等,证实了DreamLIP模型相较于现有方法在细粒度示意才干上的分歧优越性。经过这种方法,DreamLIP能够充沛应用长题目中的消息,提高模型对图像内容的了解和示意才干,尤其是在零样本学习的场景下,展现出了弱小的性能。
DIVA:分散反应协助 CLIP 看得更清楚
对比言语-图像预训练 (CLIP) 长于跨畛域和模态形象放开环球示意,已成为各种视觉和多模态义务的基础。但是,最近的钻研标明, CLIP存在重大的视觉缺陷,例如简直不可区分方向、数量、色彩、结构等 。这些视觉缺陷也限度了基于 CLIP 构建的多模态大型言语模型 (MLLM) 的感知才干。关键要素或许是用于训练 CLIP 的图像-文本对具备固有的成见,由于缺乏文本的独个性和图像的多样性。这项上班提出了一种繁难的CLIP模型后训练方法, 该方法经过自监视分散环节在很大水平上克制了其视觉缺陷。 咱们引见了 DIVA,它经常使用 DIffusion 模型作为 CLIP 的视觉助手。详细来说, DIVA应用来自文本到图像分散模型的生成反应来优化CLIP的表征 ,仅经常使用图像(没有相应的文本),从而成功了 自监视学习 。
经过在MMVP-VLM基准测试上的试验,DIVA清楚优化了CLIP模型在细粒度视觉才干上的体现,并在多模态了解和宰割义务上提高了MLLMs和视觉模型的性能。总的来说, DIVA模型经过一个繁难而有效的自监视框架,经常使用分散模型的生成反应来优化CLIP的视觉示意,使其在视觉细节的感知上有了清楚的优化,同时保管了CLIP的原有长处。
CLIP-FSAR:小样本举措识别的原型调制方法
本文的指标是迁徙CLIP弱小的多模态常识,以处置由于数据稀缺而造成的原型预计不准确的疑问,这是 少样本举措识别 (Few-shot Action Recognition, FSAR)中一个关键疑问。文章提出了一种名为的原型调制框架,该框架由两个关键组件组成: 视频-文本对比物镜(Video-text Contrastive Objective)和原型调制(Prototype Modulation) 。
CLIP-FSAR框架经过这两个组件的协同上班,能够充沛应用CLIP模型中的丰盛语义消息,生成牢靠原型,并在少样本分类义务中成功准确分类。经过视频-文本对比物镜,CLIP-FSAR顺应于视频义务,并经过原型调制增强了对视频中举措类别的识别才干。
MA-CLIP:CLIP的多模态自顺运行于小样本举措识别
将大规模预训练的视觉模型(如 CLIP)运行于小样本举措识别义务可以提高性能和效率。应用“预训练,微调”范式可以防止从头开局训练网络,这或许既耗时又消耗资源。但是,这种方法有两个缺陷。首先,用于小样本举措识别的标志样本有限,因此 须要尽量增加可调参数的数量以减轻过拟合 ,这也会造成微调无余,从而参与资源消耗并或许破坏模型的狭义示意。其次, 视频的超时域维度应战了小样本识别的有效期间建模 ,而预训练的视觉模型通常是图像模型。为了处置这些疑问,本文提出了一种名为 CLIP多模态顺应 (, Multimodal Adaptation of CLIP)的新方法。
MA-CLIP设计为可以与任何不同的小样本举措识别期间对齐度量(如视频婚配器)一同经常使用,这参与了模型的通用性和灵敏性。由于适配器的轻量级个性和参数数量的增加,MA-CLIP在训练时愈加极速和高效,同时下降了训练老本。总的来说,MA-CLIP经过精心设计的适配器和文本疏导的原型构建模块,有效地结合了视觉和言语消息,提高了小样本举措识别的性能,同时坚持了模型的极速顺应性和低训练老本。
APE:并非一切特色都关键:经过自顺应先验优化增强CLIP的少样本泛化才干
现有的CLIP少样本泛化方法要么体现出有限的性能,要么存在过多的可学习参数。本文提出了 APE(Adaptive Prior rEfinement),这是一种为CLIP模型的预训练常识启动顺应性细化的方法,旨在提高CLIP在下游义务中的性能,特意是在小样本学习场景下。
APE和APE-T在坚持高计算效率的同时,成功了在多个基准测试中的最先进性能,特意是在16次拍摄的ImageNet分类义务中,APE和APE-T区分以少于第二佳方法+1.59%和+1.99%的平均准确率,并且具备×30更少的可学习参数。