当天给大家引见一篇港中文、上海AI Lab等机构联结宣布的CLIP优化上班,构建了基于多专家网络的MoE模型,成功更细粒度的视觉表征器训练,优化下游多模态大模型
论文题目 :CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING
下载地址 :
背景
基于CLIP的图文对比学习预训练是构建多模态大模型的一个**基础模块。经过图片和文本的对比学习环节,训练图片和文本的Encoder,能够对齐图片和文本这两个模态的表征。
但是,很多上班都发现,CLIP训练的Encoder,提取的更多是粗粒度的图像消息,例如CLIP的表征会存在语义不同、内容相似的图像被分到同一个类别中。这种比拟弱的视觉Encoder会影响下游义务的成果。
为了处置上述疑问,本文构建了一种基于多专家网络的CLIP模型,不同专家从不同维度提取视觉表征,优化视觉编码器才干。并且整个环节只有要基于已有的checkpoint启动finetune,不用从0训练CLIP模型。
建模方法
CLIP-MoE的**建模方法可以分红3个局部:多阶段对比学习、多专家网络、训练模式。
多阶段对比学习是港中文在 Avoiding feature suppression in contrastive learning: Learning what has not been learned before 中提出的CLIP训练方法。启动多轮的CLIP训练,每轮训练后,依据表征启动聚类,下一轮的对比学习在每个聚类类簇内启动训练。经过多轮训练,获取一系列的CLIP模型。这种建模方法可以了解为,比如最开局对比学习学到了依据色彩启动表征对齐,在聚类后,色彩相反的聚类到了一同,第二阶段就可以学到色彩以外的其余消息启动表征辨别。经过这种模式成功不同维度的表征学习。
本文也应用多阶段对比学习的思绪,基于一个预训练的CLIP模型,将参数固定,只对Transformer中的FFN层启动finetune。经过多阶段对比学习,生成多组FFN参数。
基于上述不同阶段的FFN参数,可以构建多专家网络。经过门控网络,设定样本经过各个FFN的概率,各个FFN的输入结果启动加权求和。并且在损失函数中引入复杂平衡loss,防止MoE被少数专家主导的状况。
在训练模式上,蕴含2个阶段。第一阶段,在多阶段对比学习环节中,基于预训练CLIP,模型参数freeze,只对FFN层启动finetune。在第二阶段,解冻一切参数,只对多专家网络中的路由局部启动finetune。
试验结果
经过试验结果来看,本文的CLIP预训练方法在零样本学习场景的图文检索、图像分类等义务上取得了清楚的成果优化。
文中也经过case剖析了这种CLIP-MoE结构关于细粒度图文婚配的有效性。CLIP-MoE能够愈加关注图像中的细节消息,做出和文本更准确的婚配。
本文转载自,作者: