近日,来自清华大学智能产业钻研院(AIR)助理传授赵昊教员的团队,联结戴姆勒公司,提出了一种无需训练的多域感知模型融合新方法。钻研重点关注场景了解模型的多目的域自顺应,并提出了一个应战性的疑问: 如何在无需训练数据的条件下,兼并在不同域上独立训练的模型成功跨畛域的感知才干? 团队给出了“Merging Parameters + Merging Buffers”的处置打算,这一方法便捷有效,在毋庸访问训练数据的条件下,能够成功与多目的域数据混合训练相当的结果。
1 背景引见
一个适用于环球各地智能驾驶场景的感知模型,须要能够在各个畛域(比如不同时期、天气和市区)中都输入牢靠的结果。但是,典型的监视学习方法严重依赖于须要少量人力标注的像素级注释,这严重阻碍了这些场景的可裁减性。因此,多目的域自顺应(Multi-target Domain Adaptation, MTDA)的钻研变得越来越关键。多目的域自顺应经过设计某种战略,在训练时期同时应用来自多个目的域的无标签数据以及源域的有标签分解数据,来增强这些模型在不同目的域上的鲁棒性。
与传统的单目的域自顺应 (Single-target Domain Adaptation, STDA)相比,MTDA 面临更大的应战——一个模型须要在多个目的域中都能很好上班。为了处置这个疑问,以前的方法驳回了各种专家模型之间的分歧性学习和在线常识蒸馏来构建各目的域通用的在校生模型。虽然如此,这些方法的一个严重限度是它们须要同时经常使用一切目的数据,如图1(b) 所示。
但是, 同时访问到一切目的数据是不实际践的 。一方面要素是数据传输老本限度,由于蕴含数千张图像的数据集或者会到达数百 GB。另一方面,从数据隐衷包全的角度登程,不同地区间智能驾驶街景数据的共享或传输或者会遭到限度。面对这些应战,在本文中,咱们聚焦于一个全新的疑问,如图1(c) 所示。咱们的钻研义务依然是MTDA,但咱们并没有来自多个目的域的数据,而是只能取得各自独立训练的模型。咱们的目的是,经过某种融合方式,将这些模型集成为一个能够适用于各个目的域的模型。
图1:不同试验设置的对比
2 方法
如何将多个模型兼并为一个,同时保管它们在各自畛域的才干?咱们提出的处置打算关键包括两局部:Merging Parameters(即可学习层的weight和bias)和 Merging Buffers(即normalization layers的参数)。在第一阶段,咱们从针对不同单目的域的无监视域自顺应模型中,失掉训练后的感知模型。而后,在第二阶段,应用咱们提出的方法, 在毋庸失掉任何训练数据的条件下,只对模型做兼并 ,失掉一个在多目的域都能上班的感知模型。
图2:全体试验流程
上方,咱们将详细引见这两种兼并的技术细节和钻研动机。
2.1 Merging Parameters
2.1.1 Permutation-based的方法出现退步
理想上,如何将模型之间可学习层的 weight 和 bias 兼并不时是一个前沿钻研畛域。在之前的上班中,有一种称为基于置换 (Permutation-based) 的方法。这些方法基于这样的假定:当思考神经网络暗藏层的一切潜在陈列对称性时,loss landscape 通常构成单个盆地(single basin)。因此,在兼并模型参数和时,这类方法的关键目的是找到一组置换变换 ,确保在配置下同等于 ,同时也位于参考模型左近的近似凸盆地(convex basin)内。之后,经过便捷的中点兼并以取得一个兼并后的模型,该模型能够表现出比单个模型更好的泛化才干,
在咱们的试验中,模型和在第一阶段都经常使用相反的网络架构启动训练,并且,源数据都经常使用相反的分解图像和标签。咱们最后尝试驳回了一种 Permutation-based 的代表性方法——Git Re-Basin,该方法将寻觅置换对称变换的疑问转化为线性调配疑问 (LAP),是目前最高效适用的算法。
图3:Git Re-basin和mid-point的试验结果对比
但是,如图3所示,咱们的试验结果出人预料地标明, 不同网络架构(ResNet50、ResNet101 和 MiT-B5)下 Git Re-Basin 的性能与便捷中点兼并相反 。进一步的钻研标明,Git Re-Basin 发现的陈列变换在处置 LAP 的迭代中坚持相反的陈列,这标明在咱们的畛域顺应场景下,Git Re-Basin 退步为一种便捷的中点兼并方法。
2.1.2 线性形式连通性的剖析
咱们从 线性形式连通性(linear mode connectivity) 的视角进一步钻研上述退步疑问。详细来说,咱们经常使用延续曲线在参数空间中衔接模型和模型。在这种特定状况下,咱们思考如下线性门路,
接上去,咱们经过对做插值遍历评价模型的性能。为了权衡这些模型在两个指定目的域(区分表示为和)上的有效性,咱们经常使用和谐平均值 (Harmonic Mean) 作为关键评价目的,
咱们之所以选用和谐平均值作为目的,是由于它能够赋予较小的值更大的权重,这能够更好应答环球各地各个市区中最差的状况。它有效地处罚了模型在一个目的域(例如,在兴旺的大市区)的表现意外高,而其余目的域(例如,在第三环球农村)表现低的状况。不同插值的试验结果如图4(a)所示。“CS”和“IDD”区分表示目的数据集 Cityscapes 和 Indian Driving alt="图片">图4:线性形式连通性的剖析试验
2.1.3 了解线性形式连通性的要素
在上述试验结果的基础上,咱们进一步探求:在先前域自顺应方法中观察到的线性形式连通性,面前的基本要素是什么?为此,咱们启动了消融试验,来钻研第一阶段训练和时期的几个影响要素。
2.1.4 关于兼并参数的小结
咱们经过少量试验证实,当畛域自顺应模型 从相反的预训练权重开局时 ,模型可以有效地过渡到不同的目的畛域,同时依然坚持参数空间中的线性形式连通性。因此,这些训练模型可以经过 便捷的中点兼并 ,失掉在两个畛域都有效的兼并模型。
2.2 Merging Buffers
Buffers,即批量归一化 (BN) 层的均值和方差,与数据域亲密关系。由于数据不同的方差和均值代表了域的某些特定特色。在兼并模型时如何有效地兼并 Buffers 的疑问通常被漠视,由于现有方法关键探求 如何兼并在同一域内的不同子集上训练的两个模型 。在这样的前提下,之前的兼并方法不思考 Buffers 是正当的,由于来自任何给定模型的 Buffers 都可以被视为对整个总体的无偏预计,虽然它齐全来自随机数据子样本。
但是,在咱们的试验环境中,咱们正在钻研 如何兼并在齐全不同的目的域中训练的两个模型 ,这使得 Buffers 兼并的疑问不再便捷。由于咱们假定在模型 A 和模型 B 的兼并阶段不可访问任何方式的训练数据,因此咱们可用的消息仅限于 Buffers 集。其中,表示 BN 层的数量,而、和区分表示第层的平均值、规范差和 tracked 的批次数。生成 BN 层的统计数据如下:
以上方程面前的原理可以解释如下:引入 BN 层是为了缓解外部协变量偏移(internal covariate shift)疑问,其中输入的均值和方差在经过外部可学习层时会出现变动。在这种状况下,咱们的基本假定是, 后续可学习层兼并的 BN 层的输入遵照正态散布 。由于生成的 BN 层坚持合乎高斯先验的输入演绎偏向,咱们依据从和失掉的结果预计和。如图5所示,咱们取得了从该高斯先验中采样的两组数据点的均值和方差,以及这些汇合的大小。咱们应用这些值来预计该散布的参数。
图5:兼并BN层的示用意
当将 Merging Buffers 方法裁减到个高斯散布时,tracked 的批次数、均值的加权平均值和方差的加权平均值可以按如下方式计算。
3 试验与结果
3.1 数据集
在多目的域顺应试验中,咱们经常使用 GTA 和 SYNTHIA 作为分解数据集,并经常使用 Cityscapes 、Indian Driving>在试验中,咱们将咱们的模型融合方法在 MTDA 义务上的结果与几种 baseline 模型启动对比。baseline 模型包括数据组合(Data Comb.)方法,其中单个域自顺应模型在来自两个目的域的混合数据上启动训练(这个baseline仅供参考,由于它们与咱们关于数据传输带宽和数据隐衷疑问的设定相矛盾)。baseline 模型还包括单目的域自顺应(STDA),即为繁多目的域训练的自顺应模型,评价其在两个域上的泛化才干。
表1:与Baseline模型的比拟
表 1 展现了基于 CNN 架构的 ResNet101和基于 Transformer 架构的 MiT-B5 的结果。与最好的单目的域自顺应模型相比,当将咱们的方法区分运行于 ResNet101 和 MiT-B5 两种不同 Backbone 时,在两个目的域上性能的和谐平均值区分提高 +4.2% 和 +1.2%。值得留意的是, 这种性能水平(ResNet101架构下的和谐平均值为 56.3%)曾经与数据组合(Data Comb.)方法(56.2%)相当,而且咱们无需访问任何训练数据 即可成功这一目的。
此外,咱们探求了一种更为宽松的条件,其中仅兼并 Encoder backbone,而 decoder head 则针对各个下游域启动分别。值得留意的是,这种条件下,区分使两种 backbone 下的和谐平均性能清楚提高 +5.6% 和 +2.5%。咱们还发现,咱们提出的方法在大少数类别中能够一直成功最佳和谐平均,这标明它能够增强全局顺应性,而不是倾向某些类别。
3.3 与SoTA模型的比拟
咱们首先将咱们的方法与 GTACityscapes 义务上的单目的域自顺应 (STDA) 启动比拟,如表 2 所示。值得留意的是,咱们的方法可以运行于任何这些方法,只需它们经常使用相反的预训练权重顺应不同的域。这使咱们能够经常使用单个模型推行到一切目的域,同时坚持 STDA 方法相对优越的性能。
表2:与SoTA模型的比拟
咱们还将咱们的方法与表 2 中的域泛化(DG)方法启动了比拟,域泛化旨在将在源域上训练的模型推行到多个看不见的目的域。咱们的方法无需额外的技巧,只需应用参数空间的线性形式衔接即可成功出色的性能。在多目的域自顺应畛域,咱们的方法也取得了上游。咱们不须要对多个在校生模型做显式的域间分歧性正则化或常识提炼,但能使 STDA 方法中的技术(如多分辨率训练)能够轻松转移到 MTDA 义务。可以观察到,咱们对 MTDA 义务的最佳结果做出了的清楚改良,同时消弭了对训练数据的依赖。
3.4 多目的域拓展
咱们还裁减了咱们的模型融合技术,以涵盖四个不同的目的畛域:Cityscapes 、IDD 、ACDC 和 DarkZurich 。每个畛域都面临着共同的应战和特点:Cityscapes 关键关注欧洲市区环境,IDD 关键表现印度路线场景,ACDC 关键针对雾、雨或雪等顽劣天气条件,DarkZurich 则关键处置夜间路线场景。咱们对针对每个畛域独自训练后的模型,以及用咱们的方法融合后的模型启动了片面评价。
表3:在4个目的域上的试验结果
如表 3 所示,咱们提出的模型融合技术表现出清楚的性能优化。虽然咱们未来自独自训练模型的和谐平均值最高的方法作为比拟的基线,但一切基于模型融合的方法都优于它,性能增长高达 +5.8%。此外,虽然兼并来自多个不同畛域模型的复杂性不时参与,但咱们观察到一切畛域的全体性能并没有清楚降低。经过进一步剖析,咱们发现咱们的方法能够简化畛域分歧性的复杂性。现有的域间分歧性正则化和在线常识提炼方法的复杂度为,而咱们的方法可以将其缩小到更高效的,其中表示思考的目的域数量。
3.5 消融试验
咱们经常使用 ResNet101 和 MiT-B5 作为宰割网络中的图像编码器,对咱们提出的 Merging Parameters 和 Merging Buffers 方法启动了消融钻研,结果如表 4 所示。咱们观察到单目的域自顺应 (STDA) 模型在不同域中的泛化才干存在差异,这关键源于所用目的数据集的多样性和品质差异。虽然如此,咱们还是选用 STDA 模型中的最高的和谐平均值作为比拟基线。
表4:消融试验
表 4(a) 和 4(b) 中的数据显示,驳回便捷的中点兼并方法对参数启动处置,可使模型的泛化才干提高 +2.7% 和 +0.6%。此外,当结合 Merging Buffers 时,这种性能的增强会进一步加大到 +4.2% 和+1.2%。咱们还观察到 MiT-B5 作为 backbone 时的一个幽默现象:在 IDD 域中启动评价时,融合模型的表现优于单目的自顺应模型。这一发现象征着模型可以从其余域失掉域不变的常识。这些结果标明,咱们提出的模型融合技术的每个局部都是有效的。
3.6 模型融合在分类义务上的运行
咱们还经过试验验证了咱们所提出的模型融合方法在图像分类义务上的有效性。经过将 CIFAR-100 分类数据集划分为两个不同的、不堆叠的子集,咱们在这些子集上独立训练两个 ResNet50 模型,标志为 A 和 B。这种训练要么从一组共同的预训练权重中启动,要么从两组随机初始化的权重中启动。模型 A 和 B 的性能结果如图 6 所示。结果标明, 从相反的预训练权重启动融合的模型优于在任何单个子集上训练的模型 。相反,当从随机初始化的权重开局时,单个模型表现出学习才干,而兼并模型的性能相似于随机猜想。
图6:CIFAR-100 分类义务上的模型融合结果
随机初始化会破坏模型线性平均性,而相反的预训练骨干会造成线性形式衔接。咱们在另一个预训练权重上再次验证了这个论断。图 7 中的结果标明,DINO 预训练和 ImageNet 预训练在模型参数空间中具备不同的loss landscape,模型的融合必定在相反的loss landscape内启动。
图7:ImageNet和DINO预训练权重对线性形式衔接的影响
4 论断
本文引见了一种陈腐的模型融合战略,旨在处置多目的域自顺应 (MTDA)疑问,同时无需依赖训练数据。钻研结果标明,在少量数据集上启动预训练时,基于 CNN 的神经网络和基于 Transformer 的视觉模型都可以将微调后模型限度在 loss landscape 的相反 basin 中。咱们还强调了 Buffers 的兼并在 MTDA 中的关键性,由于 Buffers 是捕捉各个域共同特色的关键。咱们所提出的模型融合方法便捷而高效,在 MTDA 基准上取得了最好的评测性能。咱们等候本文所提出的模型融合方法能够激起未来更多关于这个畛域的探求。