在线高精(HD)地图构建是智能驾驶畛域的一项关键且具有应战性的义务。最近,人们对不依赖于激光雷达等其余传感器的基于环顾相机的低老本方法越来越感兴味。但是只经常使用视觉传感器的方法不足明白的深度消息,须要更大的主干网络来成功令人满意的功能。为了处置这个疑问,咱们初次驳回常识蒸馏(Knowledge Distillation, KD)思维启动高效的高精地图构建,引入了一种新的基于KD的在线矢量高精地图构建方法MapDistill。MapDistill将常识从高准确性的Camera-LiDAR融合模型转移到轻量级的仅依赖相机的模型。详细而言,咱们驳回师生架构,即Camera-LiDAR融合模型作为教员,轻量的只基于相机的模型作为在校生,并设计了双BEV转换模块,以促成跨模态常识对齐。此外,咱们还提出了一个适用于在线高精地图构建义务的片面蒸馏打算,包括跨模态相关蒸馏、双层特色蒸馏和地图义务头蒸馏。这种方法必定水平上处置了模态间常识转移的艰巨,使在校生模型能够学习更好的用于高精地图构建的特色示意。咱们在目前最具有应战性的nuScenes数据集上的试验结果证实了MapDistill的有效性,逾越了基线方法7.7 mAP或成功4.5倍的减速。
名目链接:
在线高精地图提供了丰盛、准确的驾驶场景静态环境消息,是智能驾驶系统布局与导航模块的基础。最近,基于多视角相机的在线高精地图构建因为BEV感知技术的严重停顿而遭到越来越多的关注。相较于只基于激光雷达的方法和基于激光雷达与相机融合的方法,只基于多视角相机的方法具有更低的部署老本。但因为不足深度消息,目前的基于纯视觉的打算经常驳回参数更多的主干网络启动有效的特色提取以取得较好的功能。因此,在实践部署中掂量基于摄像机的模型的功能和效率是至关关键的。
常识蒸馏(Knowledge Distillation, KD)作为训练高效而准确的模型最适用的技术之一,在相关畛域遭到了极大的关注。基于常识蒸馏的方法通常将常识从训练有素的大模型(教员)转移到小模型(在校生)。这类方法在图像分类、二维指标检测、语义宰割和三维指标检测等许多畛域取得了清楚停顿。以前的方法大多遵照需在校生网络逻辑与教员网络逻辑相婚配的teacher-student范式。最近,基于BEV的常识蒸馏方法推进了3D指标检测义务的开展。这类方法一致了BEV空间中的图像和点云特色,并在师生范式中自顺应地跨非同质示意传递常识。此前的上班经常使用强激光雷达教员模型协助相机在校生模型启动训练,如BEVDistill、UVTR、BEVLGKD、TiG-BEV和DistillBEV。最近,UniDistill提出了一种用于3D指标检测的通用跨模态常识蒸馏框架。
与这些方法相比,基于BEV的在线高精地图构建常识蒸馏方法在两个关键方面有所不同:首先,检测头(DetHead)对指标启动分类和定位输入,而在在线矢量高精地图构建模型(如MapTR)中地图头(MapHead)往往输入的是分类和点回归纳果。其次,现有的基于BEV的3D指标检测常识蒸馏方法通常并重于对准前景指标的特色,以减轻背景环境的不利影响,这显然不适宜高精地图的构建。因此,将基于BEV的3D指标检测常识蒸馏方法间接运行于的高精地图构建中,因为两者义务的外在差同性,不可取得满意的结果(试验结果见表1)。据咱们所知,基于BEV的用于在线高精地图构建的常识蒸馏方法仍处于探求阶段。
为了填补这一空白,咱们提出了一种新的基于常识蒸馏的方法MapDistill,将常识从高功能的教员模型转移到高效的在校生模型。首先,咱们驳回师生架构,即相机-激光雷达融合模型作为教员,轻量化的只基于相机传感器的模型作为在校生,并设计了双BEV转换模块,以促成跨模态常识升华,同时坚持老本效益的只基于相机传感器的建图打算部署。在此基础上,咱们提出了一种蕴含跨模态相关蒸馏、双层特色蒸馏和地图头部蒸馏的综合蒸馏打算,以减轻模态之间的常识转移应战,并协助在校生模型学习改良的高精地图构建特色示意。详细来说,咱们首先为在校生模型引入了跨模态相关蒸馏损失,以便从融合教员模型中更好地学习跨模态示意。其次,为了更好地成功语义常识转移,咱们在一致的BEV空间中对低级和初级特色示意都驳回了两级特色蒸馏损失。最后,咱们特意引入了为高精地图构建义务量身定制的地图头蒸馏损失,包括分类损失和点对点损失,它可以使在校生的最终预测与教员的预测十分相似。在具有应战性的nuScenes数据集上的少量试验证实了MapDistill的有效性,逾越了现有竞争对手超越7.7 mAP或4.5倍的减速,如图1所示。
图1:nuScenes数据集上不同方法的比拟。咱们在单个NVIDIA RTX 3090 GPU上对推理速度启动基准测试。MapDistill可以在速度(FPS)和精度(mAP)之间成功更好的平衡。
本文的奉献关键体如今三个方面:
在本节中,咱们将详细形容咱们提出的MapDistill。咱们首先在图2中给出了整个框架的概述图示,并在2.1节中说明了教员模型和在校生模型的模型设计。而后,咱们在第2.2节详细论述MapDistill的细节,如跨模态相关蒸馏、两级特色蒸馏和地图头蒸馏。
图2:MapDistill由一个基于多模态融合的教员模型(上)和一个基于轻量级相机传感器的在校生模型(下)组成。此外,为了使教员模型能够将常识传递给在校生,咱们驳回了三种蒸馏损失以指点在校生模型发生相似的特色和预测,即跨模态相关蒸馏、两级特色蒸馏和地图头蒸馏。特意说明,推理只经常使用在校生模型启动。
融合模型(教员):为了将Camera-LiDAR融合教员模型的常识转移到在校生模型,咱们首先基于最先进的MapTR模型建设了基于融合的高精地图构建基线。如图二上半局部所示,融合的MapTR模型有两个分支。关于相机分支,首先经常使用Resnet50提取多视图图像特色。接上去,经常使用GKT作为2D-to-BEV转换模块,将多视图特色转换为BEV空间。生成的摄像机BEV特色可示意,其中H、W、C区分示意BEV特色的高度、宽度和通道数,上标T为“teacher”的缩写。激光雷达分支驳回SECOND启动点云体素化和特色编码,驳回Bevfusion中的展平操作将点云特色投影到BEV空间,示意为。尔后,MapTR将和聚合,并经常使用全卷积网络启动处置,失掉融合俯瞰特色。尔后,MapTR经常使用以融合BEV特色作为输入的地图编码器发生高维BEV特色。
而后,教员地图头(MapHead)经常使用分类和点分支来生成地图元素类别和点位置的最终预测:
基于相机传感器的模型(在校生):为了优化实践部署的实时推理速度,咱们驳回MapTR的相机分支作为在校生模型的基础。特意的,咱们经常使用Resnet18作为主干来提取多视图特色,这可以使网络轻量级且易于部署。在MapTR的基础上,为了模拟教员模型的多模态融合管道,咱们提出了一个双流 BEV转换模块,将多视图特色转换成两个不同的BEV子空间。详细的来说,咱们首先经常使用GKT生成第一个子空间特色,其中上标S示意“student”的缩写。而后咱们经常使用LSS生成另一个子空间的俯瞰特色。尔后,咱们经常使用全卷积网络融合上述两个子空间俯瞰特色,取得融合BEV特色。
跨模态相关蒸馏:跨模态相关蒸馏的**现实是让在校生模型在训练环节中模拟教员模型的跨模态留意力。更详细地说,关于教员模型,咱们调整相机BEV特色和激光雷达BEV特色转换为2D patches序列,示意为。之后,咱们计算来自教员分支的跨模态留意力,蕴含C2L留意和L2C留意力,如下所示:
关于在校生分支,咱们经常使用相反的战略:
尔后,咱们提出了跨模态相关蒸馏,驳回KL散度损失协助对齐在校生分支与教员分支的跨模态留意力。
两级特色蒸馏:为了繁难在校生模型从教员模型中排汇丰盛的语义/几何常识,咱们应用融合的BEV特色启动特色级蒸馏。详细来说,咱们经过MSE损失,让教员分支的low-level融合BEV特色监视在校生分支对应的low-level BEV特色:
相似地,咱们经常使用MSE损失协助对齐由地图编码器生成的和:
咱们经常使用两级特色蒸馏启动一致示意:
地图义务头蒸馏:为了使在校生的最终预测凑近教员的预测,咱们进一步提出了地图义务头蒸馏。详细来说,咱们经常使用教员模型生成的预测作为伪标签,经过地图义务头损失来监视在校生模型。地图义务头损失由两局部示意,其中分类损失函数用于地图元素分类,基于曼哈顿距离的点对点损失用于点位置的回归:
咱们在nuScenes数据集启动了少量试验。咱们将咱们的方法与两类最先进的基线启动了比拟,即基于摄像机的高精地图构建方法,以及最后被设计用于成功基于BEV的3D指标检测的常识蒸馏方法。关于基于常识蒸馏的方法,咱们成功了三种基于bev的三维指标检测方法,并针对高精地图构建义务启动了修正,区分是BEV-LGKD、BEVDistill和UnDistill。为了偏心起见,咱们经常使用与咱们的方法相反的教员和在校生模型。试验结果如表1所示。
三项常识蒸馏损失函数的影响:如表2所示,在模型变量(a)、(b)、(c)中,咱们独自经常使用不同的蒸馏损失对在校生分支启动训练。试验结果标明,与基线方法相比,三项损失函数均对模型体现出优化。此外,模型变量(d)、(e)、(f)证实了不同蒸馏损失项的结果是相互补充的。最终,将一切的蒸馏损失融合在一同,咱们失掉了完整的MapDistill结果,成功了53.6mAP的先进功能。
不同高精地图构建方法的消融钻研:如表5(a)所示,为了探求MapDistill与不同高精地图构建方法的兼容性,咱们综合对比了两种盛行的方法,结果如表5a所示。其中,Teacher model-1和Teacher model-2区分是经常使用SwinTransformer-T的MapTR变体模型和最先进的MapTRv2模型。留意,两个在校生模型都经常使用Resnet 18作为主干来提取多视图特色。试验结果标明,成果更好的教员模型将教出更好的在校生模型。因为已成功预训练的教员模型曾经取得了构建高精地图的贵重常识,在校生模型可以经过常识蒸馏技术(例如所提出的MapDistill)有效地利用这些常识,从而增强其口头相反义务的才干。此外,结果标明咱们的方法对不同的教员模型都是有效的。
各种在校生模型的消融钻研:如表5(b)所示,为了探求MapDistill在不同在校生模型下的泛化才干,咱们综合调查了两种盛行的主干网络作为在校生模型的主干。其中Student model- i和Student model- ii是指在校生模型区分驳回Resnet50和SwinTransformer-T作为主干提取多视图特色。这里咱们经常使用MapTR作为Teacher,即表1中的R50&Sec融合模型作为教员模型。试验结果标明,咱们的方法一直能取得较好的结果,证实了方法的有效性和泛化才干。
如图4所示,咱们比拟了来自不同模型的预测,即基于相机-激光雷达的教员模型,没有MapDistill的基于摄像机的在校生模型(基线方法),以及带有MapDistill的基于摄像机的在校生模型。各模型的mAP值区分为62.5、45.9、53.6,如表1所示。咱们观察到基线模型的预测有很大的不准确性。但是,驳回MapDistill方法局部纠正了这些失误,提高了预测精度。
图4:nuScenes val 数据集的可视化结果。(a) 输入的6个视角图像。(b)GT (c)基于摄像头-激光雷达的教员模型的结果。(d)没有MapDistill的基于相机的在校生模型的结果(基线)。(e)经常使用MapDistill的基于相机的在校生模型的结果。
在本文中,咱们提出了一种名为MapDistill的新方法,经过相机-激光雷达融合模型蒸馏来提高只基于相机的在线高精地图构建效率,发生一种经济高效且准确的处置打算。MapDistill是建设在一个相机-激光雷达融合的教员模型,一个轻量级的只依赖于相机的在校生模型,和一个专门设计的双流BEV转换模块。此外,咱们还提出了一种蕴含跨模态相关蒸馏、两级特色蒸馏和地图义务头蒸馏的综合蒸馏打算,促成了不同模态外部和不同模态之间的常识转移,协助在校生模型取得更好的功能。少量的试验和剖析验证了咱们的MapDistill的设计选用和有效性。
局限性与社会影响:经常使用常识蒸馏战略,在校生形式可以承袭教员形式的弱点。更详细地说,假设教员模型是有成见的,或许对不利的天气条件和/或长尾情形没有鲁棒性,那么在校生模型或许体现得相似。MapDistill具有老本效益,在智能驾驶等实践运行中显示出渺小的后劲。