写在前面 & 笔者的团体了解
单目图像的准确3D车道线检测面临严重应战,关键由于深度消息的歧义性和低空建模的不完善。以往的钻研通常驳回具备有限自在度的平面低空假定启动低空建模,这在复杂路线环境中,尤其是存在不同坡度的状况下,显得力所能及。本钻研提出了一种名为HeightLane的翻新方法,它基于多斜率假定创立锚点,从单目图像中预测出高度图,从而提供对低空的具体和准确示意。HeightLane结合了预测出的高度图和基于可变形留意力机制的空间特色转换框架,高效地将2D图像特色转换为3D俯瞰视图(BEV)特色,增强了空间了解力和车道结构识别才干。此外,高度图还被用于BEV特色的位置编码,进一步优化了空间精度。这种显式视图转换方法有效地弥合了前视感知与空间准确的BEV示意之间的差异,清楚提高了检测性能。为了处置原始OpenLane数据集中缺少必要的低空实在高度图的疑问,作者应用Waymo数据集的LiDAR数据,为每个场景的可行驶区域生成了高度图。经常使用这些实在高度图训练了从单目图像中提取高度图的模块。在OpenLane验证集上的宽泛试验标明,HeightLane在F-score等目的上到达了最先进的性能,展现了其在事实环球运行中的后劲。
3D车道检测关于事实驾驶场景中的准确定位至关关键。虽然2D车道检测曾经获取了宽泛的钻研,但关于3D车道建模的却相对较少。传统的方法通经常常使用逆透视变换(IPM)将2D特色转换到3D空间,基于路线平整的假定。但是,这种假定在遇到斜坡或下坡等不平整地形时会失效,造成特色示意歪曲和牢靠性降落。
SALAD经过结合前视图图像宰割与深度预计来处置3D车道检测疑问,但它依赖于密集的深度注释和准确的深度预测。此外,远处车道因显得较小,每个像素笼罩的深度范围更广。M2-3DLaneNet经过融合LiDAR数据增强单目3D检测,将图像特色优化至3D空间,并在俯瞰视图(BEV)空间中融合多模态数据,但这参与了数据搜集的复杂性和老本。DV-3DLane雷同经常使用LiDAR和相机输入启动3D车道检测,但它从两种来源生成车道查问,而非优化图像特色。
与此同时,BEVLaneDet驳回视图相关模块学习图像特色与BEV特色之间的映射,要求两者之间的相关固定。该论文引入了一种虚构坐标,一直经常使用特定的外参矩阵和内参矩阵来调整图像。此外,它不是经常使用BEV特色的锚点,而是提出一种在BEV上间接预测车道的关键点示意法。LATR和Anchor3DLane经过将低空假定为具备2个自在度(2-DoF)的平面,在3D车道检测方面取得了最新停顿。
LATR经常使用低空建模作为变换器中的位置编码,预测低空的俯仰角和高度;而Anchor3DLane则应用俯仰角和偏航角启动2D特色提取。与此不同,作者的方法HeightLane在BEV空间中仅经常使用LiDAR创立低空实在高度图。与M23DlaneNet不同,后者在推理环节中须要同时经常使用LiDAR和相机数据,而HeightLane仅依赖相机数据简化了推理环节。作者的方法不是用2-DoF对低空启动建模,而是预测预约义BEV网格中每个点的高度,创立了一个密集的高度图。经过采样专一于低空的空间特色,作者生成了BEV特色,准许经常使用关键点示意法启动准确的3D车道预测,有效地桥接了2D图像数据和3D车道几何学。这种方法优化了空间特色的处置,在坚持高精度的同时提高了效率。
BEVHeight引入了一种陈腐的方法,将深度预计中经常使用的深度分箱技术运行到高度概念上。这种方法经过对图像中的物体高度箱启动分类,初次提出了一种回归方法,用于确定3D目的检测中物体与低空之间的高度。但是,该方法的试验仅限于路边相机数据集,限度了钻研的运行范围。BEVHeight旨在经过应用物体的高度消息,提供更准确的3D位置消息。
另一方面,HeightFormer应用Nuscenes智能驾驶数据集,尝试回归物体与低空之间的高度。HeightFormer将预测的高度消息整合到变换器的解码器中,与基于深度的方法相比,成功了性能的优化。这一改停顿现了应用高度消息启动更准确3D目的检测的后劲。
作者提出的方法HeightLane,应用了车道一直附着在低空上的特性。经过仅预测相关于低空的高度,HeightLane显式地将图像特色转换到对应于低空的预约义BEV网格中。这种方法简化了义务,旨在提高3D目的检测中空间转换的准确性。
图 2. HeightLane方法的总体架构图。HeightLane接纳一个2D图像作为输入,并经过卷积神经网络(CNN)主干提取多尺度的前视图特色。应用预约义的多斜率高度图锚点、车辆坐标到相机坐标的外参矩阵T以及相机的内参矩阵K,将2D前视图特色采样到俯瞰视图(BEV)网格上,以构成BEV高度特色。随后,该BEV高度特色经过一个CNN层进一步处置,以预测高度图。预测出的高度图用于空间特色的转换,其中初始的BEV特色查问和高度图独特确定了查问在前视图特色中应参考的像素点。在这个环节中,前视图特色充任键和值,而BEV特色则作为查问。经过可变形留意力机制,这一流程最终生成了增强的BEV特色查问。
图 3. 在OpenLane验证集中展现的“上坡和下坡”场景下,LiDAR数据累积的结果。左侧的色彩条示意与路线高度相对应的色彩值。
高度疏导的空间变换框架
作者提出的空间变换框架应用第3.1节预测的高度图,如图4所示。BEV初始查问经过自留意力模块处置,在自留意力环节中,BEV查问之间启动交互,并为每个BEV查问加上天位编码以提供位置消息。位置编码是可学习的参数。与在2D FV特色上口头留意力的钻研不同,作者的方法经常使用BEV网格坐标和每个BEV查问的高度嵌入启动位置编码。
图 4. 经常使用可变形留意力的高度疏导空间变换框架结构图。该框架展现了BEV查问如何在自留意力阶段接纳高度位置编码,并在交叉留意力阶段经过高度图映射到图像像素。可变形留意力学习了从参考点到周围区域的偏移,以生成多个参考点。
作者的方法在OpenLane数据集上启动了评价,该数据集笼罩了多样的路线条件、天气状况和照明环境。OpenLane建设在Waymo数据集基础之上,经常使用了150,000张图像用于训练,40,000张图像用于测试。该数据集蕴含798个训练场景和202个验证场景,每个场景大概蕴含200张图像。虽然OpenLane数据集自身不蕴含生成高度图所需的消息,但由于其基于Waymo数据集构建,作者能够从中提取每个OpenLane场景所需的LiDAR数据。在提取LiDAR数据的环节中,作者留意到数据在每个场景的中部密集,而在末端帧则变得稠密。例如,图3展现了一个场景,其中车辆启动、上坡、右转,并继续行驶在另一段坡道上。在起始点(绿色区域),LiDAR数据较为稠密,因此作者驳回了双线性插值来填补高度图中的空隙,以确保高度图的分歧性。作者的评价包括了多种场景,如上坡/下坡、曲线、极其天气、夜间、交叉口以及兼并/分流等条件。评价目的包括F分数、近端和远端的X误差以及Z误差。
作者驳回了ResNet-50作为2D特色提取的主干网络,并将图像尺寸设定为576×1024像素。为了取得多尺度的图像特色,作者参与了额外的CNN层,以发生尺寸为输入图像1/16和1/32的特色图,每个特色图具备1024个通道。高度图和BEV特色的BEV网格尺寸被设置为200×48像素,分辨率为每像素0.5米。在高度提取模块中,作者为多斜率高度图锚点设置了-5°、0°和5°的斜率Θ。在5°的斜率下,高度图能够示意高达约8.75米的高度。在高度疏导的空间特色转换中,作者经常使用了具备2个留意力头和4个采样点的可变形留意力机制。位置编码是经过嵌入BEV网格的X和Y位置以及相应的预测高度来生成的。
图5展现了OpenLane验证集上的定性评价结果。作者的方法HeightLane、现有的最佳性能模型LATR以及低空实在值的预测结果被可视化展现。其中,低空实在值用白色示意,HeightLane用绿色示意,LATR用蓝色示意。图5的第一行展现了输入图像,第二行展现了在3D空间中HeightLane、LATR和低空实在值的可视化对比。第三和第四行区分从Y-Z平面视角展现了HeightLane与低空实在值、LATR与低空实在值的3D车道对比。
图 5. 在OpenLane验证集上,与现有最佳性能模型LATR相比,作者的方法HeightLane的定性评价结果。第一行:输入图像。第二行:3D车道检测结果 - 实在值(白色)、HeightLane(绿色)、LATR(蓝色)。第三行和第四行:从Y-Z平面视角展现的实在值与HeightLane、LATR的对比。加大可检查更多细节。
特意是,HeightLane即使在车道终止后再次发生的场景中,如交叉口或减速带上面,也能准确检测到车道。这一点在图5的第1、2、4、5和6列中尤为清楚。例如,在第1列中,虽然存在车辆遮挡和局部车道标志不完整,HeightLane依然能够提供准确的车道预测,证实了其在处置具备遮挡和消息不完整的复杂场景中的鲁棒性。此外,借助高度图的经常使用,HeightLane有效地模拟了路线坡度的变动,如图3所示,路线从平整过渡到有坡度的状况。在展现曲线路线和局部可见车道的第2和5列中,HeightLane展现了其在曲线上维持延续车道检测的优越预测精度和性能。
图6可视化了高度提取模块预测的高度图,从左到右依次为输入图像、预测高度图和低空实在值高度图。场景从上到下依次为上坡、平地和下坡路段,更多可视化结果可在补充资料中找到。
图 6. 高度提取模块的可视化结果。从左至右依次为:输入图像、预测的高度图和实在值高度图。图像展现了上坡、平地和下坡的场景。
表1展现了HeightLane在OpenLane验证集上的定量评价结果。作者的模型在总体F分数上到达了62.5%,逾越了一切现有的最先进模型。特意是在极其天气、夜间和交叉口等具备应战性的场景中,HeightLane成功了清楚的性能优化,并在这些条件下取得了最佳效果。此外,HeightLane在曲线和兼并/分流场景中也展现了微弱的性能,取得了这些类别中的第二佳体现。虽然在继续上坡或下坡的场景中,HeightLane的体现不是最佳,由于在这些状况下,2-DoF平面假定曾经足够。但是,HeightLane在斜率变动的场景中体现出色,如图5第3列所示,证实了其在处置变动坡度条件下的顺应性和预测才干。
表 1. 在OpenLane验证集的不同场景下,经常使用F分数对不同方法启动的定量结果比拟。每个场景中最佳和次佳结果区分用粗体和下划线标出。
表2展现了Openlane验证集上的F分数、X误差和Z误差的定量比拟结果。HeightLane在F分数方面取得了最佳效果,逾越了其余一切模型,到达了62.5%。虽然在Z误差方面并未到达最佳或第二佳的体现,但依然展现了具备竞争力的结果。在X误差方面,HeightLane成功了第二佳的性能,证实了其在横向方向上准确预计车道位置的才干。
表 2. 在OpenLane验证集上,与其余模型的定量结果比拟。评价目的包括F分数(越高越好)、近端和远端的X误差与Z误差(越低越好)。最佳和次佳结果区分用粗体和下划线标出。
表3展现了不同高度提取方法对应的F分数。视图相关模块,最后在[18]中提出,并在[22]中作为一个MLP模块用于转换BEV特色。单斜率高度图锚点方法将零高度平面投影到图像上,并经常使用从该平面采样的图像特色作为BEV特色。但是,这种方法假定低空是平整的,并且仅在该高度处采样2D图像特色,造成特色示意不完整。相比之下,作者提出的多斜率高度图锚点方法在图像上投影了具备不同斜率的多个平面,从每个平面采样图像特色,并将它们融合以构成BEV特色。这种多锚点方法成功了最高的F分数。
表 3. 依据不同的高度提取方法获取的F分数比拟。表格中标粗的性能示意作者最终驳回的打算。
表4展现了不同高度图锚点设计对应的F分数。第一行对应于表3中的单斜率高度图锚点。当经常使用0°加上±3°时,性能比仅经常使用0°提高了4.5%。雷同,经常使用0°加上±5°时,性能优化了6.3%。虽然0°、±3°和±5°的性能成功了最佳性能,但与仅经常使用0°和±5°相比,性能优化的边沿效应较小。但是,参与高度图锚点的数量会参与最终BEV高度特色中的通道数,从而参与计算老本。为了在性能和计算效率之间取得平衡,作者最终选用了0°和±5°高度图锚点的性能作为论文中的最终方法。
表 4. 依据不同高度图锚点设计获取的F分数比拟。表格中标粗的性能示意作者最终驳回的打算。
表5将作者的方法与各种多模态3D车道检测器启动了比拟。其中,Ours (GT)示意在推理步骤中经常使用实在高度图替代高度提取模块取得的结果。这种替代旨在观察在假定高度提取模块预测的高度图十分准确的状况下,空间特色变换框架的性能。经过经常使用从LiDAR数据取得的实在高度图,作者可以与经常使用LiDAR输入的检测器启动偏心的比拟。结果标明,当高度图预测准确时,作者的HeightLane方法能够成功与经常使用LiDAR和相机输入的模型相当或甚至更好的性能。这证实了作者方法的后劲,能够有效地利用准确的高度消息,突出了作者在2D图像数据和3D车道几何转换中的鲁棒性和才干。
表 5. 与多模态模型在OpenLane验证集上的比拟结果。“Ours (GT)”示意在推理阶段经常使用实在高度图替代预测的高度图。其中,M代表仅经常使用相机数据,ML代表同时经常使用相机和LiDAR数据。
作者的钻研上班经过提出一种翻新的高度图方法,成功克制了单目图像中3D车道检测面临的关键应战,包括深度消息的不确定性和低空建模的不完善性。作者的关键奉献包括:
本钻研所提出的方法经过高度图增强了对空间结构的了解和车道的识别才干,清楚优化了智能驾驶车辆系统的技术水平。经过准确的3D变换,这些技术提高为智能驾驶畛域的开展提供了强有力的支持。作者经过宽泛的试验验证了模型的有效性,这标志着在将3D车道检测技术运行于事实环球场景方面迈出了关键的一步。