本文是对ECCV2024接受的文章 HTCL: 的引见, HTCL在SemanticKITTI基准测试中超越了一切基于相机的方法,甚至在和OpenOccupancy基准测试中超越了LiDAR ,成功了最先进的性能。代码已开源,欢迎大家试用和Star~
代码链接:论文链接:
Demo video 展现:
咱们对比了雷同驳回时序双目图像输入的VoxFormer-T,并用更少的输入帧数(3 vs. 4)取得了更好的预测成果,在场景全体规划、相机视线外区域、远距离灵活物体等的预测中体现出清楚长处。
基于相机的三维语义场景补全(SSC)关于从有限的二维图像观测中预测复杂的三维场景消息至关关键。现有的干流处置打算经过对历史帧消息的粗略重叠来试图补充视角下的不完整观测,这种便捷的时序建模形式无法防止地缩小了有效的视觉线索,参与了模型学习难度。
为了处置上述疑问,咱们提出了HTCL,一种陈腐的分层时序高低文学习范式,用于改良基于相机的语义场景补全。HTCL将时序高低文学习分解为两个档次步骤:(a)跨帧亲和度测量;(b)基于亲和度的灵活细化。首先,为了从冗余消息中分别关键相翻开下文,咱们提出了尺度感知隔离战略,用于构建多个独立的学习模块,进而建模细粒度高低文对应相关。随后,为了灵活补偿不完整的观测结果,咱们基于识别出的具备高亲和度特色的空间位置及其临近的相关区域,自顺应地细化特色采样位置。
咱们提出的分层时序高低文学习(HTCL)范式可以有效改良时序特色聚合的牢靠性,从而成功准确的三维语义场景补全。HTCL从不同期间帧的RGB图像中分层地推断三维语义Occupancy,以成功细粒度的场景了解。如下图所示,咱们提出的分层时时序下文建模包含两个顺序步骤:(1)显式地测量帧和历史帧之间的高低文特色亲和力,提取最相关的高亲和度特色;(2)基于高亲和力特色的空间位置及其左近的相翻开下文自顺应地细化采样位置,以灵活补偿不完整的观测。HTCL在翻新性方面关键做出了以下奉献:
如上图所示,咱们提出的方法全体框架关键由三个局部组成:Aligned Temporal Volume Construction,Voxel Feature Volume Construction,以及Reliable Temporal Aggregation。
成果如下图所示,跨帧形式亲和(CPA)有效地示意了期间内容中的高低文对应相关。
鉴于咱们的指标是成功并了解与帧相对应的三维场景,因此必定为最相关的位置调配更大的权重,同时也须要考查其临近的相关区域以补偿不完整的观察结果。为此,咱们提出基于亲和力的灵活细化(ADR),依据已确定的高亲和性位置及其临近相关区域,用三维可变形卷积自顺应地改良特色采样位置。详细来说,咱们经过引入基于亲和力的对应权重和可变形位置偏移来成功灵活细化:
为了进一步经过火层高低文推理灵活建模,咱们经过思考级联的不同特色层高低文消息 :
实验标明,咱们的方法在SemanticKITTI Benchmark上排名第一,并在OpenOccupancy BenchMark中取得了超越基于LiDAR方法的mIoU。
在SemanticKITTI基准测试中,咱们提出的方法清楚优于一切其余方法。与VoxFomer-T相比,咱们的方法即使在较少的历史输入(3 vs. 4)中也取得了清楚的相对增益。在OpenOccupancy基准测试中,虽然基于LiDAR的在IoU方面具备固有的长处,但咱们的HTCL在mIoU方面超越了一切其余方法(包含基于LiDAR的LMSCNet和JS3C-Net ),证实了咱们的方法在语义场景补全方面的有效性。
图5展现了咱们提出的方法与VoxFormer在SemanticKITTI上的定性比拟。可以观察到,真实环球的场景十分复杂,而注释的低空实况相对稀少,这给从有限的视觉线索中齐全重建语义场景带来了应战。与 VoxFormer 相比,咱们的方法能捕捉到更完整、更准确的场景规划(如第二行和第三行的十字路口)。此外,咱们的方法还能有效地补全摄像机视线外更多适合的风物(如第一行和第二行中的阴影区域),并在移生物体(如第二行中的卡车)方面体现出清楚的长处。图6展现了咱们的方法在 OpenOccupancy 上的预测结果,咱们提出的方法与GT相比,可以生成的结果更密集、更真实的Semantic Occupancy。