原题目:LidarDM: Generative LiDAR Simulation in a Generated World
论文链接:
代码链接:
作者单位:伊利诺伊大学 麻省理工学院
论文思绪:
本文提出了LidarDM,这是一种陈腐的激光雷达生成模型,能够发生真切、规划感知(layout-aware)、物理上可信以及期间上连接的激光雷达视频。LidarDM在激光雷达生成建模方面具有两个史无前例的才干:
(一)由驾驶场景疏导的激光雷达生成,为智能驾驶模拟提供了严重后劲;
(二)4D激光雷达点云生成,使得创立真切且期间上连接的序列成为或者。
本文模型的**是一个陈腐的综合4D环球生成框架。详细来说,本文驳回隐分散模型(latent diffusion models) 来生成3D场景,将其与灵活交通介入者(dynamic actors)结合,构成底层的4D环球,而后在这个虚构环境中发生真切的感知观测数据。
本文的试验标明,本文的方法在真切度、期间连接性和规参差致性方面优于竞争算法。本文还展现了LidarDM可以作为生成环球模型仿真器,用于训练和测试感知模型。
网络设计:
生成模型无了解数据散布和内容创作方面曾经变得有目共睹,例如在图像和视频生成[10, 33, 52–55]、3D物体生成[10,19,38,52]、紧缩[5,29, 68]以及编辑[37,47]等畛域。生成模型关于模拟[6, 11, 18, 34, 46, 60, 64, 66, 76, 82]也显示出清楚的后劲,能够创立真切的场景及其相关的感知数据,用于训练和评价安保关键的具身智能,如机器人和智能驾驶车辆,无需低廉的手工建模事实环球。这些才干关于依赖宽泛闭环训练或场景测试的运行至关关键。
虽然在条件图像和视频生成[15,27,35,44]方面的提高十分清楚,但为智能驾驶运行生成特定场景下真切的激光雷达点云序列的详细义务还未失掉充沛探求。目前的激光雷达生成方法关键分为两大类,每一类都面临着特定的应战:
为了应答这些应战,本文提出了 LidarDM(激光雷达分散模型),它能够发明出真切的、规划感知的、物理上可信的、以及期间上连接的激光雷达视频。本文探求了两种以前不曾触及的陈腐才干:(i) 由驾驶场景疏导的激光雷达分解,这对智能驾驶仿真具有渺小后劲,以及 (ii) 旨在发生真切且期间上连接的有标注的激光雷达点云序列的 4D 激光雷达点云分解。本文成功这些指标的关键洞察在于首先生成和组合底层的 4D 环球,而后在这个虚构环境中发明真切的感知观察。为了成功这一点,本文整合了现有的 3D 物体生成方法来创立灵活交通介入者(dynamic actors),并开发了一种基于隐分散模型(latent diffusion models) 的大规模 3D 场景生成的新方法。这种方法能够从毛糙的语义规划发生真切且多样化的 3D 驾驶场景,据本文所知,这是初次尝试。本文运行轨迹生成来发明灵活成果,同时确保交通介入者(actors)之间以及交通介入者(actors)与场景之间的实在互动。最后,本文在每个期间步骤组合 3D 环球,并口头随机光线投射模拟(stochastic raycasting simulation)以发生最终的 4D 激光雷达序列。如图 1 所示,本文生成的结果多样化,与规划条件对齐,既真切又期间上连接。
本文的试验结果标明,由 LidarDM 生成的单帧图像展现出真切性和多样性,其功能与最先进的无条件单帧激光雷达点云生成技术相当。此外,本文展现了 LidarDM 能够发生坚持期间连接性的激光雷达视频,逾越了持重的 stable diffusion 传感器生成基线。据本文所知,这是第一个具有此才干的激光雷达生成方法。本文进一步经过展现生成的激光雷达与实在激光雷达在婚配地图条件下的良好吻合,来证实 LidarDM 的条件生成才干。最后,本文说明了经常使用 LidarDM 生成的数据在用实在数据训练的感知模块测试时展现出最小的域差距,并且还可以用来裁减训练数据,清楚优化 3D 检测器的功能。这为经常使用生成的激光雷达模型发明真切且可控的仿真环境以训练和测试驾驶模型提供了前提。
图 1:本文展现了 LidarDM,这是一个陈腐的 4D 激光雷达生成模型。本文生成的激光雷达视频同时具有真切性、规划条件性、物理可信性、多样性和期间连接性的长处。
图 2:LidarDM 的运行:(a) 在没有 3D 捕捉或建模的状况下生成与地图严密对齐的激光雷达(黑白框突出显示激光雷达与地图之间的分歧性);(b) 为现有的交通模拟器(Waymax [20])提供传感器数据,使其能够仅从纯传感器数据评价安保关键场景;(c) 生成具有可控阻碍物位置的少量激光雷达数据(被视为收费取得的实在标签),以经过无需低廉数据捕捉和标注的预训练改良感知模型。
图 3:LidarDM 概览:给定期间 t = 0 时的交通规划输入,LidarDM 首先生成交通介入者(actors)和静态场景。而后,本文生成交通介入者(actors)和自车的静止,并构建底层的 4D 环球。最后,经常使用基于生成和物理的仿真来创立真切的 4D 传感器数据。
图 4:本文的 3D 场景生成流程。首先,累积的点云被用于重建每个实在网格样本。接上去,训练一个变分自编码器(VAE)将网格紧缩成隐式编码。最后,训练一个以地图为条件的分散模型,在 VAE 的隐空间内启动采样,发生新的样本。
图 5:用于感知噪声模拟的随机光线摈弃(raydrop)网络,进一步增强了实在感。本文在上面的掩码距离图和掩码激光雷达图像中用白色突出显示了光线摈弃的(raydropped)点。
试验结果:
图 6:实在的 KITTI-360 样本与来自竞争方法的无条件样本对比。UltraLiDAR 样本可视化间接从它们的论文中失掉。与之前的方法相比,LidarDM 生成的样本具有更少数量、更详细的清楚物体(例如,汽车、行人)、更明晰的 3D 结构(例如,直墙)以及更真切的路线规划。
图 7:在 2 Waymax [20] 地图序列上启动的以地图为条件的序列生成的定性结果。本文还展现了相应的累积点云,以突出 LidarDM 的时序分歧性。
总结:
本文提出了 LidarDM,这是一个陈腐的基于规划条件的隐分散模型(latent diffusion models) ,用于生成真切的激光雷达点云。本文的方法将疑问框定为一个联结的 4D 环球创立和感知数据生成义务,并开发了一个陈腐的隐分散模型(latent diffusion models) 来创立 3D 场景。由此发生的点云视频是实在的、连接的,并且具有规划感知(layout-aware)才干。
原文链接: