论文链接:名目网页:代码开源:
大型实践驾驶数据集推进了无关智能驾驶数据驱动静止布局器的各个方面的钻研,包含数据增强、模型架构、鼓励设计、训练战略和布局器架构。在处置复杂和少样本状况下,这些方法有较好的体现。然而由于设计过于复杂或训练范式的疑问,这些方法在布局性能上的泛化才干有限。在本文中,咱们回忆并比拟了以前的方法,重点关注泛化才干。试验结果显示,随着模型的适当裁减,许多设计元素变得冗余。咱们引见了StateTransformer-2 (STR2),这是一种可裁减的、仅经常使用解码器的静止布局器,它联合了Vision Transformer (ViT) 编码器和混合专家(MoE) 的Transformer架构。MoE主干经过训练时期的专家路由处置了模态解体和鼓励平衡疑问。在NuPlan数据集上的少量试验标明,咱们的方法在不同测试集和闭环模拟中比以前的方法具备更好的泛化才干。此外,咱们评价了其在实在市区驾驶场景中的可裁减性,显示出随着数据和模型规模的增长其分歧的准确性优化。
上方咱们详细解释STR2的模型设计。咱们选用的不是向量化的输入,而是栅格化图片的输入,可以繁难启动规模化训练。输入还参与了聚类的轨迹作为疏导线,结果可以看到在大曲率的场景体现会更正当一些。输入经过一个经常使用MoE架构增强的Transformer模型,自回归的模式输入疏导线类别,关键点以及轨迹。
ViT编码器。 咱们驳回仅解码的ViT图像编码器,以成功更好的可裁减性和性能,它由重叠的12层Transformer组成。栅格化的图像被切分红16个小块。咱们选用GeLU作为ViT编码器的激活函数。
Mixture-of-Expert。 言语建模义务要求模型从复杂且通常具备统计争议的专家数据鼓励中学习和成功平衡。受MoE模型在言语建模义务上泛化结果的启示,咱们将GPT-2主干网络交流为MoE主干网络用于序列建模。MoE层经过公用内核和专家并行(EP)提供了更好的内存效率。咱们还应用了Flash Attention2 和数据并行(DP)以提高训练效率。
自回归。 在生成序列中咱们参与了聚类轨迹作为嵌入特色用于模态分类,并经常使用交叉熵损失。咱们经常使用K-Means聚类,从0.7百万个随机选用的灵活可行轨迹中按其时空距离提取了512个候选轨迹。每条归一化的轨迹包含未来8秒的80个轨迹点(x, y和偏航角)。
liauto数据集上的规模化试验。 咱们驳回了liauto数据集启动了scaling law的探求,liauto数据集是一个工业级的超大规模事实环球驾驶数据集。该数据集包含车道级导航地图和来自7个RGB摄像头、1个LiDAR和1个毫米波雷达(MMWR)的传感器设置的跟踪结果。咱们选用了过去6个月内搜集的市区驾驶场景,其中没有任何人工标注。咱们挑选出失误的导航路途,由于这些路途与实践的未来驾驶轨迹不婚配。最终,咱们将一切驾驶日志从新整顿为长达10秒的训练和测试样本,其中包含过去的2秒和未来的8秒。最终的训练数据集领有超越1b训练样本。试验结果(如图2)可以看到随着数据规模的参与以及模型参数的参与,test loss都有降低的趋向。平衡思考训练老本和收益的相关,咱们最后驳回的为800m的模型。
从图3 nuplan闭环仿真的结果可以看到STR2取得了片面SOTA。结果来看专家轨迹的NR分数较高,R的分数却很低,说明专家轨迹没有一个顺应环境变动的才干,仿真环境和实车有必定的区别。结果可以看出PDM-Hybrid相比于其余的方法的R得分清楚高于NR,说明生成-评价的范式在模型泛化性能上体现优秀。咱们自创了PDM的生成-评价范式,基于STR2模型的输入结果启动了候选轨迹生成,再经过PDM打分器输入得分最高的轨迹。
图4可视化结果可以看出PDM-Hybrid轨迹由于基于车道中心线,没有被动变道和绕障的才干,咱们的模型由于泛化性能强,所以很多场景下体现比PDM-Hybrid正当很多。本上班在nuplan testhard 数据集上的试验结果证实了生成-评价范式的正当性。关于生成-评价范式,在后续上班中咱们还可以有更多尝试,例如如何在模型层面输入更正当的候选轨迹,如何将未来的不确定性思考进打分器中,同时可以思考将本文的方法作为真值标注的一种模式,协助模型朝着更正当的方向迭代。为了感触模型的泛化性能咱们将nuplan数据训练获取的模型间接运行于liauto数据集上推理,结果体现良好,关于灵活阻碍物的避让交互等都有正当的输入。