传统的智能驾驶关键可以分为感知、预测、规控三个大的局部,其中预测模块承当着十分关键的角色,为下游布局门路提供关键的消息。但是,事实环球驾驶环境的复杂性,其中包括多个灵活智能体(如车辆和行人)之间的相互作用,给预测形成了不小的应战。这其中有一个关键义务就是 轨迹预测 ,这触及到基于它们的形态和环境来预测周围智能体的未来移动。
传统上,静止预测模型预测单个智能体的轨迹,而没有思索它们之间的相互依赖性。在多智能体环境中,这种方法会造成次优的预测,由于它并不能捕捉到智能体之间的复杂交互。为了克制这些限度,最近的上班开局将 布局消息 归入轨迹预测环节,准许系统做出更理智的决策。
在过去几年,智能驾驶的轨迹预测也有了清楚的开展,许多方法应用多模态融合技术来提高准确性。比拟早期模型依赖于历史轨迹和地图数据,通常将这些输入结合起来做预测。近期的上班会经常使用基于transformer的架构,引入了留意力机制以更好地整合这些不同的模态。这些模型大大提高了智能驾驶系统的预测才干,尤其是在智能体与其环境灵活交互的场景中。另外,Planning-aware模型也作为提高轨迹预测的有效方法之一,比如:PiP和PRIME明白地将布局消息集成到预测框架中,准许系统在轨迹生成环节中思索未来的目的。但是,这些方法通常由于处置数据所触及的计算复杂性,在实时多智能体场景中体现并不理想。因此,基于分散的模型最近被提进去处置这些疑问,同时缩小计算累赘,同时坚持高预测性能。
在这项上班中,作者提出了轨迹消息布局分散(Trajectory-Informed Planning Diffusion,TIP-D)模型,该模型基于分散框架的长处,并间接将布局特色集成到静止预测环节中,目的是结合布局消息来提高轨迹预测的准确性和可解释性。作者的方法能够经过应用交叉留意力机制灵活融合布局特色与环境数据,同时预测多个智能体的轨迹。此外,TIP-D模型在计算复杂性上成功了清楚降落,与现有的最先进方法相比降落了80%以上,同时在复杂的多智能体驾驶场景中坚持了高准确性。
在静止预测中,准确的轨迹预测依赖于不同消息模态的整合,例如智能体的历史轨迹和地图数据。为了更好地捕捉静止灵活的复杂性,最近的钻研裁减到包括布局轨迹、交通形态和车道方向等额外模态。这些增强旨在提供对灵活环境更片面的了解,准许模型以更高的准确性预测轨迹。Wayformer提升留意力机制以提高计算效率,而Scene Transformer经常使用一致的架构有效治理多智能体交互。雷同,LatentFormer驳回基于Transformer的方法,结合潜在变量来提高预测精度。这些战略证实了整合多个消息模态关于更准确、更牢靠的静止预测的有效性。
Planning-aware轨迹预测是多模态预测方法的一个关键方面,其中蕴含灵活车辆消息的布局特色被整合到初级编码特色中。例如,PiP引入了一个双模块系统,其中布局耦合模块将未来布局注入交互特色中,目的融合模块编码和解码智能体之间的未来交互。PRIME经过经常使用基于模型的场景高低文进一步提升这种方法,经过查问各种张量生成保障可行性的未来轨迹。TPP专一于经过整合来自自我静止采样器的树状结构布局结果来改良布局轨迹,虽然它依然经常使用采样器的输入作为间接输入,而不是与地图交互。此外,像Multipath++这样的模型曾经证实了这些技术在静止预测应战中成功最先进的性能的有效性,特意是经过经常使用有效整合这些多模态消息源的先进留意力和基于分散的模型。作者的方法进一步开展了这一律念,成功了与Multipath++简直相当的性能,同时参数数量极少。
模型经常使用多模态嵌入战略将各种数据源,如历史轨迹、高清地图和布局轨迹,转换为一致的高维空间。这确保了模型能够捕捉到准确轨迹预测所需的复杂的空间和期间相关。
作者将损失函数制订为多项义务损失的总和,并经常使用辅佐学习方法来平衡它们。在训练阶段,作者还经常使用了联结损失来平衡最终输入和预测头部的输入,遵照TrackFormer的方法。
Argoverse 数据集蕴含 324,000 个场景,包括具体的轨迹序列、传感器数据(如 3D 激光雷达和摄像头图片)以及高清地图。数据集被划分为训练集、验证集和测试集,并支持轨迹预测的多模态融合。用于评价模型准确性和预测才干的目的包括最小平均位移误差(Minimum Average Displacement Error, minADE)、最小最终位移误差(Minimum Final Displacement Error, minFDE)、未命中率(Miss Rate, MR)和布里尔分数。
作者将提出的方法与最先进的Planning-aware静止预测技术启动比拟,包括 PIP 和 PRIME 。PRIME 作为基准,作者的方法显示出清楚的改良:minFDE 提高了 14.10%,minADE 提高了 30.33%,p-minADE 提高了 2.59%。作者的方法还优于基于图神经网络的方法,如 LaneGCN 、VDC 和 HGO。与基于分散的方法如 mmdiffusion 和 Scenediffusion 相比,作者的方法取得了更优越的结果,与 Multipath++ 相比参数数量缩小了 84.43%。
总之,作者提出的方法在 Argoverse 数据集上体现杰出,成功了更高的预测准确性和效率,同时清楚缩小了参数数量和计算开支。
作者在 Argoverse 数据集上经常使用 minFDE、minADE、Brier-minFDE 和 Brier-minADE 启动了消融钻研,以 mmdiffusion 作为基线。Planning-Aware Encoder,整合 PreFusion-D,改良了 minFDE、minADE、Brier-minFDE 和 Brier-minADE,区分提高了 7.81%、0.24%、1.87% 和 0.33%。裁减联结损失改良了 minFDE 0.24% 和 minADE 1.45%。为一切智能体增加回归造成了进一步的增益,区分为 0.82% 和 1.47%。
本文提出了一个Planning-aware的重叠分散网络,这是静止预测中的一个新框架。Planning-aware分散预测未来轨迹时会经常使用多模态特色,尤其是先前的布局特色。为了取得更好的融合性能,作者设计并探求了四个融合模块,将布局消息聚合到重叠分散中。作者还提出了一种新的损失函数,迫使网络关注可行驶区域。在 Argoverse 静止预测基准测试中启动的试验证实了作者模型的有效性。