End to End methods for Autonomous Driving
近几年,智能驾驶技术的开展堪称是突飞猛进。从2021年的BEV+Transformer范式到2022年的Occupancy网络,再到2023年以来,“端到端”思绪被炒得炽热,如今各大厂商简直都推出了自己的做端到端系统:2023年8月特斯拉颁布FSD V12;2024年4月商汤绝影颁布面向量产的端到端智能驾驶处置方法UniAD;2024年5月,百度颁布Apollo ADFM作为支持L4级别智能驾驶的大模型;2024年5月,小鹏汽车也颁布自己的端到端大模型蕴含感知大模型XNet+规控大模型XPlanner+大言语模型XBrain三个局部……
不论是服务器厂还是智驾处置打算供应商,每一家都有自己的端到端算法,但是究竟什么是端到端?业内不时在讨论,没有一个明白的定义。但是笔者以为,来自大佬王乃岩的知乎回答,或许可以给读者们提供一些思索。便捷总结就是:输入各种传感器的数据,可以间接输入控制信号的或许行驶轨迹的,可以称之为 狭义端到端 ;而 狭义端到端 可以以为是提供了一种关于感知消息(兴许是隐式)的片面示意,能够智能地 无损地 作用于PnC的模型。
关于咱们智能驾驶从业人员来说,follow新的技术,不时是咱们的上班之一。当天笔者就带来一份详细的端到端智能驾驶论文的总结,供大家学习入门。
论文链接:论文2022.7论文作者:Shengchao Hu, Li Chen, Penghao Wu, et al.所属团队:上海交通大学人工智能试验室,上海市人工智能试验室,加利福尼亚州圣地亚哥分校,et al.
这篇论文提出了一个名为ST-P3的端到端视觉基础智能驾驶系统,旨在经过空间-期间特色学习来优化智能驾驶义务中的感知、预测和布局性能。现有的智能驾驶范式通常驳回多阶段扩散的流水线义务,但这种方法的缺陷在于各个阶段间或许存在消息损失和不分歧性。为了克制这些疑问,ST-P3驳回了一种一体化的方法,间接从原始传感器数据生成布局门路或控制信号,从而在整个网络中同时优化特色示意。ST-P3系统的**在于其空间-期间特色学习打算,该打算经过三个关键的技术改出去增强特色学习: 自我中心对齐累积技术 (Ego-centric Aligned Accumulation):在感知阶段,该技术经过预测深度消息将多视角相机输入的特色转换到3D空间,并在变换到俯瞰图(BEV)之前,将过去和的3D特色启动累积,以保管几何消息。 双通道建模 (Dual Pathway Modelling):在预测阶段,ST-P3不只思索形态的不确定性,还结合了过去的静止变动,经过两个通道来增强对未来场景的预测才干。 先验常识精细化单元 (Prior-Knowledge Refinement):在布局阶段,ST-P3应用从早期网络阶段取得的两边示意来布局安保温馨的轨迹,并引入一个精细化模块来进一步优化轨迹,思索如交通讯号灯等视觉元素。
论文链接:论文2023.3论文作者:Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, et al.所属团队:OpenDriveLab, OpenGVLab,上海人工智能试验室, 武汉大学, 商汤科技钻研院
在传统的智能驾驶系统中,感知、预测和布局义务通常由独立的模型区分处置,这种模块化的方法只管简化了研发流程,却存在着消息在模块间传递时失落、误差累积以及特色对齐疑问。UniAD经过一个一致的网络将这些义务整合在一同,优化了义务间的消息流通和协调,从而清楚优化了整个系统的性能和牢靠性。UniAD的**是其端到端的设计,它将多个关键义务——包括目的检测、多目的跟踪、在线地图构建、静止预测、占用预测和布局——封装在一个网络中。这种设计准许系统从全局视角捕捉驾驶场景的语义和几何消息,并经过一致的查问接口成功不同义务间的有效通讯。例如,感知模块的输入可以间接用于预测模块,而预测结果又可以指点布局器制订安保有效的行驶战略。从成功的角度说,UniAD驳回了Transformer解码器结构,应用自留意力机制来处置感知和预测义务中的序列化数据。它经过TrackFormer启动目的的检测和跟踪,经过MapFormer实如今线地图构建,经过MotionFormer预测其余车辆和行人的未来静止轨迹,经过OccFormer预测未来场景的占用网格图。最终,布局器结合这些消息,经常使用非线性优化战略生成最终的行驶轨迹,确保智能驾驶车辆能够安保地导航。
论文链接:论文2023.5论文作者:Hao Shao, Letian Wang, Ruobing Chen, et al.所属团队:商汤科技钻研院, 多伦多大学, 香港中文大学 MMLab, 上海人工智能试验室
ReasonNet是为处明智能驾驶车辆在市区密集交通场景中部署的应战而设计的端到端驾驶框架。该框架特意关注于预测场景的未来演化和对象的未来行为,以及处置稀有的不利事情,如遮挡对象的突然浮现。这些才干关于确保智能驾驶车辆能够安保、牢靠地运转至关关键。框架的**在于其两个翻新的推理模块:时序推理和全局推理。时序推理模块经过分析和融合不同帧之间的特色,有效地处置了对象随期间的静止和相互作用,同时保养了一个记忆库来存储和应用历史特色,这有助于对遮挡对象启动追踪和预测。全局推理模块则进一步增强了框架的才干,经过模拟对象与环境之间的交互和相关,来识别和处置不利事情,尤其是那些或许被遮挡的对象,从而提高了全体的感知性能。为了片面评价框架的性能,钻研者开发了DriveOcclusionSim,这是一个蕴含多种遮挡事情的驾驶模拟基准测试。ReasonNet的成功不只体如今通常上,更在于其在实践模拟环境中的出色体现。该框架经过多义务学习,联结目的包括对象检测、占用预测、交通标记预测和门路点预测,提高了对复杂交通场景的片面了解。此外,框架中的感知模块能够处置和融合来自多个传感器的数据,生成对导航至关关键的俯瞰图特色。控制战略则应用预测的门路点和交通标记来指点智能驾驶车辆的行驶。
论文链接:论文2023.8论文作者:Tengju Ye2, Wei Jing3, Chunyong Hu, et al.所属团队:西湖大学,Udeer.ai,菜鸟网络,阿里巴巴个人
这篇论文提出了一个名为FusionAD的新型智能驾驶多模态融合神经网络框架,初次探求了如何将相机和激光雷达的消息融合,以端到端的形式优化预测和布局义务。详细来说,钻研者首先构建了一个基于Transformer的多模态融合网络,有效地发生基于融合的特色。与基于相机的端到端方法UniAD相比,FusionAD进一步建设了一个融合辅佐的模态感知预测和形态感知布局模块(FMSPnP),该模块应用多模态特色启动优化。在nuScenes数据集上启动的宽泛试验标明,FusionAD在感知义务(如检测和跟踪)上平均提高了15%,在占用预测精度上提高了10%,在平均位移误差(ADE)分数上从0.708降落到0.389,并缩小了碰撞率从0.31%到0.12%。这些结果标明,FusionAD在预测和布局义务上到达了过后最先进的性能,同时在两边感知义务上也坚持了竞争力。FusionAD的**奉献在于提出了一种基于BEV(俯瞰图)融合的多传感器、多义务端到端学习方法,与仅基于相机的BEV方法相比,大大改良了却果。钻研者提出的FMSPnP模块结合了模态自留意力和细化网络,用于预测义务,以及安适的碰撞损失和与矢量化自我消息的融合,用于布局义务。试验钻研标明,FMSPnP提高了预测和布局结果。
论文链接:论文2023.8论文作者:Bo Jiang, Shaoyu Chen, Qing Xu, et al.所属团队:华中科技大学,地平线
VAD经过将驾驶场景建模为齐全矢量化的示意来成功高效和安保的轨迹布局。与依赖于密集光栅化场景示意(例如语义地图、占用地图等)的传统方法相比,VAD应用矢量化的智能体静止和地图元素作为明白的实例级布局解放,不只提高了布局的安保性,还清楚优化了计算效率。在nuScenes数据集上的试验标明,VAD在缩小布局误差和碰撞率方面取得了打破性停顿,同时大幅提高了推理速度,这关于智能驾驶系统的实践部署至关关键。VAD的**长处在于其翻新的矢量化布局解放,这些解放包括自车的碰撞解放、自我边界越界解放和自我车道方向解放,它们独特作用于布局轨迹,确保了智能驾驶车辆在复杂交通环境中的安保性和正当性。此外,VAD驳回了BEV(俯瞰图)查问和agent查问,经过留意力机制隐式学习场景特色,并应用这些特色指点布局决策。VAD的端到端学习框架准许模型间接从传感器数据中学习,无需依赖预先构建的地图或复杂的后处置步骤,这一点在提高布局速度和缩小计算资源消耗方面施展了关键作用。
论文链接:论文2024.2论文作者:Shaoyu Chen, Bo Jiang, Hao Gao, Bencheng Liao, et al.所属团队:华中科技大学,地平线
VADv2是一篇探求概率布局在端到端智能驾驶中的运行的钻研论文。这项上班的**是处置传统确定性布局方法在处置布局不确定性时的无余,特意是在面对非凸可行解空间时的应战。本文提出的模型驳回概率布局范式,将布局战略视为环境条件化的非颠簸随机环节,经过从大规模驾驶演示中学习,来拟合延续布局举措空间的概率散布。输入是多视图图像序列,这些图像以流式传输的形式被转换成环境token嵌入,模型输入举措的概率散布,并从中采样一个举措来控制车辆。这样的概率布局方法具备两个清楚长处。首先,概率布局能够对每个举措与环境之间的相关性启动建模,与只能为目的布局举措提供稠密监视确实定性建模不同,概率布局可以为布局词汇表中的一切候选举措提供监视,从而带来更丰盛的监视消息。其次,概率布局在推理阶段十分灵敏,能够输入多模态布局结果,并且易于与基于规定和基于优化的布局方法相结合。此外,咱们可以灵敏地将其余候选布局举措参与到布局词汇表中,并评价它们,由于咱们对整个举措空间启动了散布建模。VADv2的框架包括场景编码器、概率布局模块和训练环节。场景编码器将传感器数据转换为实例级token嵌入,包括地图token、智能体token、交通元素token和图像token。概率布局模块则应用大规模驾驶演示和场景解放来监视预测的散布。训练环节中,VADv2驳回散布损失、抵触损失和场景token损失三种监视信号,以学习从驾驶演示中失掉的概率散布。
论文链接:论文2024.5论文作者:Wenchao Sun, Xuewu Lin, Yining Shi, et al.所属团队:清华大学,地平线
这篇论文提出了SparseDrive,一种端到端的智能驾驶系统,旨在处置现有智能驾驶模型在布局安保性和效率方面的无余。传统的智能驾驶系统驳回模块化设计,将感知、预测和布局等义务解耦为独立的模块,这造成了消息失落和误差累积。而端到端的方法只管在优化时能够片面思索,但其性能和效率通常不尽人意,特意是在布局安保方面。SparseDrive经过探求稠密场景示意和从新扫视端到端智能驾驶的义务设计,提出了一种陈腐的范式。详细来说,SparseDrive由一个对称的稠密感知模块和一个并行静止布局器组成。稠密感知模块经过对称的模型架构一致了检测、跟踪和在线地图构建义务,学习驾驶场景的齐全稠密示意。并行静止布局器则应用从稠密感知中取得的语义和几何消息,同时启动静止预测和布局,发生多模态轨迹,并驳回分层布局选用战略,包括碰撞感知重分模块,以选用正当且安保的轨迹作为最终布局输入。SparseDrive的设计有效提高了端到端智能驾驶的性能和效率。在nuScenes数据集上的试验结果标明,SparseDrive在一切义务的性能上都大幅逾越了先前的最先进方法。此外,SparseDrive的碰撞感知重分模块和多模态布局方法,使得布局器能够基于静止预测结果评价布局轨迹的碰撞危险,并据此调整轨迹的得分,从而确保了布局的安保性。SparseDrive的这些设计选用经过宽泛的消融试验失掉了验证,证实了其在提高布局性能方面的有效性。
论文链接:论文2024.6论文作者:Zhenxin Li, Kailin Li, Shihao Wang, et al.所属团队:英伟达,复旦大学,华东师范大学,北京理工大学,南京大学,南开大学
Hydra-MDP是一篇讨论端到端智能驾驶多模态布局的论文,提出了一种陈腐的多老师模型范式,经过从人类和基于规定的老师那里启动常识蒸馏来训练在校生模型。经过一个多头解码器来成功多模态布局,该解码器学习针对不同评价目的量身定制的多样化轨迹候选。与传统的端到端方法不同,Hydra-MDP不依赖于无法微的后处置环节,而是应用基于规定的老师的常识,以端到端的形式学习环境如何影响布局。Hydra-MDP的处置打算包括感知网络和轨迹解码器两个关键局部。感知网络基于官网应战基线Transfuser构建,应用图像和激光雷达数据提取环境token,这些tokens编码了丰盛的语义消息。轨迹解码器则驳回固定布局词汇表来团圆化延续举措空间,并经过多层变换器编码器和解码器结合环境线索。论文的关键翻新之一是多目的Hydra蒸馏战略,经过两步环节裁减学习目的:首先,对整个训练数据集的布局词汇启动离线模拟;其次,在训练环节中引入模拟得分的监视。这种战略将规定基础的驾驶常识蒸馏到端到端布局器中,优化了闭环性能。
论文链接:论文2024.6论文作者:Mingzhe Guo, Zhipeng Zhang, et al.所属团队:北京交通大学,卡尔动力KARGOBOT
这篇论文提出了一种名为UAD(nsupervised pretext task for end-to-endutonomousriving)的新方法,旨在处置端到端智能驾驶(E2EAD)模型在环境感知和预测义务中对低廉的模块化和手动3D标注的依赖疑问。UAD的**翻新在于引入了一个无监视的前置义务,经过预测驾驶场景中的角空间对象性和时序灵活来模拟环境,从而消弭了对手动标注的需求。此外,UAD驳回了自监视的训练战略,经过学习在不同增强视图下预测轨迹的分歧性,增强了在转向场景中的布局鲁棒性。UAD方法的提出基于对现有E2EAD模型的观察,这些模型通常模拟传统驾驶栈中的模块化架构,须要少量高品质的3D标注数据来监视感知和预测子义务。这种设计只管取得了打破性停顿,但存在清楚的缺陷:一是对大规模训练数据的裁减造成了严重阻碍;二是每个子模块在训练和推理中都须要少量的计算开支。为了处置这些疑问,UAD框架驳回了一个陈腐的角度感知预文本设计,经过预测BEV空间中每个扇区区域的对象性来失掉空间常识,并经过自回归机制预测未来形态来捕捉时序消息。在试验中,UAD在nuScenes数据集上取得了最佳的放开环路评价性能,并在CARLA模拟器中展现了持重的闭环路驾驶品质。
论文链接:论文2024.8论文作者:Chengran Yuan, Zhanqi Zhang, Jiawei Sun, et al.所属团队:新加坡国立,Moovita
这篇论文引见了一种叫作DRAMA的新型端到端静止布局器,它基于Mamba模型,旨在处明智能驾驶畛域中的静止布局疑问。静止布局是智能驾驶车辆的**才干之一,它担任生成在复杂和高度灵活环境中既安保又可行的轨迹。但是,由于其余路线经常使用者的用意预测、交通标记和信号的了解、路线拓扑结构的复杂性等起因,成功牢靠和高效的轨迹布局是一个应战。DRAMA经过融合相机、激光雷达俯瞰图(BEV)图像以及自车形态消息,生成一系列未来自车轨迹。与传统基于Transformer的方法相比,这些方法由于留意力机制的二次复杂度而在序列长度上计算量大,DRAMA经过缩小计算密集度的留意力复杂度,展现出处置日益复杂场景的后劲。应用Mamba融合模块,DRAMA高效且有效地融合了相机和激光雷达模态的特色。此外,论文还引入了Mamba-Transformer解码器,增强了全体布局性能,这一模块普遍适用于任何基于Transformer的模型,尤其是关于长序列输入的义务。论文还引入了一种陈腐的特色形态摈弃(Feature State Dropout, FSD)机制,该机制经过在训练和推理时不参与期间的状况下,经过缩小有缺陷的传感器输入和失落的自车形态的不利影响,提高了布局器的鲁棒性。详细来说,DRAMA驳回了一个编码器-解码器架构,其中编码器应用多尺度卷积和Mamba融合模块有效地从相机和激光雷达BEV图像中提取特色,并经过FSD模块增强模型的鲁棒性。解码器则驳回了Mamba-Transformer解码层来生成自车的未来轨迹。这种架构不只提高了模型的效率和性能,而且经过缩小模型大小和训练老本,提高了模型的可裁减性和适用性。论文的试验局部展现了DRAMA在多种场景下的布局结果,包括在没有明白交通讯号控制的状况下准确口头停车让行行人的命令,以及在低速场景中熟练地启动停车操作。