写在前面 & 笔者的团体了解
人工智能(AI)在智能驾驶(AD)钻研中起着至关关键的作用,推进其向智能化和高效化开展。目前AD技术的开展关键遵照两条技术门路:模块化和端到端。模块化将驾驶义务合成为感知、预测、布局和控制等模块,并区分启动训练。由于模块之间的训练目的不分歧,综合效果存在偏向。端到端试图经过应用一个间接从传感器数据映射到控制信号的繁多模型来处置这个疑问。这条门路在一系列配置方面的学习才干有限,难以处置无法预测的长尾事情和复杂的市区交通场景。面对这两条门路中遇到的应战,许多钻研人员以为,具有弱小推理才干和宽泛知识了解的大型言语模型(LLM)或许是处置方案,希冀LLM为AD系统提供更深化的了解和决策才干。鉴于这两条门路都面临的应战,许多钻研人员以为,LLM仰仗其弱小的推理才干和宽泛的知识,可以提供一种处置方案。为了了解LLM能否可以增强AD,本文对LLM在AD系统中的潜在运前启动了深化剖析,包括探求其在模块化和端到端方法中的优化战略,特意关注LLM如何处置处置方案中存在的疑问和应战。此外,咱们还探讨了一个关键疑问:基于LLM的通用人工智能(AGI)能否成为成功高水平AD的关键?咱们进一步剖析了LLM在促成AD技术开展方面或许遇到的潜在局限性和应战。这项考查可以为相关畛域的跨学科钻研人员提供基础参考,并指点未来的钻研方向。
智能驾驶(AD)已成为现代交通畛域的一个关键钻研畛域,其最近的开展在很大水平上依赖于人工智能(AI)。人工智能的开展不时是AD开展的催化剂,即使是最繁难的初级驾驶辅佐系统(ADAS)也须要人工智能来成功。因此,可以经过AI设计的视角片面了解AD处置方案的开展。
设计AI的两种不同方式,即模块化和端到端处置方案,构成了AD的两种经常出现处置方案,如图1所示。第一种处置方案,即模块化处置方案,是人工智能系统设计之前的遗留疑问。这些处置方案将AD合成为几个独立的义务,通常包括感知、预测、方案和控制。虽然这种模块化简化了单个义务的成功,但它往往难以成功系统集成。不同的模型,每个模型都针对独立的目的,或许会造成系统内无法防止的差距和抵触,从而造成次优性能。因此,经过行动增强分歧性或许是一项艰难的应战。
第二种处置方案,即端到端处置方案,试图经过模拟人类行为的环节来处置这些疑问。端到端处置方案应用大规模神经网络,间接依据传感器输入控制车辆。曾经提出了不同的成功方式,包括模拟人类驾驶或基于控制结果的间接训练。但是,沿着这条门路的一切这些方法都有一个独特的缺陷,即消息通道过长和网络结构复杂,造成在训练和引入专家知识时难以收敛。此外,端到端算法训练中触及的数据关键与驾驶无关,而人类驾驶员在驾驶环节中应用知识和其余消息。这些应战限制了端到端算法的进一步改良。
除了这些详细疑问外,这两种处置方案无理想环球的运行中都面临着一些应战,包括确保鲁棒性、验证性、可解释性和高效的人机交互。因此,应答这些应战已成为AD钻研的关键重点,强调了有效处置方案的必要性。
2022年底ChatGPT问世以来,人工智能畛域掀起了一场新的反派。由于其庞大的规模、少量的数据和训练所触及的技术(例如,从人类反应中学习),大型言语模型(LLM)曾经具有了推理、数据生成和了解人类用意等才干。这些才干使LLM能够在各种人造言语处置(NLP)义务中逾越以前的模型。LLM在智能交通系统等各个畛域的运行正在回升。详细而言,LLM的才干为AD钻研中的上述应战提供了翻新的处置方案。例如,推理才干可以协助了解和适外地应答看不见的角落状况,提高鲁棒性。生成才干可用于测试用例生成。增强对人类用意的了解有助于处置可解释性疑问,改坏蛋机交互。
最近,LLM开创了AD钻研的一个新畛域。钻研人员越来越置信,LLM可以为传统AD处置方案提供新的视角。此外,有一种观念以为,LLM进一步为成功通用人工智能(AGI)铺平了路途,这让咱们回到了关于成功齐全AD的答辩。一些专家以为,大规模、通用、弱小的智能是必要的,而另一些专家则以为,规模较小的特定智能体就足以成功AD义务。站在这个十字路口,本文从AD系统实施的角度系统地概述了驳回LLM的最新AD停顿,重点探讨了以下疑问:
模块化处置方案将AD系统合成为不同的模块。通常,这些模块包括感知、预测、方案和控制。
感知触及环境消息的搜集、有用知识的提取以及了解环境的判别的构成。感知的准确性和片面性关于智能驾驶汽车(AV)有效地应答复杂的交通场景至关关键。感知义务最后仅限于“如何看?”的疑问。这指的是对周围物体的识别和跟踪,包括静态物体(如车道、交通讯号灯和其余交通基础设备)和灵活物体(如车辆和路途经常使用者)。随着过去二十年来传感技术的提高和机器学习(ML)的开展,这些基转义务不再构成应战。车道检测或交通讯号识别等基本运行如今可以在大少数状况下正确行动,为推行低级初级驾驶员辅佐系统(ADAS)铺平了路途。
更先进的传感器和神经网络结构也为感知算法提供了新的视角,感知算法曾经从对象级开展到场景级。俯瞰图(BEV)和基于Transformer的方法的出现使识别综合场景成为或许。BEV将车辆周围的多模态3D数据投影到2D地图上,确保数据示意的分歧性。Transformers最后是为NLP设计的,由于其弱小的留意力机制,曾经证实了它们在建模多源异构数据方面的有效性。这使得BEV示意能够熟练地捕捉片面的空间消息。遵照这一范式的方法,如BEVForme,在各种感知义务中表现出了出色的性能,成为关键的感知处置方案。但是,BEV在高度消息方面的无余限制了其示意3D体积的效率。占用网络经过间接学习体素中的3D消息、将3D外表描画为神经网络决策边界以及消弭对LiDAR点云的需求来允许BEV。它们融合了几何和语义来准确地描画场景,提高了感知效率和准确性。
随着情形消息的失掉不再具有应战性,目前的钻研重点已转向经过牢靠和详细的示意来片面了解环境的最终目的,即“What to see?”的疑问。这要求感知系统非特定地识别周围的物体,识别它们的属性和相互作用,并彻底了解场景。从历史上看,AD感知算法经常将时期和3D空间数据兼并到2D对象检测框架中(例如YOLO、CenterNet),兼并来自LiDAR、相机的输入,并应用PointNet等不同的深度学习模型启动消息处置。但是,在不同尺度(如时期、空间、义务相关)上整合特色带来了应战。
虽然取得了长足的提高,但现有的感知处置方案依然面临着几个应战。第一:
基于学习的方法严重依赖于训练数据,当遇到理想环球数据长尾散布中存在的角点状况时,它们的性能会清楚降低。第二:
的场景了解方法更像是繁难地整合一切数据和模态,而不是了解场景。最后:
这些应战凸显了AD的复杂性以及在该畛域启动继续钻研和翻新的必要性。
预测是AD环节中的一个关键组成局部,其目的是依据物体过去的静止轨迹预测物体(关键是行人和车辆)行未来到的静止轨迹。该模块最后不是AD上班流的一局部。随着过去二十年AD处置方案的演化,预测作为一个独立的局部逐渐惹起了人们的关注,弥合了感知和布局之间的差距。从配置上讲,它间接应用感知作为输入,而其输入则是后续布局和控制义务的关键参考。从时期的角度来看,预测代表了从过去到如今和未来的过渡,这是端到端上班流无法或缺的过渡。传统的预测方法关键是基于模型的。这些包括物理模型、用意模型和交互模型。这种方法在处置轨迹的不确定性方面存在局限性,特意是在较长的时期范围内。
在过去的十年中,基于学习的方法逐渐主导了预测义务的处置方案。例如,循环神经网络(RNN)及其衍生网络架构,如长短期记忆(LSTM)网络,在基于深度学习的预测范式中失掉了宽泛运行。其余经常使用的网络架构包括卷积神经网络(CNN)和图形留意力转换器。这些基于学习的方法清楚提高了更宽泛时期内预测的牢靠性和准确性,而BEV等感知技术的提高成功了多目的协同预测。这标记着预测建模畛域的开展,强调了单干预测战略在成功出色预测结果方面的关键性。依据目的的不同,最新的预测方法能够提供继续几秒甚至十多秒的轨迹准确预测。在大少数状况下,这关于后端AD义务来说是足够的。
目前对预测义务的钻研旨在提高灵活环境中的准确性,以提高AD的安保性和效率,这须要关注的不只仅是轨迹,还无状况。车辆必定了解并适当应答社会灵活或不同的环境,这可以归纳为另一个详细的应战:
应答这一应战将是朝着更准确和更先进的预测方法迈出的又一步。
布局是指智能驾驶汽车依据给定的交通环境和车辆的状况设置未来驾驶路途或轨迹的环节。依据详细的配置和布局范围(空间和时期),布局通常可分为路途布局、行为布局和轨迹布局(也称为静止布局)。详细而言,路途布局概述了车辆的路途网络级门路,通常称为“导航”。行为布局在布局路途上的关键航路点提供决策。轨迹布局生成了一个准确的时空轨迹,衔接车辆要遵照的路点。
虽然有各种目的和限制,但不同的布局义务可以以相似的方式制订,因此共享相似的方法。例如,原始布局方法来源于传统的搜查方法,包括A*、极速探求随机树等。这些被称为基于搜查的布局方法。基于优化的方法应用优化通常来搜查最优轨迹。与基于搜查的方法相比,这些方法在复杂场景中更省时。
基于学习的方法也出如今布局中。例如,强化学习(RL)在布局义务中失掉了宽泛的运行,布局义务通常被表述为马尔可夫决策环节。模拟学习(IL)为基于学习的方案提供了一种不同的范式。其余方法将神经网络与现有的布局方法相联合,或经常使用神经网络间接生成方案轨迹,为布局义务提供实时在线处置方案。
目前布局方法的钻研差距关键在于两个方面。第一:
这要求系统更好地整合来自前端模块的消息,同时处置承袭的不确定性。第二:
这将无利于布局环节的持重性和更好的性能。
传统模块化的最后一步是控制,它触及车辆沿着预设的方案轨迹行驶(轨迹跟踪)。这种环节的基本目的是使目的轨迹和实在车辆轨迹之间的误差最小化。其余控制目的包括提高稳固性或乘坐温馨性。
曾经为控制环节开发了各种控制器和方法。基本控制方法,如纯追踪[24],关键思索了车辆的静止学解放。相比之下,其余方法联合了车辆的灵活特性来成功更准确的控制。控制器,如模型预测控制(MPC),长于治理更复杂的场景。鉴于车辆相关于外部环境的固有稳固性和控制疑问的性质,基于学习的方法在控制义务中的经常使用频率较低。但是,混合控制器的出现值得留意,例如基于学习的MPC,它融合了传统控制器和基于学习的控制器。
车辆控制的关键应战在于一个疑问。
理想环球的场景包括从车辆到达稳固性阈值的极其操作条件到共性化控制要求。顺应各种场景须要控制用具有更好的鲁棒性和准确调整的空间。控制模块还须要与AD处置方案中的前端模块协调,以成功更好的性能。
与模块化处置方案相比,端到端AD驳回了不同的路途图。从狭义上讲,端到端AD试图模拟人类驾驶车辆的方式,其中经常使用一个大规模神经网络将原始传感器输入间接映射到车辆的轨迹点或控制命令。端到端AD的第一次性尝试,即神经网络中的自主陆地车辆,可以追溯到20世纪80年代。它试图将相机和Lidar的输入间接映射到车辆的转向控制。
随着机器学习方法的提高,端到端AD在过去十年中蓬勃开展。端到端AD中运行最宽泛的学习技术是IL。IL是一种监视学习方法,可进一步分为行为克隆和逆最优控制。端到端AD中触及的另一种学习方法是RL,并且运行了包括战略蒸馏在内的技术来提高算法的性能。此外,数据集的不时积攒、日益完善的测试环境和评价目的进一步减速了端到端AD的实践运行。经常使用端到端方法训练的Tesla FSD系统等AD系统曾经运行于放开环境。
随着对端到端处置方案的钻研不时深化,重点正转向这些处置方案面前的**理想,而不是其方式。端到端方案的集成方法为传输各种类型的消息和数据提供了一个一致的渠道。这最大限制地缩小了消息在不同模块或子义务之间传输环节中的失落和紧缩,这被以为是端到端处置方案的好处之一。运行这一理念,许多模块子义务的狭义“端到端”运行正在出现,特意是被划分为多个分层子义务的感知和布局模块。例如,“端到端”感知模块将传感器的数据作为输入,同时提供集成和完整的场景感知输入。这些通用的端到端模块使子义务的训练和行动愈加顺畅和高效。
与此同时,端到端AD系统的方式也在不时开展。例如,最新的一致端到端智能驾驶(UniAD)处置方案,被称为“模块化端到端AD”,集成了AD的三个关键义务和六个无所谓义务。每个模块在网络结构方面坚持相对独立。在训练环节中,每个模块在整个系统训练之前都经过预训练,以确保训练目的的分歧性。这种方法在闭环仿真验证中表现出了出色的性能,证实端到端处置方案的实质不必定是用单个网络成功一切义务。
虽然端到端处置方案正在迅速开展,并处置了模块化AD系统中的一些现有疑问,但还存在一些其余应战。与模块化AD相比,端到端系统在更大范围内应用神经网络,简直齐全依赖于训练数据,这两者都参与了训练环节中的应战。例如:
现代言语处置模型来源于两种范式:基于规定和统计。基于规定的言语模型依赖于手动定义的语法、语义和语用规定,经常使用一组手动规定生成人造言语。这种方法的局限性在于须要少量手动设置的规定,这使得在实在的言语语料库中笼罩一切场景变得具有应战性。另一方面,统计言语模型依赖于大型语料库中的词汇统计散布,例如在高低文中经常使用n个单词预测文本的n元语法模型。这些模型标记着言语处置中理性主义方法的开局。
随着深度学习的提高,钻研人员开局经常使用神经网络模型来学习人造言语的复杂结构和语义消息。RNN成为处置人造言语和其余时期序列疑问的经典模型框架。经过引入跨时期步长共享的循环结构和权重参数,RNN可以处置不同长度的人造言语文本序列并捕捉暗藏特色。LSTM网络是对传统RNN的改良,引入了存储单元,有选用地保管或遗记消息,以有效处置梯度隐没或爆炸等疑问。在此基础上启动的一些工程包括门控循环单元(GRU)。2017年,Transformer仰仗其弱小的高低文处置才干,逐渐开局运行于NLP义务。与之前的统计模型相比,这些基于神经网络的模型在处置言语中的示意和特色方面具有更好的方法,从而在特定的NLP义务中表现出更好的性能。
随着网络结构的提高,一种新的言语模型训练方法——预训练,也有助于言语模型的进一步开展。2018年,谷歌推出了BERT(变压器的双向编码器示意),这是一种基于留意力机制的预训练言语模型。它驳回两阶段战略,首先在大规模语料库上启动无监视预训练,而后对特定义务启动监视学习微调,以顺应下游义务。第一个生成预训练模型GPT-1也于2018年由OpenAI发布。GPT-1应用基于Transformer架构的网络模型,特意是仅经常使用解码器的结构,经过生成式预训练和判别式微调,在特定义务上成功了出色的性能。GPT-2是2019年发布的初级版本,也驳回了只要重叠编码器的结构。与GPT-1不同,它经常使用无监视学习形式,仅基于输入和义务概率模型预测输入。这些模型可以称为“预先训练的言语模型”,它们对零样本学习和迁徙学习具有关键意义,为LLM的开展铺平了路途。
LLM的参数到达必定规模(例如数十亿或数千亿),在过去三年中作为一种新兴的人工智能技术惹起了宽泛关注。它们承袭了预训练言语模型的结构和训练范式,并受益于其规模参与所提供的可裁减性和涌现效应。LLM不只在言语相关义务中成功了清楚的性能优化,而且还展现了高低文学习等才干,可以运行于其余不同的场景。2020年,在GPT-2的单向言语模型训练之后,引入了GPT-3,但经常使用了更大的模型和数据集。试验结果标明,GPT-3在小样本学习场景中取得了优秀的性能。2023年3月,OpenAI发布了GPT-4,同年5月,GPT-4的技术报举报布。与过去三个版本的GPT相比,GPT-4在小样本学习、逻辑推理、多形式了解、安保性和对更长高低文的允许方面取得了严重停顿。
相似的LLM还包括Genimi,它应用PaLM 2等初级言语模型在NLP和消息检索方面表现出色;Claude强调安保性和可解释性,在须要安保和对齐的人工智能系统的场景中尤其有价值;LLaMA,一种开源模型,经过提供一个可访问的平台来探求LLMs,对钻研界发生了严重影响;Command R专一于检索增强生成,以增强内容创立和业务运行。
大言语模型在智能驾驶中的运行
在AD感知义务中,LLMs促成了传统感知义务处置方案的改良,开拓了新的钻研方向。目前,LLMs在感知义务中的运行关键集中在以下几个方面:
首先,LLM可以间接用于传统的感知义务。虽然该言语很难间接用于失掉或形容周围环境,但它可以作为模态之间的缓冲区,并与视觉和激光雷达等模态联合,启动繁难的推理。这提高了感知义务的效率,并优化了不同场景下的性能。例如,[48]经常使用LLM来剖析行人的言语线索,从而提高行人检测的准确性。
此外,由于LLM能够了解复杂的场景,LLM已被间接用于对复杂场景的片面感知,整合各种感知消息以了解复杂的交通环境和驾驶状况。LLM经过火类、识别和了解交通场景中灵活和静态元素之间的相关,提高了对AD系统内复杂交互的了解。他们还对这些元素在时期和空间上的相互作用启动了推理,为应战II提供了处置方案。例如,[52]应用传统的3D感知管道来增强VLM的感知才干。在GPT-4V(ision)的路途上,[53]展现了VLM在处置非散布场景和在实践驾驶环境中识别用意方面的后劲。
LLM的综合才干也提醒了角案例的疑问,这是感知算法中一个值得关注的疑问(应战I)。[56]剖析了LLM了解AD场景的才干,确定了LLM成功类人表现的关键才干,指出LLM能够经过了解状况来处置AD中的关键疑问。
最后,LLMs还经过言语神态以各种方式增强现有的感知数据。这些运行程序不只促成了人与机器之间的透明可解释性,还促成了LLM进一步启动布局和控制,为应战III提供了一种或许的处置方案。例如,关于对象援用,[59]提出了一种一致的视觉言语模型,该模型可以援用人类指令中形容的对象并在图片框中生成边界框。[60]提出了一种基于GPT-4的高低文感知视觉接地框架。该框架可以照应人造言语指令,援用提到的关键对象,并提供对人类心情的剖析。基于OpenFlamingo VLM框架,经常使用扎根思想链指令训练了一个视觉言语模型,该模型旨在排汇类人才干作为对话式驾驶助手,以与AD义务坚持分歧。训练好的模型能够提供对场景的了解。
由于LLM的义务才干更强,预测义务以两种方式开展。一方面,预测通常是经常使用LLM与感知或布局相联合来成功的。这将提高系统的全体效率,并为预测局部提供更准确的消息。[67]嵌入人造言语形容和交通场景的光栅化图像示意,以成功轨迹预测。[68]经常使用LLM从过去的轨迹中得出静止线索,并将其与传统方法相联合,以更好地预测未来的轨迹。
另一方面,LLM应用其推理才干启动情形预测,为应战IV提供了局部处置方案。[71]提出了一种将高分辨率消息整合到多模态LLM中的方法。言语形式用于对低分辨率视频启动推理,并为高分辨率视频帧提供先验和亮点。该框架还依据预测的危险和情形为行将出现的行为提供了倡导。
LLMs的推理才干和知识使他们能够为车辆制订各种方案,并负责车辆驾驶员。通常,布局义务包括路途布局、行为布局、轨迹布局和混合布局。
关于路途布局,LLM可以经常使用地图消息、交通规定和用户用意来布局车辆的最佳路途。可以思索交通拥挤、路途树立和天气条件等因历来选用最繁难、最安保的门路。[73]将LLM运行于周围环境的行动形容、导航指令和其余相关消息,以提供市区环境中的元举措级导航序列。[74]经常使用LLM提取用户的用意,并相应地以形容和地图注释的方式提供路途布局。
内行为布局方面,LLM可以选择车辆在不同状况下的行为,如减速、减速、变道和避开阻碍物。这种元举措决策可以经常使用人造言语来了解和行动,须要综合思索车辆动力学、周围环境和其余车辆的行为。[76]提出了一个继续学习框架,以增强AD中多模态LLMs的行为决策。[77]应用LLMs依据特定状况提供元举措级行为。LLMs能够学习专业司机的阅历,逐渐提高他们的驾驶技艺。
关于轨迹布局,除了定量元举措外,LLM还可以为车辆提供更准确的轨迹,例如包括转弯、超车和停车在内的轨迹。[80]应用LLM的闭环框架在复杂场景中提供定性静止布局。副驾驶框架能够以坐标点的方式为车辆提供详细的轨迹[81]。
关于混合布局,LLM的推理才干也使混合布局(应战V)成为或许。这种混合管道整合了不同档次的布局,甚至局部感知,构成了“端到端”的布局处置方案。[52]提出了一种蕴含场景形容、场景剖析和档次布局的思想链(CoT),以构成车辆的轨迹方案。[82]提出了一种“GPT驱动程序”,应用GPT作为AD义务的静止布局器,经过“提醒推理微调”环节成功。[83]在实践驾驶义务中经常使用了LLM,其中LLM用于生成布局车辆静止的代码。下游控制器也被用来控制车辆。
除了在布局中间接运行LLM外,另一种经常出现的方法是将LLM与现有的布局方法相联合。LLM经过推理或增强来提高传统方法的性能。这可以称为基于模型的布局(处置应战VI)。[86]提出了一种应用LLM来提高感知、预测和布局性能的框架。
由于控制义务对极速照应的要求,LLM目前很难间接交流现有的控制器。但是,由于LLM的了解和推理才干,他们可以在更高的档次上介入控制义务,例如与布局义务相联合,以提高效率和对不同场景的顺应性(处置应战VII)。[88]将LLM与MPC相联合,在AD场景中准确控制车辆。LLM在此环节中提供初级决策,并经常使用相应的矩阵对MPC控制器启动微调。该框架也被以为实用于多车辆控制场景。
还屡次尝试将LLM间接运行于AD车辆的控制。它们中的大少数将方案和控制相联合,依据元举措提供更准确的控制器消息。[81]提出了一种经常使用ChatGPT作为控制器选用器的Co-Pilot框架,该框架可以成功所需的义务并调整其输入以正确满足人类用意。
作为一种更系统的处置方案,LLM介入了端到端AD处置方案实施环节中的不同步骤,总结如下。
基于学习的AD算法,特意是端到端处置方案,在很大水平上依赖于海量数据。因此,作为处置方案的一局部,提出了许多用于训练基于LLM的端到端算法的新数据集。这些数据集大多蕴含人造言语注释,因此提供了一个片面的渠道,经过这个渠道,言语可以在训练和成功环节中运行。这种注释也可以作为一种提炼的知识,从而提高训练效率。[92]经常使用基于Graph VQA的上班流来成功端到端AD,提供了一个包括数据集、义务、基线和目的的全体处置方案。[65]集成视频帧和文本作为输入,模型的输入包括照应和预测控制信号。训练环节蕴含两个阶段,预训练和混合微调,后一阶段经常使用ChatGPT注释数据。
表1列出了更具代表性的LLM相关数据集。值得留意的是,这些数据集的奉献不只限于端到端的处置方案,由于它们为一切AD义务的开发和验证提供了关键的参考。这些数据集中人造言语的比例参与,从繁难的标签过渡到人造言语形容或问答格局,也造成了与感知相关的应战II和III。例如,[50]提出了一个基于NuScene数据集的数据集,其中蕴含3D驾驶场景中物体的人造言语注释。
除了基于实在场景的数据集外,在LLM生成才干的协助下,场景生成也成为AD数据集的一个关键方面。这种才干有助于处置数据散布的长尾疑问,提高训练效率。[95]提出了一个框架,即LCTGen,用于基于形容和地图数据生成灵活交通场景启动模拟。LLM用于将场景的人造言语形容转换为场景的结构化示意。SimCopilot应用LLM将对象交互的人造言语形容转换为虚构路途场景的编程代码,大大简化了AD系统交互数据的创立。WEDGE数据集间接经常使用DALLE大模型生成场景图像,模拟各种天气条件下的二维路途和交通场景,这是构建AD数据集的一种新尝试。
作为端到端代理的大言语模型
LLM自身可以充任代理,同时成功一切驾驶义务。Agent Driver应用LLM作为车辆的智能代理。该代理旨在经过函数调用访问驾驶消息,并充任人类。[110]提出了一种架构,该架构将场景消息编码为数字向量,并运行预训练的LLM来了解场景并提供静止水平控制。它还能够提供其行为的要素,提高处置方案的可解释性。[111]提出了一种开创性的AD通用环球模型,该模型集成了多模态LLM和分散技术,使其能够间接预测控制信号,并依据历史视觉举措对生成未来帧,从而模拟有限的驾驶体验。Graph VQA成功了基于VLM的端到端AD流水线。在这种方法中,视觉疑问疏导推理环节经过不同的阶段,在复杂的场景中取得了清楚的性能。
正如应战IX所述,端到端AD处置方案的训练不时是一个关键的话题。法学硕士关键经过更好的推理和反思提高了这一环节的效率。[113]提出了一种新的端到端AD数据集和基准,其中包括传感器数据、控制决策和CoT标签,以批示推理环节。它还提出了一个基线模型DriveCoTAgent,在该数据集上启动训练,以生成CoT预测和最终决策,在开环和闭环评价中表现出弱小的性能,并提高了端到端驱动系统的可解释性和可控性。DriveGPT4能够在模拟环境中行动零样本泛化,显示出提高训练效率的后劲。
除了间接成功AD义务外,LLM还宽泛运行于允许AD的运行,包括人机交互、安保、品德和偏心疑问。关于人机交互,[114]提出了一个框架,可以经过评价和迭代优化经常使用LLM行动AD义务的代码。[115]提出了一个以人为中心的框架,将LLM整合到AD的布局中,在复杂的驾驶义务中提供有用的协助,并经过推理回应不同的查问。AccidentGPT可以照应驾驶员的查问,或智能提供详细倡导(例如减速)和驾驶安保通知。
大言语模型会成为智能驾驶的灵丹妙药吗?
在第4节中,咱们系统地展现了LLM在AD中的运行越来越多。这些运行涵盖了AD的整个畛域,许多运行展现了LLMs逾越现有AD算法并应答前面探讨的应战的后劲。依据咱们的考查和剖析,咱们试图经过基于LLM的AD处置方案的停顿,提供对这些现有应战曾经或估量将如何处置的见地。因此,咱们将这些见地分为以下三个档次,并在表2中形容了应战。
如表2所示,咱们可以得出论断,LLM在为现有AD算法中的应战提供有效处置方案方面表现出了渺小的后劲。详细而言,咱们以为LLMs在AD义务中的表现关键源于以下几个方面。
咱们留意到,LLM的这些好处局部处置了数据驱动学习算法遗留上去的几个常年缺陷。这些算法在AD成功中失掉了宽泛的运行,给AD义务带来了特定的应战。因此,LLM能够为他们提供处置方案。此外,咱们可以得出论断,这象征着从以数据为中心的模型向应用数据和知识的混合模型的转变。这种双重驱动的方法联合了两种范式的好处。从行动驾驶义务的角度来看,这种转变也使实施环节更相似于人类决策,这或许是AD的最终目的。咱们估量未来数据和知识将在相当长的一段时期内共存,或许以LLM的方式表现进去,知识在AD处置方案中的作用逐渐凸显。未来的钻研应并重于如何更好地整合数据驱动和基于知识的方法,以提高AD处置方案的训练和实施效率。
虽然取得了各种提高,但咱们必定指出,LLM在AD中的进一步运行面临着许多局限性和应战。作为一种安保关键场景,这些局限性须要在未来的钻研中失掉更多的关注。其中一些局限性关键是由于LLM性能的缺陷,这些缺陷承袭了它们的模型结构、训练方法或成功。
其余应战来自LLM和AD义务的联合。
在LLM运行于理想环球的AD运行之前,须要处置这些应战,但咱们置信,LLM和相关AD处置方案的极速开展将不时为这些应战提供新的见地。
自AD概念提出以来,钻研人员不时在探求成功这一目的的不同途径。针对不同的技术门路,曾经启动了许多探讨。因此,咱们想回忆一下其中的一些探讨,并就AD的最终处置方案提出一些认识。
端到端 or 模块法智能机爱谁
模块化和端到端方法不时是AD技术探讨的前沿。本文的引言局部总结了这两种门路的一些优缺陷。但是,LLMs为这场探讨带来了新的亮点。一方面,LLM的出现含糊了模块化和端到端方法之间的界限。LLM的多配置性使其能够同时成功多项义务,从而打破了传统的模块化界限。例如,LLM行动的许多布局义务间接基于原始传感器输入。从配置上讲,这种成功涵盖了从感知到布局的一切方面,在方式上,它们可以被视为凑近端到端的成功。咱们以为,随着模型泛化才干的增强,这种含糊或许会成为一种趋向。
另一方面,钻研人员曾经开局愈加关注端到端方法的**,而不是方式自身。端到端处置方案的好处可以概括为提供一致的信道,缩小不同模块之间的消息传输损失。换言之,只需确保消息的完整传递,方式上的差异就不再关键。这也是UniAD“模块化端到端”的来源。这种端到端方法方式的转变也或许为端到端算法的测试和验证等现有疑问提供处置方案。
因此,咱们可以置信,端到端和模块化在方式上的区别将继续削弱,但思索到系统的安保性和鲁棒性,一些成熟的模块(如ADAS)将在实践运行中常年保管。
通用人工智能与驾驶智能
最后,咱们得出了AD畛域常年存在的一个争执:高度先进的AGI关于成功最佳AD能否无法或缺?一方面,正如咱们之前提到的,LLMs所领有的知识和其余知识内行动AD义务中施展了关键作用。虽然咱们还不能确定LLM能否是AGI的关键途径点,但它们在必定水平上满足了人们对AGI的希冀。运行人造言语的才干使他们能够有效地从庞大的人类言语语料库中学习,并以易于了解的方式与人类互动。另一方面,人类的驾驶技艺相对独立。例如,一位阅历丰盛的卡车司机或许没有受过初等教育,而AD钻研人员或许没有驾照。这象征着通用人工智能不必定是最佳AD的惟一处置方案。
从理想主义的角度来看,构建一个驾驶智能实体仿佛更容易。咱们距离AGI还有很长的路要走,而随着大模型、环球模型等的成熟,驾驶智能更容易成功。假设咱们能够开发专门用于驾驶智能的算法,咱们或许能够处置更多与大型模型相关的疑问。但是,成功这一目的也带来了许多应战。首先,最优AD的定义依然有些含糊。什么样的驾驶战略可以被称为最优,依然是一个值得进一步钻研和探讨的话题。此外,理想化最优驾驶模型自身的实施也存在一些应战。例如,由于人类认知的局限性,准确定义最佳驾驶所需的知识是具有应战性的。图2从知识的角度说明了这一点。最佳驾驶所需的一些知识或许还没有一种方法可以总结,例如阅历丰盛的驾驶员在关键状况下做出的直观判别。
另一方面,咱们置信LLMs在不久的未来仍将是AGI类药物的最佳方式之一。因此,LLM驱动的AD仍将是一个值得留意的钻研前沿。为了进一步优化LLM在AD义务中的运行,咱们以为可以在以下畛域启动钻研。首先,优化LLM自身的结构,设计更有效的培训方法。与现有模型相比,这些改良可以增强模型在推理、知识等方面的才干。此外,设计更好的结构可以协助缩小微和谐本地部署时期的计算功耗。这有助于在智能车辆中部署LLM,改善照应时期长的疑问,并降低运行LLM的老本。此外,在AD和LLM的集成中可以启动各种优化。例如,在预训练阶段引入更多与AD相关的数据。现有智能车辆的软件和配件结构也可以启动优化,以允许LLM的系统级集成运行。
总的来说,这个疑问或许在很大水平上取决于人工智能技术的后续开展:通用人工智能的开展能否成功极速打破,或许驾驶智能模型能否更快地成功。咱们以为,在相当长的一段时期内,这两种方法都有其好处,将共存或相互备份,就像模块化和端到端处置方案一样。