端到端自動(dòng)駕駛突然就火了,綜述也是一篇接著一篇。汽車人現(xiàn)在非常期待特斯拉的V12版本,End-to-End AI is coming!
端到端自動(dòng)駕駛是一種很有前途的模式,因?yàn)樗荛_了與模塊化系統(tǒng)相關(guān)的缺點(diǎn),比如較高的系統(tǒng)復(fù)雜性。自動(dòng)駕駛超越了傳統(tǒng)的交通模式,提前主動(dòng)識(shí)別關(guān)鍵事件,確保乘客的安全,并提供舒適的交通環(huán)境,特別是在高度隨機(jī)和可變的交通環(huán)境中。本文全面回顧了端到端自動(dòng)駕駛技術(shù)。首先闡述了自動(dòng)駕駛?cè)蝿?wù)的分類,包含端到端神經(jīng)網(wǎng)絡(luò)的使用,涵蓋了從感知到控制的整個(gè)駕駛過程,同時(shí)解決了現(xiàn)實(shí)世界應(yīng)用中遇到的關(guān)鍵挑戰(zhàn)。分析了端到端自動(dòng)駕駛的最新發(fā)展,并根據(jù)基本原理、方法和核心功能對(duì)研究進(jìn)行了分類。這些類別包括感知輸入、主要輸出和輔助輸出、從模仿到強(qiáng)化學(xué)習(xí)的學(xué)習(xí)方法以及模型評(píng)估技術(shù)。本文還調(diào)查了包括對(duì)可解釋性和安全性方面的詳細(xì)討論。最后評(píng)估了最先進(jìn)的技術(shù),確定了挑戰(zhàn),并探索了未來的可能性。
總結(jié)來說本文的主要貢獻(xiàn)如下:
這是第一篇專門探討使用深度學(xué)習(xí)的端到端自動(dòng)駕駛的綜述論文。我們對(duì)基本原理、方法和功能進(jìn)行了全面分析,深入研究了該領(lǐng)域的最新技術(shù)進(jìn)步;
我們提出了一個(gè)詳細(xì)的分類(圖2),基于輸入模式、輸出模式和基本的學(xué)習(xí)方法。此外還對(duì)安全性和可解釋性方面進(jìn)行了全面檢查,以識(shí)別和解決特定領(lǐng)域的挑戰(zhàn);
我們提出了一個(gè)基于開環(huán)和閉環(huán)評(píng)估的評(píng)估框架。此外還總結(jié)了一份公開可用的數(shù)據(jù)集和仿真的匯總列表。最后評(píng)估了最近的方法,并探索了有趣的未來可能性。
端到端系統(tǒng)體系結(jié)構(gòu)
通常,模塊化系統(tǒng)被稱為中間范式,并被構(gòu)建為離散組件的管道(圖3),連接傳感器輸入和運(yùn)動(dòng)輸出。模塊化系統(tǒng)的核心過程包括感知、定位、建圖、規(guī)劃和車輛控制。模塊化流水線首先將原始傳感器數(shù)據(jù)輸入到感知模塊,用于障礙物檢測(cè),并通過定位模塊進(jìn)行定位。隨后進(jìn)行規(guī)劃和預(yù)測(cè),以確定車輛的最佳和安全行程。最后控制器生成安全操縱的命令。模塊化系統(tǒng)的詳細(xì)概述可在補(bǔ)充材料中找到。
另一方面,直接感知或端到端驅(qū)動(dòng)直接從傳感器輸入輸出自車運(yùn)動(dòng)。它優(yōu)化了駕駛管道(圖3),繞過了與感知和規(guī)劃相關(guān)的子任務(wù),允許像人類一樣不斷學(xué)習(xí)感知和行動(dòng)。Pomerleau Alvinn首次嘗試了端到端駕駛,該公司訓(xùn)練了一個(gè)三層傳感器運(yùn)動(dòng)全連接網(wǎng)絡(luò)來輸出汽車的方向。端到端駕駛基于傳感器輸入輸出自車運(yùn)動(dòng),這種運(yùn)動(dòng)可以是各種形式的。然而,最突出的是相機(jī)、LiDAR、導(dǎo)航命令、和車輛動(dòng)力學(xué),如速度。這種感知信息被用作主干模型的輸入,主干模型負(fù)責(zé)生成控制信號(hào)。自車運(yùn)動(dòng)可以包含不同類型的運(yùn)動(dòng),如加速、轉(zhuǎn)彎、轉(zhuǎn)向和蹬踏。此外,許多模型還輸出附加信息,例如安全機(jī)動(dòng)的成本圖、可解釋的輸出或其他輔助輸出。
端到端駕駛有兩種主要方法:要么通過強(qiáng)化學(xué)習(xí)(RL)探索和改進(jìn)駕駛模型,要么使用模仿學(xué)習(xí)(IL)以監(jiān)督的方式訓(xùn)練駕駛模型,以模仿人類駕駛行為。監(jiān)督學(xué)習(xí)范式旨在從專家演示中學(xué)習(xí)駕駛風(fēng)格,作為模型的訓(xùn)練示例。然而,擴(kuò)展基于IL的自動(dòng)駕駛系統(tǒng)具有挑戰(zhàn)性,因?yàn)椴豢赡芨采w學(xué)習(xí)階段的每個(gè)實(shí)例。另一方面,RL的工作原理是通過與環(huán)境的互動(dòng),隨著時(shí)間的推移最大化累積獎(jiǎng)勵(lì),網(wǎng)絡(luò)根據(jù)其行為做出駕駛決策以獲得獎(jiǎng)勵(lì)或處罰。雖然RL模型訓(xùn)練是在線進(jìn)行的,并且可以在訓(xùn)練過程中探索環(huán)境,但與模仿學(xué)習(xí)相比,它在利用數(shù)據(jù)方面的效果較差。表I總結(jié)了端到端駕駛的最新方法。
輸入模態(tài)
1)相機(jī):基于相機(jī)的方法在端到端驅(qū)動(dòng)中顯示出了有希望的結(jié)果。例如,Toromanoff等通過在城市環(huán)境中使用基于視覺的方法贏得 CARLA 2019自動(dòng)駕駛挑戰(zhàn)賽。使用單目和雙目是圖像到控制端到端駕駛的自然輸入方式。
2)激光雷達(dá):自動(dòng)駕駛的另一個(gè)重要輸入源是LiDAR傳感器。LiDAR能夠抵抗光照條件,并提供準(zhǔn)確的距離估計(jì)。相比其他感知傳感器,激光雷達(dá)數(shù)據(jù)最豐富,提供的空間信息最全面。它利用激光來檢測(cè)距離并生成點(diǎn)云,點(diǎn)云是空間的3D表示,其中每個(gè)點(diǎn)都包含反射傳感器激光束的表面的(x,y,z)坐標(biāo)。在定位車輛時(shí),生成里程測(cè)量結(jié)果至關(guān)重要。許多技術(shù)利用LiDAR在鳥瞰圖 (BEV)、高清 (HD)地圖和SLAM中進(jìn)行特征映射。這些定位技術(shù)可以分為基于配準(zhǔn)的方法、基于特征的方法和基于學(xué)習(xí)的方法。
3)多模態(tài):多模態(tài)在關(guān)鍵感知任務(wù)中優(yōu)于單模態(tài),并且特別適合自動(dòng)駕駛應(yīng)用,因?yàn)樗Y(jié)合了多傳感器數(shù)據(jù)。根據(jù)何時(shí)組合多傳感器信息,信息利用可分為三大類。在早期融合中,傳感器數(shù)據(jù)先進(jìn)行組合,然后再將其輸入可學(xué)習(xí)的端到端系統(tǒng)。在中期融合中,信息融合是在一些預(yù)處理階段或一些特征提取之后完成的。在后期融合中,輸入被單獨(dú)處理,它們的輸出被融合并由另一層進(jìn)一步處理。
4)語義表示:端到端模型也可以將語義表示作為輸入。這種表示側(cè)重于學(xué)習(xí)車輛及其環(huán)境的幾何和語義信息。
它通常涉及將各種感知傳感器的幾何特征投影到圖像空間,例如鳥瞰圖和范圍視圖。雖然原始RGB圖像包含所有可用信息,但事實(shí)證明,顯式合并預(yù)定義的表示并將其用作附加輸入可以增強(qiáng)模型的彈性。Chen等在學(xué)習(xí)的語義圖上采用循環(huán)注意力機(jī)制來預(yù)測(cè)車輛控制。此外,一些研究利用語義分割作為導(dǎo)航目的的附加表示。
5)導(dǎo)航輸入:端到端駕駛模型可以包含高級(jí)導(dǎo)航指令或?qū)W⒂谔囟ǖ膶?dǎo)航子任務(wù),例如車道維護(hù)和縱向控制。導(dǎo)航輸入可以源自路徑規(guī)劃器或?qū)Ш矫睢B窂绞怯扇忠?guī)劃器提供的全球定位系統(tǒng)(GPS)坐標(biāo)中的一系列離散端點(diǎn)位置定義的。
TCP模型接收相關(guān)的導(dǎo)航指令,例如留在車道上、左/右轉(zhuǎn)和目標(biāo),以生成控制動(dòng)作,如圖4(c)所示。FlowDriveNet考慮了全局規(guī)劃器的離散導(dǎo)航命令和導(dǎo)航目標(biāo)的坐標(biāo)。除了上述輸入之外,端到端模型還包含車輛動(dòng)力學(xué),例如自車輛速度。圖4(b)說明了NEAT如何利用速度特征來生成航路點(diǎn)。
輸出模態(tài)
通常端到端自動(dòng)駕駛系統(tǒng)輸出控制命令、航跡點(diǎn)或軌跡。此外,它還可能產(chǎn)生額外的表示,例如成本圖和輔助輸出。圖4說明了一些輸出模式。
a) 航跡點(diǎn):預(yù)測(cè)未來航跡點(diǎn)是一種更高級(jí)別的輸出模式。幾位作者使用自回歸路點(diǎn)網(wǎng)絡(luò)來預(yù)測(cè)差分路點(diǎn)。軌跡也可以表示坐標(biāo)系中的航路點(diǎn)序列。使用模型預(yù)測(cè)控制(MPC)和比例積分微分(PID)將網(wǎng)絡(luò)的輸出航路點(diǎn)轉(zhuǎn)換為低級(jí)轉(zhuǎn)向和加速度??v向控制器考慮連續(xù)時(shí)間步路點(diǎn)之間矢量的加權(quán)平均值的大小,而橫向控制器考慮它們的方向。理想的航跡點(diǎn)取決于所需的速度、位置和旋轉(zhuǎn)。橫向距離和角度必須最小化,以最大化獎(jiǎng)勵(lì)(或最小化偏差)。利用航跡點(diǎn)作為輸出的好處是它們不受車輛幾何形狀的影響。此外,控制器更容易分析航跡點(diǎn)以獲取轉(zhuǎn)向等控制命令。連續(xù)形式的航跡點(diǎn)可以轉(zhuǎn)化為特定的軌跡。
b) 懲罰函數(shù):為了車輛的安全操縱,許多軌跡和航跡點(diǎn)都是可能的。成本用于在可能性中選擇最佳的一種。它根據(jù)最終用戶定義的參數(shù)(例如安全性、行駛距離、舒適度等)為每個(gè)軌跡分配權(quán)重(正分或負(fù)分)。Zeng等采用神經(jīng)運(yùn)動(dòng)規(guī)劃器,使用成本量來預(yù)測(cè)未來的軌跡。Hu等采用了一種成本函數(shù),該函數(shù)利用學(xué)習(xí)到的占用概率場(chǎng)(由分割圖(圖4(f))表示)和交通規(guī)則等先驗(yàn)知識(shí)來選擇成本最小的軌跡。
c)直接控制和加速:大多數(shù)端到端模型在特定時(shí)間戳提供轉(zhuǎn)向角和速度作為輸出。輸出控制需要根據(jù)車輛的動(dòng)力學(xué)進(jìn)行校準(zhǔn),確定適當(dāng)?shù)霓D(zhuǎn)彎轉(zhuǎn)向角度以及在可測(cè)量距離處停止所需的制動(dòng)。
d) 輔助輸出:輔助輸出可以為模型的運(yùn)行和駕駛動(dòng)作的確定提供附加信息。幾種類型的輔助輸出包括分割圖、BEV圖、車輛的未來占用率以及可解釋的特征圖。如圖 4(e) 和 (f) 所示,這些輸出為端到端管道提供了附加功能,并幫助模型學(xué)習(xí)更好的表示。輔助輸出還有助于解釋模型的行為,因?yàn)槿藗兛梢岳斫庑畔⒉⑼茢嗄P蜎Q策背后的原因。
學(xué)習(xí)方法
以下是端到端駕駛的不同學(xué)習(xí)方式。
模仿學(xué)習(xí)
模仿學(xué)習(xí)(IL)基于從專家演示中學(xué)習(xí)的原則,通常由人類執(zhí)行。這些演示訓(xùn)練系統(tǒng)模仿專家在各種場(chǎng)景(例如車輛控制)中的行為。大規(guī)模的專家駕駛數(shù)據(jù)集很容易獲得,可以通過模仿學(xué)習(xí)利用這些數(shù)據(jù)集來訓(xùn)練按照類人標(biāo)準(zhǔn)執(zhí)行的模型(見圖 5)。Alvinn 是模仿學(xué)習(xí)在端到端自動(dòng)駕駛車輛系統(tǒng)中的第一個(gè)應(yīng)用,展示了以高達(dá)55英里/小時(shí)的速度駕駛汽車的能力。它經(jīng)過訓(xùn)練,可以使用從人類駕駛員收集的實(shí)時(shí)訓(xùn)練數(shù)據(jù)來預(yù)測(cè)轉(zhuǎn)向角。行為克?。˙C)、直接策略學(xué)習(xí)(DPL)和逆強(qiáng)化學(xué)習(xí)(IRL)是模仿學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域的延伸。
模仿學(xué)習(xí)的主要目標(biāo)是訓(xùn)練一個(gè)策略,將每個(gè)給定狀態(tài)映射到相應(yīng)的動(dòng)作(圖 5),盡可能接近給定的專家策略,給定具有狀態(tài)動(dòng)作對(duì)的專家數(shù)據(jù)集:
1)行為克隆:行為克隆是監(jiān)督模仿學(xué)習(xí)任務(wù),其目標(biāo)是將專家分布中的每個(gè)狀態(tài)-動(dòng)作組合視為獨(dú)立同分布(IID)示例,并最大限度地減少訓(xùn)練策略的模仿?lián)p失:
行為克隆假設(shè)專家的行為可以通過觀察得到充分解釋,因?yàn)樗?xùn)練模型根據(jù)訓(xùn)練數(shù)據(jù)集直接從輸入數(shù)據(jù)映射到輸出數(shù)據(jù)(圖6)。然而在現(xiàn)實(shí)場(chǎng)景中,有許多潛在變量影響和控制駕駛代理。因此有效地學(xué)習(xí)這些變量至關(guān)重要。
2)直接策略學(xué)習(xí):與將傳感器輸入映射到控制命令的模仿學(xué)習(xí)相反,直接策略學(xué)習(xí)旨在直接學(xué)習(xí)將輸入映射到駕駛行為的最優(yōu)策略。它使智能體能夠探索周圍環(huán)境并發(fā)現(xiàn)新穎且高效的駕駛策略。相比之下,行為克隆受到訓(xùn)練數(shù)據(jù)集的限制,僅包含特定行為,在新場(chǎng)景上可能表現(xiàn)不佳。在線模仿學(xué)習(xí)算法DAGGER提供了針對(duì)級(jí)聯(lián)錯(cuò)誤的魯棒性并提高了泛化性。然而,直接策略學(xué)習(xí)的主要缺點(diǎn)是在培訓(xùn)過程中持續(xù)需要專家的參與,這既昂貴又低效。
3)逆強(qiáng)化學(xué)習(xí):逆強(qiáng)化學(xué)習(xí)(IRL)旨在通過獎(jiǎng)勵(lì)函數(shù)推斷潛在的特定行為?;谔卣鞯腎RL教授高速公路場(chǎng)景中的不同駕駛方式。人類提供的示例用于學(xué)習(xí)不同的獎(jiǎng)勵(lì)函數(shù)以及與道路使用者交互的能力。最大熵(MaxEnt)逆強(qiáng)化學(xué)習(xí)是基于最大熵原理的基于特征的IRL的擴(kuò)展。該范例有力地解決了獎(jiǎng)勵(lì)模糊性并處理次優(yōu)化。主要缺點(diǎn)是 IRL 算法的運(yùn)行成本昂貴。它們對(duì)計(jì)算的要求也很高,在訓(xùn)練過程中不穩(wěn)定,并且可能需要更長(zhǎng)的時(shí)間才能收斂到較小的數(shù)據(jù)集。需要更高效的計(jì)算方法來獲得獎(jiǎng)勵(lì)函數(shù)。
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)是解決分布轉(zhuǎn)移問題的一種有前途的方法。它的目標(biāo)是通過與環(huán)境交互來隨著時(shí)間的推移最大化累積獎(jiǎng)勵(lì),并且網(wǎng)絡(luò)根據(jù)其行為做出駕駛決策以獲得獎(jiǎng)勵(lì)或懲罰。IL無法處理與訓(xùn)練數(shù)據(jù)集顯著不同的新情況。然而,強(qiáng)化學(xué)習(xí)對(duì)于這個(gè)問題很魯邦,因?yàn)樗谟?xùn)練期間探索了所有相關(guān)場(chǎng)景。強(qiáng)化學(xué)習(xí)涵蓋各種模型,包括基于價(jià)值的模型,例如深度Q網(wǎng)絡(luò)(DQN),基于actor-critic的模型,例如深度確定性策略梯度(DDPG)和異步優(yōu)勢(shì)行動(dòng)者批評(píng)家(A3C),最大熵模型,例如Soft Actor Critic(SAC),以及基于策略的優(yōu)化方法,例如信任區(qū)域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO)。
Liang展示了第一個(gè)有效的基于視覺的驅(qū)動(dòng)管道的強(qiáng)化學(xué)習(xí)方法,其性能優(yōu)于當(dāng)時(shí)的模塊化管道。他們的方法基于深度確定性策略梯度(DDPG),這是actor-critic算法的擴(kuò)展版本。
最近,人機(jī)循環(huán)(HITL)方法在文獻(xiàn)中引起了關(guān)注。這些方法的前提是專家論證為實(shí)現(xiàn)高回報(bào)政策提供了寶貴的指導(dǎo)。一些研究的重點(diǎn)是將人類專業(yè)知識(shí)融入到傳統(tǒng)強(qiáng)化學(xué)習(xí)或IL 范式的訓(xùn)練過程中。EGPO就是一個(gè)這樣的例子,它旨在開發(fā)一種專家指導(dǎo)的策略優(yōu)化技術(shù),其中專家策略監(jiān)督學(xué)習(xí)代理。
HACO允許智能體探索危險(xiǎn)環(huán)境,同時(shí)確保訓(xùn)練安全。在這種方法中,人類專家可以干預(yù)并指導(dǎo)代理避免潛在的有害情況或不相關(guān)的行為(見圖7(b))。一般來說,專家可以為模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)提供高級(jí)別的監(jiān)督。最初可以使用模仿學(xué)習(xí)來教授策略,然后使用強(qiáng)化學(xué)習(xí)來完善策略,這有助于減少強(qiáng)化學(xué)習(xí)所需的大量訓(xùn)練時(shí)間。
其他學(xué)習(xí)方法
明確設(shè)計(jì)具有部分組件的端到端系統(tǒng)的學(xué)習(xí)方法涵蓋各種方法,包括多任務(wù)學(xué)習(xí)、面向目標(biāo)的學(xué)習(xí)和SP-T3等特定技術(shù)。此外,像PPGeo這樣的自監(jiān)督學(xué)習(xí)框架利用未標(biāo)記的駕駛視頻來建模駕駛策略。這些方法旨在訓(xùn)練能夠有效處理多個(gè)任務(wù)的模型,針對(duì)特定目標(biāo)進(jìn)行優(yōu)化,并結(jié)合專門的技術(shù)來增強(qiáng)端到端系統(tǒng)的性能和功能。
學(xué)習(xí)從模擬器到真實(shí)的域適應(yīng)
可以在虛擬引擎中構(gòu)建大規(guī)模虛擬場(chǎng)景,從而更輕松地收集大量數(shù)據(jù)。然而,虛擬數(shù)據(jù)和現(xiàn)實(shí)世界數(shù)據(jù)之間仍然存在顯著的領(lǐng)域差異,這給創(chuàng)建和實(shí)現(xiàn)虛擬數(shù)據(jù)集帶來了挑戰(zhàn)。通過利用領(lǐng)域適應(yīng)原理,我們可以直接從模擬器中提取關(guān)鍵特征,并將從源領(lǐng)域?qū)W到的知識(shí)轉(zhuǎn)移到由準(zhǔn)確的現(xiàn)實(shí)世界數(shù)據(jù)組成的目標(biāo)領(lǐng)域。
H-Divergence 框架通過對(duì)抗學(xué)習(xí)域分類器和檢測(cè)器來解決視覺和實(shí)例級(jí)別的域差距。Zhang提出了一種模擬器-真實(shí)交互策略,利用源域和目標(biāo)域之間的差異。作者創(chuàng)建了兩個(gè)組件來協(xié)調(diào)全球和本地層面的差異,并確保它們之間的整體一致性。隨后逼真的合成圖像可用于訓(xùn)練端到端模型。
一些工作利用虛擬LiDAR數(shù)據(jù)。Sallab對(duì)來自CARLA的虛擬LiDAR點(diǎn)云進(jìn)行學(xué)習(xí),并利用CycleGAN將樣式從虛擬域轉(zhuǎn)移到真實(shí)的KITTI數(shù)據(jù)集。關(guān)于規(guī)劃和決策差異,Pan提出了在具有現(xiàn)實(shí)框架的模擬環(huán)境中學(xué)習(xí)駕駛策略,然后再將其應(yīng)用于現(xiàn)實(shí)世界。
安全性
確保端到端自動(dòng)駕駛系統(tǒng)的安全是一項(xiàng)復(fù)雜的挑戰(zhàn)。雖然這些系統(tǒng)具有高性能潛力,但為了維護(hù)整個(gè)管道的安全,一些考慮因素和方法至關(guān)重要。首先使用涵蓋廣泛場(chǎng)景(包括罕見和危急情況)的多樣化、高質(zhì)量數(shù)據(jù)來訓(xùn)練系統(tǒng)。[23]表明,針對(duì)關(guān)鍵場(chǎng)景的培訓(xùn)有助于系統(tǒng)學(xué)習(xí)穩(wěn)健且安全的行為,并為其應(yīng)對(duì)環(huán)境條件和潛在危險(xiǎn)做好準(zhǔn)備。這些場(chǎng)景包括十字路口處無保護(hù)的轉(zhuǎn)彎、行人從遮擋區(qū)域出現(xiàn)、激進(jìn)的變道以及其他安全啟發(fā)法,如圖 8(b) 和 (c) 所示。
將安全約束和規(guī)則集成到端到端系統(tǒng)中是另一個(gè)重要方面。系統(tǒng)可以通過在學(xué)習(xí)或后處理系統(tǒng)輸出期間納入安全考慮因素來優(yōu)先考慮安全行為。安全約束包括安全成本函數(shù)、避免不安全的操作和避免碰撞策略。Zeng等明確負(fù)責(zé)安全規(guī)劃的成本量。為了避免不安全的操作,Zhang等消除不安全的航點(diǎn),Shao等引入InterFuser(圖8(a)),它僅約束安全集中的動(dòng)作,并僅引導(dǎo)最安全的動(dòng)作。上述約束確保系統(tǒng)在預(yù)定義的安全邊界內(nèi)運(yùn)行。
實(shí)施額外的安全模塊和測(cè)試機(jī)制(表 II、表 III)可增強(qiáng)系統(tǒng)的安全性。對(duì)系統(tǒng)行為的實(shí)時(shí)監(jiān)控可以檢測(cè)異常或安全操作偏差。Wu等提出了一種軌跡+控制模型,可以預(yù)測(cè)長(zhǎng)范圍內(nèi)的安全軌跡。Hu等還采用目標(biāo)規(guī)劃器來確保安全。這些機(jī)制確保系統(tǒng)能夠檢測(cè)并響應(yīng)異?;蛞馔馇闆r,從而降低發(fā)生事故或不安全行為的風(fēng)險(xiǎn)。
如表二所示,對(duì)抗攻擊方法被用于端到端駕駛測(cè)試,以評(píng)估輸出控制信號(hào)的正確性。這些測(cè)試方法旨在識(shí)別漏洞并評(píng)估針對(duì)對(duì)手的穩(wěn)健性。端到端測(cè)試表 (III) 確定給定場(chǎng)景內(nèi)的正確控制決策。變質(zhì)測(cè)試通過驗(yàn)證不同天氣和照明條件下轉(zhuǎn)向角度的一致性來解決預(yù)言機(jī)問題。它提供了一種可靠的方法來確保轉(zhuǎn)向角保持穩(wěn)定且不受這些因素的影響。差異測(cè)試通過比較同一場(chǎng)景的推理結(jié)果,揭示了不同 DNN 模型之間的不一致。如果模型產(chǎn)生不同的結(jié)果,則表明系統(tǒng)中存在意外行為和潛在問題?;谀P偷念A(yù)言機(jī)采用經(jīng)過訓(xùn)練的概率模型來評(píng)估和預(yù)測(cè)真實(shí)場(chǎng)景中的潛在風(fēng)險(xiǎn)。通過監(jiān)視環(huán)境,它可以識(shí)別系統(tǒng)可能無法充分處理的情況。
安全指標(biāo)提供了評(píng)估自動(dòng)駕駛系統(tǒng)性能的定量措施,并評(píng)估系統(tǒng)在安全方面的功能。碰撞時(shí)間 (TTC)、沖突指數(shù) (CI)、碰撞潛在指數(shù) (CPI)、反應(yīng)時(shí)間 (TTR) 等一些指標(biāo)可以提供各種方法的安全性能之間的額外客觀比較并識(shí)別區(qū)域 需要改進(jìn)的地方。安全指標(biāo)對(duì)于監(jiān)控和開發(fā)安全可靠的駕駛解決方案至關(guān)重要。表IV 提供了這些指標(biāo)的詳細(xì)描述。
可解釋性
可解釋性是指理解代理邏輯的能力,重點(diǎn)關(guān)注用戶如何解釋模型輸入和輸出之間的關(guān)系。它包含兩個(gè)主要概念:可解釋性,涉及解釋的可理解性;完整性,涉及通過解釋詳盡地定義模型的行為。Cui等區(qū)分了對(duì)自動(dòng)駕駛汽車的三種信心:透明度,指的是人預(yù)見和理解車輛操作的能力;技術(shù)能力,與了解車輛性能有關(guān);情況管理,其中涉及用戶可以隨時(shí)重新獲得車輛控制權(quán)的概念。根據(jù)哈斯皮爾等人的說法,當(dāng)人類參與時(shí),解釋起著至關(guān)重要的作用,因?yàn)榻忉屪詣?dòng)駕駛汽車行為的能力會(huì)顯著影響消費(fèi)者的信任,而這對(duì)于廣泛接受這項(xiàng)技術(shù)至關(guān)重要。
關(guān)于模仿和強(qiáng)化學(xué)習(xí)方法正在進(jìn)行大量研究,重點(diǎn)是提供模型行為解釋的解釋能力。為了描述事后解釋方法,已經(jīng)確定了兩類(圖 9):局部方法(VIII-A),它解釋對(duì)特定動(dòng)作實(shí)例的預(yù)測(cè);全局方法(VIII-B),它解釋 模型作為一個(gè)整體。
Local explanations
1)Post-hoc顯著性方法:事后顯著性技術(shù)試圖解釋像素的哪些部分對(duì)模型的輸出影響最大。這些方法提供了一個(gè)顯著性圖,說明模型做出最重要決策的位置。
Post-hoc顯著性方法主要關(guān)注駕駛架構(gòu)的感知組件。這些局部預(yù)測(cè)被用作視覺注意力圖,并使用線性組合與學(xué)習(xí)參數(shù)相結(jié)合來做出最終決策。雖然基于注意力的方法通常被認(rèn)為可以提高神經(jīng)網(wǎng)絡(luò)的透明度,但應(yīng)該注意的是,學(xué)習(xí)到的注意力權(quán)重可能與多個(gè)特征表現(xiàn)出弱相關(guān)性。在測(cè)量駕駛過程中的不同輸入特征時(shí),注意力權(quán)重可以提供準(zhǔn)確的預(yù)測(cè)。總體而言,評(píng)估注意力機(jī)制的事后有效性具有挑戰(zhàn)性,并且通常依賴于主觀的人類評(píng)估。
2)反事實(shí)解釋:顯著性方法側(cè)重于回答“哪里”的問題,識(shí)別對(duì)模型決策有影響的輸入位置。相比之下,反事實(shí)解釋通過尋找輸入中改變模型預(yù)測(cè)的微小變化來解決“什么”問題。
由于輸入空間由語義維度組成并且是可修改的,因此評(píng)估輸入組件的因果關(guān)系很簡(jiǎn)單。Li等最近提出了一種用于識(shí)別風(fēng)險(xiǎn)對(duì)象的因果推理技術(shù)。語義輸入提供了高級(jí)對(duì)象表示,使其比像素級(jí)表示更易于解釋。
在端到端驅(qū)動(dòng)中,轉(zhuǎn)向、油門和制動(dòng)驅(qū)動(dòng)輸出可以通過提供反事實(shí)解釋的輔助輸出來補(bǔ)充。Chitta等提出使用 A* 規(guī)劃器的可解釋的輔助輸出。Shao等設(shè)計(jì)了一個(gè)系統(tǒng),如圖10(b)所示,它生成一個(gè)安全思維導(dǎo)圖,在中間對(duì)象密度圖的幫助下推斷潛在的故障。
Global explanations
全局解釋旨在通過描述模型所擁有的知識(shí)來提供對(duì)模型行為的整體理解。它們分為模型翻譯(VIII-B1)和表示解釋技術(shù)(VIII-B2),用于分析全局解釋。
1)模型翻譯:模型翻譯的目標(biāo)是將信息從原始模型轉(zhuǎn)移到本質(zhì)上可解釋的不同模型。這涉及訓(xùn)練一個(gè)可解釋的模型來模擬輸入輸出關(guān)系。最近的研究探索了將深度學(xué)習(xí)模型轉(zhuǎn)化為決策樹、基于規(guī)則的模型或因果模型。然而,這種方法的一個(gè)局限性是可解釋的翻譯模型與原始自動(dòng)駕駛模型之間可能存在差異。
2)解釋表示:解釋表示旨在解釋模型結(jié)構(gòu)在不同尺度上捕獲的信息。神經(jīng)元的激活可以通過檢查最大化其活動(dòng)的輸入模式來理解。例如,可以使用梯度上升或生成網(wǎng)絡(luò)對(duì)輸入進(jìn)行采樣。
評(píng)估
End-to-End系統(tǒng)的評(píng)估分為開環(huán)評(píng)估和閉環(huán)評(píng)估。使用真實(shí)世界的基準(zhǔn)數(shù)據(jù)集(例如KITTI和 nuScenes)評(píng)估開環(huán)。它將系統(tǒng)的駕駛行為與專家的行為進(jìn)行比較并測(cè)量偏差 MinADE、MinFDE、L2 誤差和沖突率 [58] 等指標(biāo)是表I中列出的一些評(píng)估指標(biāo)。相比之下,閉環(huán)評(píng)估直接評(píng)估受控現(xiàn)實(shí)世界或受控現(xiàn)實(shí)世界中的系統(tǒng)。通過允許其獨(dú)立駕駛并學(xué)習(xí)安全駕駛操作來模擬設(shè)置。
在端到端駕駛系統(tǒng)的開環(huán)評(píng)估中,系統(tǒng)的輸入(例如相機(jī)圖像或激光雷達(dá)數(shù)據(jù))被提供給系統(tǒng)。所產(chǎn)生的輸出(例如轉(zhuǎn)向命令和車輛速度)將根據(jù)預(yù)定義的駕駛行為進(jìn)行評(píng)估。開環(huán)評(píng)估中常用的評(píng)估指標(biāo)包括衡量系統(tǒng)遵循期望軌跡或駕駛行為的能力,例如預(yù)測(cè)軌跡和實(shí)際軌跡之間的均方誤差或系統(tǒng)保持在該軌跡內(nèi)的時(shí)間百分比 所需軌跡的一定距離。其他評(píng)估指標(biāo)也可用于評(píng)估系統(tǒng)在特定駕駛場(chǎng)景中的性能,例如系統(tǒng)導(dǎo)航交叉路口、處理障礙物或執(zhí)行車道變換的能力。
最近的大多數(shù)端到端系統(tǒng)都是在閉環(huán)設(shè)置中進(jìn)行評(píng)估的,例如LEADERBOARD和NOCRASH [79]。表V比較了 CARLA 公共排行榜上所有最先進(jìn)的方法。CARLA 排行榜分析意環(huán)境中的自動(dòng)駕駛系統(tǒng)。車輛的任務(wù)是完成一組指定的路線,其中包括意外穿越行人或突然變道等危險(xiǎn)場(chǎng)景。排行榜衡量車輛在規(guī)定時(shí)間內(nèi)在給定城鎮(zhèn)路線上成功行駛的距離以及發(fā)生違規(guī)的次數(shù)。有幾個(gè)指標(biāo)可以讓您全面了解駕駛系統(tǒng),如下所述:
路線完成 (RC):測(cè)量車輛可以完成的距離的百分比;
違規(guī)分?jǐn)?shù)/罰分(IS):是跟蹤違規(guī)行為并匯總違規(guī)罰分的幾何級(jí)數(shù)。車輛的起始分?jǐn)?shù)為1.0,然后根據(jù)違規(guī)處罰進(jìn)一步降低分?jǐn)?shù)。它衡量客服人員開車不造成違規(guī)的頻率;
駕駛分?jǐn)?shù)(DS):是一個(gè)主要指標(biāo),計(jì)算為路線完成度與違規(guī)處罰的乘積。它衡量按每條路線的違規(guī)行為加權(quán)的路線完成率。
有評(píng)估違規(guī)行為的具體指標(biāo),每次違規(guī)發(fā)生時(shí),每個(gè)指標(biāo)都會(huì)應(yīng)用懲罰系數(shù)。與行人的碰撞、與其他車輛的碰撞、與靜態(tài)元素的碰撞、碰撞布局、紅燈違規(guī)、停車標(biāo)志違規(guī)和越野違規(guī)是使用的一些指標(biāo)。
數(shù)據(jù)集和仿真
數(shù)據(jù)集
在端到端模型中,數(shù)據(jù)的質(zhì)量和豐富性是模型訓(xùn)練的關(guān)鍵方面。訓(xùn)練數(shù)據(jù)不是使用不同的超參數(shù),而是影響模型性能的最關(guān)鍵因素。輸入模型的信息量決定了它產(chǎn)生的結(jié)果類型。我們根據(jù)傳感器模式(包括攝像頭、激光雷達(dá)、GNSS 和動(dòng)力學(xué))總結(jié)了自動(dòng)駕駛數(shù)據(jù)集。數(shù)據(jù)集的內(nèi)容包括城市駕駛、交通和不同的路況。天氣條件也會(huì)影響模型的性能。一些數(shù)據(jù)集,例如 ApolloScape,捕獲從晴天到下雪的所有天氣條件。表六提供了詳細(xì)信息。
仿真和工具集
端到端駕駛和學(xué)習(xí)管道的標(biāo)準(zhǔn)測(cè)試需要先進(jìn)的軟件模擬器來處理信息并為其各種功能得出結(jié)論。此類駕駛系統(tǒng)的試驗(yàn)成本高昂,而且在公共道路上進(jìn)行測(cè)試受到嚴(yán)格限制。模擬環(huán)境有助于在道路測(cè)試之前訓(xùn)練特定的算法/模塊。像Carla這樣的模擬器可以根據(jù)實(shí)驗(yàn)要求靈活地模擬環(huán)境,包括天氣條件、交通流量、道路代理等。模擬器在生成安全關(guān)鍵場(chǎng)景方面發(fā)揮著至關(guān)重要的作用,并有助于模型泛化以檢測(cè)和預(yù)測(cè) 防止此類情況的發(fā)生。
表七比較了廣泛使用的端到端驅(qū)動(dòng)管道訓(xùn)練平臺(tái)。MATLAB/Simulink用于各種設(shè)置;它包含高效的繪圖函數(shù),并且能夠與其他軟件(例如CarSim])進(jìn)行聯(lián)合仿真,從而簡(jiǎn)化了不同設(shè)置的創(chuàng)建。PreScan可以模擬現(xiàn)實(shí)世界的環(huán)境,包括天氣條件,這是MATLAB和CarSim所缺乏的。它還支持MATLAB Simulink接口,使建模更加有效。Gazebo以其高通用性和與ROS的輕松連接而聞名。與CARLA和LGSVL模擬器相比,使用Gazebo創(chuàng)建模擬環(huán)境需要機(jī)械工作。CARLA和LGSVL提供高質(zhì)量的模擬框架,需要GPU處理單元以適當(dāng)?shù)乃俣群蛶俾蔬\(yùn)行。CARLA基于Unreal引擎構(gòu)建,而LGSVL基于Unity游戲引擎。該API允許用戶訪問CARLA和LGSVL中的各種功能,從開發(fā)可定制的傳感器到地圖生成。LGSVL一般通過各種橋連接到驅(qū)動(dòng)堆棧,而CARLA允許通過ROS和Autoware進(jìn)行內(nèi)置橋連接。
未來研究方向
1)學(xué)習(xí)魯棒性:目前端到端自動(dòng)駕駛的研究主要集中在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)通過與模擬環(huán)境交互來訓(xùn)練智能體,而IL則向?qū)<抑悄荏w學(xué)習(xí),無需進(jìn)行廣泛的環(huán)境交互。然而IL中的分布變化和RL中的計(jì)算不穩(wěn)定等挑戰(zhàn)凸顯了進(jìn)一步改進(jìn)的必要性。多任務(wù)學(xué)習(xí)也是一種令人印象深刻的方法,但需要在自動(dòng)駕駛研究中進(jìn)一步探索。
2)增強(qiáng)安全性:安全性是開發(fā)端到端自動(dòng)駕駛系統(tǒng)的關(guān)鍵因素。確保車輛的行為安全并準(zhǔn)確預(yù)測(cè)不確定行為是安全研究的關(guān)鍵方面。一個(gè)有效的系統(tǒng)應(yīng)該能夠處理各種駕駛情況,從而提供舒適可靠的交通。為了促進(jìn)端到端方法的廣泛采用,必須完善安全約束并提高其有效性。
3)提高模型可解釋性:可解釋性的缺乏對(duì)端到端驅(qū)動(dòng)的發(fā)展提出了新的挑戰(zhàn)。然而人們正在不斷努力,通過設(shè)計(jì)和生成可解釋的語義特征來解決這個(gè)問題。這些努力在性能和可解釋性方面都顯示出有希望的改進(jìn)。盡管如此,設(shè)計(jì)新穎的方法來解釋導(dǎo)致失敗的模型操作并提供潛在的解決方案還需要進(jìn)一步的進(jìn)展。未來的研究還可以探索改進(jìn)反饋機(jī)制的方法,讓用戶了解決策過程并增強(qiáng)對(duì)端到端駕駛系統(tǒng)可靠性的信心。
結(jié)論
在過去的幾年里,由于與傳統(tǒng)的模塊化自動(dòng)駕駛相比,端到端自動(dòng)駕駛的設(shè)計(jì)簡(jiǎn)單,人們對(duì)它產(chǎn)生了濃厚的興趣。在端到端駕駛研究呈指數(shù)級(jí)增長(zhǎng)的推動(dòng)下,我們首次對(duì)使用深度學(xué)習(xí)的端到端自動(dòng)駕駛進(jìn)行了全面調(diào)查。該調(diào)查論文不僅有助于理解端到端自動(dòng)駕駛,而且可以作為該領(lǐng)域未來研究的指南。我們開發(fā)了一種分類法,根據(jù)模式、學(xué)習(xí)和培訓(xùn)方法對(duì)研究進(jìn)行分類。此外,我們還研究了利用領(lǐng)域適應(yīng)方法來優(yōu)化訓(xùn)練過程的潛力。此外,本文還介紹了一個(gè)包含開環(huán)和閉環(huán)評(píng)估的評(píng)估框架,可以對(duì)系統(tǒng)性能進(jìn)行全面分析。為了促進(jìn)該領(lǐng)域的進(jìn)一步研究和開發(fā),我們編制了公開可用的數(shù)據(jù)集和模擬器的匯總列表。本文還探討了不同文章提出的有關(guān)安全性和可解釋性的潛在解決方案。盡管端到端方法的性能令人印象深刻,但仍需要在安全性和可解釋性方面繼續(xù)探索和改進(jìn),以實(shí)現(xiàn)更廣泛的技術(shù)接受。
-
模塊化
+關(guān)注
關(guān)注
0文章
328瀏覽量
21323 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
782文章
13621瀏覽量
165950 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890
原文標(biāo)題:端到端自動(dòng)駕駛離我們還有多遠(yuǎn)?最新綜述一覽前沿!
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論