駕駛員之間的溝通常常遠(yuǎn)超于轉(zhuǎn)向燈和剎車燈的使用,很多情況下都依賴于人與人之間的交流,而并非汽車技術(shù),比如,示意另一輛車?yán)^續(xù)前行,觀察另一位駕駛員是否注意到了自己,友好地向?qū)γ娴能嚀]手等。
在不久的將來,自動(dòng)駕駛汽車(AV)必將與人類駕駛員共存,因此它們需要能夠理解這種行為,才能做出不阻礙交通的安全決策。
為了在訓(xùn)練中解決這一挑戰(zhàn),開發(fā)者必須能夠預(yù)測(cè)其他車輛的未來運(yùn)動(dòng)會(huì)如何受到自動(dòng)駕駛汽車行動(dòng)的影響。NVIDIA Research 團(tuán)隊(duì)在最近發(fā)表的一篇論文中介紹了一種交通建模方法——Trajeglish,其能夠以語言模型對(duì)單詞和短語進(jìn)行分詞的方式,來對(duì)車輛運(yùn)動(dòng)進(jìn)行分詞化處理,以此實(shí)現(xiàn)逼真的多車輛駕駛場(chǎng)景仿真。
在Waymo仿真智能體挑戰(zhàn)賽(Waymo Sim Agents Challenge)的第一輪(V0)中,與其他 16 個(gè)交通模型相比,使用這種分詞化處理方法生成的交通軌跡最為逼真,比之前最先進(jìn)的模型高出 3.3%。
如同語言模型將段落分解成單詞和短語一樣,Trajeglish 通過將每個(gè)場(chǎng)景分解成詞元(tokens)來模擬多智能體交通場(chǎng)景。這種方法可以考慮每個(gè)智能體和軌跡之間的相互關(guān)系,并根據(jù)它們的初始位置對(duì)運(yùn)動(dòng)進(jìn)行預(yù)測(cè),以涵蓋所有可能發(fā)生的交互。
圖 1. Trajeglish 僅根據(jù)行車日志的初始時(shí)間步而建模的場(chǎng)景,黑色標(biāo)記處用于提示模型的初始狀態(tài)。
在只有現(xiàn)實(shí)場(chǎng)景初始時(shí)間步的情況下,Trajeglish 也能嚴(yán)格按照日志數(shù)據(jù),真實(shí)仿真其他車輛如何對(duì)自動(dòng)駕駛汽車的行動(dòng)做出反應(yīng)。
模擬人類行為
在單車道高速公路場(chǎng)景中,模擬人類的駕駛行為相對(duì)簡(jiǎn)單,因?yàn)樵诖祟悎?chǎng)景中很少有交叉路口、物體或行人。
但在城市環(huán)境中,由于交通流量和道路種類的增加,模擬多輛車的難度要大得多。為了建立適用于更廣泛場(chǎng)景的交通模型,近期的方法都在追求模仿行車日志中所觀察到的駕駛行為。
為了在仿真中做到這一點(diǎn),需要對(duì)一個(gè)智能體在每個(gè)時(shí)間步中的實(shí)際行動(dòng)進(jìn)行采樣,所采樣的行動(dòng)必須符合“時(shí)間步內(nèi)依賴關(guān)系”,即對(duì)應(yīng)所有其他智能體在該時(shí)間步所選擇的行動(dòng)。
現(xiàn)實(shí)世界中的各行為主體都具有獨(dú)立的行為,但在交通模型中,由于行車日志是在不連續(xù)的時(shí)間戳上記錄的,時(shí)間步之間的任何交互都會(huì)表現(xiàn)為協(xié)作行為,這使得時(shí)間步內(nèi)依賴關(guān)系變得十分必要。通常不會(huì)記錄在日志數(shù)據(jù)中的交互,如眼神接觸或轉(zhuǎn)向燈等,也會(huì)使記錄場(chǎng)景中的行為主體之間產(chǎn)生協(xié)作。
Trajeglish 需要清楚地模擬這種時(shí)間步內(nèi)依賴關(guān)系。為此,Trajeglish 采用與語言模型相同的方式對(duì)給定場(chǎng)景進(jìn)行分詞化處理,使模型能夠根據(jù)場(chǎng)景情境只預(yù)測(cè)可能的軌跡或詞元。然后,Trajeglish 通過分析所有被分詞化處理的場(chǎng)景的分布,模擬該時(shí)間步中的下一步行動(dòng)。
圖 2. Trajeglish 通過不斷迭代地找到與下一狀態(tài)角距離最小的詞元來對(duì)軌跡進(jìn)行分詞化處理。
這個(gè)預(yù)測(cè)下一個(gè)詞元的過程會(huì)不斷重復(fù)。在對(duì)一定數(shù)量的詞元進(jìn)行采樣后,Trajeglish 就能掌握足夠的上下文,對(duì)各種長(zhǎng)度和任意數(shù)量智能體的場(chǎng)景進(jìn)行預(yù)測(cè)。
領(lǐng)先方法
Trajeglish 與 Waymo 仿真智能體挑戰(zhàn)賽 V0 排行榜上的其他 16 個(gè)模型進(jìn)行了比較,每個(gè)模型的任務(wù)是根據(jù) 1 秒鐘的初始駕駛信息,為最多 128 個(gè)智能體同時(shí)對(duì) 32 個(gè)場(chǎng)景一致的軌跡進(jìn)行仿真。
該挑戰(zhàn)賽根據(jù)分布匹配度來評(píng)估每個(gè)仿真的真實(shí)性,計(jì)算出這些仿真場(chǎng)景的若干統(tǒng)計(jì)數(shù)據(jù),并與在記錄場(chǎng)景中計(jì)算出的這些統(tǒng)計(jì)數(shù)據(jù)進(jìn)行比較。數(shù)據(jù)越接近,得分就越高。
根據(jù) Waymo 的參數(shù),作為唯一使用分詞化處理方法的模型,Trajeglish 得出的結(jié)果最為真實(shí)。從質(zhì)量上看,在智能體互動(dòng)密集的場(chǎng)景中,Trajeglish的性能遙遙領(lǐng)先,比如交通擁堵、并線場(chǎng)景和四向停車路口等。
Waymo 排行榜對(duì)每個(gè)模擬的三個(gè)方面進(jìn)行評(píng)估,分別為運(yùn)動(dòng)學(xué)(如速度等)、交互或與最近車輛的距離,以及軌跡是否保持在可行駛區(qū)域內(nèi)。整體逼真度為這些類別的加權(quán)平均值。
根據(jù)這些參數(shù),Trajeglish 在場(chǎng)景整體逼真度方面比以前的最先進(jìn)模型提高了 3.3%,在交互方面提高了9.9%。
圖 3. Trajeglish 與 Waymo 仿真智能體挑戰(zhàn)賽其他參賽模型的成績(jī)對(duì)比(標(biāo)有星號(hào)的是使用集成技術(shù)的參賽模型)
總結(jié)
人類的駕駛行為存在著很多細(xì)微差別,這給仿真再現(xiàn)工作帶來了巨大的挑戰(zhàn)。由于語言模型可以應(yīng)對(duì)人類語言中相似的復(fù)雜性,因此通過借鑒語言模型,可以使這項(xiàng)任務(wù)變得更加容易。
這使得自動(dòng)駕駛汽車的開發(fā)者可以在仿真中使用保真度更高的交通模型來加速訓(xùn)練、測(cè)試和驗(yàn)證。
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4793瀏覽量
102427 -
自動(dòng)駕駛汽車
+關(guān)注
關(guān)注
4文章
375瀏覽量
40778
原文標(biāo)題:使用 Trajeglish 幫助自動(dòng)駕駛汽車學(xué)習(xí)人類駕駛行為語言
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論