隨著大語言模型 (LLM) 和視覺基礎(chǔ)模型 (VFM) 的出現(xiàn),受益于大模型的多模態(tài)人工智能系統(tǒng)有潛力像人類一樣全面感知現(xiàn)實(shí)世界、做出決策。在最近幾個(gè)月里,LLM 已經(jīng)在自動(dòng)駕駛研究中引起了廣泛關(guān)注。盡管 LLM 具有巨大潛力,但其在駕駛系統(tǒng)中的關(guān)鍵挑戰(zhàn)、機(jī)遇和未來研究方向仍然缺乏文章對(duì)其詳細(xì)闡明。 ?
在本文中,騰訊地圖、普渡大學(xué)、UIUC、弗吉尼亞大學(xué)的研究人員對(duì)這個(gè)領(lǐng)域進(jìn)行了系統(tǒng)調(diào)研。該研究首先介紹了多模態(tài)大型語言模型 (MLLM) 的背景,使用 LLM 開發(fā)多模態(tài)模型的進(jìn)展,以及對(duì)自動(dòng)駕駛的歷史進(jìn)行回顧。然后,該研究概述了用于駕駛、交通和地圖系統(tǒng)的現(xiàn)有 MLLM 工具,以及現(xiàn)有的數(shù)據(jù)集。該研究還總結(jié)了第一屆 WACV 大語言和視覺模型自動(dòng)駕駛研討會(huì) (LLVM-AD) 的相關(guān)工作,這是應(yīng)用 LLM 在自動(dòng)駕駛領(lǐng)域的首個(gè)研討會(huì)。為了進(jìn)一步推動(dòng)這一領(lǐng)域的發(fā)展,該研究還討論了關(guān)于如何在自動(dòng)駕駛系統(tǒng)中應(yīng)用 MLLM,以及需要由學(xué)術(shù)界和工業(yè)界共同解決的一些重要問題。 ?
綜述結(jié)構(gòu) ?
多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合,通過多模態(tài)對(duì)齊使它們能夠更高效地執(zhí)行各種任務(wù),包括圖像分類、將文本與相應(yīng)的視頻對(duì)齊以及語音檢測(cè)。此外,一些研究已經(jīng)證明 LLM 可以處理機(jī)器人領(lǐng)域的簡(jiǎn)單任務(wù)。然而,MLLM 在自動(dòng)駕駛領(lǐng)域的整合依然十分緩慢,我們不禁提出疑問,像 GPT-4、PaLM-2 和 LLaMA-2 這樣的 LLM 是否有潛力改良現(xiàn)有的自動(dòng)駕駛系統(tǒng)?
在本綜述中,研究人員認(rèn)為將 LLM 整合到自動(dòng)駕駛領(lǐng)域可以在駕駛感知、運(yùn)動(dòng)規(guī)劃、人車交互和運(yùn)動(dòng)控制方面帶來顯著的范式轉(zhuǎn)變,提供以用戶為中心、適應(yīng)性更強(qiáng)、更可信的未來交通方案。在感知方面,LLM 可以利用工具學(xué)習(xí) (Tool Learning) 調(diào)用外部 API 來訪問實(shí)時(shí)的信息源,例如高精地圖、交通報(bào)告和天氣信息,從而使車輛更全面地理解周圍環(huán)境。自動(dòng)駕駛汽車可以在讀取實(shí)時(shí)交通數(shù)據(jù)后,用 LLM 推理擁堵路線并建議替代路徑以提高效率和安全駕駛。
對(duì)于運(yùn)動(dòng)規(guī)劃和人車交互,LLM 可以促進(jìn)以用戶為中心的溝通,使乘客能夠用日常語言表達(dá)他們的需求和偏好。在運(yùn)動(dòng)控制方面,LLM 首先使控制參數(shù)可以根據(jù)駕駛者的偏好進(jìn)行定制,實(shí)現(xiàn)了駕駛體驗(yàn)的個(gè)性化。此外,LLM 還可以通過解釋運(yùn)動(dòng)控制過程的每個(gè)步驟來提供對(duì)用戶的透明化。該綜述預(yù)計(jì),在未來的 SAE L4-L5 級(jí)別的自動(dòng)駕駛車輛中,乘客可以在駕駛時(shí)使用語言、手勢(shì)甚至眼神來傳達(dá)他們的請(qǐng)求,由 MLLM 通過集成視覺顯示或語音響應(yīng)來提供實(shí)時(shí)的車內(nèi)和駕駛反饋。 ?
?
自動(dòng)駕駛和多模態(tài)大語言模型的發(fā)展歷程 ?
自動(dòng)駕駛 MLLM 的研究總結(jié):當(dāng)前模型的 LLM 框架主要有 LLaMA、Llama 2、GPT-3.5、GPT-4、Flan5XXL、Vicuna-13b。FT、ICL 和 PT 在本表中指的是微調(diào)、上下文學(xué)習(xí)和預(yù)訓(xùn)練。文獻(xiàn)鏈接可以參考 github repo: https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving ? 為了搭建自動(dòng)駕駛和 LLM 之間的橋梁,相關(guān)研究人員在 2024 年 IEEE/CVF 冬季計(jì)算機(jī)視覺應(yīng)用會(huì)議 (WACV) 上組織了首屆大語言和視覺模型自動(dòng)駕駛研討會(huì)(LLVM-AD)。該研討會(huì)旨在增強(qiáng)學(xué)術(shù)研究人員和行業(yè)專業(yè)人士之間的合作,探討在自動(dòng)駕駛領(lǐng)域?qū)嵤┒嗄B(tài)大型語言模型的可能性和挑戰(zhàn)。LLVM-AD 將進(jìn)一步推動(dòng)后續(xù)的開源實(shí)際交通語言理解數(shù)據(jù)集的發(fā)展。 ?
首屆 WACV 大型語言和視覺模型自動(dòng)駕駛研討會(huì) (LLVM-AD) 共接受了九篇論文。一些論文圍繞自動(dòng)駕駛中的多模態(tài)大語言模型主題展開,重點(diǎn)關(guān)注了將 LLM 整合到用戶 - 車輛交互、運(yùn)動(dòng)規(guī)劃和車輛控制中。還有幾篇論文探討了 LLM 在自動(dòng)駕駛車輛中類人交互和決策方面的新應(yīng)用。例如,”Drive Like a Human” 和”Drive as You Speak” 探討了 LLM 在復(fù)雜駕駛場(chǎng)景中解釋和推理,模仿人類行為的框架?!盚uman-Centric Autonomous Systems With LLMs” 強(qiáng)調(diào)了以用戶為中心設(shè)計(jì) LLM 的重要性,利用 LLM 來解釋用戶命令。這種方法代表了向以人為中心的自主系統(tǒng)的重大轉(zhuǎn)變。除了融合 LLM,研討會(huì)還涵蓋了部分基于純視覺和數(shù)據(jù)處理的方法。此外,研討會(huì)也提出了創(chuàng)新的數(shù)據(jù)處理和評(píng)估方法。例如,NuScenes-MQA 介紹了一種新的自動(dòng)駕駛數(shù)據(jù)集注釋方案。總的來說,這些論文展示了將語言模型和先進(jìn)技術(shù)整合到自動(dòng)駕駛中取得的進(jìn)展,為更直觀、高效和以人為中心的自動(dòng)駕駛車輛鋪平了道路。 ? 針對(duì)未來的發(fā)展,該研究提出以下幾點(diǎn)研究方向: ?
1、自動(dòng)駕駛中多模態(tài)大語言模型的新數(shù)據(jù)集 ? 盡管大語言模型在語言理解方面取得了成功,但將其應(yīng)用于自動(dòng)駕駛?cè)悦媾R挑戰(zhàn)。這是因?yàn)檫@些模型需要整合和理解來自不同模態(tài)的輸入,如全景圖像、三維點(diǎn)云和高精地圖。目前的數(shù)據(jù)規(guī)模和質(zhì)量的限制意味著現(xiàn)有數(shù)據(jù)集難以全面應(yīng)對(duì)這些挑戰(zhàn)。此外,從 NuScenes 等早期開源數(shù)據(jù)集注釋的視覺語言數(shù)據(jù)集可能無法為駕駛場(chǎng)景中的視覺語言理解提供穩(wěn)健的基準(zhǔn)。因此,迫切需要新的、大規(guī)模的數(shù)據(jù)集,涵蓋廣泛的交通和駕駛場(chǎng)景,彌補(bǔ)之前數(shù)據(jù)集分布的長(zhǎng)尾(不均衡)問題,以有效地測(cè)試和增強(qiáng)這些模型在自動(dòng)駕駛應(yīng)用中的性能。 ?
2、自動(dòng)駕駛中大語言模型的硬件支持 ? 自動(dòng)駕駛汽車中不同的功能對(duì)硬件的需求各不相同。在車輛內(nèi)部使用 LLM 進(jìn)行駕駛規(guī)劃或參與車輛控制需要實(shí)時(shí)處理和低延遲以確保安全,這增加了計(jì)算需求并影響功耗。如果 LLM 部署在云端,數(shù)據(jù)交換的帶寬將成為另一個(gè)關(guān)鍵的安全因素。相比之下,將 LLM 用于導(dǎo)航規(guī)劃或分析與駕駛無關(guān)的命令(如車載音樂播放)不需要高查詢量和實(shí)時(shí)性,使得遠(yuǎn)程服務(wù)成為可行的方案。未來,自動(dòng)駕駛中的 LLM 可以通過知識(shí)蒸餾進(jìn)行壓縮,以減少計(jì)算需求和延遲,目前在這一領(lǐng)域仍然有很大發(fā)展空間。 ?
3、使用大語言模型理解高精地圖 ? 高精地圖在自動(dòng)駕駛車輛技術(shù)中起著至關(guān)重要的作用,因?yàn)樗鼈兲峁┝擞嘘P(guān)車輛運(yùn)行的物理環(huán)境的基本信息。高精地圖中的語義地圖層非常重要,因?yàn)樗东@了物理環(huán)境的意義和上下文信息。為了有效地將這些信息編碼到下一代由 LLM 驅(qū)動(dòng)的自動(dòng)駕駛中,需要新的模型來映射這些多模態(tài)特征到語言空間。騰訊已經(jīng)開發(fā)了基于主動(dòng)學(xué)習(xí)的 THMA 高精地圖 AI 自動(dòng)標(biāo)注系統(tǒng),能夠生產(chǎn)和標(biāo)記數(shù)十萬公里規(guī)模的高精地圖。為了促進(jìn)這一領(lǐng)域的發(fā)展,騰訊在 THMA 的基礎(chǔ)上提出了 MAPLM 數(shù)據(jù)集,包含全景圖像、三維激光雷達(dá)點(diǎn)云和基于上下文的高精地圖注釋,以及一個(gè)新的問答基準(zhǔn) MAPLM-QA。 ?
4、人車交互中的大語言模型 ? 人車交互以及理解人類的駕駛行為,在自動(dòng)駕駛中也構(gòu)成了一個(gè)重大挑戰(zhàn)。人類駕駛員常常依賴非語言信號(hào),例如減速讓路或使用肢體動(dòng)作與其他駕駛員或行人交流。這些非語言信號(hào)在道路上的交流中扮演著至關(guān)重要的角色。過去有許多涉及自動(dòng)駕駛系統(tǒng)的事故是因?yàn)樽詣?dòng)駕駛汽車的行為往往出乎其他駕駛員意料。未來,MLLM 能夠整合來自各種來源的豐富上下文信息,并分析駕駛員的視線、手勢(shì)和駕駛風(fēng)格,以更好地理解這些社交信號(hào)并做出高效規(guī)劃。通過估計(jì)其他駕駛員的社交信號(hào),LLM 可以提高自動(dòng)駕駛汽車的決策能力和整體安全性。 ?
5、個(gè)性化自動(dòng)駕駛 ? 隨著自動(dòng)駕駛汽車的發(fā)展,一個(gè)重要的方面是考慮它們?nèi)绾芜m應(yīng)用戶個(gè)人的駕駛偏好。越來越多的人認(rèn)為,自動(dòng)駕駛汽車應(yīng)該模仿其用戶的駕駛風(fēng)格。為了實(shí)現(xiàn)這一點(diǎn),自動(dòng)駕駛系統(tǒng)需要學(xué)習(xí)并整合用戶在各個(gè)方面的偏好,如導(dǎo)航、車輛維護(hù)和娛樂。LLM 的指令調(diào)整 (Instruction Tunning) 能力和上下文學(xué)習(xí)能力使其非常適合將用戶偏好和駕駛歷史信息整合到自動(dòng)駕駛汽車中,從而提供個(gè)性化的駕駛體驗(yàn)。 ?
總結(jié) ? 多年來,自動(dòng)駕駛一直是人們關(guān)注的焦點(diǎn),吸引著眾多風(fēng)險(xiǎn)投資人。將 LLM 集成到自動(dòng)駕駛汽車中會(huì)帶來獨(dú)特的挑戰(zhàn),但克服這些挑戰(zhàn)將顯著增強(qiáng)現(xiàn)有的自動(dòng)駕駛系統(tǒng)??梢灶A(yù)見的是,LLM 支持的智能座艙具備理解駕駛場(chǎng)景和用戶偏好的能力,并在車輛與乘員之間建立更深層次的信任。此外,部署 LLM 的自動(dòng)駕駛系統(tǒng)將可以更好地應(yīng)對(duì)道德困境,涉及權(quán)衡行人的安全與車輛乘員的安全,促進(jìn)在復(fù)雜的駕駛場(chǎng)景中更可能符合道德的決策過程。本文集成了 WACV 2024 LLVM-AD?研討會(huì)委員會(huì)成員的見解,旨在激勵(lì)研究人員為開發(fā)由 LLM 技術(shù)支持的下一代自動(dòng)駕駛汽車做出貢獻(xiàn)。 ?
審核編輯:黃飛
?
評(píng)論
查看更多