10月31日訊,自動駕駛領(lǐng)域的先鋒Waymo,作為Alphabet旗下的一員,長久以來將其與谷歌DeepMind的緊密合作及深厚的AI研究底蘊(yùn)視為其在自動駕駛競賽中脫穎而出的關(guān)鍵。如今,Waymo再邁新步,為其機(jī)器人出租車業(yè)務(wù)引入了一種基于谷歌多模態(tài)大語言模型(MLLM)“Gemini”的全新訓(xùn)練模型——“端到端多模態(tài)自動駕駛模型”(EMMA)。
Waymo最新發(fā)布的研究論文揭示了EMMA模型的面紗。這一創(chuàng)新的端到端訓(xùn)練模型能夠解析傳感器數(shù)據(jù),預(yù)測“自動駕駛車輛的未來行駛軌跡”,從而輔助Waymo的無人駕駛車輛做出精準(zhǔn)決策,無論是選擇行進(jìn)路線還是規(guī)避障礙物。
尤為引人注目的是,這是自動駕駛領(lǐng)軍企業(yè)首次公開表示計(jì)劃將MLLM技術(shù)融入其核心業(yè)務(wù),預(yù)示著MLLM的應(yīng)用范圍或?qū)⒊搅奶鞕C(jī)器人、郵件整理及圖像生成等傳統(tǒng)領(lǐng)域,向自動駕駛這一前沿陣地拓展。
傳統(tǒng)自動駕駛系統(tǒng)往往采用模塊化設(shè)計(jì),針對感知、地圖構(gòu)建、預(yù)測及規(guī)劃等特定功能分別開發(fā)。盡管這種模式在過去取得了顯著成效,但Waymo指出,其存在可擴(kuò)展性問題,模塊間的誤差累積和通信限制影響了整體性能,且面對新環(huán)境時(shí)適應(yīng)性不強(qiáng)。
Waymo認(rèn)為,像Gemini這樣的MLLM能夠有效解決上述問題。它們作為互聯(lián)網(wǎng)大數(shù)據(jù)培育的“通才”,擁有超越常規(guī)駕駛經(jīng)驗(yàn)的廣泛“世界知識”,并通過“鏈?zhǔn)酵评怼钡认冗M(jìn)技術(shù)展現(xiàn)出強(qiáng)大的邏輯推理能力,能夠模仿人類思維,將復(fù)雜任務(wù)分解為邏輯步驟。
據(jù)Waymo介紹,EMMA模型在應(yīng)對復(fù)雜交通環(huán)境時(shí)表現(xiàn)出色,如動物穿越道路或道路施工等情況,都能為無人駕駛汽車規(guī)劃出合理的行駛路徑。
值得注意的是,特斯拉等競爭對手也在積極開發(fā)自動駕駛汽車的端到端模型。特斯拉CEO埃隆·馬斯克曾宣稱,其最新版本的FSD 12.5.5采用了“端到端神經(jīng)網(wǎng)絡(luò)”AI系統(tǒng),直接將攝像頭圖像轉(zhuǎn)化為駕駛決策。
盡管Waymo在部署無人駕駛車輛方面領(lǐng)先于特斯拉,但它同樣對端到端系統(tǒng)抱有濃厚興趣。Waymo表示,其EMMA模型在軌跡預(yù)測、物體識別和道路理解方面取得了優(yōu)異成績。
然而,EMMA也面臨挑戰(zhàn)。Waymo承認(rèn),在將模型投入實(shí)際應(yīng)用前,還需克服一些障礙,如EMMA目前無法整合來自激光雷達(dá)或雷達(dá)的3D傳感器輸入,原因是“計(jì)算成本過高”,且僅能處理有限數(shù)量的圖像幀。
此外,研究論文中未提及的一個(gè)潛在風(fēng)險(xiǎn)是,像Gemini這樣的MLLM可能會產(chǎn)生“幻覺”,這對于容錯(cuò)率極低的無人駕駛汽車而言是極大的挑戰(zhàn)。因此,在MLLM能夠大規(guī)模應(yīng)用于自動駕駛之前,仍需開展更多深入研究。
-
谷歌
+關(guān)注
關(guān)注
27文章
6127瀏覽量
104909 -
自動駕駛
+關(guān)注
關(guān)注
782文章
13610瀏覽量
165881 -
waymo
+關(guān)注
關(guān)注
2文章
311瀏覽量
24644
發(fā)布評論請先 登錄
相關(guān)推薦
評論