2023年6月計算機視覺學術(shù)圈CVPR舉辦兩場自動駕駛研討會,一個是端到端自動駕駛研討會 (End-to-End Autonomous Driving Workshop),另一個是視覺中心自動駕駛研討會 (Vision-Centric Autonomous Driving Workshop)。由此又引出4項算法任務(wù)挑戰(zhàn)賽,其中:
第一項是OpenLane Topology即開放路口車道線拓撲矢量化構(gòu)建,第一名是曠視,第二名是輕舟智航,理想L6自動駕駛供應(yīng)商。第三名則是美國AMD,第四名是美團。
第二項是在線高精度地圖繪制,第一名是曠視的自動駕駛子公司邁馳智行,第二名是美國獨立研究者,第三名是上海交通大學。第十名是廣汽研究院。
第四項是nuPlan即自動駕駛規(guī)劃,第一名是德國Tübingen大學,第二名是地平線,第三名是初創(chuàng)公司云驥智行。
第三項是最具價值的3D Occupancy network預(yù)測,也就是特斯拉帶火的占用網(wǎng)絡(luò),共有149個團隊參加比賽,其中不乏業(yè)內(nèi)巨頭,包括英偉達、小米、上汽、華為、??低?/u>。
圖片來源:https://opendrivelab.com/challenge2023/
占用網(wǎng)絡(luò)挑戰(zhàn)賽前10名,第一名有15000美元的獎金。第四名到第十名可算第三梯隊,差距很小。英偉達遙遙領(lǐng)先。韓國自動駕駛初創(chuàng)公司42dot與小米可算第二梯隊。
比賽中使用的Occ數(shù)據(jù)集來自nuScenes,要求選手在僅使用圖像這個模態(tài)的情況下,對200x200x16的3D體素空間的占據(jù)情況進行預(yù)測,其中評價指標采用mIoU,并且將僅對圖像中的可視范圍中的預(yù)測結(jié)果進行評估。在比賽中,一共有兩個Baseline可供選擇,一個是官方提供的基于BEVFormer框架的實現(xiàn),另一個則是基于BEVDet框架實現(xiàn)的,也分別代表了在3D目標檢測現(xiàn)在主流的兩個實現(xiàn)路線,LSS和Transformer。兩種Baseline都將原來輸入檢測頭的特征,從BEV空間拉伸成200x200x16的3D體素空間,然后接上一個簡單的語義分割頭,來對3D占據(jù)的結(jié)果進行預(yù)測。
第一名英偉達的FB-OCC,其成功的關(guān)鍵還是大模型,英偉達使用了比較新的InterImage-H來作為他們的Backbone,而為了更好的應(yīng)用InterImage-H,作者還將其在原先在COCO的預(yù)訓(xùn)練基礎(chǔ)上,在object365上也進行了預(yù)訓(xùn)練,使其更好的應(yīng)用在此任務(wù)上。InternImage-H參數(shù)多達10.8億個,當然大模型也不是想用就能用,太大的模型容易出現(xiàn)過擬合,且消耗運算和存儲資源也較多。
最新2D圖像骨干網(wǎng)對比
圖片來源:arxiv.org
上表中,特斯拉使用META的RegNet,參數(shù)為8400萬,消耗運算資源很少,得分82.9也算不低,小米UniOcc使用META的ConvNeXt-B,參數(shù)8900萬,消耗運算資源最少,得分83.8,華為RadOcc使用微軟的Swin-B,參數(shù)8800萬,相對ConvNeXt-B消耗運算資源幾乎翻倍,得分83.5,略高。得分最高的是ConvNeXt-XL,高達87.8,參數(shù)3.5億個,消耗運算資源是Swin-B的十倍還多。
第二名是42dot,一家韓國初創(chuàng)公司,成功的關(guān)鍵也是大模型,其2D Backbone用了InterImage-XL,有3.35億參數(shù),3D Backbone用了微軟的Swin-V2-L,有30億參數(shù),但提升不大。
重點來看第三名的小米汽車,論文題目為《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》,迄今為止在網(wǎng)上可以找到的小米汽車的三篇論文都是圍繞Occupancy來展開的,足見小米對Occupancy的重視程度。
UniOcc框架
圖片來源:《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》
小米和接下來要說到的華為都使用了比較新穎的知識蒸餾技術(shù),即教師學生模型,這是一種半監(jiān)督深度學習方式,最早由谷歌提出,發(fā)布于2015年3月,論文為《Distilling the Knowledge in a Neural Network》。知識蒸餾技術(shù)是一種模型壓縮方法,是一種基于Teacher-Student模型的訓(xùn)練方法。知識蒸餾(Knowledge Distillation),顧名思義就是將一個復(fù)雜的大模型的“知識”,蒸餾到一個簡單的小模型中,比較類似于教師(大模型)向?qū)W生(小模型)傳授(蒸餾)知識。這樣做主要是因為大模型部署起來成本驚人,通常最低都是8張英偉達A100這樣的計算和存儲資源,成本最低也在5萬美元以上,在車上完全不可能部署大模型,必須采用蒸餾模式。在Teacher-Student模型中通常有兩個階段:
① 教師模型訓(xùn)練:首先訓(xùn)練一個較大或復(fù)雜的教師模型,它通常具有更多的參數(shù)和復(fù)雜性,并能夠在訓(xùn)練數(shù)據(jù)上表現(xiàn)得更好。
② 學生模型訓(xùn)練:接著,使用教師模型的輸出作為輔助目標,指導(dǎo)較簡化的學生模型進行訓(xùn)練。學生模型嘗試去模仿教師模型的預(yù)測結(jié)果,以此來學習教師模型的“知識”。在訓(xùn)練學生模型時,通常會利用教師模型的軟標簽(soft labels)或教師模型的隱藏層表示(logits)作為額外的監(jiān)督信號,結(jié)合有標簽數(shù)據(jù)進行訓(xùn)練。這個過程中,學生模型的目標是盡量擬合教師模型的預(yù)測結(jié)果,并同時擬合真實的標簽信息。
有些外行把軟標簽(標注,標記)說成是無標簽,說什么自動駕駛數(shù)據(jù)集完全不需要標簽了,這當然是大錯特錯,絕對的無標簽無監(jiān)督深度學習永遠不可能實現(xiàn),頂多是半監(jiān)督,硬標簽是1或者0,沒有中間狀態(tài),軟標簽則是連續(xù)分布的概率。軟標簽可以用教師模型的SOFTMAX層輸出的類別概率做為軟標簽,某種意義上這可算是自動生成的標簽,無需人工添加。教師模型還是需要標簽數(shù)據(jù),還是需要人工標注。
小米的創(chuàng)新有三點,一是使用NeRF的體渲染(volume rendering)來統(tǒng)一2D和3D表示監(jiān)督的通用解決方案,二是通過知識蒸餾做深度預(yù)測訓(xùn)練,三是用低成本的體渲染監(jiān)督學習代替成本高昂稀缺的3D占用網(wǎng)絡(luò)語義標簽監(jiān)督學習。
NeRF神經(jīng)輻射場,不同于傳統(tǒng)的三維重建方法把場景表示為點云、網(wǎng)格、體素等顯式的表達,它獨辟蹊徑,將場景建模成一個連續(xù)的5D輻射場隱式存儲在神經(jīng)網(wǎng)絡(luò)中,只需輸入稀疏的多角度帶pose的圖像訓(xùn)練得到一個神經(jīng)輻射場模型,根據(jù)這個模型可以渲染出任意視角下的清晰的照片。通俗來講就是構(gòu)造一個隱式的渲染流程,其輸入是某個視角下發(fā)射的光線的位置o,方向d以及對應(yīng)的坐標(x,y,z),送入神經(jīng)輻射場Fθ得到體密度和顏色,最后再通過體渲染得到最終的圖像。顯式是離散的表達,不能精細化,導(dǎo)致重疊等偽影,耗費內(nèi)存,限制了在高分辨率場景的應(yīng)用。隱式是連續(xù)的表達,能夠適用于大分辨率的場景,而且不需要3D信號進行監(jiān)督。
NeRF需要兩個MLP,一個負責 Coarse,一個負責 Fine,因此計算量比較大,存儲資源要求也比較高。自動駕駛領(lǐng)域使用NeRF還是相當少見的,因為它太消耗運算和存儲資源了,同時自動駕駛的視角有限,一般是5個視角,想做好NeRF相當困難。
小米的知識蒸餾DTS框架
圖片來源:《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》
小米的知識蒸餾DTS框架,在訓(xùn)練中使用visible masks,使用更強的預(yù)先訓(xùn)練的骨干,增加體素分辨率,以及實現(xiàn)Test-Time Augmentation(TTA)。大部分人都是使用英偉達的LSS算法獲得深度,小米的DTS可謂獨樹一幟。
第四名來自上汽AI LAB,其整體框架設(shè)計采用BEVDet的設(shè)計思路,主要提出利用多尺度信息來進行訓(xùn)練和預(yù)測以及一種解耦頭的預(yù)測方法。論文異常簡單,只有4頁。
上汽OCC架構(gòu)
圖片來源:上汽
最后來看華為的,華為由華為諾亞方舟實驗室出面,諾亞方舟實驗室是華為三級部門,隸屬于中央研究院。內(nèi)地主要分布在北京、深圳、上海、西安。下面又分成很多組,比如計算視覺、終端視覺、自動駕駛、網(wǎng)絡(luò)大腦、NLP等等。主要的工作內(nèi)容就是科研和落地,主要做前沿研究,之所以取名諾亞方舟就是說當華為出現(xiàn)大洪水那樣級別的災(zāi)難時,諾亞方舟實驗室的成果足以讓華為走出困境。
最初華為諾亞方舟并未提供論文,直到2023年底才提供論文,論文題目《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》華為論文換了Occ3D的測試數(shù)據(jù)集,最好成績高達55.09,比第一名英偉達還高,當然不是一個測試數(shù)據(jù)集,沒辦法直接對比,但華為應(yīng)該在挑戰(zhàn)賽后還是做了不少改進的地方。
華為也是采用知識蒸餾的教師學生模式。
華為RadOcc架構(gòu)
圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》
華為RadOcc架構(gòu),思路和小米基本一致,也用了NeRF。教師網(wǎng)絡(luò)是多模態(tài)模型,而學生網(wǎng)絡(luò)僅需要相機輸入,無需激光雷達。兩個網(wǎng)絡(luò)的預(yù)測將用于通過可微分體渲染(differentiable volume rendering)生成渲染深度和語義。
圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》
現(xiàn)有的方法如圖a的是將特征或 logits 進行對齊。RadOcc的核心思想是對教師模型和學生模型生成的渲染結(jié)果進行對齊,如圖(b)所示。使用相機的內(nèi)參和外參對體素特征進行體渲染Volume Rendering,能夠從不同的視點獲得相應(yīng)的深度圖和語義圖。為了實現(xiàn)渲染輸出之間更好的對齊,引入了新穎的渲染深度一致性(RDC)和渲染語義一致性(RSC)損失。一方面,RDC 損失強制光線分布(ray distribution)的一致性,這使得學生模型能夠捕獲數(shù)據(jù)的底層結(jié)構(gòu)。另一方面,RSC損失利用了視覺基礎(chǔ)模型的優(yōu)勢,并利用預(yù)先提取的segment進行affinity蒸餾。允許模型學習和比較不同圖像區(qū)域的語義表示,從而增強其捕獲細粒度細節(jié)的能力。
圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》
采用視覺基礎(chǔ)模型(VFM),即SAM,將segments提取到原始圖像中。對每個segment 中渲染的語義特征進行segment聚合,獲得affinity matrix 。
自動駕駛的理論基礎(chǔ)或者說骨干被META、谷歌、英偉達和微軟這些巨頭壟斷,自動駕駛算法公司能做的就是應(yīng)用層的微調(diào),大家的技術(shù)水平都差不多。另一方面理論基礎(chǔ)在沒有實現(xiàn)重大突破之前,自動駕駛難有實質(zhì)性進展。
審核編輯:劉清
-
華為
+關(guān)注
關(guān)注
215文章
34126瀏覽量
249440 -
小米
+關(guān)注
關(guān)注
69文章
14275瀏覽量
142984 -
自動駕駛
+關(guān)注
關(guān)注
781文章
13449瀏覽量
165254 -
大模型
+關(guān)注
關(guān)注
2文章
2134瀏覽量
1971
原文標題:華為小米對決自動駕駛Occupancy Network
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論