0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為小米自動駕駛Occupancy Network對決

佐思汽車研究 ? 來源:佐思汽車研究 ? 2024-04-28 14:35 ? 次閱讀

2023年6月計算機視覺學術(shù)圈CVPR舉辦兩場自動駕駛研討會,一個是端到端自動駕駛研討會 (End-to-End Autonomous Driving Workshop),另一個是視覺中心自動駕駛研討會 (Vision-Centric Autonomous Driving Workshop)。由此又引出4項算法任務(wù)挑戰(zhàn)賽,其中:

第一項是OpenLane Topology即開放路口車道線拓撲矢量化構(gòu)建,第一名是曠視,第二名是輕舟智航,理想L6自動駕駛供應(yīng)商。第三名則是美國AMD,第四名是美團。

第二項是在線高精度地圖繪制,第一名是曠視的自動駕駛子公司邁馳智行,第二名是美國獨立研究者,第三名是上海交通大學。第十名是廣汽研究院。

第四項是nuPlan即自動駕駛規(guī)劃,第一名是德國Tübingen大學,第二名是地平線,第三名是初創(chuàng)公司云驥智行。

第三項是最具價值的3D Occupancy network預(yù)測,也就是特斯拉帶火的占用網(wǎng)絡(luò),共有149個團隊參加比賽,其中不乏業(yè)內(nèi)巨頭,包括英偉達、小米、上汽、華為、??低?/u>。

bb01c242-0449-11ef-a297-92fbcf53809c.png

圖片來源:https://opendrivelab.com/challenge2023/

占用網(wǎng)絡(luò)挑戰(zhàn)賽前10名,第一名有15000美元的獎金。第四名到第十名可算第三梯隊,差距很小。英偉達遙遙領(lǐng)先。韓國自動駕駛初創(chuàng)公司42dot與小米可算第二梯隊。

比賽中使用的Occ數(shù)據(jù)集來自nuScenes,要求選手在僅使用圖像這個模態(tài)的情況下,對200x200x16的3D體素空間的占據(jù)情況進行預(yù)測,其中評價指標采用mIoU,并且將僅對圖像中的可視范圍中的預(yù)測結(jié)果進行評估。在比賽中,一共有兩個Baseline可供選擇,一個是官方提供的基于BEVFormer框架的實現(xiàn),另一個則是基于BEVDet框架實現(xiàn)的,也分別代表了在3D目標檢測現(xiàn)在主流的兩個實現(xiàn)路線,LSS和Transformer。兩種Baseline都將原來輸入檢測頭的特征,從BEV空間拉伸成200x200x16的3D體素空間,然后接上一個簡單的語義分割頭,來對3D占據(jù)的結(jié)果進行預(yù)測。

第一名英偉達的FB-OCC,其成功的關(guān)鍵還是大模型,英偉達使用了比較新的InterImage-H來作為他們的Backbone,而為了更好的應(yīng)用InterImage-H,作者還將其在原先在COCO的預(yù)訓(xùn)練基礎(chǔ)上,在object365上也進行了預(yù)訓(xùn)練,使其更好的應(yīng)用在此任務(wù)上。InternImage-H參數(shù)多達10.8億個,當然大模型也不是想用就能用,太大的模型容易出現(xiàn)過擬合,且消耗運算和存儲資源也較多。

最新2D圖像骨干網(wǎng)對比

bb0b591a-0449-11ef-a297-92fbcf53809c.png

圖片來源:arxiv.org

上表中,特斯拉使用META的RegNet,參數(shù)為8400萬,消耗運算資源很少,得分82.9也算不低,小米UniOcc使用META的ConvNeXt-B,參數(shù)8900萬,消耗運算資源最少,得分83.8,華為RadOcc使用微軟的Swin-B,參數(shù)8800萬,相對ConvNeXt-B消耗運算資源幾乎翻倍,得分83.5,略高。得分最高的是ConvNeXt-XL,高達87.8,參數(shù)3.5億個,消耗運算資源是Swin-B的十倍還多。

第二名是42dot,一家韓國初創(chuàng)公司,成功的關(guān)鍵也是大模型,其2D Backbone用了InterImage-XL,有3.35億參數(shù),3D Backbone用了微軟的Swin-V2-L,有30億參數(shù),但提升不大。

重點來看第三名的小米汽車,論文題目為《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》,迄今為止在網(wǎng)上可以找到的小米汽車的三篇論文都是圍繞Occupancy來展開的,足見小米對Occupancy的重視程度。

UniOcc框架

bb2e8b92-0449-11ef-a297-92fbcf53809c.png

圖片來源:《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》

小米和接下來要說到的華為都使用了比較新穎的知識蒸餾技術(shù),即教師學生模型,這是一種半監(jiān)督深度學習方式,最早由谷歌提出,發(fā)布于2015年3月,論文為《Distilling the Knowledge in a Neural Network》。知識蒸餾技術(shù)是一種模型壓縮方法,是一種基于Teacher-Student模型的訓(xùn)練方法。知識蒸餾(Knowledge Distillation),顧名思義就是將一個復(fù)雜的大模型的“知識”,蒸餾到一個簡單的小模型中,比較類似于教師(大模型)向?qū)W生(小模型)傳授(蒸餾)知識。這樣做主要是因為大模型部署起來成本驚人,通常最低都是8張英偉達A100這樣的計算和存儲資源,成本最低也在5萬美元以上,在車上完全不可能部署大模型,必須采用蒸餾模式。在Teacher-Student模型中通常有兩個階段:

① 教師模型訓(xùn)練:首先訓(xùn)練一個較大或復(fù)雜的教師模型,它通常具有更多的參數(shù)和復(fù)雜性,并能夠在訓(xùn)練數(shù)據(jù)上表現(xiàn)得更好。

② 學生模型訓(xùn)練:接著,使用教師模型的輸出作為輔助目標,指導(dǎo)較簡化的學生模型進行訓(xùn)練。學生模型嘗試去模仿教師模型的預(yù)測結(jié)果,以此來學習教師模型的“知識”。在訓(xùn)練學生模型時,通常會利用教師模型的軟標簽(soft labels)或教師模型的隱藏層表示(logits)作為額外的監(jiān)督信號,結(jié)合有標簽數(shù)據(jù)進行訓(xùn)練。這個過程中,學生模型的目標是盡量擬合教師模型的預(yù)測結(jié)果,并同時擬合真實的標簽信息。

有些外行把軟標簽(標注,標記)說成是無標簽,說什么自動駕駛數(shù)據(jù)集完全不需要標簽了,這當然是大錯特錯,絕對的無標簽無監(jiān)督深度學習永遠不可能實現(xiàn),頂多是半監(jiān)督,硬標簽是1或者0,沒有中間狀態(tài),軟標簽則是連續(xù)分布的概率。軟標簽可以用教師模型的SOFTMAX層輸出的類別概率做為軟標簽,某種意義上這可算是自動生成的標簽,無需人工添加。教師模型還是需要標簽數(shù)據(jù),還是需要人工標注。

小米的創(chuàng)新有三點,一是使用NeRF的體渲染(volume rendering)來統(tǒng)一2D和3D表示監(jiān)督的通用解決方案,二是通過知識蒸餾做深度預(yù)測訓(xùn)練,三是用低成本的體渲染監(jiān)督學習代替成本高昂稀缺的3D占用網(wǎng)絡(luò)語義標簽監(jiān)督學習。

NeRF神經(jīng)輻射場,不同于傳統(tǒng)的三維重建方法把場景表示為點云、網(wǎng)格、體素等顯式的表達,它獨辟蹊徑,將場景建模成一個連續(xù)的5D輻射場隱式存儲在神經(jīng)網(wǎng)絡(luò)中,只需輸入稀疏的多角度帶pose的圖像訓(xùn)練得到一個神經(jīng)輻射場模型,根據(jù)這個模型可以渲染出任意視角下的清晰的照片。通俗來講就是構(gòu)造一個隱式的渲染流程,其輸入是某個視角下發(fā)射的光線的位置o,方向d以及對應(yīng)的坐標(x,y,z),送入神經(jīng)輻射場Fθ得到體密度和顏色,最后再通過體渲染得到最終的圖像。顯式是離散的表達,不能精細化,導(dǎo)致重疊等偽影,耗費內(nèi)存,限制了在高分辨率場景的應(yīng)用。隱式是連續(xù)的表達,能夠適用于大分辨率的場景,而且不需要3D信號進行監(jiān)督。

NeRF需要兩個MLP,一個負責 Coarse,一個負責 Fine,因此計算量比較大,存儲資源要求也比較高。自動駕駛領(lǐng)域使用NeRF還是相當少見的,因為它太消耗運算和存儲資源了,同時自動駕駛的視角有限,一般是5個視角,想做好NeRF相當困難。

小米的知識蒸餾DTS框架

bb56ffd2-0449-11ef-a297-92fbcf53809c.png

圖片來源:《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》

小米的知識蒸餾DTS框架,在訓(xùn)練中使用visible masks,使用更強的預(yù)先訓(xùn)練的骨干,增加體素分辨率,以及實現(xiàn)Test-Time Augmentation(TTA)。大部分人都是使用英偉達的LSS算法獲得深度,小米的DTS可謂獨樹一幟。

第四名來自上汽AI LAB,其整體框架設(shè)計采用BEVDet的設(shè)計思路,主要提出利用多尺度信息來進行訓(xùn)練和預(yù)測以及一種解耦頭的預(yù)測方法。論文異常簡單,只有4頁。

上汽OCC架構(gòu)

bb763f28-0449-11ef-a297-92fbcf53809c.png

圖片來源:上汽

最后來看華為的,華為由華為諾亞方舟實驗室出面,諾亞方舟實驗室是華為三級部門,隸屬于中央研究院。內(nèi)地主要分布在北京、深圳、上海、西安。下面又分成很多組,比如計算視覺、終端視覺、自動駕駛、網(wǎng)絡(luò)大腦、NLP等等。主要的工作內(nèi)容就是科研和落地,主要做前沿研究,之所以取名諾亞方舟就是說當華為出現(xiàn)大洪水那樣級別的災(zāi)難時,諾亞方舟實驗室的成果足以讓華為走出困境。

最初華為諾亞方舟并未提供論文,直到2023年底才提供論文,論文題目《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》華為論文換了Occ3D的測試數(shù)據(jù)集,最好成績高達55.09,比第一名英偉達還高,當然不是一個測試數(shù)據(jù)集,沒辦法直接對比,但華為應(yīng)該在挑戰(zhàn)賽后還是做了不少改進的地方。

華為也是采用知識蒸餾的教師學生模式。

華為RadOcc架構(gòu)

bb8e1814-0449-11ef-a297-92fbcf53809c.png

圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》

華為RadOcc架構(gòu),思路和小米基本一致,也用了NeRF。教師網(wǎng)絡(luò)是多模態(tài)模型,而學生網(wǎng)絡(luò)僅需要相機輸入,無需激光雷達。兩個網(wǎng)絡(luò)的預(yù)測將用于通過可微分體渲染(differentiable volume rendering)生成渲染深度和語義。

bba9f264-0449-11ef-a297-92fbcf53809c.png

圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》

現(xiàn)有的方法如圖a的是將特征或 logits 進行對齊。RadOcc的核心思想是對教師模型和學生模型生成的渲染結(jié)果進行對齊,如圖(b)所示。使用相機的內(nèi)參和外參對體素特征進行體渲染Volume Rendering,能夠從不同的視點獲得相應(yīng)的深度圖和語義圖。為了實現(xiàn)渲染輸出之間更好的對齊,引入了新穎的渲染深度一致性(RDC)和渲染語義一致性(RSC)損失。一方面,RDC 損失強制光線分布(ray distribution)的一致性,這使得學生模型能夠捕獲數(shù)據(jù)的底層結(jié)構(gòu)。另一方面,RSC損失利用了視覺基礎(chǔ)模型的優(yōu)勢,并利用預(yù)先提取的segment進行affinity蒸餾。允許模型學習和比較不同圖像區(qū)域的語義表示,從而增強其捕獲細粒度細節(jié)的能力。

bbc3ebb0-0449-11ef-a297-92fbcf53809c.png

圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》

采用視覺基礎(chǔ)模型(VFM),即SAM,將segments提取到原始圖像中。對每個segment 中渲染的語義特征進行segment聚合,獲得affinity matrix 。

自動駕駛的理論基礎(chǔ)或者說骨干被META、谷歌、英偉達和微軟這些巨頭壟斷,自動駕駛算法公司能做的就是應(yīng)用層的微調(diào),大家的技術(shù)水平都差不多。另一方面理論基礎(chǔ)在沒有實現(xiàn)重大突破之前,自動駕駛難有實質(zhì)性進展。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    215

    文章

    34126

    瀏覽量

    249440
  • 小米
    +關(guān)注

    關(guān)注

    69

    文章

    14275

    瀏覽量

    142984
  • 自動駕駛
    +關(guān)注

    關(guān)注

    781

    文章

    13449

    瀏覽量

    165254
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2134

    瀏覽量

    1971

原文標題:華為小米對決自動駕駛Occupancy Network

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?

    FPGA(Field-Programmable Gate Array,現(xiàn)場可編程門陣列)在自動駕駛領(lǐng)域具有顯著的優(yōu)勢,這些優(yōu)勢使得FPGA成為自動駕駛技術(shù)中不可或缺的一部分。以下是FPGA在自動駕駛
    發(fā)表于 07-29 17:11

    FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用?

    FPGA(Field-Programmable Gate Array,現(xiàn)場可編程門陣列)在自動駕駛領(lǐng)域具有廣泛的應(yīng)用,其高性能、可配置性、低功耗和低延遲等特點為自動駕駛的實現(xiàn)提供了強有力的支持。以下
    發(fā)表于 07-29 17:09

    小米汽車招募自動駕駛技術(shù)人才

    王乃巖在圖森未來期間主要負責研發(fā)及管理工作,包括L2級輔助駕駛以及L4級自動駕駛方案的開發(fā)實施。他的加盟無疑將加速小米智駕技術(shù)的發(fā)展進程。
    的頭像 發(fā)表于 05-23 10:20 ?459次閱讀

    特斯拉的Occupancy Network占用網(wǎng)絡(luò)如何解決無法識別物體的難題呢?

    Occupancy Network并非特斯拉發(fā)明,最先提出Occupancy Network的是2018年的論文《Occupancy Net
    的頭像 發(fā)表于 04-16 17:29 ?1114次閱讀
    特斯拉的<b class='flag-5'>Occupancy</b> <b class='flag-5'>Network</b>占用網(wǎng)絡(luò)如何解決無法識別物體的難題呢?

    小米自動駕駛技術(shù):算法篇

    小米SOGDet的網(wǎng)絡(luò)架構(gòu),并無獨特之處,畢竟網(wǎng)絡(luò)基礎(chǔ)都是谷歌和META構(gòu)建的。目前頂級自動駕駛網(wǎng)絡(luò)基本都是三部分,其中骨干Backbone部分,還是基于CNN,沒辦法,Transofrmer運算量太大,無法使用,大家基本還是用ResNet50/100。
    發(fā)表于 04-15 14:34 ?411次閱讀
    <b class='flag-5'>小米</b><b class='flag-5'>自動駕駛</b>技術(shù):算法篇

    未來已來,多傳感器融合感知是自動駕駛破局的關(guān)鍵

    的Robotaxi運營。這標志著L4級自動駕駛迎來了新的里程碑,朝著商業(yè)化落地邁進了一大步。中國的車企也不甘落后:4月7日,廣汽埃安與滴滴自動駕駛宣布合資公司——廣州安滴科技有限公司獲批工商執(zhí)照。廣汽埃安
    發(fā)表于 04-11 10:26

    自動駕駛發(fā)展問題及解決方案淺析

    隨著科技的飛速進步,自動駕駛汽車已經(jīng)從科幻概念逐漸轉(zhuǎn)變?yōu)楝F(xiàn)實。然而,在其蓬勃發(fā)展的背后,自動駕駛汽車仍面臨一系列亟待解決的問題和挑戰(zhàn)。本文將對這些問題進行深入的剖析,并提出相應(yīng)的解決方案,以期為未來自動駕駛
    的頭像 發(fā)表于 03-14 08:38 ?879次閱讀

    華為自動駕駛技術(shù)怎么樣?

    ? ? ? 自動駕駛技術(shù)是當今世界汽車產(chǎn)業(yè)的重要發(fā)展方向。作為全球領(lǐng)先的科技企業(yè),華為自動駕駛技術(shù)方面也進行了深入的研發(fā)和創(chuàng)新。 一、華為自動駕駛
    的頭像 發(fā)表于 02-02 16:58 ?1431次閱讀

    BEV和Occupancy自動駕駛的作用

    BEV是Bird's Eye View 的縮寫,意為鳥瞰視圖。在自動駕駛領(lǐng)域,BEV 是指從車輛上方俯瞰的場景視圖。BEV 圖像可以提供車輛周圍環(huán)境的完整視圖,包括車輛前方、后方、兩側(cè)和頂部。
    發(fā)表于 01-17 12:33 ?618次閱讀
    BEV和<b class='flag-5'>Occupancy</b><b class='flag-5'>自動駕駛</b>的作用

    自動駕駛領(lǐng)域中,什么是BEV?什么是Occupancy?

    BEV是Bird's Eye View 的縮寫,意為鳥瞰視圖。在自動駕駛領(lǐng)域,BEV 是指從車輛上方俯瞰的場景視圖。
    的頭像 發(fā)表于 01-13 09:41 ?3036次閱讀
    <b class='flag-5'>自動駕駛</b>領(lǐng)域中,什么是BEV?什么是<b class='flag-5'>Occupancy</b>?

    LabVIEW開發(fā)自動駕駛的雙目測距系統(tǒng)

    LabVIEW開發(fā)自動駕駛的雙目測距系統(tǒng) 隨著車輛駕駛技術(shù)的不斷發(fā)展,自動駕駛技術(shù)正日益成為現(xiàn)實。從L2級別的輔助駕駛技術(shù)到L3級別的受條件約束的
    發(fā)表于 12-19 18:02

    自動駕駛“十問十答”

    說起自動駕駛, 大家現(xiàn)在已經(jīng)不陌生, 但是關(guān)于自動駕駛你又了解多少呢? 今天小編總結(jié)了關(guān)于自動駕駛的 “十問十答” , 帶你了解更多 自動駕駛的來龍去脈 。 問題1. 為什么會 出現(xiàn)
    的頭像 發(fā)表于 11-29 07:40 ?672次閱讀
    <b class='flag-5'>自動駕駛</b>“十問十答”

    為什么自動駕駛需要5G?

    什么叫自動駕駛自動駕駛分為6個等級: ? ? Level 0: 人工駕駛,無駕駛輔助系統(tǒng),僅提醒。 Level 1: 輔助人工駕駛,可實
    的頭像 發(fā)表于 10-26 10:59 ?997次閱讀
    為什么<b class='flag-5'>自動駕駛</b>需要5G?

    農(nóng)機自動駕駛顯示系統(tǒng)組成部分以及配置

    隨著科技的發(fā)展,傳統(tǒng)的農(nóng)機行業(yè)正趨于飽和,新生事物層出不窮,無論是傳統(tǒng)農(nóng)機還是從業(yè)者都面臨如何轉(zhuǎn)型升級的問題。農(nóng)機自動駕駛系統(tǒng)就是當下最熱的概念之一。身為新時代農(nóng)機人,作業(yè)的提質(zhì)增效是無論如何也繞
    發(fā)表于 10-17 17:52

    自動駕駛標準與認證研究:標準化體系助力高階自動駕駛落地和汽車出海

    自動駕駛標準的建設(shè)具有前瞻性和約束性,對國家自動駕駛汽車發(fā)展具有深遠的意義,目前自動駕駛標準主要圍繞L3級及以上自動駕駛展開。在自動駕駛相關(guān)
    的頭像 發(fā)表于 09-27 16:15 ?1132次閱讀
    <b class='flag-5'>自動駕駛</b>標準與認證研究:標準化體系助力高階<b class='flag-5'>自動駕駛</b>落地和汽車出海