亚洲AV中文无码乱人伦在线r,精品露臉國產偷人在視頻

2023年6月計算機視覺學術(shù)圈CVPR舉辦兩場自動駕駛研討會，一個是端到端自動駕駛研討會 (End-to-End Autonomous Driving Workshop)，另一個是視覺中心自動駕駛研討會 (Vision-Centric Autonomous Driving Workshop)。由此又引出4項算法任務(wù)挑戰(zhàn)賽，其中：

第一項是OpenLane Topology即開放路口車道線拓撲矢量化構(gòu)建，第一名是曠視，第二名是輕舟智航，理想L6自動駕駛供應(yīng)商。第三名則是美國AMD，第四名是美團。

第二項是在線高精度地圖繪制，第一名是曠視的自動駕駛子公司邁馳智行，第二名是美國獨立研究者，第三名是上海交通大學。第十名是廣汽研究院。

第四項是nuPlan即自動駕駛規(guī)劃，第一名是德國Tübingen大學，第二名是地平線，第三名是初創(chuàng)公司云驥智行。

第三項是最具價值的3D Occupancy network預(yù)測，也就是特斯拉帶火的占用網(wǎng)絡(luò)，共有149個團隊參加比賽，其中不乏業(yè)內(nèi)巨頭，包括英偉達、小米、上汽、華為、?？低?/u>。

圖片來源：https://opendrivelab.com/challenge2023/

占用網(wǎng)絡(luò)挑戰(zhàn)賽前10名，第一名有15000美元的獎金。第四名到第十名可算第三梯隊，差距很小。英偉達遙遙領(lǐng)先。韓國自動駕駛初創(chuàng)公司42dot與小米可算第二梯隊。

比賽中使用的Occ數(shù)據(jù)集來自nuScenes，要求選手在僅使用圖像這個模態(tài)的情況下，對200x200x16的3D體素空間的占據(jù)情況進行預(yù)測，其中評價指標采用mIoU，并且將僅對圖像中的可視范圍中的預(yù)測結(jié)果進行評估。在比賽中，一共有兩個Baseline可供選擇，一個是官方提供的基于BEVFormer框架的實現(xiàn)，另一個則是基于BEVDet框架實現(xiàn)的，也分別代表了在3D目標檢測現(xiàn)在主流的兩個實現(xiàn)路線，LSS和Transformer。兩種Baseline都將原來輸入檢測頭的特征，從BEV空間拉伸成200x200x16的3D體素空間，然后接上一個簡單的語義分割頭，來對3D占據(jù)的結(jié)果進行預(yù)測。

第一名英偉達的FB-OCC，其成功的關(guān)鍵還是大模型，英偉達使用了比較新的InterImage-H來作為他們的Backbone，而為了更好的應(yīng)用InterImage-H，作者還將其在原先在COCO的預(yù)訓(xùn)練基礎(chǔ)上，在object365上也進行了預(yù)訓(xùn)練，使其更好的應(yīng)用在此任務(wù)上。InternImage-H參數(shù)多達10.8億個，當然大模型也不是想用就能用，太大的模型容易出現(xiàn)過擬合，且消耗運算和存儲資源也較多。

最新2D圖像骨干網(wǎng)對比

圖片來源：arxiv.org

上表中，特斯拉使用META的RegNet，參數(shù)為8400萬，消耗運算資源很少，得分82.9也算不低，小米UniOcc使用META的ConvNeXt-B，參數(shù)8900萬，消耗運算資源最少，得分83.8，華為RadOcc使用微軟的Swin-B，參數(shù)8800萬，相對ConvNeXt-B消耗運算資源幾乎翻倍，得分83.5，略高。得分最高的是ConvNeXt-XL，高達87.8，參數(shù)3.5億個，消耗運算資源是Swin-B的十倍還多。

第二名是42dot，一家韓國初創(chuàng)公司，成功的關(guān)鍵也是大模型，其2D Backbone用了InterImage-XL，有3.35億參數(shù)，3D Backbone用了微軟的Swin-V2-L，有30億參數(shù)，但提升不大。

重點來看第三名的小米汽車，論文題目為《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》，迄今為止在網(wǎng)上可以找到的小米汽車的三篇論文都是圍繞Occupancy來展開的，足見小米對Occupancy的重視程度。

UniOcc框架

圖片來源：《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》

小米和接下來要說到的華為都使用了比較新穎的知識蒸餾技術(shù)，即教師學生模型，這是一種半監(jiān)督深度學習方式，最早由谷歌提出，發(fā)布于2015年3月，論文為《Distilling the Knowledge in a Neural Network》。知識蒸餾技術(shù)是一種模型壓縮方法，是一種基于Teacher-Student模型的訓(xùn)練方法。知識蒸餾（Knowledge Distillation），顧名思義就是將一個復(fù)雜的大模型的“知識”，蒸餾到一個簡單的小模型中，比較類似于教師（大模型）向?qū)W生（小模型）傳授（蒸餾）知識。這樣做主要是因為大模型部署起來成本驚人，通常最低都是8張英偉達A100這樣的計算和存儲資源，成本最低也在5萬美元以上，在車上完全不可能部署大模型，必須采用蒸餾模式。在Teacher-Student模型中通常有兩個階段：

① 教師模型訓(xùn)練：首先訓(xùn)練一個較大或復(fù)雜的教師模型，它通常具有更多的參數(shù)和復(fù)雜性，并能夠在訓(xùn)練數(shù)據(jù)上表現(xiàn)得更好。

② 學生模型訓(xùn)練：接著，使用教師模型的輸出作為輔助目標，指導(dǎo)較簡化的學生模型進行訓(xùn)練。學生模型嘗試去模仿教師模型的預(yù)測結(jié)果，以此來學習教師模型的“知識”。在訓(xùn)練學生模型時，通常會利用教師模型的軟標簽（soft labels）或教師模型的隱藏層表示（logits）作為額外的監(jiān)督信號，結(jié)合有標簽數(shù)據(jù)進行訓(xùn)練。這個過程中，學生模型的目標是盡量擬合教師模型的預(yù)測結(jié)果，并同時擬合真實的標簽信息。

有些外行把軟標簽（標注，標記）說成是無標簽，說什么自動駕駛數(shù)據(jù)集完全不需要標簽了，這當然是大錯特錯，絕對的無標簽無監(jiān)督深度學習永遠不可能實現(xiàn)，頂多是半監(jiān)督，硬標簽是1或者0，沒有中間狀態(tài)，軟標簽則是連續(xù)分布的概率。軟標簽可以用教師模型的SOFTMAX層輸出的類別概率做為軟標簽，某種意義上這可算是自動生成的標簽，無需人工添加。教師模型還是需要標簽數(shù)據(jù)，還是需要人工標注。

小米的創(chuàng)新有三點，一是使用NeRF的體渲染(volume rendering)來統(tǒng)一2D和3D表示監(jiān)督的通用解決方案，二是通過知識蒸餾做深度預(yù)測訓(xùn)練，三是用低成本的體渲染監(jiān)督學習代替成本高昂稀缺的3D占用網(wǎng)絡(luò)語義標簽監(jiān)督學習。

NeRF神經(jīng)輻射場，不同于傳統(tǒng)的三維重建方法把場景表示為點云、網(wǎng)格、體素等顯式的表達，它獨辟蹊徑，將場景建模成一個連續(xù)的5D輻射場隱式存儲在神經(jīng)網(wǎng)絡(luò)中，只需輸入稀疏的多角度帶pose的圖像訓(xùn)練得到一個神經(jīng)輻射場模型，根據(jù)這個模型可以渲染出任意視角下的清晰的照片。通俗來講就是構(gòu)造一個隱式的渲染流程，其輸入是某個視角下發(fā)射的光線的位置o，方向d以及對應(yīng)的坐標(x,y,z)，送入神經(jīng)輻射場Fθ得到體密度和顏色，最后再通過體渲染得到最終的圖像。顯式是離散的表達，不能精細化，導(dǎo)致重疊等偽影，耗費內(nèi)存，限制了在高分辨率場景的應(yīng)用。隱式是連續(xù)的表達，能夠適用于大分辨率的場景，而且不需要3D信號進行監(jiān)督。

NeRF需要兩個MLP，一個負責 Coarse，一個負責 Fine，因此計算量比較大，存儲資源要求也比較高。自動駕駛領(lǐng)域使用NeRF還是相當少見的，因為它太消耗運算和存儲資源了，同時自動駕駛的視角有限，一般是5個視角，想做好NeRF相當困難。

小米的知識蒸餾DTS框架

圖片來源：《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》

小米的知識蒸餾DTS框架，在訓(xùn)練中使用visible masks，使用更強的預(yù)先訓(xùn)練的骨干，增加體素分辨率，以及實現(xiàn)Test-Time Augmentation(TTA)。大部分人都是使用英偉達的LSS算法獲得深度，小米的DTS可謂獨樹一幟。

第四名來自上汽AI LAB，其整體框架設(shè)計采用BEVDet的設(shè)計思路，主要提出利用多尺度信息來進行訓(xùn)練和預(yù)測以及一種解耦頭的預(yù)測方法。論文異常簡單，只有4頁。

上汽OCC架構(gòu)

圖片來源：上汽

最后來看華為的，華為由華為諾亞方舟實驗室出面，諾亞方舟實驗室是華為三級部門，隸屬于中央研究院。內(nèi)地主要分布在北京、深圳、上海、西安。下面又分成很多組，比如計算視覺、終端視覺、自動駕駛、網(wǎng)絡(luò)大腦、NLP等等。主要的工作內(nèi)容就是科研和落地，主要做前沿研究，之所以取名諾亞方舟就是說當華為出現(xiàn)大洪水那樣級別的災(zāi)難時，諾亞方舟實驗室的成果足以讓華為走出困境。

最初華為諾亞方舟并未提供論文，直到2023年底才提供論文，論文題目《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》華為論文換了Occ3D的測試數(shù)據(jù)集，最好成績高達55.09，比第一名英偉達還高，當然不是一個測試數(shù)據(jù)集，沒辦法直接對比，但華為應(yīng)該在挑戰(zhàn)賽后還是做了不少改進的地方。

華為也是采用知識蒸餾的教師學生模式。

華為RadOcc架構(gòu)

圖片來源：《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》

華為RadOcc架構(gòu)，思路和小米基本一致，也用了NeRF。教師網(wǎng)絡(luò)是多模態(tài)模型，而學生網(wǎng)絡(luò)僅需要相機輸入，無需激光雷達。兩個網(wǎng)絡(luò)的預(yù)測將用于通過可微分體渲染(differentiable volume rendering)生成渲染深度和語義。

圖片來源：《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》

現(xiàn)有的方法如圖a的是將特征或 logits 進行對齊。RadOcc的核心思想是對教師模型和學生模型生成的渲染結(jié)果進行對齊，如圖(b)所示。使用相機的內(nèi)參和外參對體素特征進行體渲染Volume Rendering，能夠從不同的視點獲得相應(yīng)的深度圖和語義圖。為了實現(xiàn)渲染輸出之間更好的對齊，引入了新穎的渲染深度一致性（RDC）和渲染語義一致性（RSC）損失。一方面，RDC 損失強制光線分布(ray distribution)的一致性，這使得學生模型能夠捕獲數(shù)據(jù)的底層結(jié)構(gòu)。另一方面，RSC損失利用了視覺基礎(chǔ)模型的優(yōu)勢，并利用預(yù)先提取的segment進行affinity蒸餾。允許模型學習和比較不同圖像區(qū)域的語義表示，從而增強其捕獲細粒度細節(jié)的能力。

圖片來源：《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》

采用視覺基礎(chǔ)模型（VFM），即SAM，將segments提取到原始圖像中。對每個segment 中渲染的語義特征進行segment聚合，獲得affinity matrix 。

自動駕駛的理論基礎(chǔ)或者說骨干被META、谷歌、英偉達和微軟這些巨頭壟斷，自動駕駛算法公司能做的就是應(yīng)用層的微調(diào)，大家的技術(shù)水平都差不多。另一方面理論基礎(chǔ)在沒有實現(xiàn)重大突破之前，自動駕駛難有實質(zhì)性進展。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

華為

華為

+關(guān)注

關(guān)注
215

文章
34126

瀏覽量
249440
小米

小米

+關(guān)注

關(guān)注
69

文章
14275

瀏覽量
142984
自動駕駛

自動駕駛

+關(guān)注

關(guān)注
781

文章
13449

瀏覽量
165254
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2134

瀏覽量
1971

原文標題：華為小米對決自動駕駛Occupancy Network

文章出處：【微信號：zuosiqiche，微信公眾號：佐思汽車研究】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?

FPGA（Field-Programmable Gate Array，現(xiàn)場可編程門陣列）在自動駕駛領(lǐng)域具有顯著的優(yōu)勢，這些優(yōu)勢使得FPGA成為自動駕駛技術(shù)中不可或缺的一部分。以下是FPGA在自動駕駛

發(fā)表于 07-29 17:11

FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用？

FPGA（Field-Programmable Gate Array，現(xiàn)場可編程門陣列）在自動駕駛領(lǐng)域具有廣泛的應(yīng)用，其高性能、可配置性、低功耗和低延遲等特點為自動駕駛的實現(xiàn)提供了強有力的支持。以下

發(fā)表于 07-29 17:09

小米汽車招募自動駕駛技術(shù)人才

王乃巖在圖森未來期間主要負責研發(fā)及管理工作，包括L2級輔助駕駛以及L4級自動駕駛方案的開發(fā)實施。他的加盟無疑將加速小米智駕技術(shù)的發(fā)展進程。

發(fā)表于 05-23 10:20 ?459次閱讀

特斯拉的Occupancy Network占用網(wǎng)絡(luò)如何解決無法識別物體的難題呢？

Occupancy Network并非特斯拉發(fā)明，最先提出Occupancy Network的是2018年的論文《Occupancy Net

發(fā)表于 04-16 17:29 ?1114次閱讀

特斯拉的<b class='flag-5'>Occupancy</b> <b class='flag-5'>Network</b>占用網(wǎng)絡(luò)如何解決無法識別物體的難題呢？

小米自動駕駛技術(shù)：算法篇

小米SOGDet的網(wǎng)絡(luò)架構(gòu)，并無獨特之處，畢竟網(wǎng)絡(luò)基礎(chǔ)都是谷歌和META構(gòu)建的。目前頂級自動駕駛網(wǎng)絡(luò)基本都是三部分，其中骨干Backbone部分，還是基于CNN，沒辦法，Transofrmer運算量太大，無法使用，大家基本還是用ResNet50/100。

發(fā)表于 04-15 14:34 ?411次閱讀

<b class='flag-5'>小米</b><b class='flag-5'>自動駕駛</b>技術(shù)：算法篇

未來已來，多傳感器融合感知是自動駕駛破局的關(guān)鍵

的Robotaxi運營。這標志著L4級自動駕駛迎來了新的里程碑，朝著商業(yè)化落地邁進了一大步。中國的車企也不甘落后：4月7日，廣汽埃安與滴滴自動駕駛宣布合資公司——廣州安滴科技有限公司獲批工商執(zhí)照。廣汽埃安

發(fā)表于 04-11 10:26

自動駕駛發(fā)展問題及解決方案淺析

隨著科技的飛速進步，自動駕駛汽車已經(jīng)從科幻概念逐漸轉(zhuǎn)變?yōu)楝F(xiàn)實。然而，在其蓬勃發(fā)展的背后，自動駕駛汽車仍面臨一系列亟待解決的問題和挑戰(zhàn)。本文將對這些問題進行深入的剖析，并提出相應(yīng)的解決方案，以期為未來自動駕駛

發(fā)表于 03-14 08:38 ?879次閱讀

華為自動駕駛技術(shù)怎么樣？

? ? ? 自動駕駛技術(shù)是當今世界汽車產(chǎn)業(yè)的重要發(fā)展方向。作為全球領(lǐng)先的科技企業(yè)，華為在自動駕駛技術(shù)方面也進行了深入的研發(fā)和創(chuàng)新。一、華為自動駕駛

發(fā)表于 02-02 16:58 ?1431次閱讀

BEV和Occupancy自動駕駛的作用

BEV是Bird's Eye View 的縮寫，意為鳥瞰視圖。在自動駕駛領(lǐng)域，BEV 是指從車輛上方俯瞰的場景視圖。BEV 圖像可以提供車輛周圍環(huán)境的完整視圖，包括車輛前方、后方、兩側(cè)和頂部。

發(fā)表于 01-17 12:33 ?618次閱讀

自動駕駛領(lǐng)域中，什么是BEV？什么是Occupancy？

BEV是Bird's Eye View 的縮寫，意為鳥瞰視圖。在自動駕駛領(lǐng)域，BEV 是指從車輛上方俯瞰的場景視圖。

發(fā)表于 01-13 09:41 ?3036次閱讀

LabVIEW開發(fā)自動駕駛的雙目測距系統(tǒng)

LabVIEW開發(fā)自動駕駛的雙目測距系統(tǒng) 隨著車輛駕駛技術(shù)的不斷發(fā)展，自動駕駛技術(shù)正日益成為現(xiàn)實。從L2級別的輔助駕駛技術(shù)到L3級別的受條件約束的自

發(fā)表于 12-19 18:02

自動駕駛“十問十答”

說起自動駕駛，大家現(xiàn)在已經(jīng)不陌生，但是關(guān)于自動駕駛你又了解多少呢？今天小編總結(jié)了關(guān)于自動駕駛的 “十問十答” ，帶你了解更多 自動駕駛的來龍去脈。問題1. 為什么會出現(xiàn)

發(fā)表于 11-29 07:40 ?672次閱讀

為什么自動駕駛需要5G？

什么叫自動駕駛？ 自動駕駛分為6個等級： ? ? Level 0：人工駕駛，無駕駛輔助系統(tǒng)，僅提醒。 Level 1：輔助人工駕駛，可實

發(fā)表于 10-26 10:59 ?997次閱讀

農(nóng)機自動駕駛顯示系統(tǒng)組成部分以及配置

隨著科技的發(fā)展，傳統(tǒng)的農(nóng)機行業(yè)正趨于飽和，新生事物層出不窮，無論是傳統(tǒng)農(nóng)機還是從業(yè)者都面臨如何轉(zhuǎn)型升級的問題。農(nóng)機自動駕駛系統(tǒng)就是當下最熱的概念之一。身為新時代農(nóng)機人，作業(yè)的提質(zhì)增效是無論如何也繞

發(fā)表于 10-17 17:52

自動駕駛標準與認證研究：標準化體系助力高階自動駕駛落地和汽車出海

自動駕駛標準的建設(shè)具有前瞻性和約束性，對國家自動駕駛汽車發(fā)展具有深遠的意義，目前自動駕駛標準主要圍繞L3級及以上自動駕駛展開。在自動駕駛相關(guān)

發(fā)表于 09-27 16:15 ?1132次閱讀