Twitter Hacker @Tristan公布了他破解的FSDbeta內(nèi)部的3Dvoxel NN,形態(tài)仿佛狂野的《西部世界》,看起來雖然粗糙,無法實(shí)現(xiàn)纖毫畢現(xiàn),但是關(guān)鍵信息——尤其是落在識(shí)別結(jié)果分類范圍之外的長(zhǎng)尾目標(biāo)和場(chǎng)景,可以識(shí)別。
@Tristan是一個(gè)活躍在Twitter.com和github.com上的技術(shù)工程師(小編:Tristan現(xiàn)供職于Facebook),其個(gè)人公開的興趣是機(jī)器學(xué)習(xí)和逆向工程——這就不難理解Tristan和長(zhǎng)期活躍在互聯(lián)網(wǎng)上一批汽車科技黑客,對(duì)于破解Tesla車機(jī)系統(tǒng)尤其是自動(dòng)駕駛系統(tǒng)的熱情了。小編要是有這個(gè)實(shí)力也會(huì)這么干,畢竟這是在公眾可以接觸到的AI完整系統(tǒng)中,鳳毛麟角的批量商用產(chǎn)品了。
11月25日,@Tristan在twitter上公布了他所破解的Autopilot感知堆棧內(nèi)的新功能,大致的名字可以被稱作“Voxel 3D Birdseye view Model”——基于體素的3D矢量空間感知模型。這個(gè)功能首次被發(fā)現(xiàn)于大概一個(gè)半月前的2021.36版本,再次發(fā)現(xiàn)是在當(dāng)前正在接受測(cè)試的FSD beta10.5版本。目前尚不確定這部分的NN模型是否在實(shí)際的識(shí)別堆棧中online參與識(shí)別,但功能肯定是存在的,而且這部分NN模型針對(duì)性也很明顯,就是針對(duì)在純視覺系統(tǒng)下表現(xiàn)不佳的靜態(tài)物體識(shí)別。我們可以先看一段被hacked出來的Voxel 3D Birdseye view模型識(shí)別結(jié)果,如下:
@Tristan并未提供這段視頻的對(duì)比真實(shí)世界場(chǎng)景,但大致上讀者應(yīng)該還是可以理解這是車輛行駛在道路上,從Camera提供的2D視覺信號(hào)所“恢復(fù)”出來的3D voxel靜態(tài)物信息,包含但不限于:道路區(qū)域內(nèi)的隔離物體、道路邊緣大致輪廓,以及道路外圍的第一排臨街建筑物和各種交通實(shí)體。
讀者可以先不著急理解FSD beta是如何將視頻信號(hào)轉(zhuǎn)換為3D voxel構(gòu)成的場(chǎng)景的,理解這種技術(shù)的關(guān)鍵在于,什么是voxel體素的概念。
圖二【Tesla voxel 3d model-2.png】來自spatial.com的體素概念截圖,URLhttps://blog.spatial.com/the-main-benefits-and-disadvantages-of-voxel-modeling;
體素本質(zhì)上是 3D 像素,但它們不是正方形,而是完美的立方體。理論上,體素是復(fù)制現(xiàn)實(shí)的完美建模技術(shù)。我們可以理解現(xiàn)實(shí)的世界是由類似于體素的東西組成的(小編:但它們要小得多,我們稱之為“亞原子粒子”)。如果您有足夠高的密度(或2D平面下的“分辨率”)和適當(dāng)?shù)匿秩炯夹g(shù),您就可以使用體素來復(fù)制現(xiàn)實(shí)世界中的對(duì)象,這些對(duì)象在外觀和行為上都無法與真實(shí)事物區(qū)分開來。下圖為例,如果計(jì)算機(jī)的渲染能力足夠強(qiáng),就可以構(gòu)建出基于立方體voxel的虛擬物理實(shí)體。只要Voxel有足夠的細(xì)膩,虛擬的實(shí)體就可以逼真到肉眼在一定距離上無法辨識(shí)。(小編:你能識(shí)別下圖中的房屋實(shí)際是由voxel構(gòu)成的嗎?)
圖三【Tesla voxel 3d model-3.png】來自spatial.com的體素概念截圖,URLhttps://blog.spatial.com/the-main-benefits-and-disadvantages-of-voxel-modeling;
基于voxel的體素建模在今天有一些非常具體的用例。許多科學(xué)學(xué)科都使用體素來快速確定體積數(shù)據(jù)。例如,在基于體素的形態(tài)測(cè)量學(xué)中,研究人員可以使用體素比較腦組織濃度的差異;地質(zhì)學(xué)家經(jīng)常使用體素建模技術(shù)來模擬地形和高程等地質(zhì)特征。更廣泛地說,科學(xué)家可以使用基于體素的建模來可視化和測(cè)量城市中心從流體到綠色空間的任何事物的體積。體素在需要對(duì)單個(gè)粒子進(jìn)行建模的模擬技術(shù)中也很有用,就像智能材料模擬的情況一樣。(小編:以上信息來自于spatial.com對(duì)于體素和體素建模的論證)
但我們今天所要關(guān)注的重點(diǎn)在于自動(dòng)駕駛領(lǐng)域?qū)τ?D目標(biāo)實(shí)時(shí)建模的特殊需求,顯著區(qū)別于以上科學(xué)領(lǐng)域的精密應(yīng)用。這里會(huì)帶出兩個(gè)問題,如下:
1 為什么說自動(dòng)駕駛領(lǐng)域,是特殊的3D目標(biāo)實(shí)時(shí)的建模需求?
小編:按照目前的自動(dòng)駕駛感知系統(tǒng)硬件配置,除了Tesla劍走偏鋒選擇了“純視覺”路線而只依賴camera/s硬件以外,幾乎所有的其它主流自動(dòng)駕駛廠商,都選擇了視覺+超視覺的機(jī)器感知的方案,而需要配置完整的camera + Lidar + mmRadar硬件陣列。(小編:針對(duì)低速泊車場(chǎng)景的超聲波雷達(dá)supersonic我們不做討論)對(duì)于后者的綜合性傳感器配置來說,獲取靜態(tài)場(chǎng)景/物體的測(cè)量信息并不算難題。無外界干擾因素的前提下,Lidar通過激光反射點(diǎn)云信息可以直接測(cè)量和描述主車四周的的環(huán)境信息,從而直接獲取3D建模結(jié)果??赡芎蚅idar在車身上不同的安裝位置和角度相關(guān)會(huì)有一些具體差異,如果是Waymo那種車頂360度大型旋轉(zhuǎn)Lidar布局,則可以直接獲取最終3D結(jié)果。對(duì),直接!但對(duì)于Tesla Vision純視覺解決方案來說,通過成像平面的感光原理,只能是拿到主車四周的部分信息(小編:缺失了關(guān)鍵的深度信息),所以必須有這么一個(gè)看起來類似“悖論”的數(shù)據(jù)處理過程:
真實(shí)的物理世界——>小孔成像投影變換——>像平面成2D像——>NN神經(jīng)網(wǎng)絡(luò)——>voxel 3D場(chǎng)景信息
單一的視覺傳感器的優(yōu)勢(shì),也正是它自身的劣勢(shì)。
2 為什么說自動(dòng)駕駛領(lǐng)域的voxel 3D建模需求和以上科學(xué)領(lǐng)域有顯著區(qū)別?
小編:從視頻一中的voxel 3D場(chǎng)景信息我們也能看得出來,自動(dòng)駕駛領(lǐng)域中,至少在Tesla的技術(shù)實(shí)現(xiàn)中,尤其針對(duì)靜態(tài)周圍場(chǎng)景的voxel 3D場(chǎng)景信息的voxel體素的體積較大,視覺上看遠(yuǎn)大于我們以上提到的各種科學(xué)應(yīng)用中的3D建模中的voxel,最終的呈現(xiàn)效果上也就沒那么細(xì)膩。小編不敢確定的是,大尺寸的voxel是否能夠帶來顯著降低的建模算力需求?是否帶來更高的建模結(jié)果置信度?或者說是否足夠補(bǔ)充Tesla Vision純視覺信息對(duì)于道路靜態(tài)場(chǎng)景的理解力不足的現(xiàn)狀?以下我們通過參考一個(gè)FSD beta系統(tǒng)camera捕捉的視覺場(chǎng)景,和其對(duì)應(yīng)的實(shí)際voxel 3D建模結(jié)果,來嘗試解答以上問題:
圖四【Tesla voxel 3d model-4.png】來自@Tristan推特視頻截圖,URLhttps://twitter.com/rice_fry/status/1463628678445756416/photo/1;
圖五【Tesla voxel 3d model-5.png】來自@Tristan推特視頻截圖,URLhttps://twitter.com/rice_fry/status/1463628678445756416/photo/3 ;
上圖四和圖五對(duì)應(yīng)顯示了一個(gè)道路中央帶有隔離標(biāo)識(shí)的雙向車道。可能讀者第一視覺感官是這兩張圖實(shí)在是看不出來有什么2D—3D的對(duì)應(yīng)關(guān)系,實(shí)際上這就是大型voxel體素的3D化處理效果。注:圖五中的綠色方塊為模擬出的主車位置(小編:圖四和圖五之間位置上有些不匹配,請(qǐng)忽略這個(gè)問題,不影響我們的對(duì)比分析)
紅色箭頭:此處為場(chǎng)景中最有代表性的景物,也是Tesla Vision所面臨的最大的長(zhǎng)尾問題之一:如果針對(duì)靜態(tài)景物的NN識(shí)別Head并沒有針對(duì)這種黃色的道路隔離指示牌進(jìn)行預(yù)分類定義和針對(duì)性訓(xùn)練,則類似道路中央的障礙物可能會(huì)被Tesla Vision所忽略;(小編:各位還記得我們之前公眾號(hào)里貼過的那個(gè)西雅圖輕軌所特有的單支柱結(jié)構(gòu)嘛?如果沒有針對(duì)性分類和訓(xùn)練、或者本文所討論的針對(duì)靜態(tài)場(chǎng)景信息的3D voxel識(shí)別結(jié)果,那就是存在于“可駕駛區(qū)域“內(nèi)極大的駕駛風(fēng)險(xiǎn);圖五中我們可以看到識(shí)別結(jié)果為一個(gè)穩(wěn)定的、疊加增高的體素voxel立柱;
紫色箭頭:圖五中的紫色箭頭所指的邊界高度voxel,整齊劃一,對(duì)應(yīng)為圖四當(dāng)中的馬路邊的路緣石。高于路面一個(gè)voxel高度的路緣石結(jié)構(gòu)被準(zhǔn)確地、連續(xù)地識(shí)別出來,可以有力地補(bǔ)充Tesla Vision中針對(duì)馬路可行駛區(qū)域邊界的識(shí)別置信度。在這里我們也可以思考一下,精準(zhǔn)地模擬路緣石可能的高度和各種形狀和缺損,實(shí)際上對(duì)于“可行駛區(qū)域”邊界的界定沒有什么特別好的增益。連貫地、穩(wěn)定地識(shí)別出來路緣石邊界即可;
藍(lán)色箭頭:圖五中高出路緣石高度的voxel是對(duì)應(yīng)與圖四當(dāng)中的灌木綠化帶,因?yàn)槊娣e較大,所以也是呈現(xiàn)出連貫的趨勢(shì);
紫色箭頭:圖五中綠色箭頭的voxel柱狀結(jié)構(gòu),對(duì)應(yīng)于圖四當(dāng)中的路邊電線桿。目前尚不清楚不同voxel體素的不同顏色所代表的具體含義,可能是識(shí)別結(jié)果置信度,也可能是高度。
綜上可以看到,路側(cè)更遠(yuǎn)處的更高高度的場(chǎng)景識(shí)別,目前是么有輸出的,仿佛被人切了一刀。其實(shí)很好理解,在距離“可行駛區(qū)域”以外一定距離上的高度信息對(duì)于自動(dòng)駕駛系統(tǒng)并無增益,可以忽略。后面我們還會(huì)看到一個(gè)例子,Tesla的這種voxel場(chǎng)景識(shí)別技術(shù),可以識(shí)別地下車庫(kù)的頂棚。對(duì)于帶有頂棚結(jié)構(gòu)的室內(nèi)場(chǎng)景和隧道場(chǎng)景,高度識(shí)別還是有實(shí)際意義的。
在經(jīng)過這個(gè)理解過程之后,小編相信讀者再看圖五的voxel 3D輸出,就不會(huì)是之前那種一頭霧水的感覺了。當(dāng)然圖五所代表的voxel 3D場(chǎng)景識(shí)別結(jié)果依然是低信息密度的識(shí)別輸出。但考慮到Tesla Vision識(shí)別堆棧的識(shí)別結(jié)果不會(huì)是以voxel 3D場(chǎng)景為唯一準(zhǔn)繩,針對(duì)靜態(tài)場(chǎng)景尤其是障礙物的voxel 3D識(shí)別結(jié)果一定是視覺識(shí)別輸出的補(bǔ)充,從而實(shí)現(xiàn)對(duì)于“防撞”等關(guān)鍵任務(wù)的保障。
我們可以再看一個(gè)實(shí)際的靜態(tài)場(chǎng)景處理前后對(duì)比:
圖六【Tesla voxel 3d model-6.png】來自@Tristan推特視頻截圖,URLhttps://twitter.com/rice_fry/status/1463628811321311236/photo/1;
圖七【Tesla voxel 3d model-7.png】來自@Tristan推特視頻截圖,URLhttps://twitter.com/rice_fry/status/1463628811321311236/photo/3;
以上圖六和圖七的對(duì)比非常明確,主要表達(dá)對(duì)于公路路面上的三角錐的voxel 3D識(shí)別。因?yàn)槿清F本身的椎體結(jié)構(gòu)(底部粗頂部細(xì)),因此voxel識(shí)別結(jié)果也基本是這個(gè)趨勢(shì)。當(dāng)然針對(duì)單個(gè)三角錐來說,voxel 3D的識(shí)別結(jié)果是不能令人滿意的,太過粗糙以至于如果你單獨(dú)觀察圖七,實(shí)際上你并不能分清楚這些堆狀障礙物的本質(zhì)屬性到底是什么東西。但其所能表達(dá)的指定位置上有障礙物的這個(gè)性質(zhì)是足夠有價(jià)值的:FSD beta的路徑規(guī)劃模塊需要考慮這些障礙物,并避讓。當(dāng)然,從歷史經(jīng)驗(yàn)上看,Tesla Vision的靜態(tài)物體識(shí)別Head是可以提供對(duì)于三角錐這種交通常見物體的識(shí)別和分類的,并不需要依賴額外的voxel 3D NN識(shí)別輸出,但如果遇到交通場(chǎng)景長(zhǎng)尾現(xiàn)象中各種可能的障礙物屬性無法窮盡的客觀事實(shí),那么voxel 3D的輸出就顯得十分必要了。
圖八【Tesla FSD beta v9-18.png】,圖片來源請(qǐng)參考本公眾號(hào)之前的歷史文章插圖;
圖九【Tesla FSD beta v9-31.png】,圖片來源請(qǐng)參考本公眾號(hào)之前的歷史文章插圖;
以之前我們公眾號(hào)文章中曾經(jīng)捕捉到的FSD beta路測(cè)場(chǎng)景,我們可以實(shí)地看到大量存在的Tesla Vision無法識(shí)別的長(zhǎng)尾現(xiàn)象。圖八中的貨車卸貨斜板結(jié)構(gòu);圖九中西雅圖輕軌支柱位于道路可行駛區(qū)域內(nèi)部等等。對(duì)于Lidar、mmradar等有源傳感器,識(shí)別類似障礙物并非難題,但對(duì)于純視覺方案來說,如果不按照視覺+NN的標(biāo)準(zhǔn)數(shù)據(jù)收集和訓(xùn)練方法,針對(duì)道路中央的支柱、貨車尾部的卸貨斜板等目標(biāo)物體提前建立分類并進(jìn)行訓(xùn)練,就永遠(yuǎn)不會(huì)被Tesla Vision的HydraNets所識(shí)別,從而對(duì)自動(dòng)駕駛系統(tǒng)構(gòu)成真實(shí)的威脅。(小編:讀者可能會(huì)想到車體上還有四周12個(gè)supersonic雷達(dá)可以用于最后的防撞告警?但大量事實(shí)證明Tesla autopilot系統(tǒng)不會(huì)在正常行駛中使用超聲波感知數(shù)據(jù)做防撞操作,僅作障礙物提示使用)
FSD beta所采用的voxel 3D NN的技術(shù)細(xì)節(jié)并未得到披露,從類似的一般性的公開方法來說,從2D單個(gè)圖像中恢復(fù)出voxel 3D信息的方法是基于標(biāo)準(zhǔn)的Encoder—Decoder結(jié)構(gòu)的。小編以一篇公開論文(V3DOR網(wǎng)絡(luò))為例,大致論述一下其背后的技術(shù)原理。
V3DOR=Visual 3D Object Reconstruction,屬于典型的encoder-decoder架構(gòu)的NN。Encoder編碼部分將從camera相平面輸出的2D圖像中獲取“合適的”特征,Decoder將在這些特征的基礎(chǔ)上恢復(fù)目標(biāo)物或者場(chǎng)景的3D信息。整體的訓(xùn)練數(shù)據(jù)來自于一個(gè)叫做ShapeNet的數(shù)據(jù)集,因數(shù)據(jù)集在近期數(shù)據(jù)規(guī)模的不斷豐富和演進(jìn),因此V3DOR的性能在穩(wěn)步進(jìn)化,號(hào)稱State of the art。實(shí)際上利用Lidar技術(shù)或者結(jié)構(gòu)光學(xué)攝影技術(shù),部署在消費(fèi)電子產(chǎn)品上,比如手機(jī),來拍攝實(shí)際物體并生成矢量化的目標(biāo)物3D成像,還是一個(gè)比較成熟的技術(shù)。(小編:畢竟已經(jīng)進(jìn)入消費(fèi)電子行列了)以從iphone12pro開始進(jìn)入iphone系列的Lidar模塊為例,如下效果:
【小編:請(qǐng)注意,以下關(guān)于iPhone Lidar的資料來自于少數(shù)派站點(diǎn)文章《iPhone12 Pro的激光雷達(dá)能做哪些有趣的事?》】
圖十【Tesla voxel 3d model-9.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
從近景的貨柜開始,打開iPhone的Lidar傳感器進(jìn)行掃描,從圖中你會(huì)發(fā)現(xiàn),Lidar傳感器與肉眼不同,它看到的只有遠(yuǎn)近關(guān)系而沒有材質(zhì)。受限于機(jī)身尺寸和需求差異,iPhone Pro 和 iPad Pro 上的雷達(dá)傳感器只能識(shí)別幾米的距離。上圖中可以看到深度信息只包含鏡頭周邊的場(chǎng)景,包括左手的冰柜和左手的貨架,而過遠(yuǎn)的地方則無法識(shí)別。
圖十一【Tesla voxel 3d model-10.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
如果綜合利用iPhone機(jī)體內(nèi)的其他傳感器,比如陀螺儀和網(wǎng)格系統(tǒng),iPhone 會(huì)通過陀螺儀來對(duì)設(shè)備姿態(tài)進(jìn)行記錄(小編:這意味著拿著iPhone的你可以亦步亦趨地朝前走,而陀螺儀/IMU可以記錄你和iPhone的姿態(tài)從而生成基準(zhǔn)網(wǎng)格,并將運(yùn)動(dòng)過程中Lidar所有的記錄信息按照相對(duì)位置保存并納入網(wǎng)格系統(tǒng))。當(dāng)掃描開始后,它會(huì)通過一套網(wǎng)格系統(tǒng)來記錄被拍攝物品所處的位置。上圖所示,便是拍攝過程中的網(wǎng)格視圖。
圖十二【Tesla voxel 3d model-11.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
Lidar掃描到的信息是無數(shù)的位置關(guān)系,僅僅整理成網(wǎng)格形式還不夠精細(xì)、準(zhǔn)確。為將這些信息變成可用的模型,我們可以使用多邊形網(wǎng)面圖,它也被稱作 Mesh。上圖所示,貨柜被進(jìn)一步處理成一個(gè)個(gè)三角形組成的一張網(wǎng)。這個(gè)網(wǎng)所具備的凹凸代表,便是真實(shí)世界中物品所具備的形狀和深度關(guān)系。Mesh+Grid的后臺(tái)技術(shù),將Lidar結(jié)構(gòu)化的深度信息,很條理地整理出來了。當(dāng)然,除了這些深度信息外,最后一步需要獲取的便是從iPhone的光學(xué)攝像頭拍照。這一步與Lidar傳感器無關(guān),使用的是設(shè)備上的普通攝像頭,用于記錄場(chǎng)景的材質(zhì) Texture。
下一步可以在Mesh+Grid的基礎(chǔ)上遍歷整個(gè)便利店,則可以得到整體的深度信息圖。繼續(xù)將這些深度信息組合所得的網(wǎng)面圖所得三角填充基礎(chǔ)色(小編:我的理解是光線強(qiáng)度和陰暗,不涉及顏色),得到結(jié)果如下圖所示:
圖十三【Tesla voxel 3d model-14.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
最后將拍到的圖片根據(jù)位置一一還原到掃描到的場(chǎng)景中,會(huì)得到完整的,帶有紋理的圖片。
圖十四【Tesla voxel 3d model-15.png】來自互聯(lián)網(wǎng),URLhttps://sspai.com/post/63498/ ;
小編沒有iPhone搭載的Lidar相機(jī)的使用體驗(yàn),但想必以上這個(gè)流程應(yīng)該不是實(shí)時(shí)的。對(duì)于自動(dòng)駕駛來說,擁有Lidar傳感器當(dāng)然是件好事兒,但對(duì)于選擇純視覺方案的Tesla來說,沒有Lidar,可相關(guān)自動(dòng)駕駛的識(shí)別和感知能力、尤其是對(duì)于未分類障礙物的需求,卻絲毫不能缺失。因此,從視覺出發(fā)、甚至苛刻到必須從單張2D視覺像文件出發(fā),要實(shí)時(shí)構(gòu)造出道路環(huán)境下的深度信息,難!且必要!!
圖十五【Tesla voxel 3d model-16.png】來自論文《Voxel-Based 3D Object Reconstructionfrom Single 2D Image Using Variational Autoencoders》插圖,作者Rohan Tahir等;
如上圖所示,V3DOR=Visual 3D Object Reconstruction網(wǎng)絡(luò)具備典型的encoder-decoder架構(gòu)的NN。底部的藍(lán)色框內(nèi)呈現(xiàn)了2D到3D變換的過程,對(duì)于一個(gè)標(biāo)準(zhǔn)的2D圖像文件,需要如下處理過程:
1 圖形文件的預(yù)處理過程:
針對(duì)任何給定的圖形文件,V3DOR需要對(duì)其進(jìn)行灰度處理和Normalize一般化,降低圖形文件和圖形文件之間的差異。首先,目標(biāo)是轉(zhuǎn)換成3D信息,目標(biāo)物體和場(chǎng)景的顏色并不重要,一般化處理則包括統(tǒng)一到固定像素(這里是128*128pixels)以降低CPU和RAM負(fù)荷;每像素的灰度尺度為0-255之間的數(shù)值表述;同時(shí)還需要將目標(biāo)物盡可能放置在文件的尺寸中心等等,盡可能捕捉盡可能多的可以表征3D信息的特征;
2 Encoder編碼部分:
編碼部分一共七層的2D卷積層,小編確實(shí)沒太看懂上圖中的卷積層參數(shù),但論文中給出的實(shí)際是標(biāo)準(zhǔn)的平面卷積參數(shù),分別是(64, 3 × 3, 2),(64, 5 × 5, 2),(128, 7 × 7, 2),(128, 5 × 5, 2),(256, 3 × 3, 2),(256, 4 × 4, 2),(512, 2 × 2, 2)。以上卷積參數(shù)格式為,(filter channels, spatial filter dimensions, stride)??梢钥吹揭粋€(gè)大的趨勢(shì),其實(shí)和我們?nèi)粘J褂玫?D CNN主流參數(shù)沒有區(qū)別,都是越往后channel越大,可以學(xué)習(xí)到越來越多的高層semantic語(yǔ)義信息。
Encode編碼部分最終輸出的所謂隱含變量(Latent Variable)是1維的,size為512,是一個(gè)數(shù)組格式。進(jìn)入隱含變量表達(dá)時(shí),將其通過一個(gè)全連接網(wǎng)絡(luò)擴(kuò)展為8192維數(shù)組。按照作者的說法,可以將更多從2D圖像內(nèi)學(xué)到的特征,充分表達(dá)出來,以便后續(xù)的Decoder解碼部分可以據(jù)此恢復(fù)出較好的立體信息。
3 Decoder解碼部分:
隱含變量Latent Variable(一個(gè)8192維數(shù)組)作為學(xué)習(xí)來的特征,被送入Decoder執(zhí)行解碼。Decoder就是根據(jù)輸入的隱含變量來執(zhí)行一個(gè)類似形變的操作,將形變結(jié)果填寫入一個(gè)只有一個(gè)channel的3D空間內(nèi)。注意,這里這個(gè)V3DOR的輸出空間是一個(gè)32*32*32的立體空間,只有一個(gè)channel,也就是立體空間內(nèi)各向等質(zhì),不再做任何特征上的區(qū)分。可以打個(gè)類比,就好像3D打印出來的模型,通體一個(gè)材質(zhì),但可以充分反映物體的3D屬性,就是最大的成功。
具體的Decoder解碼器包含5層的3Dtranspose,小編從未見過如此結(jié)構(gòu),具體參數(shù)格式為:((filter channels, filter dimensions, stride),類似于3D CNN?具體指標(biāo)為:五層(64, 5 × 5 × 5, 2),(32, 3 × 3 × 3, 2),(32, 5 × 5 × 5, 2),(21, 3 × 3 × 3, 2),(1, 3 × 3 × 3, 1)。
至此,V3DOR將2D圖形(128*128pixels)轉(zhuǎn)換為3D空間物體表象(32*32*32不清楚何種單位),且為矢量格式。
可能有的讀者腦子轉(zhuǎn)不過彎兒,這不是空手套白狼嗎?怎么就encoder——decoder就大變活人出來3D信息了呢?我們其實(shí)可以這樣想,給你一個(gè)車輛圖片,2D的當(dāng)然,你必然可以想象出它的3D外觀,這是毫無疑問的,建立在大量“先驗(yàn)或者經(jīng)驗(yàn)”的基礎(chǔ)之上,比如汽車就四個(gè)輪子,汽車基本是個(gè)長(zhǎng)方體,車輛頂部結(jié)構(gòu)或者正方或者溜背結(jié)構(gòu)等等,人類大腦內(nèi)部有大量的邏輯關(guān)系提示你你看不到的車體部分是什么結(jié)構(gòu)和尺寸。對(duì)于V3DOR也一樣,只要有足夠大的樣本數(shù)據(jù)庫(kù),NN可以用一種最笨的辦法學(xué)到人類的這種推理經(jīng)驗(yàn),本質(zhì)就是監(jiān)督學(xué)習(xí)。
如果我們延伸考慮類似V3DOR的NN結(jié)構(gòu),如果在FSD beta內(nèi)部,它大概應(yīng)該是一個(gè)相對(duì)獨(dú)立的應(yīng)用,而且對(duì)于camera raw data的處理,可能在feature的參數(shù)要求上和其它識(shí)別task不同而獨(dú)立存在,也可能共用一個(gè)backbone,不確定。因?yàn)槿狈γ鞔_的技術(shù)描述,我們只能大概推測(cè)voxel 3D場(chǎng)景任務(wù)Head在HydraNets中的大致位置,如下圖:
圖十六【Tesla voxel 3d model-8.png】來自TeslaAI day主題演講視頻截圖以及小編編輯結(jié)果,底圖URLhttps://www.youtube.com/watch?v=j0z4FweCy4M&t=4115s?;
這個(gè)推測(cè)是基于voxel-3D task作為一個(gè)標(biāo)準(zhǔn)head,坐落于標(biāo)準(zhǔn)CNN backbone基礎(chǔ)之上的。但也有可能不是,不過不影響我們對(duì)于這個(gè)功能的理解。
最后,關(guān)于這個(gè)話題,我們可以回到我們之前提到過的單一傳感器——camera的悖論。Elon Musk也不知道是不是最早被Mobileye的Shashua教授洗了腦,執(zhí)拗地堅(jiān)持使用Camera,而且還是獨(dú)眼camera,放棄mmradar,不屑Lidar,從而不帶絲毫的立體信息。從而成功地把自己逼入“感知絕境”。在這個(gè)獨(dú)眼基礎(chǔ)上,F(xiàn)SD beta想不聰明都不行,而且至少要等同于人類駕駛智能才有可能邁入L4境界,甚至因?yàn)楠?dú)眼而更難。
在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)NN架構(gòu)下,感知技術(shù)普遍是建立在監(jiān)督學(xué)習(xí)的基礎(chǔ)之上,這意味著機(jī)器需要知道通過訓(xùn)練,我要學(xué)什么?才有可能學(xué)得足夠好。但現(xiàn)實(shí)是長(zhǎng)尾的,千奇百怪層出不窮,此路在可靠性上就行不通。因此必要的機(jī)器測(cè)量比如Lidar,在面對(duì)奇怪長(zhǎng)尾場(chǎng)景的時(shí)候,就顯得尤為必要….. 除非…..Tesla可以從camera中恢復(fù)出足夠精度和可靠性的類Lidar輸出。
這就是這個(gè)悖論的起點(diǎn)。不要測(cè)量,要感知,可感知結(jié)果不能確保安全的前提下,通過感知技術(shù)實(shí)現(xiàn)基本等效的測(cè)量結(jié)果,沿著道路環(huán)境用camera raw data恢復(fù)出3D世界,但并不對(duì)其進(jìn)行識(shí)別操作。其本質(zhì),又回到了曾極力避免的機(jī)器“測(cè)量”的本意上。
評(píng)論
查看更多