基于神經(jīng)網(wǎng)絡(luò)的2D到3D的機(jī)器學(xué)習(xí)

Twitter Hacker @Tristan公布了他破解的FSDbeta內(nèi)部的3Dvoxel NN，形態(tài)仿佛狂野的《西部世界》，看起來雖然粗糙，無法實(shí)現(xiàn)纖毫畢現(xiàn)，但是關(guān)鍵信息——尤其是落在識(shí)別結(jié)果分類范圍之外的長(zhǎng)尾目標(biāo)和場(chǎng)景，可以識(shí)別。

@Tristan是一個(gè)活躍在Twitter.com和github.com上的技術(shù)工程師（小編：Tristan現(xiàn)供職于Facebook），其個(gè)人公開的興趣是機(jī)器學(xué)習(xí)和逆向工程——這就不難理解Tristan和長(zhǎng)期活躍在互聯(lián)網(wǎng)上一批汽車科技黑客，對(duì)于破解Tesla車機(jī)系統(tǒng)尤其是自動(dòng)駕駛系統(tǒng)的熱情了。小編要是有這個(gè)實(shí)力也會(huì)這么干，畢竟這是在公眾可以接觸到的AI完整系統(tǒng)中，鳳毛麟角的批量商用產(chǎn)品了。

11月25日，@Tristan在twitter上公布了他所破解的Autopilot感知堆棧內(nèi)的新功能，大致的名字可以被稱作“Voxel 3D Birdseye view Model”——基于體素的3D矢量空間感知模型。這個(gè)功能首次被發(fā)現(xiàn)于大概一個(gè)半月前的2021.36版本，再次發(fā)現(xiàn)是在當(dāng)前正在接受測(cè)試的FSD beta10.5版本。目前尚不確定這部分的NN模型是否在實(shí)際的識(shí)別堆棧中online參與識(shí)別，但功能肯定是存在的，而且這部分NN模型針對(duì)性也很明顯，就是針對(duì)在純視覺系統(tǒng)下表現(xiàn)不佳的靜態(tài)物體識(shí)別。我們可以先看一段被hacked出來的Voxel 3D Birdseye view模型識(shí)別結(jié)果，如下：

@Tristan并未提供這段視頻的對(duì)比真實(shí)世界場(chǎng)景，但大致上讀者應(yīng)該還是可以理解這是車輛行駛在道路上，從Camera提供的2D視覺信號(hào)所“恢復(fù)”出來的3D voxel靜態(tài)物信息，包含但不限于：道路區(qū)域內(nèi)的隔離物體、道路邊緣大致輪廓，以及道路外圍的第一排臨街建筑物和各種交通實(shí)體。

讀者可以先不著急理解FSD beta是如何將視頻信號(hào)轉(zhuǎn)換為3D voxel構(gòu)成的場(chǎng)景的，理解這種技術(shù)的關(guān)鍵在于，什么是voxel體素的概念。

圖二【Tesla voxel 3d model-2.png】來自spatial.com的體素概念截圖，URLhttps://blog.spatial.com/the-main-benefits-and-disadvantages-of-voxel-modeling；

體素本質(zhì)上是 3D 像素，但它們不是正方形，而是完美的立方體。理論上，體素是復(fù)制現(xiàn)實(shí)的完美建模技術(shù)。我們可以理解現(xiàn)實(shí)的世界是由類似于體素的東西組成的（小編：但它們要小得多，我們稱之為“亞原子粒子”）。如果您有足夠高的密度（或2D平面下的“分辨率”）和適當(dāng)?shù)匿秩炯夹g(shù)，您就可以使用體素來復(fù)制現(xiàn)實(shí)世界中的對(duì)象，這些對(duì)象在外觀和行為上都無法與真實(shí)事物區(qū)分開來。下圖為例，如果計(jì)算機(jī)的渲染能力足夠強(qiáng)，就可以構(gòu)建出基于立方體voxel的虛擬物理實(shí)體。只要Voxel有足夠的細(xì)膩，虛擬的實(shí)體就可以逼真到肉眼在一定距離上無法辨識(shí)。（小編：你能識(shí)別下圖中的房屋實(shí)際是由voxel構(gòu)成的嗎？）

圖三【Tesla voxel 3d model-3.png】來自spatial.com的體素概念截圖，URLhttps://blog.spatial.com/the-main-benefits-and-disadvantages-of-voxel-modeling；

基于voxel的體素建模在今天有一些非常具體的用例。許多科學(xué)學(xué)科都使用體素來快速確定體積數(shù)據(jù)。例如，在基于體素的形態(tài)測(cè)量學(xué)中，研究人員可以使用體素比較腦組織濃度的差異；地質(zhì)學(xué)家經(jīng)常使用體素建模技術(shù)來模擬地形和高程等地質(zhì)特征。更廣泛地說，科學(xué)家可以使用基于體素的建模來可視化和測(cè)量城市中心從流體到綠色空間的任何事物的體積。體素在需要對(duì)單個(gè)粒子進(jìn)行建模的模擬技術(shù)中也很有用，就像智能材料模擬的情況一樣。（小編：以上信息來自于spatial.com對(duì)于體素和體素建模的論證）

但我們今天所要關(guān)注的重點(diǎn)在于自動(dòng)駕駛領(lǐng)域?qū)τ?D目標(biāo)實(shí)時(shí)建模的特殊需求，顯著區(qū)別于以上科學(xué)領(lǐng)域的精密應(yīng)用。這里會(huì)帶出兩個(gè)問題，如下：

1 為什么說自動(dòng)駕駛領(lǐng)域，是特殊的3D目標(biāo)實(shí)時(shí)的建模需求？

小編：按照目前的自動(dòng)駕駛感知系統(tǒng)硬件配置，除了Tesla劍走偏鋒選擇了“純視覺”路線而只依賴camera/s硬件以外，幾乎所有的其它主流自動(dòng)駕駛廠商，都選擇了視覺+超視覺的機(jī)器感知的方案，而需要配置完整的camera + Lidar + mmRadar硬件陣列。（小編：針對(duì)低速泊車場(chǎng)景的超聲波雷達(dá)supersonic我們不做討論）對(duì)于后者的綜合性傳感器配置來說，獲取靜態(tài)場(chǎng)景/物體的測(cè)量信息并不算難題。無外界干擾因素的前提下，Lidar通過激光反射點(diǎn)云信息可以直接測(cè)量和描述主車四周的的環(huán)境信息，從而直接獲取3D建模結(jié)果?？赡芎蚅idar在車身上不同的安裝位置和角度相關(guān)會(huì)有一些具體差異，如果是Waymo那種車頂360度大型旋轉(zhuǎn)Lidar布局，則可以直接獲取最終3D結(jié)果。對(duì)，直接！但對(duì)于Tesla Vision純視覺解決方案來說，通過成像平面的感光原理，只能是拿到主車四周的部分信息（小編：缺失了關(guān)鍵的深度信息），所以必須有這么一個(gè)看起來類似“悖論”的數(shù)據(jù)處理過程：

真實(shí)的物理世界——>小孔成像投影變換——>像平面成2D像——>NN神經(jīng)網(wǎng)絡(luò)——>voxel 3D場(chǎng)景信息

單一的視覺傳感器的優(yōu)勢(shì)，也正是它自身的劣勢(shì)。

2 為什么說自動(dòng)駕駛領(lǐng)域的voxel 3D建模需求和以上科學(xué)領(lǐng)域有顯著區(qū)別？

小編：從視頻一中的voxel 3D場(chǎng)景信息我們也能看得出來，自動(dòng)駕駛領(lǐng)域中，至少在Tesla的技術(shù)實(shí)現(xiàn)中，尤其針對(duì)靜態(tài)周圍場(chǎng)景的voxel 3D場(chǎng)景信息的voxel體素的體積較大，視覺上看遠(yuǎn)大于我們以上提到的各種科學(xué)應(yīng)用中的3D建模中的voxel，最終的呈現(xiàn)效果上也就沒那么細(xì)膩。小編不敢確定的是，大尺寸的voxel是否能夠帶來顯著降低的建模算力需求？是否帶來更高的建模結(jié)果置信度？或者說是否足夠補(bǔ)充Tesla Vision純視覺信息對(duì)于道路靜態(tài)場(chǎng)景的理解力不足的現(xiàn)狀？以下我們通過參考一個(gè)FSD beta系統(tǒng)camera捕捉的視覺場(chǎng)景，和其對(duì)應(yīng)的實(shí)際voxel 3D建模結(jié)果，來嘗試解答以上問題：

圖四【Tesla voxel 3d model-4.png】來自@Tristan推特視頻截圖，URLhttps://twitter.com/rice_fry/status/1463628678445756416/photo/1；

圖五【Tesla voxel 3d model-5.png】來自@Tristan推特視頻截圖，URLhttps://twitter.com/rice_fry/status/1463628678445756416/photo/3 ；

上圖四和圖五對(duì)應(yīng)顯示了一個(gè)道路中央帶有隔離標(biāo)識(shí)的雙向車道。可能讀者第一視覺感官是這兩張圖實(shí)在是看不出來有什么2D—3D的對(duì)應(yīng)關(guān)系，實(shí)際上這就是大型voxel體素的3D化處理效果。注：圖五中的綠色方塊為模擬出的主車位置（小編：圖四和圖五之間位置上有些不匹配，請(qǐng)忽略這個(gè)問題，不影響我們的對(duì)比分析）

紅色箭頭：此處為場(chǎng)景中最有代表性的景物，也是Tesla Vision所面臨的最大的長(zhǎng)尾問題之一：如果針對(duì)靜態(tài)景物的NN識(shí)別Head并沒有針對(duì)這種黃色的道路隔離指示牌進(jìn)行預(yù)分類定義和針對(duì)性訓(xùn)練，則類似道路中央的障礙物可能會(huì)被Tesla Vision所忽略；（小編：各位還記得我們之前公眾號(hào)里貼過的那個(gè)西雅圖輕軌所特有的單支柱結(jié)構(gòu)嘛？如果沒有針對(duì)性分類和訓(xùn)練、或者本文所討論的針對(duì)靜態(tài)場(chǎng)景信息的3D voxel識(shí)別結(jié)果，那就是存在于“可駕駛區(qū)域“內(nèi)極大的駕駛風(fēng)險(xiǎn)；圖五中我們可以看到識(shí)別結(jié)果為一個(gè)穩(wěn)定的、疊加增高的體素voxel立柱；

紫色箭頭：圖五中的紫色箭頭所指的邊界高度voxel，整齊劃一，對(duì)應(yīng)為圖四當(dāng)中的馬路邊的路緣石。高于路面一個(gè)voxel高度的路緣石結(jié)構(gòu)被準(zhǔn)確地、連續(xù)地識(shí)別出來，可以有力地補(bǔ)充Tesla Vision中針對(duì)馬路可行駛區(qū)域邊界的識(shí)別置信度。在這里我們也可以思考一下，精準(zhǔn)地模擬路緣石可能的高度和各種形狀和缺損，實(shí)際上對(duì)于“可行駛區(qū)域”邊界的界定沒有什么特別好的增益。連貫地、穩(wěn)定地識(shí)別出來路緣石邊界即可；

藍(lán)色箭頭：圖五中高出路緣石高度的voxel是對(duì)應(yīng)與圖四當(dāng)中的灌木綠化帶，因?yàn)槊娣e較大，所以也是呈現(xiàn)出連貫的趨勢(shì)；

紫色箭頭：圖五中綠色箭頭的voxel柱狀結(jié)構(gòu)，對(duì)應(yīng)于圖四當(dāng)中的路邊電線桿。目前尚不清楚不同voxel體素的不同顏色所代表的具體含義，可能是識(shí)別結(jié)果置信度，也可能是高度。

綜上可以看到，路側(cè)更遠(yuǎn)處的更高高度的場(chǎng)景識(shí)別，目前是么有輸出的，仿佛被人切了一刀。其實(shí)很好理解，在距離“可行駛區(qū)域”以外一定距離上的高度信息對(duì)于自動(dòng)駕駛系統(tǒng)并無增益，可以忽略。后面我們還會(huì)看到一個(gè)例子，Tesla的這種voxel場(chǎng)景識(shí)別技術(shù)，可以識(shí)別地下車庫(kù)的頂棚。對(duì)于帶有頂棚結(jié)構(gòu)的室內(nèi)場(chǎng)景和隧道場(chǎng)景，高度識(shí)別還是有實(shí)際意義的。

在經(jīng)過這個(gè)理解過程之后，小編相信讀者再看圖五的voxel 3D輸出，就不會(huì)是之前那種一頭霧水的感覺了。當(dāng)然圖五所代表的voxel 3D場(chǎng)景識(shí)別結(jié)果依然是低信息密度的識(shí)別輸出。但考慮到Tesla Vision識(shí)別堆棧的識(shí)別結(jié)果不會(huì)是以voxel 3D場(chǎng)景為唯一準(zhǔn)繩，針對(duì)靜態(tài)場(chǎng)景尤其是障礙物的voxel 3D識(shí)別結(jié)果一定是視覺識(shí)別輸出的補(bǔ)充，從而實(shí)現(xiàn)對(duì)于“防撞”等關(guān)鍵任務(wù)的保障。

我們可以再看一個(gè)實(shí)際的靜態(tài)場(chǎng)景處理前后對(duì)比：

圖六【Tesla voxel 3d model-6.png】來自@Tristan推特視頻截圖，URLhttps://twitter.com/rice_fry/status/1463628811321311236/photo/1；

圖七【Tesla voxel 3d model-7.png】來自@Tristan推特視頻截圖，URLhttps://twitter.com/rice_fry/status/1463628811321311236/photo/3；

以上圖六和圖七的對(duì)比非常明確，主要表達(dá)對(duì)于公路路面上的三角錐的voxel 3D識(shí)別。因?yàn)槿清F本身的椎體結(jié)構(gòu)（底部粗頂部細(xì)），因此voxel識(shí)別結(jié)果也基本是這個(gè)趨勢(shì)。當(dāng)然針對(duì)單個(gè)三角錐來說，voxel 3D的識(shí)別結(jié)果是不能令人滿意的，太過粗糙以至于如果你單獨(dú)觀察圖七，實(shí)際上你并不能分清楚這些堆狀障礙物的本質(zhì)屬性到底是什么東西。但其所能表達(dá)的指定位置上有障礙物的這個(gè)性質(zhì)是足夠有價(jià)值的：FSD beta的路徑規(guī)劃模塊需要考慮這些障礙物，并避讓。當(dāng)然，從歷史經(jīng)驗(yàn)上看，Tesla Vision的靜態(tài)物體識(shí)別Head是可以提供對(duì)于三角錐這種交通常見物體的識(shí)別和分類的，并不需要依賴額外的voxel 3D NN識(shí)別輸出，但如果遇到交通場(chǎng)景長(zhǎng)尾現(xiàn)象中各種可能的障礙物屬性無法窮盡的客觀事實(shí)，那么voxel 3D的輸出就顯得十分必要了。

圖八【Tesla FSD beta v9-18.png】，圖片來源請(qǐng)參考本公眾號(hào)之前的歷史文章插圖；

圖九【Tesla FSD beta v9-31.png】，圖片來源請(qǐng)參考本公眾號(hào)之前的歷史文章插圖；

以之前我們公眾號(hào)文章中曾經(jīng)捕捉到的FSD beta路測(cè)場(chǎng)景，我們可以實(shí)地看到大量存在的Tesla Vision無法識(shí)別的長(zhǎng)尾現(xiàn)象。圖八中的貨車卸貨斜板結(jié)構(gòu)；圖九中西雅圖輕軌支柱位于道路可行駛區(qū)域內(nèi)部等等。對(duì)于Lidar、mmradar等有源傳感器，識(shí)別類似障礙物并非難題，但對(duì)于純視覺方案來說，如果不按照視覺+NN的標(biāo)準(zhǔn)數(shù)據(jù)收集和訓(xùn)練方法，針對(duì)道路中央的支柱、貨車尾部的卸貨斜板等目標(biāo)物體提前建立分類并進(jìn)行訓(xùn)練，就永遠(yuǎn)不會(huì)被Tesla Vision的HydraNets所識(shí)別，從而對(duì)自動(dòng)駕駛系統(tǒng)構(gòu)成真實(shí)的威脅。（小編：讀者可能會(huì)想到車體上還有四周12個(gè)supersonic雷達(dá)可以用于最后的防撞告警？但大量事實(shí)證明Tesla autopilot系統(tǒng)不會(huì)在正常行駛中使用超聲波感知數(shù)據(jù)做防撞操作，僅作障礙物提示使用）

FSD beta所采用的voxel 3D NN的技術(shù)細(xì)節(jié)并未得到披露，從類似的一般性的公開方法來說，從2D單個(gè)圖像中恢復(fù)出voxel 3D信息的方法是基于標(biāo)準(zhǔn)的Encoder—Decoder結(jié)構(gòu)的。小編以一篇公開論文（V3DOR 網(wǎng)絡(luò)）為例，大致論述一下其背后的技術(shù)原理。

V3DOR=Visual 3D Object Reconstruction，屬于典型的encoder-decoder架構(gòu)的NN。Encoder編碼部分將從camera相平面輸出的2D圖像中獲取“合適的”特征，Decoder將在這些特征的基礎(chǔ)上恢復(fù)目標(biāo)物或者場(chǎng)景的3D信息。整體的訓(xùn)練數(shù)據(jù)來自于一個(gè)叫做ShapeNet的數(shù)據(jù)集，因數(shù)據(jù)集在近期數(shù)據(jù)規(guī)模的不斷豐富和演進(jìn)，因此V3DOR的性能在穩(wěn)步進(jìn)化，號(hào)稱State of the art。實(shí)際上利用Lidar技術(shù)或者結(jié)構(gòu)光學(xué)攝影技術(shù)，部署在消費(fèi)電子產(chǎn)品上，比如手機(jī)，來拍攝實(shí)際物體并生成矢量化的目標(biāo)物3D成像，還是一個(gè)比較成熟的技術(shù)。（小編：畢竟已經(jīng)進(jìn)入消費(fèi)電子行列了）以從iphone12pro開始進(jìn)入iphone系列的Lidar模塊為例，如下效果：

【小編：請(qǐng)注意，以下關(guān)于iPhone Lidar的資料來自于少數(shù)派站點(diǎn)文章《iPhone12 Pro的激光雷達(dá)能做哪些有趣的事？》】

圖十【Tesla voxel 3d model-9.png】來自互聯(lián)網(wǎng)，URLhttps://sspai.com/post/63498/ ；

從近景的貨柜開始，打開iPhone的Lidar傳感器進(jìn)行掃描，從圖中你會(huì)發(fā)現(xiàn)，Lidar傳感器與肉眼不同，它看到的只有遠(yuǎn)近關(guān)系而沒有材質(zhì)。受限于機(jī)身尺寸和需求差異，iPhone Pro 和 iPad Pro 上的雷達(dá)傳感器只能識(shí)別幾米的距離。上圖中可以看到深度信息只包含鏡頭周邊的場(chǎng)景，包括左手的冰柜和左手的貨架，而過遠(yuǎn)的地方則無法識(shí)別。

圖十一【Tesla voxel 3d model-10.png】來自互聯(lián)網(wǎng)，URLhttps://sspai.com/post/63498/ ；

如果綜合利用iPhone機(jī)體內(nèi)的其他傳感器，比如陀螺儀和網(wǎng)格系統(tǒng)，iPhone 會(huì)通過陀螺儀來對(duì)設(shè)備姿態(tài)進(jìn)行記錄（小編：這意味著拿著iPhone的你可以亦步亦趨地朝前走，而陀螺儀/IMU可以記錄你和iPhone的姿態(tài)從而生成基準(zhǔn)網(wǎng)格，并將運(yùn)動(dòng)過程中Lidar所有的記錄信息按照相對(duì)位置保存并納入網(wǎng)格系統(tǒng)）。當(dāng)掃描開始后，它會(huì)通過一套網(wǎng)格系統(tǒng)來記錄被拍攝物品所處的位置。上圖所示，便是拍攝過程中的網(wǎng)格視圖。

圖十二【Tesla voxel 3d model-11.png】來自互聯(lián)網(wǎng)，URLhttps://sspai.com/post/63498/ ；

Lidar掃描到的信息是無數(shù)的位置關(guān)系，僅僅整理成網(wǎng)格形式還不夠精細(xì)、準(zhǔn)確。為將這些信息變成可用的模型，我們可以使用多邊形網(wǎng)面圖，它也被稱作 Mesh。上圖所示，貨柜被進(jìn)一步處理成一個(gè)個(gè)三角形組成的一張網(wǎng)。這個(gè)網(wǎng)所具備的凹凸代表，便是真實(shí)世界中物品所具備的形狀和深度關(guān)系。Mesh+Grid的后臺(tái)技術(shù)，將Lidar結(jié)構(gòu)化的深度信息，很條理地整理出來了。當(dāng)然，除了這些深度信息外，最后一步需要獲取的便是從iPhone的光學(xué)攝像頭拍照。這一步與Lidar傳感器無關(guān)，使用的是設(shè)備上的普通攝像頭，用于記錄場(chǎng)景的材質(zhì) Texture。

下一步可以在Mesh+Grid的基礎(chǔ)上遍歷整個(gè)便利店，則可以得到整體的深度信息圖。繼續(xù)將這些深度信息組合所得的網(wǎng)面圖所得三角填充基礎(chǔ)色（小編：我的理解是光線強(qiáng)度和陰暗，不涉及顏色），得到結(jié)果如下圖所示：

圖十三【Tesla voxel 3d model-14.png】來自互聯(lián)網(wǎng)，URLhttps://sspai.com/post/63498/ ；

最后將拍到的圖片根據(jù)位置一一還原到掃描到的場(chǎng)景中，會(huì)得到完整的，帶有紋理的圖片。

圖十四【Tesla voxel 3d model-15.png】來自互聯(lián)網(wǎng)，URLhttps://sspai.com/post/63498/ ；

小編沒有iPhone搭載的Lidar相機(jī)的使用體驗(yàn)，但想必以上這個(gè)流程應(yīng)該不是實(shí)時(shí)的。對(duì)于自動(dòng)駕駛來說，擁有Lidar傳感器當(dāng)然是件好事兒，但對(duì)于選擇純視覺方案的Tesla來說，沒有Lidar，可相關(guān)自動(dòng)駕駛的識(shí)別和感知能力、尤其是對(duì)于未分類障礙物的需求，卻絲毫不能缺失。因此，從視覺出發(fā)、甚至苛刻到必須從單張2D視覺像文件出發(fā)，要實(shí)時(shí)構(gòu)造出道路環(huán)境下的深度信息，難！且必要！！

圖十五【Tesla voxel 3d model-16.png】來自論文《Voxel-Based 3D Object Reconstructionfrom Single 2D Image Using Variational Autoencoders》插圖，作者Rohan Tahir等；

如上圖所示，V3DOR=Visual 3D Object Reconstruction網(wǎng)絡(luò)具備典型的encoder-decoder架構(gòu)的NN。底部的藍(lán)色框內(nèi)呈現(xiàn)了2D到3D變換的過程，對(duì)于一個(gè)標(biāo)準(zhǔn)的2D圖像文件，需要如下處理過程：

1 圖形文件的預(yù)處理過程：

針對(duì)任何給定的圖形文件，V3DOR需要對(duì)其進(jìn)行灰度處理和Normalize一般化，降低圖形文件和圖形文件之間的差異。首先，目標(biāo)是轉(zhuǎn)換成3D信息，目標(biāo)物體和場(chǎng)景的顏色并不重要，一般化處理則包括統(tǒng)一到固定像素（這里是128*128pixels）以降低CPU和RAM負(fù)荷；每像素的灰度尺度為0-255之間的數(shù)值表述；同時(shí)還需要將目標(biāo)物盡可能放置在文件的尺寸中心等等，盡可能捕捉盡可能多的可以表征3D信息的特征；

2 Encoder編碼部分：

編碼部分一共七層的2D卷積層，小編確實(shí)沒太看懂上圖中的卷積層參數(shù)，但論文中給出的實(shí)際是標(biāo)準(zhǔn)的平面卷積參數(shù)，分別是（64, 3 × 3, 2），（64, 5 × 5, 2），（128, 7 × 7, 2），（128, 5 × 5, 2），（256, 3 × 3, 2），（256, 4 × 4, 2），（512, 2 × 2, 2）。以上卷積參數(shù)格式為，（filter channels, spatial filter dimensions, stride）?？梢钥吹揭粋€(gè)大的趨勢(shì)，其實(shí)和我們?nèi)粘Ｊ褂玫?D CNN主流參數(shù)沒有區(qū)別，都是越往后channel越大，可以學(xué)習(xí)到越來越多的高層semantic語(yǔ)義信息。

Encode編碼部分最終輸出的所謂隱含變量（Latent Variable）是1維的，size為512，是一個(gè)數(shù)組格式。進(jìn)入隱含變量表達(dá)時(shí)，將其通過一個(gè)全連接網(wǎng)絡(luò)擴(kuò)展為8192維數(shù)組。按照作者的說法，可以將更多從2D圖像內(nèi)學(xué)到的特征，充分表達(dá)出來，以便后續(xù)的Decoder解碼部分可以據(jù)此恢復(fù)出較好的立體信息。

3 Decoder解碼部分：

隱含變量Latent Variable（一個(gè)8192維數(shù)組）作為學(xué)習(xí)來的特征，被送入Decoder執(zhí)行解碼。Decoder就是根據(jù)輸入的隱含變量來執(zhí)行一個(gè)類似形變的操作，將形變結(jié)果填寫入一個(gè)只有一個(gè)channel的3D空間內(nèi)。注意，這里這個(gè)V3DOR的輸出空間是一個(gè)32*32*32的立體空間，只有一個(gè)channel，也就是立體空間內(nèi)各向等質(zhì)，不再做任何特征上的區(qū)分。可以打個(gè)類比，就好像3D打印出來的模型，通體一個(gè)材質(zhì)，但可以充分反映物體的3D屬性，就是最大的成功。

具體的Decoder解碼器包含5層的3Dtranspose，小編從未見過如此結(jié)構(gòu)，具體參數(shù)格式為：（(filter channels, filter dimensions, stride），類似于3D CNN？具體指標(biāo)為：五層（64, 5 × 5 × 5, 2），（32, 3 × 3 × 3, 2），（32, 5 × 5 × 5, 2），（21, 3 × 3 × 3, 2），（1, 3 × 3 × 3, 1）。

至此，V3DOR將2D圖形（128*128pixels）轉(zhuǎn)換為3D空間物體表象（32*32*32不清楚何種單位），且為矢量格式。

可能有的讀者腦子轉(zhuǎn)不過彎兒，這不是空手套白狼嗎？怎么就encoder——decoder就大變活人出來3D信息了呢？我們其實(shí)可以這樣想，給你一個(gè)車輛圖片，2D的當(dāng)然，你必然可以想象出它的3D外觀，這是毫無疑問的，建立在大量“先驗(yàn)或者經(jīng)驗(yàn)”的基礎(chǔ)之上，比如汽車就四個(gè)輪子，汽車基本是個(gè)長(zhǎng)方體，車輛頂部結(jié)構(gòu)或者正方或者溜背結(jié)構(gòu)等等，人類大腦內(nèi)部有大量的邏輯關(guān)系提示你你看不到的車體部分是什么結(jié)構(gòu)和尺寸。對(duì)于V3DOR也一樣，只要有足夠大的樣本數(shù)據(jù)庫(kù)，NN可以用一種最笨的辦法學(xué)到人類的這種推理經(jīng)驗(yàn)，本質(zhì)就是監(jiān)督學(xué)習(xí)。

如果我們延伸考慮類似V3DOR的NN結(jié)構(gòu)，如果在FSD beta內(nèi)部，它大概應(yīng)該是一個(gè)相對(duì)獨(dú)立的應(yīng)用，而且對(duì)于camera raw data的處理，可能在feature的參數(shù)要求上和其它識(shí)別task不同而獨(dú)立存在，也可能共用一個(gè)backbone，不確定。因?yàn)槿狈γ鞔_的技術(shù)描述，我們只能大概推測(cè)voxel 3D場(chǎng)景任務(wù)Head在HydraNets中的大致位置，如下圖：

圖十六【Tesla voxel 3d model-8.png】來自TeslaAI day主題演講視頻截圖以及小編編輯結(jié)果，底圖URLhttps://www.youtube.com/watch?v=j0z4FweCy4M&t=4115s?；

這個(gè)推測(cè)是基于voxel-3D task作為一個(gè)標(biāo)準(zhǔn)head，坐落于標(biāo)準(zhǔn)CNN backbone基礎(chǔ)之上的。但也有可能不是，不過不影響我們對(duì)于這個(gè)功能的理解。

最后，關(guān)于這個(gè)話題，我們可以回到我們之前提到過的單一傳感器——camera的悖論。Elon Musk也不知道是不是最早被Mobileye的Shashua教授洗了腦，執(zhí)拗地堅(jiān)持使用Camera，而且還是獨(dú)眼camera，放棄mmradar，不屑Lidar，從而不帶絲毫的立體信息。從而成功地把自己逼入“感知絕境”。在這個(gè)獨(dú)眼基礎(chǔ)上，F(xiàn)SD beta想不聰明都不行，而且至少要等同于人類駕駛智能才有可能邁入L4境界，甚至因?yàn)楠?dú)眼而更難。

在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)NN架構(gòu)下，感知技術(shù)普遍是建立在監(jiān)督學(xué)習(xí)的基礎(chǔ)之上，這意味著機(jī)器需要知道通過訓(xùn)練，我要學(xué)什么？才有可能學(xué)得足夠好。但現(xiàn)實(shí)是長(zhǎng)尾的，千奇百怪層出不窮，此路在可靠性上就行不通。因此必要的機(jī)器測(cè)量比如Lidar，在面對(duì)奇怪長(zhǎng)尾場(chǎng)景的時(shí)候，就顯得尤為必要….. 除非…..Tesla可以從camera中恢復(fù)出足夠精度和可靠性的類Lidar輸出。

這就是這個(gè)悖論的起點(diǎn)。不要測(cè)量，要感知，可感知結(jié)果不能確保安全的前提下，通過感知技術(shù)實(shí)現(xiàn)基本等效的測(cè)量結(jié)果，沿著道路環(huán)境用camera raw data恢復(fù)出3D世界，但并不對(duì)其進(jìn)行識(shí)別操作。其本質(zhì)，又回到了曾極力避免的機(jī)器“測(cè)量”的本意上。

閱讀全文

神經(jīng)網(wǎng)絡(luò)(98386) 神經(jīng)網(wǎng)絡(luò)(98386)
機(jī)器學(xué)習(xí)(130423) 機(jī)器學(xué)習(xí)(130423)
自動(dòng)駕駛(162872) 自動(dòng)駕駛(162872)
LiDAR傳感器(5804) LiDAR傳感器(5804)

評(píng)論

相關(guān)推薦

詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

在如今的網(wǎng)絡(luò)時(shí)代，錯(cuò)綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境，讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年，深度學(xué)習(xí)逐漸走進(jìn)人們的視線，通過深度學(xué)習(xí)解決若干問題的案例越來越多。一些傳統(tǒng)的圖像

2024-01-11 10:51:32

596

3D LED液晶電視設(shè)計(jì)方案

的DVD ，藍(lán)光DVD提供了更為清晰的高清片源，尤其是3D片源，藍(lán)光DVD的接口由HDMI1.3 發(fā)展到了支持3D格式信源設(shè)計(jì)的HDMI1.4標(biāo)準(zhǔn)。本文著重介紹了一種實(shí)現(xiàn)能夠播放3D片源，還可以將2D信號(hào)

2011-07-11 18:05:22

3D TOF深度剖析

這段時(shí)間以來，最熱的話題莫過于iPhone X的Face ID，關(guān)于用它刷臉的段子更是滿天飛。其實(shí)iPhone X 實(shí)現(xiàn)3D視覺刷臉是采用了深度機(jī)器視覺技術(shù)(亦稱3D機(jī)器視覺)。由于iPhone X的推動(dòng)，3D視覺市場(chǎng)或許將被徹底的激活。

2019-07-25 07:05:48

3D array---->XY graph, or 2D waveform

` 請(qǐng)問如果用labview保存出來的數(shù)據(jù)如上圖是一幅幅XY graph的疊加1024x124X33的3D array另外有XYZ 三維的定義X--wavelength1024的array

2012-09-25 08:12:46

3D制圖軟件如何進(jìn)行多CAD混合設(shè)計(jì)？

一體化。2D到3D數(shù)據(jù)的高效轉(zhuǎn)化浩辰3D可以直接打開DWG和DXF圖紙來進(jìn)行編輯繪圖，并且可以通過快速建模設(shè)計(jì)環(huán)境將DWG圖紙直接轉(zhuǎn)化為3D模型。1、創(chuàng)建3D草圖打開二維圖紙，在「工具」選項(xiàng)卡中，選擇

2021-02-24 17:22:41

3D掃描、機(jī)器視覺人才招募令——深圳

實(shí)力雄厚，在美籍華人博士在帶領(lǐng)下集聚了包括新加坡、澳大利亞等國(guó)外留學(xué)生和國(guó)內(nèi)知名院校優(yōu)秀人才，美籍華人博士在2D/3D及機(jī)器視覺技術(shù)領(lǐng)域浸淫了二十余年。公司目前處于初創(chuàng)階段，因公司業(yè)務(wù)發(fā)展需要，急需招聘以下

2015-11-20 10:43:24

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)參數(shù)的代價(jià)函數(shù)

吳恩達(dá)機(jī)器學(xué)習(xí)筆記之神經(jīng)網(wǎng)絡(luò)參數(shù)的反向傳播算法

2019-05-22 15:11:21

神經(jīng)形態(tài)芯片越來越多地模擬大腦可塑性

”神經(jīng)形態(tài)芯片旨在將哺乳動(dòng)物神經(jīng)元網(wǎng)絡(luò)的功能性突觸連接圖復(fù)制到固態(tài)3d 存儲(chǔ)器上。一個(gè)由來自三星高級(jí)技術(shù)研究所(SAIT)和哈佛大學(xué)(Harvard University)的工程師組成的研究小組開發(fā)

2022-04-16 15:01:00

神經(jīng)網(wǎng)絡(luò)和反向傳播算法

03_深度學(xué)習(xí)入門_神經(jīng)網(wǎng)絡(luò)和反向傳播算法

2019-09-12 07:08:05

神經(jīng)網(wǎng)絡(luò)教程（李亞非）

　　第1章概述　　1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展　　1.2 生物神經(jīng)元　　1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成　　第2章人工神經(jīng)網(wǎng)絡(luò)基本模型　　2.1 MP模型　　2.2 感知器模型　　2.3 自適應(yīng)線性

2012-03-20 11:32:43

神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

將神經(jīng)網(wǎng)絡(luò)移植到STM32最近在做的一個(gè)項(xiàng)目需要用到網(wǎng)絡(luò)進(jìn)行擬合，并且將擬合得到的結(jié)果用作控制，就在想能不能直接在單片機(jī)上做神經(jīng)網(wǎng)絡(luò)計(jì)算，這樣就可以實(shí)時(shí)計(jì)算，不依賴于上位機(jī)。所以要解決的主要是兩個(gè)

2022-01-11 06:20:53

神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介

神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介

2012-08-05 21:01:08

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索有什么優(yōu)勢(shì)？

近年來，深度學(xué)習(xí)的繁榮，尤其是神經(jīng)網(wǎng)絡(luò)的發(fā)展，顛覆了傳統(tǒng)機(jī)器學(xué)習(xí)特征工程的時(shí)代，將人工智能的浪潮推到了歷史最高點(diǎn)。然而，盡管各種神經(jīng)網(wǎng)絡(luò)模型層出不窮，但往往模型性能越高，對(duì)超參數(shù)的要求也越來越嚴(yán)格

2019-09-11 11:52:14

神經(jīng)網(wǎng)絡(luò)解決方案讓自動(dòng)駕駛成為現(xiàn)實(shí)

的越來越大的挑戰(zhàn)。結(jié)論機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)將沿著一條挑戰(zhàn)高效處理性能的發(fā)展道路繼續(xù)闊步前進(jìn)。先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)已經(jīng)顯現(xiàn)出優(yōu)于人類的識(shí)別精確性。用于生成網(wǎng)絡(luò)的最新框架，如 CDNN2，正在推動(dòng)輕型、低功耗嵌入式神經(jīng)網(wǎng)絡(luò)的發(fā)展。這種神經(jīng)網(wǎng)絡(luò)將使目前的高級(jí)輔助駕駛系統(tǒng)具有較高的精確性及實(shí)時(shí)處理能力。`

2017-12-21 17:11:34

神經(jīng)網(wǎng)絡(luò)資料

基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法

2019-05-16 17:25:05

AD的3D模型繪制功能介紹

完成后，2D圖如下：　　　　2D圖　　我們按下鍵盤上的數(shù)字3，即可查看繪制的3D模型了，如圖（4）。　　　　圖（4）0805電阻3D圖像　　0805的3D繪制起來比較簡(jiǎn)單，使用AD繪制的3D模型也不是

2021-01-14 16:48:53

AI知識(shí)科普 | 從無人相信到萬人追捧的神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)的發(fā)展可以追溯到二戰(zhàn)時(shí)期，那時(shí)候先輩們正想著如何用人類的方式去存儲(chǔ)和處理信息，于是他們開始構(gòu)建計(jì)算系統(tǒng)。由于當(dāng)時(shí)計(jì)算機(jī)機(jī)器和技術(shù)的發(fā)展限制，這一技術(shù)并沒有得到廣泛的關(guān)注和應(yīng)用。幾十年來

2018-06-05 10:11:50

Altium Designer 09的3D封裝旋轉(zhuǎn)的問題

給PCB添加了3D模型之后，讓封裝旋轉(zhuǎn)45度，自己填加的3D模型旋轉(zhuǎn)45度后，代表3D模型的機(jī)械層不會(huì)和PCB重合；而用封裝向?qū)М嫷哪Ｐ蜁?huì)和PCB重合。請(qǐng)問這個(gè)改怎么解決？雖然旋轉(zhuǎn)45度之后，在3D 模式下，3D圖也是旋轉(zhuǎn)了45度，但是在2D模式下的機(jī)械層看著很不舒服。

2017-07-20 22:46:11

Ansys Maxwell 3D 2D RMxprt v16.0 Win32-U\

Ansys Maxwell 3D 2D RMxprt v16.0 Win32-U\RMxprt 軟件可提高旋轉(zhuǎn)電機(jī)的設(shè)計(jì)和優(yōu)化速度。用戶通過軟件可以很簡(jiǎn)單地利用電機(jī)參數(shù)及模板驅(qū)動(dòng)型用戶界面對(duì)電機(jī)建模

2014-06-13 17:09:22

Intel Q33 express芯片組如何啟用2D和3D？

根本無法打開它們。錯(cuò)誤消息是我的顯卡不支持webgl。問題：由于這是一張舊卡，有沒有更新的顯卡我可以替換它？我確實(shí)將我和我的女朋友進(jìn)行了比較，并注意到我的不支持2D和3D，而她的確如此，她對(duì)游戲沒有

2018-11-21 11:47:16

LABVIEW如何驅(qū)動(dòng)3D模型

基于soildwork繪制的3D機(jī)器人模型，要求實(shí)際的機(jī)器人在運(yùn)動(dòng)時(shí)，將3D的模型加載在LABVIEW中，與實(shí)際機(jī)器人同步動(dòng)作，做運(yùn)動(dòng)演示。

2013-02-28 16:51:41

MATLAB神經(jīng)網(wǎng)絡(luò)工具箱函數(shù)

遞歸網(wǎng)絡(luò)newelm 創(chuàng)建一Elman遞歸網(wǎng)絡(luò)2. 網(wǎng)絡(luò)應(yīng)用函數(shù)sim 仿真一個(gè)神經(jīng)網(wǎng)絡(luò)init 初始化一個(gè)神經(jīng)網(wǎng)絡(luò)adapt 神經(jīng)網(wǎng)絡(luò)的自適應(yīng)化train 訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)3. 權(quán)函數(shù)dotprod

2009-09-22 16:10:08

labview BP神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)

請(qǐng)問：我在用labview做BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)故障診斷，在NI官網(wǎng)找到了機(jī)器學(xué)習(xí)工具包（MLT），但是里面沒有關(guān)于這部分VI的幫助文檔，對(duì)于”BP神經(jīng)網(wǎng)絡(luò)分類“這個(gè)范例有很多不懂的地方，比如

2017-02-22 16:08:08

matlab實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 精選資料分享

習(xí)神經(jīng)神經(jīng)網(wǎng)絡(luò)，對(duì)于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)是如何一直沒有具體實(shí)現(xiàn)一下：現(xiàn)看到一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型用于訓(xùn)練的輸入數(shù)據(jù):對(duì)應(yīng)的輸出數(shù)據(jù):我們這里設(shè)置：1：節(jié)點(diǎn)個(gè)數(shù)設(shè)置：輸入層、隱層、輸出層的節(jié)點(diǎn)

2021-08-18 07:25:21

《 AI加速器架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)》+第一章卷積神經(jīng)網(wǎng)絡(luò)觀后感

分成多個(gè)組別進(jìn)行處理。在本章節(jié)中，對(duì)常見網(wǎng)絡(luò)算子進(jìn)行了說明（如圖6），卷積神經(jīng)網(wǎng)絡(luò)的核心運(yùn)算方式是卷積操作，池化操作和全連接操作。圖1 思維導(dǎo)圖圖2 GCN模塊分布圖圖3 GCN模塊之間的關(guān)系

2023-09-11 20:34:01

【AI學(xué)習(xí)】第3篇--人工神經(jīng)網(wǎng)絡(luò)

`本篇主要介紹：人工神經(jīng)網(wǎng)絡(luò)的起源、簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)模型、更多神經(jīng)網(wǎng)絡(luò)模型、機(jī)器學(xué)習(xí)的步驟：訓(xùn)練與預(yù)測(cè)、訓(xùn)練的兩階段：正向推演與反向傳播、以TensorFlow + Excel表達(dá)訓(xùn)練流程以及AI普及化教育之路。`

2020-11-05 17:48:39

【Altium小課專題第193篇】PCB封裝如何在2D和3D模式之間進(jìn)行切換？

答：1）執(zhí)行菜單命令“視圖→切換到3維模式”即可切換到3D模式2）執(zhí)行菜單命令“視圖→切換到2維模式”即可切換到2D模式3）也可以執(zhí)行字母鍵盤上的數(shù)字“2”或“3”進(jìn)行“2維”或者“3維”模式之間切換圖4-15 基準(zhǔn)坐標(biāo)設(shè)置圖4-16 切換3D模式

2021-09-13 14:13:37

【PYNQ-Z2申請(qǐng)】基于PYNQ-Z2的神經(jīng)網(wǎng)絡(luò)圖形識(shí)別

的神經(jīng)網(wǎng)絡(luò)編程，想基于此開發(fā)板，進(jìn)行神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)，訓(xùn)練和測(cè)試神經(jīng)網(wǎng)絡(luò)。項(xiàng)目計(jì)劃：1.基于官方的文檔及資料，熟悉此開發(fā)板。2.測(cè)試官方demo，學(xué)習(xí)ARM內(nèi)核和FPGA如何協(xié)調(diào)工作。3.基于自己最近

2019-01-09 14:48:59

【PYNQ-Z2試用體驗(yàn)】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識(shí)

超過閾值，輸出就一躍而起。但我們一般用S函數(shù)作為激活函數(shù)。如下圖：圖2 該函數(shù)相比階越函數(shù)更加接近現(xiàn)實(shí)。神經(jīng)網(wǎng)絡(luò)原理如圖所示是一個(gè)具有兩層的神經(jīng)網(wǎng)絡(luò)，每層有兩個(gè)神經(jīng)元。圖3 這里兩個(gè)輸入分別為1.0

2019-03-03 22:10:19

【PYNQ-Z2試用體驗(yàn)】基于PYNQ-Z2的神經(jīng)網(wǎng)絡(luò)圖形識(shí)別[結(jié)項(xiàng)]

首先訪問github獲取神經(jīng)網(wǎng)絡(luò)源碼。這里通過ssh登錄開發(fā)板，執(zhí)行g(shù)it clone克隆整個(gè)項(xiàng)目，如圖所示：圖1 進(jìn)入項(xiàng)目目錄，通過ls命令查看內(nèi)容，如下圖：圖2 接下來，通過瀏覽器訪問開發(fā)板

2019-03-18 21:51:33

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

今天學(xué)習(xí)了兩個(gè)神經(jīng)網(wǎng)絡(luò)，分別是自適應(yīng)諧振（ART）神經(jīng)網(wǎng)絡(luò)與自組織映射（SOM）神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難，只不過一些最基礎(chǔ)的概念容易理解不清。首先ART神經(jīng)網(wǎng)絡(luò)是競(jìng)爭(zhēng)學(xué)習(xí)的一個(gè)代表，競(jìng)爭(zhēng)型學(xué)習(xí)

2019-07-21 04:30:00

【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡(luò)

傳播的，不會(huì)回流），區(qū)別于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。BP算法（Back Propagation）：誤差反向傳播算法，用于更新網(wǎng)絡(luò)中的權(quán)重。BP神經(jīng)網(wǎng)絡(luò)思想：表面上：1. 數(shù)據(jù)信息的前向傳播，從輸入層到隱含層

2019-07-21 04:00:00

為什么3D與2D模型不能相互轉(zhuǎn)換？

AD17.1.5軟件，3D與2D模型不能相互轉(zhuǎn)換，按3可以進(jìn)入3D模型，按2不可以進(jìn)入2D模型，這個(gè)是怎么回事??？

2019-09-20 05:35:16

人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方法有哪些？

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)是一種類似生物神經(jīng)網(wǎng)絡(luò)的信息處理結(jié)構(gòu)，它的提出是為了解決一些非線性，非平穩(wěn)，復(fù)雜的實(shí)際問題。那有哪些辦法能實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)呢？

2019-08-01 08:06:21

什么是3D相機(jī)？相關(guān)資料分享

無論2D相機(jī)還是3D相機(jī)，提到相機(jī)不可避免地涉及到機(jī)器視覺。機(jī)器視覺與計(jì)算機(jī)視覺并沒有一個(gè)明顯的定義去劃分。但在實(shí)際應(yīng)用中，...

2021-07-02 06:50:13

什么是LSTM神經(jīng)網(wǎng)絡(luò)

簡(jiǎn)單理解LSTM神經(jīng)網(wǎng)絡(luò)

2021-01-28 07:16:57

從AlexNet到MobileNet，帶你入門深度神經(jīng)網(wǎng)絡(luò)

摘要：在2018年3月13日云棲社區(qū)，來自哈爾濱工業(yè)大學(xué)的沈俊楠分享了典型模式-深度神經(jīng)網(wǎng)絡(luò)入門。本文詳細(xì)介紹了關(guān)于深度神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程，并詳細(xì)介紹了各個(gè)階段模型的結(jié)構(gòu)及特點(diǎn)。哈爾濱工業(yè)大學(xué)的沈

2018-05-08 15:57:47

全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)有什么區(qū)別

全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

2019-06-06 14:21:42

關(guān)于利用2D圖片利用投影的方法創(chuàng)建3D模型

例如攝影機(jī)拍攝3張圖，利用第一張和第三張構(gòu)建出3D結(jié)構(gòu)，測(cè)試第二張圖中的特征距離該3D模型中心的距離！

2014-10-08 22:21:02

分享機(jī)器學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的工作流程和相關(guān)操作

機(jī)器學(xué)習(xí)算法篇--卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)（Convolutional Neural Network）

2019-02-14 16:37:29

卷積神經(jīng)網(wǎng)絡(luò)CNN介紹

【深度學(xué)習(xí)】卷積神經(jīng)網(wǎng)絡(luò)CNN

2020-06-14 18:55:37

卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過程

以前的神經(jīng)網(wǎng)絡(luò)幾乎都是部署在云端（服務(wù)器上），設(shè)備端采集到數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)送給服務(wù)器做inference（推理），結(jié)果再通過網(wǎng)絡(luò)返回給設(shè)備端。如今越來越多的神經(jīng)網(wǎng)絡(luò)部署在嵌入式設(shè)備端上，即

2021-12-23 06:16:40

卷積神經(jīng)網(wǎng)絡(luò)如何使用

卷積神經(jīng)網(wǎng)絡(luò)(CNN)究竟是什么，鑒于神經(jīng)網(wǎng)絡(luò)在工程上經(jīng)歷了曲折的歷史，您為什么還會(huì)在意它呢? 對(duì)于這些非常中肯的問題，我們似乎可以給出相對(duì)簡(jiǎn)明的答案。

2019-07-17 07:21:50

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用轉(zhuǎn)載****地址：http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能研究的最新趨勢(shì)，作為一個(gè)

2022-08-02 10:39:39

卷積神經(jīng)網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu)和常用框架

　　卷積神經(jīng)網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu)　　卷積神經(jīng)網(wǎng)絡(luò)的常用框架

2020-12-29 06:16:44

卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介：什么是機(jī)器學(xué)習(xí)？

通過網(wǎng)絡(luò)訓(xùn)練來確定才能使模型工作。這將在后續(xù)文章“訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)：什么是機(jī)器學(xué)習(xí)？—第 2 部分”中解釋。第 3 部分將解釋我們討論過的神經(jīng)網(wǎng)絡(luò)的硬件實(shí)現(xiàn)（例如貓識(shí)別）。為此，我們將使

2023-02-23 20:11:10

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是如何定義的？

什么是卷積神經(jīng)網(wǎng)絡(luò)？ImageNet-2010網(wǎng)絡(luò)結(jié)構(gòu)是如何構(gòu)成的？有哪些基本參數(shù)？

2021-06-17 11:48:22

可分離卷積神經(jīng)網(wǎng)絡(luò)在 Cortex-M 處理器上實(shí)現(xiàn)關(guān)鍵詞識(shí)別

。● 卷積神經(jīng)網(wǎng)絡(luò) (CNN)基于 DNN 的 KWS 的一大主要缺陷是無法為語(yǔ)音功能中的局域關(guān)聯(lián)性、時(shí)域關(guān)聯(lián)性、頻域關(guān)聯(lián)性建模。CNN 則可將輸入時(shí)域和頻域特征當(dāng)作圖像處理，并且在上面執(zhí)行 2D

2021-07-26 09:46:37

基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

最近在學(xué)習(xí)電機(jī)的智能控制，上周學(xué)習(xí)了基于單神經(jīng)元的PID控制，這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力，可以通過對(duì)系統(tǒng)性能的學(xué)習(xí)來實(shí)現(xiàn)具有最佳組合的PID控制。利用BP

2021-09-07 07:43:47

基于FPGA的神經(jīng)網(wǎng)絡(luò)的性能評(píng)估及局限性

FPGA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)關(guān)鍵問題分析基于FPGA的ANN實(shí)現(xiàn)方法基于FPGA的神經(jīng)網(wǎng)絡(luò)的性能評(píng)估及局限性

2021-04-30 06:58:13

基于深度學(xué)習(xí)和3D圖像處理的精密加工件外觀缺陷檢測(cè)系統(tǒng)

的要求；創(chuàng)新點(diǎn)三：深度學(xué)習(xí)應(yīng)用于3D圖像的分析處理。直接聯(lián)通三維圖像數(shù)據(jù)與深度學(xué)習(xí)算法，使3D圖像不僅單純用于測(cè)量以及一些簡(jiǎn)單的有無判斷，而且能應(yīng)用于外觀檢測(cè)，彌補(bǔ)了2d圖像處理信息缺失的不足。創(chuàng)新

2022-03-08 13:59:00

基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)設(shè)計(jì)

FPGA 上實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò) (CNN)。CNN 是一類深度神經(jīng)網(wǎng)絡(luò)，在處理大規(guī)模圖像識(shí)別任務(wù)以及與機(jī)器學(xué)習(xí)類似的其他問題方面已大獲成功。在當(dāng)前案例中,針對(duì)在 FPGA 上實(shí)現(xiàn) CNN 做一個(gè)可行性研究

2019-06-19 07:24:41

如何使用stm32cube.ai部署神經(jīng)網(wǎng)絡(luò)？

如何用stm32cube.ai簡(jiǎn)化人工神經(jīng)網(wǎng)絡(luò)映射？如何使用stm32cube.ai部署神經(jīng)網(wǎng)絡(luò)？

2021-10-11 08:05:42

如何促使2D和3D視覺檢測(cè)的性能成倍提升？

本文介紹的三個(gè)應(yīng)用案例展示了業(yè)界上先進(jìn)的機(jī)器視覺軟件和及其圖像預(yù)處理技術(shù)如何促使2D和3D視覺檢測(cè)的性能成倍提升。

2021-02-22 06:56:21

如何同時(shí)獲取2d圖像序列和相應(yīng)的3d點(diǎn)云？

如何同時(shí)獲取2d圖像序列和相應(yīng)的3d點(diǎn)云？以上來自于谷歌翻譯以下為原文How to obtain the sequence of 2d image and corresponding 3d point cloud at the same time?

2018-11-13 11:25:01

如何在AltiumPCB中2D庫(kù)里導(dǎo)出3D？

請(qǐng)問PCB 中2D 庫(kù)中怎么導(dǎo)出3D

2019-09-11 22:17:15

如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？

原文鏈接：http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測(cè)的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)包括：輸入層：根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層：使用反向傳播優(yōu)化輸入變量權(quán)重的層，以提高模型的預(yù)測(cè)能力輸出層：基于輸入和隱藏層的數(shù)據(jù)輸出預(yù)測(cè)

2021-07-12 08:02:11

如何用卷積神經(jīng)網(wǎng)絡(luò)方法去解決機(jī)器監(jiān)督學(xué)習(xí)下面的分類問題？

人工智能下面有哪些機(jī)器學(xué)習(xí)分支？如何用卷積神經(jīng)網(wǎng)絡(luò)（CNN）方法去解決機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)下面的分類問題？

2021-06-16 08:09:03

如何移植一個(gè)CNN神經(jīng)網(wǎng)絡(luò)到FPGA中？

訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)并移植到Lattice FPGA上，通常需要開發(fā)人員既要懂軟件又要懂?dāng)?shù)字電路設(shè)計(jì)，是個(gè)不容易的事。好在FPGA廠商為我們提供了許多工具和IP，我們可以在這些工具和IP的基礎(chǔ)上做

2020-11-26 07:46:03

如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法？

稱為BP神經(jīng)網(wǎng)絡(luò)。采用BP神經(jīng)網(wǎng)絡(luò)模型能完成圖像數(shù)據(jù)的壓縮處理。在圖像壓縮中，神經(jīng)網(wǎng)絡(luò)的處理優(yōu)勢(shì)在于：巨量并行性；信息處理和存儲(chǔ)單元結(jié)合在一起；自組織自學(xué)習(xí)功能。與傳統(tǒng)的數(shù)字信號(hào)處理器DSP

2019-08-08 06:11:30

實(shí)時(shí)3D藝術(shù)最佳實(shí)踐-紋理技術(shù)解讀

紋理貼圖獲取2D曲面圖像并將其映射到3D多邊形上。本指南涵蓋了幾種紋理優(yōu)化，可以幫助您的游戲運(yùn)行得更流暢、看起來更好。在本指南的最后，您可以檢查您的知識(shí)。您將了解有關(guān)主題，包括紋理圖譜

2023-08-02 06:12:17

怎么把3D文件添加到3D庫(kù)?

`如何把3D文件(STEP)添加到3D庫(kù)?復(fù)制到3D庫(kù)不能用.`

2013-08-21 12:42:02

求助基于labview的神經(jīng)網(wǎng)絡(luò)pid控制

小女子做基于labview的蒸發(fā)過程中液位的控制，想使用神經(jīng)網(wǎng)絡(luò)pid控制，請(qǐng)問這個(gè)控制方法可以嗎？有誰會(huì)神經(jīng)網(wǎng)絡(luò)pid控制么。。。叩謝

2016-09-23 13:43:16

浩辰3D的「3D打印」你會(huì)用嗎？3D打印教程

設(shè)計(jì)。由浩辰CAD公司研發(fā)的浩辰3D作為從產(chǎn)品設(shè)計(jì)到制造全流程的高端3D設(shè)計(jì)軟件，不僅能夠提供完備的2D+3D一體化解決方案，還能一站式集成3D打印的多元化數(shù)據(jù)處理，無需將模型數(shù)據(jù)再次導(dǎo)出到其他軟件

2021-05-27 19:05:15

脈沖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式有哪幾種？

脈沖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式有哪幾種？

2021-10-26 06:58:01

自動(dòng)3D X射線和離軸2D X射線檢查

In many cases, there is a complementary choice of automated 3D X-ray and off-axis 2D X-ray

2019-10-28 06:18:12

解析深度學(xué)習(xí)：卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實(shí)踐

解析深度學(xué)習(xí)：卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實(shí)踐

2020-06-14 22:21:12

請(qǐng)問AD做3D封裝的時(shí)候遇見這種情況該怎么辦？

AD做3D封裝的時(shí)候遇見這種情況怎么解決，2D平面封裝無法和3D封裝契合?。?/div>

2019-09-24 04:37:20

請(qǐng)問從網(wǎng)上下載的altium 3D庫(kù)怎么使用？

從網(wǎng)上下載的3D庫(kù)，怎樣使用？零件庫(kù)分2D和3D。2D庫(kù)分為pcb.lib庫(kù)sch.lib庫(kù)仿真模型庫(kù)。下載的3D庫(kù)，怎么和已有的sch.lib庫(kù)和pcb.lib庫(kù)合并使用？AD系統(tǒng)自帶的集成庫(kù)

2019-04-08 03:58:44

請(qǐng)問怎么才能將AD中的3D封裝庫(kù)轉(zhuǎn)換為2D的封裝庫(kù)？

請(qǐng)問怎么將AD中的3D封裝庫(kù)轉(zhuǎn)換為2D的封裝庫(kù)

2019-06-05 00:35:07

輕量化神經(jīng)網(wǎng)絡(luò)的相關(guān)資料下載

原文鏈接：【嵌入式AI部署&基礎(chǔ)網(wǎng)絡(luò)篇】輕量化神經(jīng)網(wǎng)絡(luò)精述--MobileNet V1-3、ShuffleNet V1-2、NasNet深度神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用在圖像分類、物體檢測(cè)等機(jī)器

2021-12-14 07:35:25

針對(duì)顯示屏的2D/3D觸摸與手勢(shì)開發(fā)工具包DV102014

　　全球領(lǐng)先的整合單片機(jī)、混合信號(hào)、模擬器件和閃存專利解決方案的供應(yīng)商——Microchip Technology Inc.（美國(guó)微芯科技公司）日前宣布推出2D/3D觸摸與手勢(shì)開發(fā)工具

2018-11-07 10:45:56

3d打印分享#機(jī)器學(xué)習(xí)

3D打印

不會(huì)安分發(fā)布于 2022-05-26 12:29:25

CAD 2D界面畫3D辦公桌#硬聲創(chuàng)作季

電子學(xué)習(xí)發(fā)布于 2022-11-14 23:12:05

MOS管從2D到3D都帶來了哪些優(yōu)點(diǎn)#電路原理

電子學(xué)習(xí)發(fā)布于 2022-12-03 13:55:40

為什么使用機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)以及需要了解的八種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

機(jī)器學(xué)習(xí)已經(jīng)在各個(gè)行業(yè)得到了大規(guī)模的廣泛應(yīng)用，并為提升業(yè)務(wù)流程的效率、提高生產(chǎn)率做出了極大的貢獻(xiàn)。這篇文章主要介紹了機(jī)器學(xué)習(xí)中最先進(jìn)的算法之一——神經(jīng)網(wǎng)絡(luò)的八種不同架構(gòu)，并從原理和適用范圍進(jìn)行了

2018-01-10 16:30:08

11405

機(jī)器學(xué)習(xí)研究者必知的八個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)

本文簡(jiǎn)述了機(jī)器學(xué)習(xí)核心結(jié)構(gòu)的歷史發(fā)展，并總結(jié)了研究者需要熟知的 8 個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)。

2018-02-26 18:40:50

1004

快速了解神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的教程資料免費(fèi)下載

本文檔的詳細(xì)介紹的是快速了解神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的教程資料免費(fèi)下載主要內(nèi)容包括了：機(jī)器學(xué)習(xí)概述，線性模型，前饋神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)絡(luò)，循環(huán)神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)優(yōu)化與正則化，記憶與注意力機(jī)制，無監(jiān)督學(xué)習(xí)，概率圖模型，玻爾茲曼機(jī)，深度信念網(wǎng)絡(luò)，深度生成模型，深度強(qiáng)化學(xué)習(xí)

2019-02-11 08:00:00

神經(jīng)網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)控制的學(xué)習(xí)課件免費(fèi)下載

本文檔的主要內(nèi)容詳細(xì)介紹的是神經(jīng)網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)控制的學(xué)習(xí)課件免費(fèi)下載包括了:1生物神經(jīng)元模型，2人工神經(jīng)元模型，3人工神經(jīng)網(wǎng)絡(luò)模型，4神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法

2021-01-20 11:20:05

什么是神經(jīng)網(wǎng)絡(luò)？什么是卷積神經(jīng)網(wǎng)絡(luò)？

在介紹卷積神經(jīng)網(wǎng)絡(luò)之前，我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識(shí)。就目前而言，神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的核心，我們所熟知的很多深度學(xué)習(xí)算法的背后其實(shí)都是神經(jīng)網(wǎng)絡(luò)。

2023-02-23 09:14:44

2256

卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介：什么是機(jī)器學(xué)習(xí)？

隨著人工智能(AI)技術(shù)的快速發(fā)展，AI可以越來越多地支持以前無法實(shí)現(xiàn)或者難以實(shí)現(xiàn)的應(yīng)用。本文基于此解釋了卷積神經(jīng)網(wǎng)絡(luò)(CNN)及其對(duì)人工智能和機(jī)器學(xué)習(xí)的意義。CNN是一種能夠從復(fù)雜數(shù)據(jù)中提取特征

2023-03-11 23:10:04

523

卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn) 卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的區(qū)別

深度神經(jīng)網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法，其主要特點(diǎn)是由多層神經(jīng)元構(gòu)成，可以根據(jù)數(shù)據(jù)自動(dòng)調(diào)整神經(jīng)元之間的權(quán)重，從而實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)進(jìn)行預(yù)測(cè)和分類。卷積神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)的一種，主要應(yīng)用于圖像和視頻處理領(lǐng)域。

2023-08-21 17:07:36

1869

人工神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

人工神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別? 人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network, ANN）是一種模仿人腦神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)和功能的計(jì)算模型，也被稱為神經(jīng)網(wǎng)絡(luò)（Neural

2023-08-22 16:45:18

2941

已全部加載完成

搜索歷史

基于神經(jīng)網(wǎng)絡(luò)的2D到3D的機(jī)器學(xué)習(xí)

評(píng)論