在线观看日韩成人,丝袜波多野结衣美腿视频

隨著深度學習的大熱，許多研究都致力于如何從單張圖片生成3D模型。但近期一項研究表明，幾乎所有基于深度神經(jīng)網(wǎng)絡的3D中重建工作，實際上并不是重建，而是圖像分類。深度學習并不是萬能的！

深度學習并不是萬靈藥。

近幾年，隨著深度學習的大熱，許多研究攻克了如何從單張圖片生成3D模型。從某些方面似乎再次驗證了深度學習的神奇——doing almost the impossible。

但是，最近一篇文章卻對此提出了質(zhì)疑：幾乎所有這些基于深度神經(jīng)網(wǎng)絡的3D重建的工作，實際上并不是進行重建，而是進行圖像分類。

arXiv地址：

https://arxiv.org/pdf/1905.03678.pdf

在這項工作中，研究人員建立了兩種不同的方法分別執(zhí)行圖像分類和檢索。這些簡單的基線方法在定性和定量上都比最先進的方法產(chǎn)生的結果要更好。

正如伯克利馬毅教授評價：

幾乎所有這些基于深度神經(jīng)網(wǎng)絡的3D重建的工作（層出不窮令人眼花繚亂的State of the Art top conferences 論文），其實還比不上稍微認真一點的nearest neighbor baselines。沒有任何工具或算法是萬靈藥。

至少在三維重建問題上，沒有把幾何關系條件嚴格用到位的算法，都是不科學的——根本談不上可靠和準確。

并非3D重建，而只是圖像分類？

基于對象(object-based)的單視圖3D重建任務是指，在給定單個圖像的情況下生成對象的3D模型。

如上圖所示，推斷一輛摩托車的3D結構需要一個復雜的過程，它結合了低層次的圖像線索、有關部件結構排列的知識和高層次的語義信息。

研究人員將這種情況稱為重建和識別：

重構意味著使用紋理、陰影和透視效果等線索對輸入圖像的3D結構進行推理。

識別相當于對輸入圖像進行分類，并從數(shù)據(jù)庫中檢索最合適的3D模型。

雖然在其它文獻中已經(jīng)提出了各種體系結構和3D表示，但是用于單視圖3D理解的現(xiàn)有方法都使用編碼器——解碼器結構，其中編碼器將輸入圖像映射到潛在表示，而解碼器執(zhí)行關于3D的非平凡(nontrivial)推理，并輸出空間的結構。

為了解決這一任務，整個網(wǎng)絡既要包含高級信息，也要包含低級信息。

而在這項工作中，研究人員對目前最先進的編解碼器方法的結果進行了分析，發(fā)現(xiàn)它們主要依靠識別來解決單視圖3D重建任務，同時僅顯示有限的重建能力。

為了支持這一觀點，研究人員設計了兩個純識別基線：一個結合了3D形狀聚類和圖像分類，另一個執(zhí)行基于圖像的3D形狀檢索。

在此基礎上，研究人員還證明了即使不需要明確地推斷出物體的3D結構，現(xiàn)代卷積網(wǎng)絡在單視圖3D重建中的性能是可以超越的。

在許多情況下，識別基線的預測不僅在數(shù)量上更好，而且在視覺上看起來更有吸引力。

研究人員認為，卷積網(wǎng)絡在單視圖3D重建任務中是主流實驗程序的某些方面的結果，包括數(shù)據(jù)集的組成和評估協(xié)議。它們允許網(wǎng)絡找到一個快捷的解決方案，這恰好是圖像識別。

純粹的識別方法，性能優(yōu)于先進的神經(jīng)網(wǎng)絡

實驗基于現(xiàn)代卷積網(wǎng)絡，它可以從一張圖像預測出高分辨率的3D模型。

方法的分類是根據(jù)它們的輸出表示對它們進行分類：體素網(wǎng)格(voxel grids)、網(wǎng)格（meshes）、點云和深度圖。為此，研究人員選擇了最先進的方法來覆蓋主要的輸出表示，或者在評估中已經(jīng)清楚地顯示出優(yōu)于其他相關表示。

研究人員使用八叉樹生成網(wǎng)絡(Octree Generating Networks，OGN)作為直接在體素網(wǎng)格上預測輸出的代表性方法。

與早期使用這種輸出表示的方法相比，OGN通過使用八叉樹有效地表示所占用的空間，可以預測更高分辨率的形狀。

還評估了AtlasNet作為基于表面的方法的代表性方法。AtlasNet預測了一組參數(shù)曲面，并在操作這種輸出表示的方法中構成了最先進的方法。它被證明優(yōu)于直接生成點云作為輸出的唯一方法，以及另一種基于八叉樹的方法。

最后，研究人員評估了該領域目前最先進的Matryoshka Networks。該網(wǎng)絡使用由多個嵌套深度圖組成的形狀表示，，這些深度圖以體積方式融合到單個輸出對象中。

對于來自AtlasNet的基于IoU的表面預測評估，研究人員將它們投影到深度圖，并進一步融合到體積表示。對于基于表面的評估指標，使用移動立方體算法從體積表示中提取網(wǎng)格。

研究人員實現(xiàn)了兩個簡單的基線，僅從識別的角度來處理問題。

第一種方法是結合圖像分類器對訓練形狀進行聚類；第二個是執(zhí)行數(shù)據(jù)庫檢索。

在聚類方面的基線中，使用K-means算法將訓練形狀聚類為K個子類別。

在檢索基線方面，嵌入空間由訓練集中所有3D形狀的兩兩相似矩陣構造，通過多維尺度將矩陣的每一行壓縮為一個低維描述符。

研究人員根據(jù)平均IoU分數(shù)對所有方法進行標準比較。

研究人員發(fā)現(xiàn)，雖然最先進的方法有不同體系結構的支持，但在執(zhí)行的時候卻非常相似。

有趣的是，檢索基線是一種純粹的識別方法，在均值和中位數(shù)IoU方面都優(yōu)于所有其他方法。簡單的聚類基線具有競爭力，性能優(yōu)于AtlasNet和OGN。

但研究人員進一步觀察到，一個完美的檢索方法(Oracle NN)的性能明顯優(yōu)于所有其他方法。值得注意的是，所有方法的結果差異都非常大(在35%到50%之間)。

這意味著僅依賴于平均IoU的定量比較不能提供這種性能水平的全貌。為了更清楚地了解這些方法的行為，研究人員進行了更詳細的分析。

每類mIoU比較。

總的來說，這些方法在不同的類之間表現(xiàn)出一致的相對性能。檢索基線為大多數(shù)類生成最佳重構。所有類和方法的方差都很大。

mIoU與每個類的訓練樣本數(shù)量。

研究人員發(fā)現(xiàn)一個類的樣本數(shù)量和這個類的mIoU分數(shù)之間沒有相關性。所有方法的相關系數(shù)c均接近于零。

定性的結果

聚類基線產(chǎn)生的形狀質(zhì)量與最先進的方法相當。檢索基線通過設計返回高保真形狀，但細節(jié)可能不正確。每個樣本右下角的數(shù)字表示IoU。

左：為所選類分配IoU。基于解碼器的方法和顯式識別基線的類內(nèi)分布是類似的。 Oracle NN的發(fā)行版在大多數(shù)類中都有所不同。右圖：成對Kolmogorov-Smirnov檢驗未能拒絕兩個分布的無效假設的類數(shù)的熱圖。

研究中的一些問題

參照系的選擇

我們嘗試使用視角預測網(wǎng)絡對聚類基線方法進行擴展，該方法將重點回歸攝像頭的方位角和仰角等規(guī)范框架，結果失敗了，因為規(guī)范框架對每個對象類都有不同的含義，即視角網(wǎng)絡需要使用類信息來解決任務。我們對檢索基線方法進行了重新訓練，將每個訓練視圖作為單獨樣本來處理，從而為每個單獨的對象提供空間。

量度標準

平均IoU通常在基準測試中被用作衡量單視圖圖像重建方法的主要量化指標。如果將其作為最優(yōu)解的唯一衡量指標，就可能會出現(xiàn)問題，因為它在對象形狀的質(zhì)量值足夠高時才能有效預測。如果該值處于中低水平，表明兩個對象的形狀存在顯著差異。

如上圖所示，將一個汽車模型與數(shù)據(jù)集中的不同形狀的對象進行了比較，只有 IoU分數(shù)比較高（最右兩張圖）時才有意義，即使IoU=0.59，兩個目標可能都是完全不同的物體，比較相似度失去了意義。

倒角距離（Chamfer distance）

如上圖所示，兩者目標椅子與下方的椅子的下半部分完美匹配，但上半部分完全不同。但是根據(jù)得分，第二個目標要好于第一個。由此來看，倒角距離這個量度會被空間幾何布局顯著干擾。為了可靠地反映真正的模型重建性能，好的量度應該具備對幾何結構變化的高魯棒性。

F-score

我們繪制了以觀察者為中心的重建方式的F分數(shù)的不同距離閾值d（左）。在 d =重建體積邊長的2％的條件下，F(xiàn)分數(shù)絕對值與當前范圍的 mIoU分數(shù)相同，這并不能有效反映模型的預測質(zhì)量。

因此，我們建議將距離閾值設為重建模型體積邊長的1％以下來考察F值。如上圖（右）中所示，在閾值d = 1％時，F(xiàn)分數(shù)為0.5以上。只有一小部分模型的形狀被精確構建出來，預設任務仍然遠未解決。我們的檢索基線方法不再具有明顯的優(yōu)勢，進一步表明使用純粹的識別方法很難解決這個問題。

現(xiàn)有的基于CNN的方法在精度上表現(xiàn)良好，但丟失了目標的部分結構

未來展望

在這項研究中，研究人員通過重建和識別來推斷單視圖3D重建方法的范圍。

工作展示了簡單的檢索基線優(yōu)于最新、最先進的方法。分析表明，目前最先進的單視圖3D重建方法主要用于識別，而不是重建。

研究人員確定了引起這種問題的一些因素，并提出了一些建議，包括使用以視圖為中心的坐標系和魯棒且信息量大的評估度量(F-score)。

另一個關鍵問題是數(shù)據(jù)集組合，雖然問題已經(jīng)確定，但沒有處理。研究人員正努力在以后的工作中糾正這一點。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

圖像識別

圖像識別

+關注

關注
9

文章
514

瀏覽量
38149
3D建模

3D建模

+關注

關注
0

文章
34

瀏覽量
9743
深度學習

深度學習

+關注

關注
73

文章
5422

瀏覽量
120593

原文標題：深度學習不是萬靈藥！神經(jīng)網(wǎng)絡3D建模其實只是圖像識別？

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

卷積神經(jīng)網(wǎng)絡有何用途卷積神經(jīng)網(wǎng)絡通常運用在哪里

卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理、生物信息學等領域。本文將介紹卷積

發(fā)表于 07-11 14:43 ?763次閱讀

pytorch中有神經(jīng)網(wǎng)絡模型嗎

當然，PyTorch是一個廣泛使用的深度學習框架，它提供了許多預訓練的神經(jīng)網(wǎng)絡模型。 PyTorch中的神經(jīng)網(wǎng)絡模型 1. 引言深度

發(fā)表于 07-11 09:59 ?527次閱讀

如何利用CNN實現(xiàn)圖像識別

卷積神經(jīng)網(wǎng)絡（CNN）是深度學習領域中一種特別適用于圖像識別任務的神經(jīng)網(wǎng)絡結構。它通過模擬人類視覺系統(tǒng)的處理方式，利用卷積、池化等操作，自動

發(fā)表于 07-03 16:16 ?471次閱讀

卷積神經(jīng)網(wǎng)絡的基本結構和工作原理

卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文將詳細介紹卷積

發(fā)表于 07-03 09:38 ?247次閱讀

深度學習與卷積神經(jīng)網(wǎng)絡的應用

隨著人工智能技術的飛速發(fā)展，深度學習和卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network, CNN）作為其中的重要分支，已經(jīng)在多個領域取得了顯著的應用成果。從圖像識別

發(fā)表于 07-02 18:19 ?559次閱讀

卷積神經(jīng)網(wǎng)絡的基本結構及其功能

卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文將詳細介紹卷積

發(fā)表于 07-02 14:45 ?536次閱讀

卷積神經(jīng)網(wǎng)絡在圖像識別中的應用

卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks, CNNs）是一種深度學習模型，廣泛應用于圖像識別、視頻分析、自然語言處理等領域。 1. 卷積

發(fā)表于 07-02 14:28 ?563次閱讀

神經(jīng)網(wǎng)絡建模的適用范圍有哪些

神經(jīng)網(wǎng)絡是一種強大的機器學習技術，可以用于各種不同的應用。以下是一些神經(jīng)網(wǎng)絡建模的適用范圍： 圖像識別和分類

發(fā)表于 07-02 11:40 ?378次閱讀

數(shù)學建模神經(jīng)網(wǎng)絡模型的優(yōu)缺點有哪些

數(shù)學建模神經(jīng)網(wǎng)絡模型是一種基于人工神經(jīng)網(wǎng)絡的數(shù)學建模方法，它通過模擬人腦神經(jīng)元的連接和信息傳遞機制，對復雜系統(tǒng)進行

發(fā)表于 07-02 11:36 ?581次閱讀

深度神經(jīng)網(wǎng)絡模型cnn的基本概念、結構及原理

深度神經(jīng)網(wǎng)絡模型CNN（Convolutional Neural Network）是一種廣泛應用于圖像識別、視頻分析和自然語言處理等領域的深度學習

發(fā)表于 07-02 10:11 ?8784次閱讀

神經(jīng)網(wǎng)絡在圖像識別中的應用

隨著人工智能技術的飛速發(fā)展，神經(jīng)網(wǎng)絡在圖像識別領域的應用日益廣泛。神經(jīng)網(wǎng)絡以其強大的特征提取和分類能力，為圖像識別帶來了革命性的進步。本文將詳細介紹

發(fā)表于 07-01 14:19 ?411次閱讀

神經(jīng)網(wǎng)絡架構有哪些

神經(jīng)網(wǎng)絡架構是機器學習領域中的核心組成部分，它們模仿了生物神經(jīng)網(wǎng)絡的運作方式，通過復雜的網(wǎng)絡結構實現(xiàn)信息的處理、存儲和傳遞。隨著深度

發(fā)表于 07-01 14:16 ?342次閱讀

詳解深度學習、神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的應用

在如今的網(wǎng)絡時代，錯綜復雜的大數(shù)據(jù)和網(wǎng)絡環(huán)境，讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡都面臨巨大的挑戰(zhàn)。近些年，深度學習逐漸走進人們的視線

發(fā)表于 01-11 10:51 ?1604次閱讀

卷積神經(jīng)網(wǎng)絡的優(yōu)點

卷積神經(jīng)網(wǎng)絡的優(yōu)點? 卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network，CNN）是一種基于深度學習的神經(jīng)網(wǎng)絡模型，在

發(fā)表于 12-07 15:37 ?3751次閱讀

使用Python卷積神經(jīng)網(wǎng)絡(CNN)進行圖像識別的基本步驟

Python 卷積神經(jīng)網(wǎng)絡（CNN）在圖像識別領域具有廣泛的應用。通過使用卷積神經(jīng)網(wǎng)絡，我們可以讓計算機從圖像中學習特征，從而實現(xiàn)對

發(fā)表于 11-20 11:20 ?4134次閱讀

搜索歷史

深度學習不是萬靈藥神經(jīng)網(wǎng)絡3D建模其實只是圖像識別

評論

卷積神經(jīng)網(wǎng)絡有何用途卷積神經(jīng)網(wǎng)絡通常運用在哪里

pytorch中有神經(jīng)網(wǎng)絡模型嗎

如何利用CNN實現(xiàn)圖像識別

卷積神經(jīng)網(wǎng)絡的基本結構和工作原理

深度學習與卷積神經(jīng)網(wǎng)絡的應用

卷積神經(jīng)網(wǎng)絡的基本結構及其功能

卷積神經(jīng)網(wǎng)絡在圖像識別中的應用

神經(jīng)網(wǎng)絡建模的適用范圍有哪些

數(shù)學建模神經(jīng)網(wǎng)絡模型的優(yōu)缺點有哪些

深度神經(jīng)網(wǎng)絡模型cnn的基本概念、結構及原理

神經(jīng)網(wǎng)絡在圖像識別中的應用

神經(jīng)網(wǎng)絡架構有哪些

詳解深度學習、神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的應用

卷積神經(jīng)網(wǎng)絡的優(yōu)點

使用Python卷積神經(jīng)網(wǎng)絡(CNN)進行圖像識別的基本步驟

搜索歷史

深度學習不是萬靈藥 神經(jīng)網(wǎng)絡3D建模其實只是圖像識別

評論

深度學習不是萬靈藥神經(jīng)網(wǎng)絡3D建模其實只是圖像識別