資料介紹
作者 | George Seif
譯者 | 天道酬勤,責(zé)編 | Carol
出品 | AI科技大本營(yíng)(ID:rgznai100)
你想做計(jì)算機(jī)視覺(jué)嗎?
如今,深度學(xué)習(xí)是必經(jīng)之路。大規(guī)模數(shù)據(jù)集以及深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)的表征能力可提供超準(zhǔn)確和強(qiáng)大的模型。但目前仍然只有一個(gè)挑戰(zhàn):如何設(shè)計(jì)模型?
像計(jì)算機(jī)視覺(jué)這樣廣泛而復(fù)雜的領(lǐng)域,解決方案并不總是清晰明了的。計(jì)算機(jī)視覺(jué)中的許多標(biāo)準(zhǔn)任務(wù)都需要特別考慮:分類、檢測(cè)、分割、姿態(tài)估計(jì)、增強(qiáng)和恢復(fù)以及動(dòng)作識(shí)別。盡管最先進(jìn)的網(wǎng)絡(luò)呈現(xiàn)出共同的模式,但它們都需要自己獨(dú)特的設(shè)計(jì)。
那么,我們?nèi)绾螢樗羞@些不同的任務(wù)建立模型呢?
作者在這里向你展示如何通過(guò)深度學(xué)習(xí)完成計(jì)算機(jī)視覺(jué)中的所有工作!
1、分類
計(jì)算機(jī)視覺(jué)中最出名的就是分類。圖像分類網(wǎng)絡(luò)從一個(gè)固定大小的輸入開(kāi)始。輸入圖像可以有任意數(shù)量的通道,但對(duì)于RGB圖像通常為3。在設(shè)計(jì)網(wǎng)絡(luò)時(shí),分辨率在技術(shù)上可以是任意大小,只要足夠大到能夠支持在整個(gè)網(wǎng)絡(luò)中將要進(jìn)行的向下采樣量即可。例如,如果你對(duì)網(wǎng)絡(luò)內(nèi)的4個(gè)像素進(jìn)行向下采樣,則你的輸入大小至少應(yīng)為42= 16 x 16像素。
隨著深入網(wǎng)絡(luò),當(dāng)我們嘗試壓縮所有信息并降至一維矢量表示形式時(shí),空間分辨率將降低。為了確保網(wǎng)絡(luò)始終有能力將其提取的所有信息進(jìn)行處理,我們根據(jù)深度的比例增加特征圖的數(shù)量,來(lái)適應(yīng)空間分辨率的降低。也就是說(shuō),我們?cè)谙蛳虏蓸舆^(guò)程中損失了空間信息,為了適應(yīng)這種損失,我們擴(kuò)展了特征圖來(lái)增加我們的語(yǔ)義信息。
在選擇了一定數(shù)量的向下采樣后,特征圖被矢量化并輸入到一系列完全連接的圖層中。最后一層的輸出與數(shù)據(jù)集中的類一樣多。
2、目標(biāo)檢測(cè)
目標(biāo)檢測(cè)器分為兩種:一級(jí)和二級(jí)。他們兩個(gè)都以錨框開(kāi)始。這些是默認(rèn)的邊界框。我們的檢測(cè)器將預(yù)測(cè)這些框與地面真相之間的差異,而不是直接預(yù)測(cè)這些框。
在二級(jí)檢測(cè)器中,我們自然有兩個(gè)網(wǎng)絡(luò):框提議網(wǎng)絡(luò)和分類網(wǎng)絡(luò)??蛱嶙h網(wǎng)絡(luò)在認(rèn)為很有可能存在物體的情況下為邊界框提供坐標(biāo)。再次,這些是相對(duì)于錨框。然后,分類網(wǎng)絡(luò)獲取每個(gè)邊界框中的潛在對(duì)象進(jìn)行分類。
在一級(jí)檢測(cè)器中,提議和分類器網(wǎng)絡(luò)融合為一個(gè)單一階段。網(wǎng)絡(luò)直接預(yù)測(cè)邊界框坐標(biāo)和該框內(nèi)的類。由于兩個(gè)階段融合在一起,所以一級(jí)檢測(cè)器往往比二級(jí)檢測(cè)器更快。但是由于兩個(gè)任務(wù)的分離,二級(jí)檢測(cè)器具有更高的精度。
3、分割
分割是計(jì)算機(jī)視覺(jué)中較獨(dú)特的任務(wù)之一,因?yàn)榫W(wǎng)絡(luò)既需要學(xué)習(xí)低級(jí)信息,也需要學(xué)習(xí)高級(jí)信息。低級(jí)信息可按像素精確分割圖像中的每個(gè)區(qū)域和對(duì)象,而高級(jí)信息可直接對(duì)這些像素進(jìn)行分類。這導(dǎo)致網(wǎng)絡(luò)被設(shè)計(jì)為將來(lái)自較早層和高分辨率(低層空間信息)的信息與較深層和低分辨率(高層語(yǔ)義信息)相結(jié)合。
如下所示,我們首先通過(guò)標(biāo)準(zhǔn)分類網(wǎng)絡(luò)運(yùn)行圖像。然后,我們從網(wǎng)絡(luò)的每個(gè)階段提取特征,從而使用從低到高的范圍內(nèi)的信息。每個(gè)信息級(jí)別在依次組合之前都是獨(dú)立處理的。當(dāng)這些信息組合在一起時(shí),我們對(duì)特征圖進(jìn)行向上采樣,最終得到完整的圖像分辨率。
要了解更多關(guān)于如何分割與深度學(xué)習(xí)工作的細(xì)節(jié),請(qǐng)查看這篇文章:
https://towardsdatascience.com/semantic-segmentation-with-deep-learning-...
4、姿態(tài)估計(jì)
姿態(tài)估計(jì)模型需要完成兩個(gè)任務(wù):
(1)檢測(cè)圖像中每個(gè)身體部位的關(guān)鍵點(diǎn);
(2)找出如何正確連接這些關(guān)鍵點(diǎn)。
這分以下三個(gè)階段完成:
① 使用標(biāo)準(zhǔn)分類網(wǎng)絡(luò)從圖像中提取特征。
② 給定這些特征,就可以訓(xùn)練一個(gè)子網(wǎng)絡(luò)來(lái)預(yù)測(cè)一組2D熱圖。每個(gè)熱圖都與一個(gè)特定的關(guān)鍵點(diǎn)相關(guān)聯(lián),并包含每個(gè)圖像像素關(guān)于是否可能存在關(guān)鍵點(diǎn)的置信值。
③ 再次給出分類網(wǎng)絡(luò)的特征,我們訓(xùn)練一個(gè)子網(wǎng)絡(luò)來(lái)預(yù)測(cè)一組2D向量場(chǎng),其中每個(gè)向量場(chǎng)都與關(guān)鍵點(diǎn)之間的關(guān)聯(lián)度進(jìn)行編碼。然后,具有較高關(guān)聯(lián)性的關(guān)鍵點(diǎn)被稱為已連接。
用這種方法訓(xùn)練子網(wǎng)絡(luò)的模型,可以聯(lián)合優(yōu)化關(guān)鍵點(diǎn)的檢測(cè)并將它們連接在一起。
5、增強(qiáng)和恢復(fù)
增強(qiáng)和恢復(fù)網(wǎng)絡(luò)是它們自己獨(dú)特的野獸。我們不會(huì)對(duì)此進(jìn)行任何向下采樣,因?yàn)槲覀冋嬲P(guān)心的是高像素/空間精度。向下采樣會(huì)真正抹殺這些信息,因?yàn)樗鼘p少我們?yōu)榭臻g精度而擁有的像素?cái)?shù)。相反,所有處理都是在全圖像分辨率下完成的。
我們開(kāi)始以全分辨率將想要增強(qiáng)/恢復(fù)的圖像傳遞到我們的網(wǎng)絡(luò),而無(wú)需進(jìn)行任何修改。網(wǎng)絡(luò)僅由許多卷積和激活函數(shù)組成。這些塊通常是受啟發(fā)的,并且有時(shí)直接復(fù)制那些最初為圖像分類而開(kāi)發(fā)的塊,例如殘差塊、密集塊、擠壓激勵(lì)塊等。最后一層沒(méi)有激活函數(shù),即使是sigmoid或softmax也沒(méi)有,因?yàn)槲覀兿胫苯宇A(yù)測(cè)圖像像素,不需要任何概率或分?jǐn)?shù)。
這就是所有這些類型的網(wǎng)絡(luò)。在圖像的全分辨率上進(jìn)行了大量的處理,來(lái)達(dá)到較高的空間精度,使用了與其他任務(wù)相同的卷積。
6、動(dòng)作識(shí)別
動(dòng)作識(shí)別是少數(shù)幾個(gè)需要視頻數(shù)據(jù)才能正常運(yùn)行的應(yīng)用程序之一。要對(duì)一個(gè)動(dòng)作進(jìn)行分類,我們需要了解隨著時(shí)間推移,場(chǎng)景中發(fā)生的變化, 這自然導(dǎo)致我們需要視頻。我們的網(wǎng)絡(luò)必須經(jīng)過(guò)訓(xùn)練來(lái)學(xué)習(xí)時(shí)空信息,即時(shí)空變化。最完美的網(wǎng)絡(luò)是3D-CNN。
顧名思義,3D-CNN是使用3D卷積的卷積網(wǎng)絡(luò)。它們與常規(guī)CNN的不同之處在于,卷積是在3維上應(yīng)用的:寬度、高度和時(shí)間。因此,每個(gè)輸出像素都是根據(jù)其周圍像素以及相同位置的前一幀和后一幀中的像素進(jìn)行計(jì)算來(lái)預(yù)測(cè)的。
視頻幀可以通過(guò)幾種方式傳遞:
直接在大批量中,例如第一個(gè)圖。由于我們正在傳遞一系列幀,因此空間和時(shí)間信息都是可用的。
我們還可以在一個(gè)流中傳遞單個(gè)圖像幀(數(shù)據(jù)的空間信息),并從視頻中傳遞其相應(yīng)的光流表示形式(數(shù)據(jù)的時(shí)間信息)。我們將使用常規(guī)2D CNN從這兩者中提取特征,然后再將其組合起來(lái)傳遞給我們的3D CNN,后者將兩種類型的信息進(jìn)行合并。
將幀序列傳遞給一個(gè)3D CNN,并將視頻的光流表示傳遞給另一個(gè)3D CNN。這兩個(gè)數(shù)據(jù)流都具有可用的空間和時(shí)間信息。鑒于我們正在對(duì)視頻的兩種不同表示(均包含我們的所有信息)進(jìn)行特定處理,因此這是最慢的選擇,但也可能是最準(zhǔn)確的選擇。
所有這些網(wǎng)絡(luò)都輸出視頻的動(dòng)作分類。
原文:https://towardsdatascience.com/how-to-do-everything-in-computer-vision-2...
文章來(lái)源于AI科技大本營(yíng),作者George Seif
- 模式識(shí)別和計(jì)算機(jī)視覺(jué)手冊(cè) 3次下載
- 基于計(jì)算機(jī)視覺(jué)的客機(jī)艙門識(shí)別與定位方法 42次下載
- 詳談機(jī)器視覺(jué)與計(jì)算機(jī)視覺(jué)的異同 8次下載
- 機(jī)器視覺(jué)與計(jì)算機(jī)視覺(jué)的區(qū)別的講解 7次下載
- 雙目立體計(jì)算機(jī)視覺(jué)的立體匹配研究綜述 3次下載
- 機(jī)器視覺(jué)與計(jì)算機(jī)視覺(jué)的概念到底有什么區(qū)別 6次下載
- 機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的前20個(gè)圖像數(shù)據(jù)集
- 如何快速學(xué)習(xí)計(jì)算機(jī)視覺(jué)圖像的分類
- 計(jì)算機(jī)體系結(jié)構(gòu)的深度學(xué)習(xí)PDF電子書免費(fèi)下載 3次下載
- 計(jì)算機(jī)視覺(jué)概論完成主成分分析和分類開(kāi)始運(yùn)動(dòng)估計(jì) 0次下載
- 學(xué)習(xí)計(jì)算機(jī)視覺(jué)的必讀和選讀書籍清單你學(xué)習(xí)過(guò)嗎 7次下載
- 計(jì)算機(jī)視覺(jué)課件 0次下載
- 計(jì)算機(jī)視覺(jué)講義 0次下載
- 基于OpenCV的計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn) 0次下載
- 計(jì)算機(jī)視覺(jué)及其在焊接中的應(yīng)用
- 計(jì)算機(jī)視覺(jué)的五大技術(shù) 878次閱讀
- 計(jì)算機(jī)視覺(jué)的工作原理和應(yīng)用 1017次閱讀
- 深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用 421次閱讀
- 計(jì)算機(jī)視覺(jué)的主要研究方向 490次閱讀
- 計(jì)算機(jī)視覺(jué)中的立體視覺(jué)和深度感知Python示例實(shí)現(xiàn) 488次閱讀
- 什么是計(jì)算機(jī)視覺(jué)?計(jì)算機(jī)視覺(jué)的三種方法 4139次閱讀
- 計(jì)算機(jī)視覺(jué)相關(guān)概念總結(jié) 652次閱讀
- 深度學(xué)習(xí)中的圖像分割 1106次閱讀
- 深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺(jué)到底是怎么樣的關(guān)系 3702次閱讀
- 計(jì)算機(jī)視覺(jué)零基礎(chǔ)入門 9076次閱讀
- 深度學(xué)習(xí)不能取代計(jì)算機(jī)視覺(jué)技術(shù)背后的真正原因 4675次閱讀
- 深度學(xué)習(xí)是否會(huì)取代傳統(tǒng)的計(jì)算機(jī)視覺(jué)? 6107次閱讀
- 介紹深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域四大基本任務(wù)中的應(yīng)用 1w次閱讀
- 介紹了計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)比較成功的10個(gè)深度學(xué)習(xí)架構(gòu) 9150次閱讀
- 計(jì)算機(jī)視覺(jué)的應(yīng)用場(chǎng)景和深度學(xué)習(xí)背后的技術(shù)原理詳解 1.4w次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費(fèi)下載
- 0.00 MB | 1491次下載 | 免費(fèi)
- 2單片機(jī)典型實(shí)例介紹
- 18.19 MB | 95次下載 | 1 積分
- 3S7-200PLC編程實(shí)例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識(shí)別和講解說(shuō)明
- 4.28 MB | 18次下載 | 4 積分
- 5開(kāi)關(guān)電源原理及各功能電路詳解
- 0.38 MB | 11次下載 | 免費(fèi)
- 6100W短波放大電路圖
- 0.05 MB | 4次下載 | 3 積分
- 7基于單片機(jī)和 SG3525的程控開(kāi)關(guān)電源設(shè)計(jì)
- 0.23 MB | 4次下載 | 免費(fèi)
- 8基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
- 0.11 MB | 4次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費(fèi)
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費(fèi)
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費(fèi)
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費(fèi)
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費(fèi)
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費(fèi)
- 8開(kāi)關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21539次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537793次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191183次下載 | 免費(fèi)
- 7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183277次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138039次下載 | 免費(fèi)
評(píng)論
查看更多