這篇文章是我將為 Parallel Forall 撰寫的系列文章中的第一篇,該系列文章旨在為 深度學(xué)習(xí) 提供一個(gè)直觀而溫和的介紹。它涵蓋了最重要的深度學(xué)習(xí)概念,旨在提供對每個(gè)概念的理解,而不是其數(shù)學(xué)和理論細(xì)節(jié)。雖然數(shù)學(xué)術(shù)語有時(shí)是必要的,并且可以進(jìn)一步理解,但這些文章盡可能使用類比和圖像來提供易于理解的信息,包括對深度學(xué)習(xí)領(lǐng)域的直觀概述。
我以術(shù)語表的風(fēng)格編寫了這個(gè)系列,因此它也可以作為深入學(xué)習(xí)概念的參考。
第一部分主要介紹深度學(xué)習(xí)的主要概念。 第二部分 提供歷史背景,并深入研究用于深度學(xué)習(xí)培訓(xùn)的培訓(xùn)程序、算法和實(shí)用技巧。 第三部分 涵蓋了序列學(xué)習(xí),包括遞歸神經(jīng)網(wǎng)絡(luò)、 LSTMs 和用于神經(jīng)機(jī)器翻譯的編解碼器系統(tǒng)。 第四部分 涵蓋強(qiáng)化學(xué)習(xí)。
核心概念
在機(jī)器學(xué)習(xí)中,我們( 1 )獲取一些數(shù)據(jù),( 2 )根據(jù)這些數(shù)據(jù)訓(xùn)練一個(gè)模型,( 3 )使用訓(xùn)練的模型對新數(shù)據(jù)進(jìn)行預(yù)測。 訓(xùn)練 一個(gè)模型的過程可以看作是一個(gè)學(xué)習(xí)過程,在這個(gè)過程中,模型一步一步地暴露在新的、不熟悉的數(shù)據(jù)中。在每一步中,模型都會(huì)做出預(yù)測,并得到關(guān)于其生成的預(yù)測有多精確的反饋。這種反饋是根據(jù)某種度量(例如距正確解的距離)提供的誤差,用于校正預(yù)測中的誤差。
學(xué)習(xí)過程通常是參數(shù)空間中來回的游戲:如果你調(diào)整模型的一個(gè)參數(shù)以獲得正確的預(yù)測,那么模型可能會(huì)因此得到之前正確的預(yù)測錯(cuò)誤。訓(xùn)練一個(gè)具有良好預(yù)測性能的模型可能需要多次迭代。這個(gè)迭代的預(yù)測和調(diào)整過程一直持續(xù)到模型的預(yù)測不再改善為止。
特征工程
特征工程是從數(shù)據(jù)中提取有用模式的藝術(shù),這將使 機(jī)器學(xué)習(xí) 模型更容易區(qū)分類。例如,你可以用綠色像素和藍(lán)色像素的數(shù)量作為一個(gè)指標(biāo),來判斷某張圖片中是陸地動(dòng)物還是水生動(dòng)物。這個(gè)特性對機(jī)器學(xué)習(xí)模型很有幫助,因?yàn)樗拗屏艘M(jìn)行良好分類所需考慮的類的數(shù)量。
當(dāng)你想在大多數(shù)預(yù)測任務(wù)中獲得好的結(jié)果時(shí),特征工程是最重要的技能。然而,由于不同的數(shù)據(jù)集和不同的數(shù)據(jù)類型需要不同的特征工程方法,因此很難學(xué)習(xí)和掌握。藝術(shù)不僅僅是一門粗糙的科學(xué),更是一門科學(xué)??捎糜谝粋€(gè)數(shù)據(jù)集的特征通常不適用于其他數(shù)據(jù)集(例如,下一個(gè)圖像數(shù)據(jù)集僅包含陸地動(dòng)物)。特征工程的難度和所涉及的工作量是尋找能夠?qū)W習(xí)特征的算法的主要原因,即自動(dòng)生成特征的算法。
雖然許多任務(wù)可以通過特征學(xué)習(xí)(如對象和語音識別)實(shí)現(xiàn)自動(dòng)化,但特征工程仍然是 在困難的任務(wù)中最有效的方法 (就像 Kaggle 機(jī)器學(xué)習(xí)競賽中的大多數(shù)任務(wù)一樣)。
特征學(xué)習(xí)
特征學(xué)習(xí)算法可以找到對區(qū)分類很重要的共同模式,并自動(dòng)提取它們以用于分類或回歸過程。特征學(xué)習(xí)可以被認(rèn)為是由算法自動(dòng)完成的 特征工程 。在深度學(xué)習(xí)中,卷積層特別擅長于在圖像中找到好的特征到下一層,從而形成一個(gè)非線性特征的層次結(jié)構(gòu),這些特征的復(fù)雜性不斷增加(例如,斑點(diǎn)、邊緣 – 》鼻子、眼睛、臉頰 – 》面部)。最后一層使用所有這些生成的特征進(jìn)行分類或回歸(卷積網(wǎng)絡(luò)中的最后一層本質(zhì)上是多項(xiàng)式 邏輯回歸 )。
圖 1 :從深度學(xué)習(xí)算法中學(xué)習(xí)的層次特征。每個(gè)特征都可以看作是一個(gè)過濾器,它過濾輸入圖像的特征(鼻子)。如果找到了特征,負(fù)責(zé)的單元會(huì)產(chǎn)生大量的激活,這些激活可以被后面的分類器階段提取出來,作為類存在的良好指示器。圖片由 Honglak Lee 和同事( 2011 年)發(fā)表在“用卷積深信念網(wǎng)絡(luò)進(jìn)行分層表征的無監(jiān)督學(xué)習(xí)”。
圖 1 顯示了由深度學(xué)習(xí)算法生成的特性,該算法可以生成易于解釋的特性。這很不尋常。特征通常很難解釋,尤其是在像 循環(huán)神經(jīng)網(wǎng)絡(luò) 和 LSTM 這樣的深層網(wǎng)絡(luò)或非常深的卷積網(wǎng)絡(luò)中。
深度學(xué)習(xí)
在分層 特征學(xué)習(xí) 中,我們提取多層非線性特征并將其傳遞給一個(gè)分類器,該分類器將所有特征組合起來進(jìn)行預(yù)測。我們感興趣的是將這些非常深層次的非線性特征疊加起來,因?yàn)槲覀儫o法從幾層中學(xué)習(xí)復(fù)雜的特性。從數(shù)學(xué)上可以看出,對于圖像來說,單個(gè)圖層的最佳特征是邊緣和斑點(diǎn),因?yàn)樗鼈儼宋覀兛梢詮膯蝹€(gè)非線性變換中提取的大部分信息。為了生成包含更多信息的特征,我們不能直接對輸入進(jìn)行操作,但是我們需要再次轉(zhuǎn)換我們的第一個(gè)特征(邊緣和斑點(diǎn)),以獲得包含更多信息的更復(fù)雜的特征,以區(qū)分類。
有研究表明,人腦做的是完全相同的事情:在視覺皮層接收信息的第一層神經(jīng)元對特定的邊緣和斑點(diǎn)很敏感,而視覺管道下游的大腦區(qū)域則對更復(fù)雜的結(jié)構(gòu)(如臉部)敏感。
雖然分層特征學(xué)習(xí)在領(lǐng)域深度學(xué)習(xí)存在之前就被使用了,但是這些架構(gòu)面臨著諸如消失 梯度 問題,其中梯度變得太小,無法為非常深的層提供學(xué)習(xí)信號,因此,與淺層學(xué)習(xí)算法(如支持向量機(jī))相比,這些體系結(jié)構(gòu)的性能較差。
“深度學(xué)習(xí)”一詞源于新的方法和策略,這些方法和策略旨在通過克服梯度消失的問題來生成這些深層的非線性特征層次,以便我們可以訓(xùn)練具有數(shù)十層非線性層次特征的體系結(jié)構(gòu)。在 2010 年早期,有研究表明,結(jié)合 GPUs 和 激活函數(shù) 提供更好的梯度流,足以在沒有重大困難的情況下訓(xùn)練深層結(jié)構(gòu)。從這里開始,人們對深入學(xué)習(xí)的興趣與日俱增。
深度學(xué)習(xí)不僅與學(xué)習(xí)深度非線性層次特征有關(guān),還與學(xué)習(xí)檢測序列數(shù)據(jù)中非常長的非線性時(shí)間依賴性有關(guān)。雖然大多數(shù)其他處理順序數(shù)據(jù)的算法只有最后 10 個(gè)時(shí)間步的內(nèi)存, 長短時(shí)記憶 循環(huán)神經(jīng)網(wǎng)絡(luò) (由 Sepp Hochreiter 和 J ü rgen-Schmidhuber 在 1997 年發(fā)明)允許網(wǎng)絡(luò)收集過去幾百個(gè)時(shí)間步的活動(dòng),從而做出準(zhǔn)確的預(yù)測。雖然 LSTM 網(wǎng)絡(luò)在過去 10 年中大多被忽視,但自 2013 年以來, LSTM 網(wǎng)絡(luò)的使用量迅速增長,與卷積網(wǎng)絡(luò)一起構(gòu)成了深度學(xué)習(xí)的兩大成功案例之一。
基本概念
對數(shù)幾率回歸
回歸分析估計(jì)統(tǒng)計(jì)輸入變量之間的關(guān)系,以便預(yù)測結(jié)果變量。 Logistic 回歸是一種回歸模型,它使用輸入變量來預(yù)測一個(gè)分類結(jié)果變量,該變量可以采用一組有限的類值,例如“ cancer ”/“ no cancer ”,或者圖像類別,如“ bird ”/“ car ”/“ dog ”/“ cat ”/“ horse ”。
Logistic 回歸將 Logistic sigmoid 函數(shù)(見圖 2 )應(yīng)用于加權(quán)輸入值,以預(yù)測輸入數(shù)據(jù)屬于哪兩類(或者在多項(xiàng)式 Logistic 回歸的情況下,是多個(gè)類別中的哪一個(gè))。
圖 2 : logistic sigmoid 函數(shù)$ latex f ( x )=\ frac { 1 }{ 1 + e ^{ -x }}}$。 圖像源
Logistic 回歸類似于非線性 感知器 或沒有隱藏層的神經(jīng)網(wǎng)絡(luò)。與其他基本模型的主要區(qū)別在于,如果輸入變量的某些統(tǒng)計(jì)特性成立, logistic 回歸易于解釋且可靠。如果這些統(tǒng)計(jì)特性成立,我們可以用很少的輸入數(shù)據(jù)生成一個(gè)非??煽康哪P?。這使得 logistic 回歸對于缺乏數(shù)據(jù)的領(lǐng)域很有價(jià)值,比如醫(yī)學(xué)和社會(huì)科學(xué)領(lǐng)域, logistic 回歸用于分析和解釋實(shí)驗(yàn)結(jié)果。因?yàn)樗唵巍⒖焖?,所以它也適用于非常大的數(shù)據(jù)集。
在深度學(xué)習(xí)中,用于分類的神經(jīng)網(wǎng)絡(luò)的最后一層通??梢越忉尀檫壿嫽貧w。在這種情況下,我們可以將深度學(xué)習(xí)算法視為多個(gè)特征學(xué)習(xí)階段,然后將其特征傳遞到 logistic 回歸中,對輸入進(jìn)行分類。
人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)( 1 )獲取一些輸入數(shù)據(jù),( 2 )通過計(jì)算輸入的加權(quán)和來轉(zhuǎn)換這些輸入數(shù)據(jù),( 3 )將一個(gè)非線性函數(shù)應(yīng)用于此轉(zhuǎn)換以計(jì)算中間狀態(tài)。上面的三個(gè)步驟構(gòu)成了所謂的 層 ,而轉(zhuǎn)換函數(shù)通常被稱為 單元 。通常稱為特征的中間狀態(tài)被用作另一層的輸入。
通過重復(fù)這些步驟,人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多層非線性特征,然后將這些非線性特征組合到最后一層來創(chuàng)建預(yù)測。
神經(jīng)網(wǎng)絡(luò)通過產(chǎn)生一個(gè)誤差信號來學(xué)習(xí),該信號測量網(wǎng)絡(luò)的預(yù)測值與期望值之間的差異,然后使用該誤差信號來改變權(quán)重(或參數(shù)),從而使預(yù)測更加準(zhǔn)確。
單位
單元通常指的是層中的 激活函數(shù) ,通過該層,輸入通過非線性激活函數(shù)(例如通過 形函數(shù) )進(jìn)行轉(zhuǎn)換。通常,一個(gè)單元有幾個(gè)傳入連接和幾個(gè)傳出連接。然而,單元也可以更復(fù)雜,比如 長短時(shí)記憶 單元,它有多個(gè)激活函數(shù),與非線性激活函數(shù)有不同的連接布局,或者 maxout 單元,它通過一系列非線性轉(zhuǎn)換的輸入值計(jì)算最終輸出。 聯(lián)營 、 卷積 和其他輸入轉(zhuǎn)換函數(shù)通常不被稱為單元。
人工神經(jīng)元
“人工神經(jīng)元”或“神經(jīng)元”這一術(shù)語與 單元 是一個(gè)等價(jià)的術(shù)語,但它意味著與神經(jīng)生物學(xué)和人腦有著密切的聯(lián)系,而深度學(xué)習(xí)與大腦幾乎沒有任何關(guān)系(例如,現(xiàn)在人們認(rèn)為生物神經(jīng)元更類似于整個(gè)多層感知器,而不是神經(jīng)網(wǎng)絡(luò))。在上一次 艾冬 之后,人們鼓勵(lì)使用“神經(jīng)元”這個(gè)詞來區(qū)分更成功的神經(jīng)網(wǎng)絡(luò)與失敗和被遺棄的感知器。然而,自 2012 年后深度學(xué)***成功之后,媒體往往會(huì)拿起“神經(jīng)元”一詞,試圖將深度學(xué)習(xí)解釋為人腦的模仿,這對深度學(xué)習(xí)領(lǐng)域的認(rèn)知非常誤導(dǎo),也有潛在的危險(xiǎn)?,F(xiàn)在不鼓勵(lì)使用“神經(jīng)元”一詞,而應(yīng)該使用更具描述性的術(shù)語“單位”。
激活函數(shù)
激活函數(shù)接受加權(quán)數(shù)據(jù)(輸入數(shù)據(jù)和權(quán)重之間的矩陣乘法)并輸出數(shù)據(jù)的非線性轉(zhuǎn)換。例如,$ latex output = max ( 0 , weighted _ data )$是 校正線性激活函數(shù) (基本上將所有負(fù)值設(shè)置為零)。單元和激活函數(shù)之間的區(qū)別在于,單元可以更復(fù)雜,也就是說,一個(gè)單元可以有多個(gè)激活函數(shù)(例如 LSTM 單元)或稍微復(fù)雜一些的結(jié)構(gòu)(例如 maxout 單元)。
線性激活函數(shù)和非線性激活函數(shù)之間的區(qū)別可以用一些加權(quán)值的關(guān)系來表示:想象四個(gè)點(diǎn) A1 號 、 A2 、 地下一層 和 地下二層 。對 A1 號 / A2 和 地下一層 / 地下二層 彼此靠近,但 A1 號 與 地下一層 和 地下二層 相距較遠(yuǎn),反之亦然; A2 也是如此。
通過線性變換,對之間的關(guān)系 MIG ht 發(fā)生變化。例如 A1 號 和 A2 MIG ht 相距很遠(yuǎn),但這意味著 地下一層 和 地下二層 也相距很遠(yuǎn)。兩對 MIG ht 之間的距離會(huì)縮小,但如果確實(shí)如此,那么 地下一層 和 地下二層 將同時(shí)接近 A1 號 和 A2 。我們可以應(yīng)用許多線性變換,但是 A1 號 / A2 和 地下一層 / 地下二層 之間的關(guān)系總是相似的。
相反,通過非線性激活函數(shù),我們可以增加 A1 號 和 A2 之間的距離,而我們 減少 可以增加 地下一層 和 地下二層 之間的距離。我們可以使 地下一層 靠近 A1 號 ,但 地下二層 遠(yuǎn)離 A1 號 。通過應(yīng)用非線性函數(shù),我們在點(diǎn)之間創(chuàng)建新的關(guān)系。隨著每一個(gè)新的非線性變換,我們可以增加關(guān)系的復(fù)雜性。在深度學(xué)習(xí)中,使用非線性激活函數(shù)會(huì)為每一層創(chuàng)建越來越復(fù)雜的特征。
相反, 1000 層純線性變換的特征可以由一個(gè)單層再現(xiàn)(因?yàn)榫仃嚦朔ㄦ溈偸强梢杂靡粋€(gè)矩陣乘法表示)。這就是為什么非線性激活函數(shù)在深度學(xué)習(xí)中如此重要。
層
層是深度學(xué)習(xí)的最高層次的構(gòu)建塊。層是一個(gè)容器,它通常接收加權(quán)輸入,用一組非線性函數(shù)對其進(jìn)行轉(zhuǎn)換,然后將這些值作為輸出傳遞到下一層。一個(gè)層通常是統(tǒng)一的,即它只包含一種類型的激活函數(shù), 聯(lián)營 , 卷積 等,因此可以很容易地與網(wǎng)絡(luò)的其他部分進(jìn)行比較。網(wǎng)絡(luò)中的第一層和最后一層分別稱為輸入層和輸出層,中間的所有層稱為隱藏層。
卷積式深度學(xué)習(xí)
卷積
卷積是一種數(shù)學(xué)運(yùn)算,它描述了如何混合兩個(gè)函數(shù)或信息的規(guī)則:( 1 )特征映射(或輸入數(shù)據(jù))和( 2 )卷積核混合在一起形成( 3 )轉(zhuǎn)換后的特征映射。卷積通常被解釋為一種濾波器,在這種濾波器中,核對特征映射進(jìn)行某種類型的信息過濾(例如,一個(gè)核 MIG ht 濾波器用于邊緣并丟棄其他信息)。
圖 2 :使用邊緣檢測器卷積核的圖像的卷積。
卷積在物理和數(shù)學(xué)中很重要,因?yàn)樗ㄟ^卷積定理定義了空間域和時(shí)域(位置( 0 , 30 處強(qiáng)度為 147 的像素)和頻域(振幅為 0 。 3 ,頻率為 30Hz ,相位為 60 度)之間的橋梁。這種橋是通過使用傅立葉變換來定義的:當(dāng)你對核和特征映射都使用傅立葉變換時(shí),卷積運(yùn)算就大大簡化了(積分變成了乘法)。卷積的一些最快的 GPU 實(shí)現(xiàn)(例如 NVIDIA cuDNN 庫中的一些實(shí)現(xiàn))目前使用傅立葉變換。
圖 3 :通過在整個(gè)圖像上滑動(dòng)圖像塊來計(jì)算卷積。將原始圖像(綠色)的一個(gè)圖像塊(黃色)乘以核(黃色斑塊中的紅色數(shù)字),并將其和寫入一個(gè)特征映射像素(卷積特征中的紅細(xì)胞)。圖片來源: 1 。
卷積可以描述信息的擴(kuò)散,例如,將牛奶放入咖啡中而不攪拌時(shí)發(fā)生的擴(kuò)散可以通過卷積操作精確地建模(像素向圖像中的輪廓擴(kuò)散)。在量子力學(xué)中,它描述了當(dāng)你測量粒子位置時(shí)量子粒子在某個(gè)位置的概率(像素位置的平均概率在輪廓處最高)。在概率論中,它描述了互相關(guān),即重疊的兩個(gè)序列的相似程度(如果特征(例如鼻子)的像素在圖像(例如臉部)中重疊,則相似度很高)。在統(tǒng)計(jì)學(xué)中,它描述了一個(gè)標(biāo)準(zhǔn)化輸入序列上的加權(quán)移動(dòng)平均值(輪廓線的權(quán)重大,其他所有的權(quán)重都很?。_€有許多其他的解釋。
對于深度學(xué)習(xí),卷積的哪種解釋是正確的還不清楚,但目前最有用的解釋是:卷積濾波器可以解釋為特征檢測器,即輸入(特征映射)針對某個(gè)特征(核)進(jìn)行過濾,如果在形象。這就是如何解釋圖像的互相關(guān)。
圖 4 :圖像的互相關(guān)。卷積可以通過反轉(zhuǎn)核(倒置圖像)轉(zhuǎn)換為互相關(guān)。然后,內(nèi)核可以被解釋為一個(gè)特征檢測器,其中檢測到的特征導(dǎo)致大輸出(白色)和小輸出(如果沒有特征存在)(黑色)。圖片取自 史蒂芬·史密斯 的優(yōu)秀作品 關(guān)于數(shù)字信號處理的免費(fèi)在線書籍 。
附加材料: 在深度學(xué)習(xí)中理解卷積
抽樣/子抽樣
池化是一個(gè)過程,它接受某個(gè)區(qū)域的輸入并將其減少到單個(gè)值(子采樣)。在 卷積神經(jīng)網(wǎng)絡(luò) 中,這種集中的信息具有有用的特性,即傳出連接通常接收相似的信息(信息被“漏斗”地“導(dǎo)入”到下一個(gè)卷積層的輸入特征映射的正確位置)。這為旋轉(zhuǎn)和平移提供了基本的不變性。例如,如果一個(gè)圖像塊上的人臉不在圖像的中心,而是稍微平移了一下,它仍然可以正常工作,因?yàn)樾畔⑼ㄟ^池化操作被導(dǎo)入到正確的位置,這樣卷積濾波器就可以檢測到人臉。
池區(qū)越大,信息就越濃縮,這就導(dǎo)致了更容易放入 GPU 內(nèi)存的細(xì)長網(wǎng)絡(luò)。但是,如果池區(qū)域太大,就會(huì)丟棄太多的信息,并且預(yù)測性能會(huì)降低。
卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò),或優(yōu)選卷積網(wǎng)絡(luò)或卷積網(wǎng)絡(luò)(術(shù)語“神經(jīng)”具有誤導(dǎo)性;另請參見 人工神經(jīng)元 )使用卷積 層 (參見 卷積 ),它過濾輸入以獲取有用信息。這些卷積層具有學(xué)習(xí)的參數(shù),以便自動(dòng)調(diào)整這些濾波器以提取手頭任務(wù)的最有用信息(參見特征學(xué)習(xí))。例如,在一般的目標(biāo)識別任務(wù)中,過濾有關(guān)對象形狀的信息(對象通常具有非常不同的形狀),而對于鳥類識別任務(wù),它更適合于提取有關(guān)鳥的顏色的信息(大多數(shù)鳥的形狀相似,但顏色不同);這里的顏色更能區(qū)分鳥類)。卷積網(wǎng)絡(luò)會(huì)自動(dòng)調(diào)整以找到這些任務(wù)的最佳特征。
通常,多個(gè)卷積層用于在每一層之后過濾圖像以獲得越來越多的抽象信息(參見層次特征)。
卷積網(wǎng)絡(luò)通常也使用池層(見 聯(lián)營 ),以獲得有限的平移和旋轉(zhuǎn)不變性(即使對象出現(xiàn)在不尋常的地方也能檢測到)。池化還可以減少內(nèi)存消耗,從而允許使用更多的卷積層。
最近的卷積網(wǎng)絡(luò)使用初始模塊(見 開端 ),它使用 1 × 1 卷積核來進(jìn)一步減少內(nèi)存消耗,同時(shí)加快計(jì)算速度(從而提高訓(xùn)練速度)。
圖 5 :一個(gè)交通標(biāo)志的圖像被 4 個(gè) 5 × 5 的卷積核過濾,生成 4 個(gè)特征圖,這些特征圖通過最大池化進(jìn)行二次采樣。下一層將 10 個(gè) 5 × 5 的卷積核應(yīng)用于這些子采樣圖像,并再次將特征映射集中在一起。最后一層是一個(gè)完全連接的層,在這里所有生成的特征被組合并用于分類器(本質(zhì)上是 logistic 回歸)。圖像由 莫里斯·皮曼 提供。
附加材料: 課程:機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò):用神經(jīng)網(wǎng)絡(luò)識別物體 。
開端
卷積網(wǎng)絡(luò) 中的初始模塊被設(shè)計(jì)為允許更深更大的 卷積 al 層 ,同時(shí)允許更有效的計(jì)算。這是通過使用較小的特征圖尺寸的 1 × 1 卷積來實(shí)現(xiàn)的,例如 192 個(gè) 28 × 28 尺寸的特征地圖可以通過 64 個(gè) 1 × 1 的卷積縮小為 64 個(gè) 28 × 28 的特征地圖。由于縮小了體積,這些 1 × 1 卷積可隨后得到 3 × 3 和 5 × 5 的較大卷積。除 1 × 1 卷積外,最大池化也可用于降維。
在初始模塊的輸出中,所有的大的卷積被連接成一個(gè)大的特征映射,然后被送入下一層(或初始模塊)。
附加材料: 卷積更深
第一部分結(jié)論
這是本次深度學(xué)習(xí)速成課程的第一部分。請盡快回來查看本系列的下兩個(gè)部分。在 第二部分 中,我將提供一個(gè)簡短的歷史概述,然后介紹如何訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)。
關(guān)于作者
Tim Dettmers 是盧加諾大學(xué)信息學(xué)碩士生,在那里他從事深度學(xué)習(xí)研究。在此之前,他學(xué)習(xí)應(yīng)用數(shù)學(xué),并在自動(dòng)化行業(yè)做了三年的軟件工程師。他經(jīng)營著一個(gè) 關(guān)于深度學(xué)習(xí)的博客 ,并參加了 Kaggle 數(shù)據(jù)科學(xué)競賽,他的世界排名達(dá)到了 63 位。
審核編輯:郭婷
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132312 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890
發(fā)布評論請先 登錄
相關(guān)推薦
評論