深度網(wǎng)絡(luò),顧名思義,就是有“很多”層的網(wǎng)絡(luò)。
那么到底多少層算深度呢?這個(gè)問題可能沒有一個(gè)明確的答案。某種意義上,這個(gè)問題類似“有多少粒沙子才能算沙丘”。但是,一般而言,我們把有兩層或兩層以上隱藏層的網(wǎng)絡(luò)叫做深度網(wǎng)絡(luò)。相反,只有一個(gè)隱藏層的網(wǎng)絡(luò)通常被認(rèn)為是“淺度網(wǎng)絡(luò)”。當(dāng)然,我懷疑我們也許會(huì)經(jīng)歷網(wǎng)絡(luò)層數(shù)的通貨膨脹。十年之后,人們也許會(huì)認(rèn)為10層隱藏層的網(wǎng)絡(luò)都是“淺度網(wǎng)絡(luò)”,只適合幼兒園小孩做練習(xí)用。非正式的說法,“深度”暗示應(yīng)對(duì)這樣的網(wǎng)絡(luò)比較困難。
但是,你真正想問的問題,其實(shí)是為什么更多的隱藏層有用?
多少讓人吃驚的是,其實(shí)沒人知道真正的原因。下面我將簡要地介紹一些常見的解釋,但是這些解釋的真實(shí)性還不能令人信服。我們甚至都不能確信更多的層真的起到了作用。
我說這讓人吃驚,是因?yàn)?a target="_blank">深度學(xué)習(xí)在業(yè)界非常流行,年年在圖像辨識(shí)、圍棋、自動(dòng)翻譯等很多領(lǐng)域突破記錄。然而我們卻始終不清楚深度學(xué)習(xí)的效果為什么這么好。
通用逼近理論(universal approximation theorem)表明,一個(gè)“淺度”神經(jīng)網(wǎng)絡(luò)(有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò))可以逼近任何函數(shù),也就是說,淺度神經(jīng)網(wǎng)絡(luò)原則上可以學(xué)習(xí)任何東西。因此可以逼近許多非線性激活函數(shù),包括現(xiàn)在深度網(wǎng)絡(luò)廣泛使用的ReLu函數(shù)。
既然如此,為什么大家還要用深度網(wǎng)絡(luò)?
好吧,一個(gè)樸素的回答是因?yàn)樗鼈冃Ч?。下圖是Goodfellow等著《深度學(xué)習(xí)》中的一張圖片,表明對(duì)某個(gè)特定問題而言,隱藏層越多,精確度越高。在其他許多任務(wù)和領(lǐng)域中同樣可以觀察到這個(gè)現(xiàn)象。
我們知道一個(gè)淺度網(wǎng)絡(luò)本可以做得和深度網(wǎng)絡(luò)一樣好,但是事實(shí)往往并非如此。問題來了——為什么?可能的答案包括:
也許一個(gè)淺度網(wǎng)絡(luò)需要比深度網(wǎng)絡(luò)更多的神經(jīng)元?
也許我們目前的算法不適合訓(xùn)練淺度網(wǎng)絡(luò)?
也許我們通常試圖解決的問題不適合淺度網(wǎng)絡(luò)?
其他原因?
Goodfellow等著《深度學(xué)習(xí)》為上面的第一個(gè)和第三個(gè)答案提供了一些理由。淺度網(wǎng)絡(luò)的神經(jīng)元數(shù)量將隨著任務(wù)復(fù)雜度的提升進(jìn)行幾何級(jí)數(shù)的增長,因此淺度網(wǎng)絡(luò)要發(fā)揮作用,會(huì)變得很大,很可能比深度網(wǎng)絡(luò)更大。這個(gè)理由的依據(jù)是很多論文都證明了在某些案例中,淺度網(wǎng)絡(luò)的神經(jīng)元數(shù)量將隨著任務(wù)復(fù)雜度的提升進(jìn)行幾何級(jí)數(shù)的增長,但是我們并不清楚這一結(jié)論是否適用于諸如MNIST分類和圍棋這樣的任務(wù)。
關(guān)于第三個(gè)答案,《深度學(xué)習(xí)》一書是這么說的:
選擇深度模型編碼了一個(gè)非常通用的信念,我們想要學(xué)習(xí)的函數(shù)應(yīng)該涉及若干較簡單的函數(shù)的組合。從表征學(xué)習(xí)的視角來說,我們相信正學(xué)習(xí)的問題包括發(fā)現(xiàn)一組差異的底層因素,這些因素可以進(jìn)一步用其他更簡單的差異的底層因素來描述。
我認(rèn)為目前的“共識(shí)”是上述第一個(gè)和第三個(gè)答案的組合是深度網(wǎng)絡(luò)有效的原因。
但是這離證明還很遠(yuǎn)。2015年提出的150+層的殘差網(wǎng)絡(luò)贏得了多項(xiàng)圖像辨識(shí)競賽的冠軍。這是一個(gè)巨大的成功,看起來是一個(gè)令人難以抗拒的越深越好的論據(jù)。
然而,2016年提出的廣殘差網(wǎng)絡(luò)(Wide Residual Networks)以16層的網(wǎng)絡(luò)超越了150+層的殘差網(wǎng)絡(luò)。
Ba和Caruana在2014年發(fā)表的論文《Do Deep Nets Really Need to be Deep?》(深度網(wǎng)絡(luò)真的需要那么深嗎?)通過模型壓縮方案,用淺度網(wǎng)絡(luò)模擬一個(gè)訓(xùn)練好的深度網(wǎng)絡(luò),對(duì)某些深度網(wǎng)絡(luò)而言,模擬它們的淺度網(wǎng)絡(luò)能表現(xiàn)得一樣好,盡管直接在相應(yīng)數(shù)據(jù)集上訓(xùn)練淺度網(wǎng)絡(luò)無法達(dá)到這樣的表現(xiàn)。
所以,也許真正的答案是上文提到的第二個(gè)答案。
正如我一開始說的那樣,現(xiàn)在還沒人確定自己知道真正的答案。
過去10年來,深度學(xué)習(xí)方面的進(jìn)展令人驚嘆!然而,大多數(shù)進(jìn)展是通過試錯(cuò)法得到的,我們?nèi)匀蝗狈?duì)到底是什么讓深度網(wǎng)絡(luò)起效的基本理解。甚至,對(duì)到底什么是配置高效的深度網(wǎng)絡(luò)的關(guān)鍵這個(gè)問題,人們的答案也經(jīng)常變來變?nèi)ァ?/p>
Geoffrey Hinton在神經(jīng)網(wǎng)絡(luò)方面工作了20+年,卻長期沒有得到多少關(guān)注。直到2006年發(fā)表了一系列突破性的論文,介紹了訓(xùn)練深度網(wǎng)絡(luò)的有效技巧——在梯度下降前先進(jìn)行無監(jiān)督預(yù)訓(xùn)練。之后很久的一段時(shí)間人們都認(rèn)為無監(jiān)督預(yù)訓(xùn)練是關(guān)鍵。
接著,在2010年Martens表明Hessian-free優(yōu)化的效果更好。在2013年,Sutskever等人表明隨機(jī)梯度下降加上一些非常聰明的技巧能表現(xiàn)得更好。同時(shí),在2010年大家意識(shí)到用ReLu代替Sigmoid能顯著改善梯度下降的表現(xiàn)。2014年提出了dropout。2015年提出了殘差網(wǎng)絡(luò)。人們提出了越來越多有效的訓(xùn)練網(wǎng)絡(luò)的方法,10年前至關(guān)重要的洞見在今天常常被人厭煩。這些大部分都是由試錯(cuò)法驅(qū)動(dòng)的,我們對(duì)為什么某種技巧效果這么好,另一種技巧效果不那么好知之甚少。
我們甚至不知道為什么深度網(wǎng)絡(luò)達(dá)到表現(xiàn)高原;10年前人們歸咎于極小值,但現(xiàn)在人們不這么看了(達(dá)到表現(xiàn)高原時(shí)梯度趨向于保持一個(gè)較大值)。這是一個(gè)非?;镜挠嘘P(guān)深度網(wǎng)絡(luò)的問題,而我們甚至連這也不知道。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4734瀏覽量
100423 -
深度神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
61瀏覽量
4507
原文標(biāo)題:CrossValidated問答:神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)有什么不一樣?
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論