1、第一次浪潮
在1943年,科學(xué)家WarrenMcCulloch和WalterPitts提出了神經(jīng)網(wǎng)絡(luò)作為一個計算模型的理論。1957年,康內(nèi)爾大學(xué)教授FrankRosenblatt提出了“感知器”(perceptron)模型。感知器是第一個用算法來精確定義的神經(jīng)網(wǎng)絡(luò),第一個具有自組織自學(xué)習(xí)能力的數(shù)學(xué)模型,是日后許多新的神經(jīng)網(wǎng)絡(luò)模型的始祖。感知器的技術(shù)在20世紀(jì)60年代帶來人工智能的第一個高潮。
1969年,MarvinMinsky和SeymourPapert在出版的《感知器:計算幾何簡介》一書中強烈地批判了感知器模型:首先,單層的神經(jīng)網(wǎng)絡(luò)無法解決不可線性分割的問題,典型例子如異或門;其次,當(dāng)時的計算能力低下無法支持神經(jīng)網(wǎng)絡(luò)模型所需的計算量。此后的十幾年,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的人工智能研究進(jìn)入低潮。
2、第二次浪潮
Minsky提出的尖銳問題后來被逐步解決。傳統(tǒng)的感知器用所謂“梯度下降”的算法糾錯時,其運算量和神經(jīng)元數(shù)目的平方成正比,因而計算量巨大。1986年7月,Hinton和DavidRumelhart合作在《自然》發(fā)表論文,系統(tǒng)地提出了應(yīng)用反向傳播算法,把糾錯的運算量下降到只和神經(jīng)元數(shù)目成正比。同時,通過在神經(jīng)網(wǎng)絡(luò)里增加一個所謂隱層(hiddenlayer),反向傳播算法同時也解決了感知器無法解決的異或門難題。
Hinton的博士后YannLecun于1989年發(fā)表了論文《反向傳播算法在手寫郵政編碼上的應(yīng)用》。他用美國郵政系統(tǒng)提供的近萬個手寫數(shù)字的樣本來訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng),在獨立的測試樣本中錯誤率低至5%,達(dá)到實用水準(zhǔn)。他進(jìn)一步運用“卷積神經(jīng)網(wǎng)絡(luò)”(convolutedneuralnetworks)的技術(shù),開發(fā)出商業(yè)軟件,用于讀取銀行支票上的手寫數(shù)字,這個支票識別系統(tǒng)在20世紀(jì)90年代末占據(jù)了美國接近20%的市場。
貝爾實驗室的VladmirVapnik在1963年提出了支持向量機(supportvectormachine,SVM)的算法。在數(shù)據(jù)樣本線性不可分的時候,支持向量機使用所謂“核機制”(kerneltrick)的非線性映射算法,將線性不可分的樣本轉(zhuǎn)化到高維特征空間(high-dimensionalfeaturespace),使其線性可分。作為一種分類算法,從20世紀(jì)90年代初開始,SVM在圖像和語音識別上找到了廣泛的用途。在手寫郵政編碼的識別問題上,SVM技術(shù)在1998年錯誤率降至0.8%,2002年最低達(dá)到了0.56%,遠(yuǎn)遠(yuǎn)超越同期的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。
這時,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的反向傳播算法遇到了本質(zhì)難題——梯度消失(vanishinggradientproblem)。這個問題在1991年被德國學(xué)者SeppHochreiter第一次清晰提出并闡明原因。簡單地說,就是成本函數(shù)(costfunction)從輸出層反向傳播時,每經(jīng)過一層,梯度衰減速度極快,學(xué)習(xí)速度變得極慢,神經(jīng)網(wǎng)絡(luò)很容易停滯于局部最優(yōu)解而無法自拔。同時,算法訓(xùn)練時間過長會出現(xiàn)過度擬合(overfit),把噪音當(dāng)成有效信號。SVM理論完備、機理簡單、容易重復(fù),從而得到主流的追捧。SVM技術(shù)在圖像和語音識別方面的成功使得神經(jīng)網(wǎng)絡(luò)的研究重新陷入低潮。
3、第三次浪潮
(1)改進(jìn)算法
2006年,Hinton和合作者發(fā)表論文《深信度網(wǎng)絡(luò)的一種快速算法》。在這篇論文里,Hinton在算法上的核心是借用了統(tǒng)計力學(xué)里的“玻爾茲曼分布”的概念,使用所謂的“限制玻爾茲曼機”(RBM)來學(xué)習(xí)(圖5)。
圖5波爾茲曼機與限制波爾茲曼機
RBM相當(dāng)于一個兩層網(wǎng)絡(luò),可以對神經(jīng)網(wǎng)絡(luò)實現(xiàn)“沒有監(jiān)督的訓(xùn)練”(unsupervisedtraining)。深信度網(wǎng)絡(luò)就是幾層RBM疊加在一起,RBM可以從輸入數(shù)據(jù)中進(jìn)行預(yù)先訓(xùn)練,自行發(fā)現(xiàn)重要特征,對神經(jīng)網(wǎng)絡(luò)連接的權(quán)重進(jìn)行有效的初始化。經(jīng)過RBM預(yù)先訓(xùn)練初始化后的神經(jīng)網(wǎng)絡(luò),再用反向傳播算法微調(diào),效果得到大幅度提升。
2011年,加拿大的蒙特利爾大學(xué)學(xué)者XavierGlorot和YoshuaBengio發(fā)表論文《深而稀疏的修正神經(jīng)網(wǎng)絡(luò)》。論文的算法中使用一種稱為“修正線性單元”(rectifiedlinearunit,RELU)的激勵函數(shù)。和使用別的激勵函數(shù)的模型相比,RELU識別錯誤率更低,而且其有效性對于神經(jīng)網(wǎng)絡(luò)是否進(jìn)行“預(yù)先訓(xùn)練”并不敏感。RELU的導(dǎo)數(shù)是常數(shù),非零即一,不存在傳統(tǒng)激勵函數(shù)在反向傳播計算中的“梯度消失問題”。由于統(tǒng)計上約一半的神經(jīng)元在計算過程中輸出為零,使用RELU的模型計算效率更高,而且自然而然地形成了所謂“稀疏表征”(sparserepresentation),用少量的神經(jīng)元可以高效、靈活、穩(wěn)健地表達(dá)抽象復(fù)雜的概念。
2012年7月,Hinton發(fā)表論文《通過阻止特征檢測器的共同作用來改進(jìn)神經(jīng)網(wǎng)絡(luò)》。為了解決過度擬合的問題,論文中采用了一種新的被稱為“丟棄”(dropout)的算法。丟棄算法的具體實施是在每次培訓(xùn)中給每個神經(jīng)元一定的幾率(比如50%),假裝它不存在,計算中忽略不計。使用丟棄算法的神經(jīng)網(wǎng)絡(luò)被強迫用不同的、獨立的神經(jīng)元的子集來接受學(xué)習(xí)訓(xùn)練。這樣網(wǎng)絡(luò)更強健,避免了過度擬合,不會因為外在輸入的很小噪音導(dǎo)致輸出質(zhì)量的很大差異(圖6)。
圖6標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)(a)與使用丟棄算法后的神經(jīng)網(wǎng)絡(luò)(b)
(2)使用GPU提高計算能力
2009年6月,斯坦福大學(xué)的RajatRaina和吳恩達(dá)(AndrewNg)合作發(fā)表論文《用GPU大規(guī)模無監(jiān)督深度學(xué)習(xí)》,論文模型里的參數(shù)總數(shù)(就是各層不同神經(jīng)元之間鏈接的總數(shù))達(dá)到1億。與之相比,Hinton在2006年的論文里用到的參數(shù)數(shù)目只有170萬。論文結(jié)果顯示,使用GPU的運行速度和用傳統(tǒng)雙核CPU相比,最快時要快近70倍。在一個四層、1億個參數(shù)的深信度網(wǎng)絡(luò)上,使用GPU把程序運行時間從幾周降到一天。
2010年瑞士學(xué)者DanCiresan和合作者發(fā)表論文《Deepbigsimpleneuralnetsexcelonhandwrittendigitrecognition》,其中使用的還是20世紀(jì)80年代的反向傳播計算方法,但是計算搬移到GPU上實現(xiàn),在反向傳播計算時速度比傳統(tǒng)CPU快了40倍。
2012年還在斯坦福大學(xué)做研究生的黎越國(QuocVietLe)領(lǐng)銜,和他的導(dǎo)師吳恩達(dá),以及眾多谷歌的科學(xué)家聯(lián)合發(fā)表論文《用大規(guī)模無監(jiān)督學(xué)習(xí)建造高層次特征》。黎越國的文章中使用了九層神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的參數(shù)數(shù)量高達(dá)10億,是Ciresan2010年論文中的模型的100倍,是2009年Raina論文模型的10倍。
(3)海量的訓(xùn)練數(shù)據(jù)
在黎越國文章中,用于訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)的圖像都是從谷歌的錄像網(wǎng)站youtube上截屏獲得。1000萬個原始錄像,每個錄像只截取一張圖片,每張圖片有4萬個像素。與之相比,先前大部分論文使用的訓(xùn)練圖像,原始圖像的數(shù)目大多在10萬以下,圖片的像素大多不到1000。黎越國的計算模型分布式地在1000臺機器(每臺機器有16個CPU內(nèi)核)上運行,花了三天三夜才完成培訓(xùn)?;ヂ?lián)網(wǎng)的大規(guī)模普及,智能手機的廣泛使用,使得規(guī)模龐大的圖像數(shù)據(jù)集能夠被采集,并在云端集中存儲處理。大數(shù)據(jù)的積累為深度學(xué)習(xí)提供了數(shù)據(jù)保障。
責(zé)任編輯人:CC
評論
查看更多