深度學(xué)習(xí)的下一站是什么?去年,算法領(lǐng)域沒有重大的突破。本文作者William Vorhies是DataScienceCentral的編輯主任,曾擔(dān)任Data-Magnum公司的總裁兼首席數(shù)據(jù)科學(xué)家和EB5C公司的總裁,他對(duì)有望在該領(lǐng)域獲得下一大突破的幾種領(lǐng)先技術(shù)作了一番調(diào)查。
我們被卡住了,或者至少我們處于瓶頸期。
誰還記得算法、芯片或數(shù)據(jù)處理領(lǐng)域上一次整整一年都沒有重大、顯著的進(jìn)步是啥時(shí)候?幾周前我參加Strata圣何塞大會(huì),卻沒有看到引人注目的新進(jìn)展,這太不同尋常了。
我之前報(bào)道過,我們似乎進(jìn)入了成熟期,現(xiàn)在我們的主要精力是確保所有強(qiáng)大的新技術(shù)很好地協(xié)同工作(融合平臺(tái)),或者從那些大規(guī)模的風(fēng)險(xiǎn)投資獲得回報(bào)。
并非只有我一人注意到了這個(gè)問題。幾位與會(huì)者和參展商的看法與我非常相似。有一天我收到了幾位知名研究人員發(fā)來的研究紀(jì)要,他們一直在評(píng)估不同高級(jí)分析平臺(tái)的相對(duì)優(yōu)點(diǎn),得出的結(jié)論是,沒有任何不一樣的地方值得報(bào)告。
我們?yōu)楹慰ㄗ??卡在哪里?/p>
我們現(xiàn)在的處境實(shí)際上并非很糟糕。在過去的兩三年,我們?nèi)〉玫倪M(jìn)展都在深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)這個(gè)領(lǐng)域。深度學(xué)習(xí)在處理語音、文本、圖像和視頻方面為我們帶來了出色的功能。加上強(qiáng)化學(xué)習(xí),我們?cè)谟螒颉?a href="http://ttokpm.com/tags/自動(dòng)駕駛/" target="_blank">自動(dòng)駕駛汽車筆機(jī)器人等方面取得了重大進(jìn)展。
我們現(xiàn)處在基于這些技術(shù)的商業(yè)爆炸式發(fā)展的最初階段,比如通過聊天機(jī)器人大大簡(jiǎn)化客戶互動(dòng)、新的個(gè)人便利應(yīng)用(比如個(gè)人助理和Alexa),以及私家車中的二級(jí)自動(dòng)化(比如自適應(yīng)巡航控制、避免事故制動(dòng)和車道維護(hù))。
Tensorflow、Keras及其他深度學(xué)習(xí)平臺(tái)比以往更易于使用,而且得益于GPU,比以往更高效。
然而,已知的一系列缺點(diǎn)根本沒有解決掉。
需要太多標(biāo)注的訓(xùn)練數(shù)據(jù)。
模型需要花太長(zhǎng)的時(shí)間或太多的昂貴資源來訓(xùn)練,但仍有可能根本無法訓(xùn)練。
尤其是節(jié)點(diǎn)和層方面的超參數(shù)依然很神秘。自動(dòng)化或甚至被廣泛接受的經(jīng)驗(yàn)法則仍遙遙無期。
遷移學(xué)習(xí)只意味著從復(fù)雜遷移到簡(jiǎn)單,而不是從一個(gè)邏輯系統(tǒng)遷移到另一個(gè)邏輯系統(tǒng)。
我確信問題還有更多。我們卡就卡在了解決這些主要的缺點(diǎn)上。
什么讓我們止步不前?
以深度神經(jīng)網(wǎng)絡(luò)(DNN)為例,眼下的傳統(tǒng)觀點(diǎn)認(rèn)為,如果我們繼續(xù)推進(jìn)、繼續(xù)投入,那么這些缺點(diǎn)就會(huì)被克服。比如說,從上世紀(jì)80年代到2000年代,我們知道如何使DNN工作,但根本沒有相應(yīng)的硬件。一旦克服了這個(gè)難題,DNN結(jié)合新的開源理念就會(huì)打破這個(gè)新領(lǐng)域的瓶頸。
各種類型的研究都有自己的發(fā)展勢(shì)頭,尤其是,一旦你往某個(gè)特定的方向投入了大量的時(shí)間和財(cái)力,會(huì)一直往這個(gè)方向前進(jìn)。如果你已花費(fèi)數(shù)年來開發(fā)這些技能方面的專業(yè)知識(shí),不會(huì)輕易改弦易轍。
即使并不完全確信什么是正確的方向,也要改變方向
有時(shí)候我們需要改變方向,即使我們并不確切知道新的方向是什么。最近領(lǐng)先的加拿大和美國(guó)AI研究人員就是這么做的。他們認(rèn)為自己被誤導(dǎo)了,需要實(shí)質(zhì)上重新開始。
去年秋天,杰弗里?辛頓(Geoffrey Hinton)以實(shí)際行動(dòng)詮釋了這番感悟,他因上世紀(jì)80年代在DNN領(lǐng)域的開創(chuàng)性工作而名聲大噪。辛頓現(xiàn)在是多倫多大學(xué)名譽(yù)教授和谷歌研究員,他表示,現(xiàn)在他對(duì)DNN的基礎(chǔ)方法:反向傳播“極其懷疑”。辛頓觀察到人腦不需要所有那些標(biāo)記的數(shù)據(jù)就能得出結(jié)論,說“我的觀點(diǎn)是,扔掉反向傳播,從頭開始?!?/p>
考慮到這一點(diǎn),下面簡(jiǎn)單地調(diào)查一下新方向,它們有的很靠譜,有的不太現(xiàn)實(shí),但都不是對(duì)我們所知道的深度神經(jīng)網(wǎng)絡(luò)所作的漸進(jìn)式改進(jìn)。
描述的內(nèi)容有意簡(jiǎn)短,無疑會(huì)引導(dǎo)您進(jìn)一步閱讀以求充分理解。
看起來像DNN、但實(shí)則不是的技術(shù)
有一系列研究力挺辛頓抨擊反向傳播的觀點(diǎn),認(rèn)為節(jié)點(diǎn)和層的基本結(jié)構(gòu)有用,但連接和計(jì)算的方法需要大幅修改。
膠囊網(wǎng)絡(luò)(CapsNet)
我們先從辛頓自己目前的研究新方向CapsNet開始說起。這與CNN的圖像分類有關(guān);簡(jiǎn)單地說,問題是卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)于對(duì)象的姿態(tài)(pose)并不敏感。也就是說,如果識(shí)別同一對(duì)象,但是位置、大小、方向、變形、速度、反射率、色調(diào)和紋理等方面有所不同,就需要為這每一種情況添加訓(xùn)練數(shù)據(jù)。
在CNN中,這是通過大量增加訓(xùn)練數(shù)據(jù)及/或增加可以泛化的最大池化層來處理的,但完全丟失了實(shí)際信息。
下列描述來自CapsNets方面眾多出色的技術(shù)描述之一,這個(gè)來自Hackernoon。
膠囊是一組嵌套的神經(jīng)層。所以在普通的神經(jīng)網(wǎng)絡(luò)中,你不斷增加更多的層。在CapsNet中,你會(huì)在一個(gè)層里面添加更多層?;蛘邠Q句話說,將一個(gè)神經(jīng)層嵌套在另一個(gè)神經(jīng)層里面。膠囊內(nèi)神經(jīng)元的狀態(tài)捕獲圖像內(nèi)一個(gè)實(shí)體的上述屬性。膠囊輸出一個(gè)向量,表示實(shí)體的存在。向量的方向代表實(shí)體的屬性。該向量被發(fā)送給神經(jīng)網(wǎng)絡(luò)中所有可能的父節(jié)點(diǎn)(parent)。預(yù)測(cè)向量則通過自身權(quán)重和權(quán)重矩陣相乘來計(jì)算。無論哪個(gè)父節(jié)點(diǎn)有最大的標(biāo)量預(yù)測(cè)向量乘積,都會(huì)加大膠囊鍵(capsule bond),其余父節(jié)點(diǎn)減小膠囊鍵。這種采用協(xié)議路由機(jī)制(routing by agreement)的方法優(yōu)于當(dāng)前像最大池化這樣的機(jī)制。
CapsNet極大地減小了所需的訓(xùn)練集,在早期測(cè)試中表明:在圖像分類方面,性能更勝一籌。
gcForest
今年2月,我們介紹了南京大學(xué)新軟件技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室的周志華和馮霽的研究成果,他們展示了一種名為gcForest的技術(shù)。他們的研究報(bào)論文顯示,gcForest在文本分類和圖像分類方面都經(jīng)常勝過CNN和RNN。優(yōu)點(diǎn)相當(dāng)明顯。
只需要一小部分訓(xùn)練數(shù)據(jù)。
在普通的臺(tái)式機(jī)CPU設(shè)備上就可以運(yùn)行,無需GPU。
訓(xùn)練速度一樣快,在許多情況下甚至更快,適合于分布式處理。
超參數(shù)少得多,在默認(rèn)設(shè)置下表現(xiàn)良好。
依賴易于理解的隨機(jī)森林,而不是完全不透明的深度神經(jīng)網(wǎng)絡(luò)。
簡(jiǎn)而言之,gcForest(多粒度級(jí)聯(lián)森林)是一種決策樹集成方法,深度網(wǎng)絡(luò)的級(jí)聯(lián)結(jié)構(gòu)保留下來,但不透明的邊緣和節(jié)點(diǎn)神經(jīng)元被與完全隨機(jī)的樹森林配對(duì)的隨機(jī)森林組取而代之。請(qǐng)了解gcForest的更多信息,請(qǐng)參與我們的這篇原始文章(https://www.datasciencecentral.com/profiles/blogs/off-the-beaten-path-using-deep-forests-to-outperform-cnns-and-rnn)。
Pyro和Edward
Pyro和Edward是兩種新的編程語言,將深度學(xué)習(xí)框架與概率編程融合在一起。Pyro是優(yōu)步和谷歌的杰作,而Edward脫胎于哥倫比亞大學(xué),得到了美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)的資助。結(jié)果是,框架讓深度學(xué)習(xí)系統(tǒng)可以測(cè)量它們對(duì)于預(yù)測(cè)或決策的信心有多大。
在經(jīng)典的預(yù)測(cè)分析中,我們可能使用對(duì)數(shù)損失作為擬合函數(shù),并懲罰自信但錯(cuò)誤的預(yù)測(cè)(誤報(bào)),以此處理這個(gè)問題。到目前為止,對(duì)于深度學(xué)習(xí)而言沒有必然的結(jié)果。(So far there’s been no corollary for deep learning.)
比如說,這有望適用于自動(dòng)駕駛汽車或飛機(jī),好讓控制系統(tǒng)在做出重大的決定之前具有某種自信或懷疑的感覺。這當(dāng)然是你希望優(yōu)步的自動(dòng)駕駛車輛在你上車前要知道的。
Pyro和Edward都處于發(fā)展的早期階段。
看起來不像深度網(wǎng)絡(luò)的方法
我經(jīng)常碰到一些小公司,它們開發(fā)的平臺(tái)其核心使用不同尋常的算法。我發(fā)現(xiàn)在大多數(shù)情況下,它們一直不愿意提供足夠詳細(xì)的資料,好讓我可以為讀者描述平臺(tái)算法的概況。這種保密并不影響它們的效用,但是除非它們提供一些基準(zhǔn)數(shù)字和一些細(xì)節(jié),否則我無法真正告訴你內(nèi)部發(fā)生了什么。
目前,我研究過的最先進(jìn)的非DNN算法和平臺(tái)如下:
分層時(shí)間記憶(HTM)
分層時(shí)間記憶(HTM)使用稀疏分布式表示(SDR)對(duì)大腦的神經(jīng)元進(jìn)行建模,并執(zhí)行計(jì)算,它在標(biāo)量預(yù)測(cè)(商品、能源或股價(jià)等方面的未來價(jià)值)和異常檢測(cè)方面的性能比CNN和RNN更勝一籌。
這是以Palm Pilot成名的杰夫?霍金斯(Jeff Hawkins)在其公司Numenta獲得的成果?;艚鹚怪铝τ诟愠鲆环N強(qiáng)大的AI模型,該模型基于針對(duì)大腦功能的基礎(chǔ)研究,它不是采用DNN中的層和節(jié)點(diǎn)那種結(jié)構(gòu)。
HTM的特點(diǎn)是可以非常迅速地發(fā)現(xiàn)模式,只需要1000次觀測(cè)。相比之下,訓(xùn)練CNN或RNN需要觀測(cè)數(shù)十萬次、甚至數(shù)百萬次。
此外,模式識(shí)別是無監(jiān)督的,可以基于不斷變化的輸入實(shí)時(shí)識(shí)別模式中的變化,并推而廣之。因而獲得的系統(tǒng)不僅訓(xùn)練起來非???,還具有自學(xué)習(xí)和自適應(yīng)的特點(diǎn),不會(huì)被數(shù)據(jù)的變化或干擾信息(noise)所困擾。
我們?cè)?月份的文章中介紹了HTM和Numenta,建議不妨閱讀一下(https://www.datasciencecentral.com/profiles/blogs/off-the-beaten-path-htm-based-strong-ai-beats-rnns-and-cnns-at-pr)。
值得一提的一些漸進(jìn)式改進(jìn)
我們力圖關(guān)注真正改變這個(gè)領(lǐng)域的技術(shù),不過漸進(jìn)式改進(jìn)方面至少有兩個(gè)例子值得一提。這些顯然仍是典型的CNN和RNN(有著反向傳播的要素),但工作起來效果更好。
使用谷歌云AutoML進(jìn)行網(wǎng)絡(luò)修剪
谷歌和英偉達(dá)的研究人員使用一種名為網(wǎng)絡(luò)修剪(network pruning)的方法,去除了并不直接影響輸出的神經(jīng)元,讓神經(jīng)網(wǎng)絡(luò)更小巧、運(yùn)行起來更高效。最近取得的這一進(jìn)步緣于谷歌新的AutoML平臺(tái)在性能上有了重大改進(jìn)。
Transformer
Transformer是一種新穎的方法,最初在CNN、RNN和LTSM擅長(zhǎng)的領(lǐng)域:語言處理(比如語言到語言的翻譯)中很有用。去年夏天谷歌Brain和多倫多大學(xué)的研究人員發(fā)布了Transformer,它已在包括這項(xiàng)英語/德語翻譯測(cè)試在內(nèi)的眾多測(cè)試中表明準(zhǔn)確性有了顯著提高。
RNN具有順序處理的特性,因而更難充分發(fā)揮GPU等現(xiàn)代快速計(jì)算設(shè)備的性能,這類設(shè)備擅長(zhǎng)并行處理而不是順序處理。CNN的順序處理特性比RNN弱得多,但在CNN架構(gòu)中,組合來自輸入遠(yuǎn)端部分的信息所需要的步驟數(shù)量仍隨距離加大而增多。
準(zhǔn)確性方面的突破來自開發(fā)出“自注意力功能”(self-attention function),該功能將步驟顯著簡(jiǎn)化為數(shù)量不多且恒定的步驟。在每個(gè)步驟,它都會(huì)運(yùn)用自注意力機(jī)制,直接對(duì)句子中所有單詞之間的關(guān)系建立模型,不管它們各自的位置怎樣。
請(qǐng)閱讀此處的原始研究論文(https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf)。
結(jié)束語:也許是時(shí)候轉(zhuǎn)變方向了
一個(gè)不可忽視的事實(shí)是,中國(guó)正在大力投資于AI;設(shè)定的目標(biāo)是,在幾年內(nèi)超過美國(guó),成為全球AI領(lǐng)導(dǎo)者。
斯蒂夫?萊文(Steve LeVine)是Axios的未來欄目編輯,并在喬治城大學(xué)任教。他在撰寫的一篇文章中認(rèn)為,中國(guó)可能在迅速跟隨,但恐怕永遠(yuǎn)趕不上。原因在于,美國(guó)和加拿大的研究人員可以隨時(shí)轉(zhuǎn)變方向、從頭開始。制度上受導(dǎo)向的中國(guó)人永遠(yuǎn)沒法這么做。以下內(nèi)容來自萊文的那篇文章:
“在中國(guó),那是無法想象的,”西雅圖Outreach.io的首席執(zhí)行官曼尼?梅迪納(Manny Medina)說。他表示,像Facebook的雅恩?樂坤(Yann LeCun)和多倫多Vector Institute的杰夫?辛頓(Geoff Hinton)這些AI界的明星“不必征得批準(zhǔn)。他們可以開始研究,向前推進(jìn)工作。”
正如風(fēng)險(xiǎn)投資家們所說,也許是時(shí)候轉(zhuǎn)變方向了。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4749瀏覽量
100434 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5471瀏覽量
120904
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論