0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

深度學習需要更多的理論!我們對神經(jīng)網(wǎng)絡幾乎一無所知

DPVg_AI_era ? 來源:lq ? 2019-02-13 09:55 ? 次閱讀

一個關于計算機如何學習的新理論的藍圖正在形成,其影響甚至比登月更大!研究人員正試圖解釋神經(jīng)網(wǎng)絡工作原理,并保證如果以規(guī)定的方式構(gòu)建一個神經(jīng)網(wǎng)絡,它就能夠執(zhí)行特定的任務。

深度學習需要更多的理論!

這是學術界的一個共識。神經(jīng)網(wǎng)絡十分強大,但往往不可預測。

現(xiàn)在,谷歌大腦、FAIR、德州農(nóng)工大學等的數(shù)學家們試圖深究神經(jīng)網(wǎng)絡的理論基礎,開始揭示神經(jīng)網(wǎng)絡的形式如何影響其功能。

我們對神經(jīng)網(wǎng)絡幾乎一無所知

設計一座摩天大樓時,我們會要求它符合規(guī)范:塔臺要能支撐一定程度的重量,并且要能承受一定強度的地震。

但是,對于現(xiàn)代世界最重要的技術之一,我們實際上是在盲目地建造。我們使用各種不同的設計,使用不同的設置進行修補,但在將它拿出來進行測試運行之前,我們并不真正知道它能做什么,也不知道它會在哪個地方失敗。

這項技術就是神經(jīng)網(wǎng)絡,它是當今最先進的人工智能系統(tǒng)的基礎。神經(jīng)網(wǎng)絡正越來越多地進入社會的核心領域:它們通過社交媒體的信息流決定了我們對世界的了解,它們幫助醫(yī)生診斷疾病,它們甚至影響一個被判犯罪的人是否要被收監(jiān)。

然而,“最接近事實的情況是,我們對神經(jīng)網(wǎng)絡的實際運作方式幾乎一無所知,也不知道什么才是真正有洞察力的理論,”德州農(nóng)工大學數(shù)學家、FAIR的訪問科學家Boris Hanin說。

他將這種情況與另一種革命性技術的發(fā)展進行類比:蒸汽機。最初,蒸汽機除了抽水之外沒有別的用處。后來,蒸汽機開始為火車提供動力,這可能是現(xiàn)在復雜的神經(jīng)網(wǎng)絡已經(jīng)達到的水平。再后來,科學家和數(shù)學家們發(fā)展了熱力學理論,得以準確地理解任何類型的發(fā)動機內(nèi)部的運作方式。最終,這些知識將人類帶到了月球。

“首先,你要有很棒的工程,你要有一些很棒的火車,然后你需要一些理論上的理解才能造出火箭和飛船,”Hanin說。

在龐大的神經(jīng)網(wǎng)絡研究社區(qū)中,有一小群具有數(shù)學意識的研究人員正試圖構(gòu)建神經(jīng)網(wǎng)絡理論——一個可以解釋神經(jīng)網(wǎng)絡是如何工作,并保證如果你以規(guī)定的方式構(gòu)建一個神經(jīng)網(wǎng)絡,它就能夠執(zhí)行特定的任務的理論。

這項工作仍處于早期階段,但在去年,研究人員已經(jīng)發(fā)表了幾篇論文,詳細闡述了神經(jīng)網(wǎng)絡中形式和功能之間的關系。這項工作一直深究神經(jīng)網(wǎng)絡的基礎,表明在你能證明神經(jīng)網(wǎng)絡可以駕駛汽車之前,你需要證明它們能夠做乘法運算。

如何設計一個神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡的目標是模仿人類的大腦——思考大腦的一種方式是將較小的抽象概念加積到更大的抽象概念。在這個觀點中,思維的復雜性是由你可以利用的更小抽象的范圍,以及你可以將低級抽象組合成高級抽象的次數(shù)來衡量的——就像我們學習區(qū)分狗和鳥的方式一樣。

“對于人類來說,如果你正在學習如何識別一只狗,你就要學會識別四條腿,它們是毛茸茸的,”康奈爾大學計算機科學博士生、谷歌大腦研究員Maithra Raghu說:“理想情況下,我們希望我們的神經(jīng)網(wǎng)絡同樣能夠這樣做?!?/p>

Maithra Raghu,谷歌大腦成員,致力于尋找解釋神經(jīng)網(wǎng)絡如何運作的原理(photo: Arun Chaganty)

抽象對于人類大腦來說是天性。神經(jīng)網(wǎng)絡必須學會抽象。就像大腦一樣,神經(jīng)網(wǎng)絡是由被稱為“神經(jīng)元”的構(gòu)建塊組成的,這些構(gòu)建塊以不同的方式連接在一起。(神經(jīng)網(wǎng)絡中的神經(jīng)元受到大腦神經(jīng)元的啟發(fā),但并不直接模仿大腦神經(jīng)元。)每個神經(jīng)元可能代表網(wǎng)絡在每個抽象層次上考慮的一個屬性,或多個屬性的組合。

在將這些神經(jīng)元連接在一起時,工程師們有很多選擇。他們必須決定這個網(wǎng)絡應該有多少層神經(jīng)元(或者它應該有多“深”)。例如,假設有一個神經(jīng)網(wǎng)絡,它的任務是識別圖像中的物體。圖像在第一層被輸入系統(tǒng)。在下一層,網(wǎng)絡中可能有只是簡單地檢測圖像中的邊緣的神經(jīng)元。再下一層結(jié)合線條來識別圖像中的曲線。然后再下一層,將曲線組合成形狀和紋理。最后一層處理形狀和紋理,得出它看到圖像中有什么的結(jié)論:長毛猛犸象!

“這里的想法是,每一層都結(jié)合了前一層的幾個方面。一個圓在許多不同的地方是曲線,一條曲線在許多不同的地方是直線,”賓夕法尼亞大學的數(shù)學家David Rolnick說。

工程師還必須決定每一層的“寬度”,它對應于網(wǎng)絡在每個抽象級別上考慮的不同特性的數(shù)量。在圖像識別的情況下,層的寬度是它在每個層上考慮的線、曲線或形狀的類型的數(shù)量。

除了網(wǎng)絡的深度和寬度之外,還可以選擇如何在層內(nèi)和層間連接神經(jīng)元,以及為每個連接賦予多少權重。

因此,如果你有一個特定的任務,你怎么知道哪個神經(jīng)網(wǎng)絡架構(gòu)能最好地完成這個任務呢?

有一些寬泛的經(jīng)驗法則。比如說,對于圖像相關的任務,工程師通常使用“卷積”神經(jīng)網(wǎng)絡,這種網(wǎng)絡的特點是層與層之間相同的連接模式不斷重復。對于自然語言處理任務 ——比如語音識別或語言生成——工程師們發(fā)現(xiàn)“循環(huán)”神經(jīng)網(wǎng)絡似乎性能最好。在這些網(wǎng)絡中,神經(jīng)元可以連接到非相鄰的層。

如何設計一個神經(jīng)網(wǎng)絡

Lucy Reading-Ikkanda/Quanta Magazine

然而,除了這些一般指導原則之外,工程師們很大程度上還必須在依賴實驗證據(jù):他們要運行1000個不同的神經(jīng)網(wǎng)絡,然后觀察哪一個能夠完成任務。

“這些選擇往往是在實踐中反復試驗后做出的,” Hanin說:“這是一種很艱難的方法,因為有無限多的選擇,一個人真的不知道那個選擇是最好的?!?/p>

一種更好的方法是減少反復試驗,多預先了解給定的神經(jīng)網(wǎng)絡架構(gòu)會帶來什么。最近發(fā)表的幾篇論文將這個領域推向了這個方向。

“可以這么說,這項工作試圖開發(fā)一本設計正確神經(jīng)網(wǎng)絡的食譜。如果你知道你想從網(wǎng)絡中獲得什么,那么這就是這個網(wǎng)絡的配方,”Rolnick說。

讓神經(jīng)網(wǎng)絡無限窄、無限深

神經(jīng)網(wǎng)絡架構(gòu)最早的一個重要理論保證出現(xiàn)在30年前。1989年,計算機科學家證明,如果一個神經(jīng)網(wǎng)絡只有一個計算層,但這一層有無限數(shù)量的神經(jīng)元,它們之間有無限的連接,那么這個網(wǎng)絡將能夠執(zhí)行你要求它做的任何任務。

這是一個籠統(tǒng)的陳述,結(jié)果相當直觀,但不怎么有用。這就好比說,如果你能在一張圖像中識別出無限多的線條,你就可以只用一個層來區(qū)分所有的對象。這在原則上可能是正確的,但在實踐中,祝您好運。

今天的研究人員將這種寬而平的網(wǎng)絡描述為“富有表現(xiàn)力的”(expressive),這意味著它們理論上能夠在可能的輸入(例如圖像)和輸出(例如圖像描述)之間捕獲更豐富的一組連接。然而,這些網(wǎng)絡是極其難以訓練的,這意味著幾乎不可能教他們?nèi)绾螌嶋H產(chǎn)生這些輸出。它們的計算量也超過了任何計算機可以處理的程度。

德州農(nóng)工大學的數(shù)學家Boris Hanin研究了神經(jīng)網(wǎng)絡中深度和寬度之間的權衡(Intel AI One Tree Studio)

最近,研究人員一直試圖弄清楚他們能在多大程度上將神經(jīng)網(wǎng)絡推向另一個方向——通過使神經(jīng)網(wǎng)絡更窄(每層的神經(jīng)元更少)和更深(整體的層數(shù)更多)。這樣,也許你只需要挑選100條不同的線,但可以利用連接把這100條線變成50條曲線,然后把它們組合成10種不同的形狀,這些形狀可以為你提供識別大多數(shù)物體所需的所有構(gòu)建塊。

麻省理工學院的Rolnick和Max Tegmark去年發(fā)表了一篇題為The power of deeper networks for expressing natural functions的論文,證明通過增加深度和減少寬度,可以用指數(shù)級更少的神經(jīng)元來執(zhí)行同樣的功能。他們表明,如果你正在建模的情況有100個輸入變量,你可以使用一層中2 的100次方個神經(jīng)元,或兩層中2的10次方個神經(jīng)元獲得同樣的可靠性。

“神經(jīng)網(wǎng)絡中depth這個概念與這樣一種想法有關,即你可以通過按順序做許多簡單的事情來表達一些復雜的事情,”Rolnick說:“這就像一條裝配線?!?/p>

Rolnick和Tegmark通過讓神經(jīng)網(wǎng)絡執(zhí)行一個簡單的任務來證明深度的效用:乘法多項式函數(shù)。(這些方程的特征是變量取自然數(shù)的指數(shù),比如y = x3 + 1)他們通過向網(wǎng)絡展示方程及其乘積的例子來訓練網(wǎng)絡。然后,他們要求這些網(wǎng)絡計算他們之前沒有見過的方程式的乘積。結(jié)果顯示,相比更淺的網(wǎng)絡,更深的神經(jīng)網(wǎng)絡學習這個任務使用的神經(jīng)元要少得多。

雖然乘法并不是一項轟動世界的任務,但Rolnick表示,這篇論文提出了一個重要的觀點:“如果一個淺層的網(wǎng)絡連乘法都不會做,那么我們就不應該在任何事情上相信它?!?/p>

賓夕法尼亞大學數(shù)學家David Rolnick證明,增加網(wǎng)絡的深度可以讓網(wǎng)絡以更少的神經(jīng)元完成任務。(Stephanie Ku)

其他研究人員一直在探索神經(jīng)網(wǎng)絡所需的最小寬度。9月底,曾任俄克拉荷馬州立大學數(shù)學家、現(xiàn)為賽諾菲制藥公司研究員的Jesse Johnson證明,在某個特定點上,再大的深度也無法彌補寬度的不足。

為了理解他的結(jié)論,讓我們想象一下牧場里的綿羊,但這些是朋克搖滾羊:他們的羊毛被染成了各種各樣的顏色。你的神經(jīng)網(wǎng)絡的任務是在所有相同顏色的羊周圍畫一個框。這個任務類似于圖像分類:網(wǎng)絡有一個圖像集(表示為高維空間中的點),它需要將相似的圖像分組在一起。

Johnson證明,當層的寬度小于或等于輸入的數(shù)量時,神經(jīng)網(wǎng)絡就會在這個任務中失敗。因此,對于朋克搖滾羊這個任務來說,每只羊都可以用兩個輸入來描述:一個x坐標和一個y坐標,用來指定它在牧場的位置。然后,神經(jīng)網(wǎng)絡給每只羊標上顏色標簽,并在相同顏色的羊周圍畫上邊框。在這種情況下,每層需要三個或更多的神經(jīng)元才能解決這個問題。

更具體地說,Johnson證明如果寬度與變量之間的比率沒有了,神經(jīng)網(wǎng)絡將無法實現(xiàn)一個閉環(huán)——比如說,如果所有紅色的羊聚集在牧場中央,神經(jīng)網(wǎng)絡將需要繪制出這樣的循環(huán)。Johnson說:“如果所有層中沒有任何一層的神經(jīng)元數(shù)量比輸入維數(shù)更大,那么無論添加多少層,函數(shù)都無法創(chuàng)建某些形狀?!?/p>

Johnson他們的論文、以及更多這樣的論文正開始構(gòu)建神經(jīng)網(wǎng)絡理論的雛形。目前,研究人員只能對架構(gòu)和函數(shù)之間的關系做出非?;镜臄嘌?,而這些斷言與神經(jīng)網(wǎng)絡所承擔的任務的數(shù)量相比只占很小的比例。

因此,盡管神經(jīng)網(wǎng)絡理論不會很快改變系統(tǒng)構(gòu)建的方式,但一個關于計算機如何學習的新理論的藍圖正在形成——一個將人類帶上更偉大旅程的藍圖,其影響甚至比將人類帶上月球更大。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4717

    瀏覽量

    100010
  • 人工智能
    +關注

    關注

    1787

    文章

    46061

    瀏覽量

    235023
  • 深度學習
    +關注

    關注

    73

    文章

    5422

    瀏覽量

    120593

原文標題:影響堪比登月!谷歌等探索深度學習新理論藍圖,讓神經(jīng)網(wǎng)絡更深更窄

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    殘差網(wǎng)絡深度神經(jīng)網(wǎng)絡

    殘差網(wǎng)絡(Residual Network,通常簡稱為ResNet) 是深度神經(jīng)網(wǎng)絡種 ,其獨特的結(jié)構(gòu)設計在解決深層網(wǎng)絡訓練中的梯度消失
    的頭像 發(fā)表于 07-11 18:13 ?728次閱讀

    簡單認識深度神經(jīng)網(wǎng)絡

    深度神經(jīng)網(wǎng)絡(Deep Neural Networks, DNNs)作為機器學習領域中的種重要技術,特別是在深度
    的頭像 發(fā)表于 07-10 18:23 ?736次閱讀

    深度神經(jīng)網(wǎng)絡概述及其應用

    深度神經(jīng)網(wǎng)絡(Deep Neural Networks, DNNs)作為機器學習種復雜形式,是廣義人工神經(jīng)網(wǎng)絡(Artificial N
    的頭像 發(fā)表于 07-04 16:08 ?344次閱讀

    深度神經(jīng)網(wǎng)絡與基本神經(jīng)網(wǎng)絡的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(通常指傳統(tǒng)神經(jīng)網(wǎng)絡或前向神經(jīng)網(wǎng)絡)的區(qū)別時,
    的頭像 發(fā)表于 07-04 13:20 ?329次閱讀

    深度神經(jīng)網(wǎng)絡的設計方法

    深度神經(jīng)網(wǎng)絡(Deep Neural Networks, DNNs)作為人工智能領域的重要技術之,通過模擬人腦神經(jīng)元之間的連接,實現(xiàn)了對復雜數(shù)據(jù)的自主
    的頭像 發(fā)表于 07-04 13:13 ?249次閱讀

    bp神經(jīng)網(wǎng)絡深度神經(jīng)網(wǎng)絡

    BP神經(jīng)網(wǎng)絡(Backpropagation Neural Network)是種常見的前饋神經(jīng)網(wǎng)絡,它使用反向傳播算法來訓練網(wǎng)絡。雖然BP神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 07-03 10:14 ?366次閱讀

    卷積神經(jīng)網(wǎng)絡訓練的是什么

    卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,簡稱CNN)是深度學習模型,廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文將詳細介紹卷積
    的頭像 發(fā)表于 07-03 09:15 ?220次閱讀

    深度學習與卷積神經(jīng)網(wǎng)絡的應用

    到自然語言處理,深度學習和CNN正逐步改變著我們的生活方式。本文將深入探討深度學習與卷積神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 07-02 18:19 ?559次閱讀

    卷積神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)及其功能

    卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,簡稱CNN)是深度學習模型,廣泛應用于圖像識別、視頻分析、自然語言處理等領域。本文將詳細介紹卷積
    的頭像 發(fā)表于 07-02 14:45 ?536次閱讀

    卷積神經(jīng)網(wǎng)絡和bp神經(jīng)網(wǎng)絡的區(qū)別

    化能力。隨著深度學習技術的不斷發(fā)展,神經(jīng)網(wǎng)絡已經(jīng)成為人工智能領域的重要技術之。卷積神經(jīng)網(wǎng)絡和BP神經(jīng)
    的頭像 發(fā)表于 07-02 14:24 ?1017次閱讀

    深度神經(jīng)網(wǎng)絡模型有哪些

    深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNNs)是類具有多個隱藏層的神經(jīng)網(wǎng)絡,它們在許多領域取得了顯著的成功,如計算機視覺、自然語言處理、語音識別等。以下是
    的頭像 發(fā)表于 07-02 10:00 ?539次閱讀

    利用深度循環(huán)神經(jīng)網(wǎng)絡對心電圖降噪

    個是它們由堆疊在起的多個 (> 2) 層組成 - 這 種方法也稱為深度學習。這種深層架構(gòu)雖然比典型 的\"淺層\"神經(jīng)網(wǎng)絡
    發(fā)表于 05-15 14:42

    詳解深度學習、神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的應用

    在如今的網(wǎng)絡時代,錯綜復雜的大數(shù)據(jù)和網(wǎng)絡環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡都面臨巨大的挑戰(zhàn)。近些年,深度
    的頭像 發(fā)表于 01-11 10:51 ?1605次閱讀
    詳解<b class='flag-5'>深度</b><b class='flag-5'>學習</b>、<b class='flag-5'>神經(jīng)網(wǎng)絡</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的應用

    神經(jīng)網(wǎng)絡是如何學習預測的?

    作為名程序員,我們習慣于去了解所使用工具、中間件的底層原理,本文則旨在幫助大家了解AI模型的底層機制,讓大家在學習或應用各種大模型時更加得心應手,更加適合沒有AI基礎的小伙伴們。GPT與神經(jīng)
    的頭像 發(fā)表于 12-27 08:27 ?590次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>是如何<b class='flag-5'>學習</b>預測的?

    淺析深度神經(jīng)網(wǎng)絡壓縮與加速技術

    深度神經(jīng)網(wǎng)絡深度學習種框架,它是種具備至少
    的頭像 發(fā)表于 10-11 09:14 ?597次閱讀
    淺析<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡</b>壓縮與加速技術