0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

真正的神經(jīng)網(wǎng)絡(luò)到底要不要學(xué)習(xí)權(quán)重

深度學(xué)習(xí)自然語言處理 ? 來源:未知 ? 2019-06-16 09:28 ? 次閱讀

難道神經(jīng)網(wǎng)絡(luò)不用學(xué)權(quán)重也能完成各種任務(wù)?難道我們以為 CNN 學(xué)習(xí)到的圖像特征只是我們以為?神經(jīng)網(wǎng)絡(luò)只不過是函數(shù)的排列組合,沒有其它意義?從這篇論文來看,這些答案似乎都是肯定的。

昨天,谷歌大腦 David Ha 等人一篇名為《Weight Agnostic Neural Networks》的論文引爆了機(jī)器學(xué)習(xí)圈。其「顛覆性」的理論讓人驚呼:「到頭來我們對神經(jīng)網(wǎng)絡(luò)一無所知?」

Reddit 上有一些研究者認(rèn)為,《Weight Agnostic Neural Networks》這篇論文更有趣的意義在于,它也宣告了深度學(xué)習(xí)分層編碼特征這一解釋壽終正寢。

通常情況下,權(quán)重被認(rèn)為會被訓(xùn)練成 MNIST 中邊角、圓弧這類直觀特征,而如果論文中的算法可以處理 MNIST,那么它們就不是特征,而是函數(shù)序列/組合。對于 AI 可解釋性來說,這可能是一個打擊。

很容易理解,神經(jīng)網(wǎng)絡(luò)架構(gòu)并非「生而平等」,對于特定任務(wù)一些網(wǎng)絡(luò)架構(gòu)的性能顯著優(yōu)于其他模型。但是相比架構(gòu)而言,神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)的重要性到底有多少?

來自德國波恩-萊茵-錫格應(yīng)用技術(shù)大學(xué)和谷歌大腦的一項新研究提出了一種神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法,這些網(wǎng)絡(luò)可以在不進(jìn)行顯式權(quán)重訓(xùn)練的情況下執(zhí)行各種任務(wù)。

為了評估這些網(wǎng)絡(luò),研究者使用從統(tǒng)一隨機(jī)分布中采樣的單個共享權(quán)重參數(shù)來連接網(wǎng)絡(luò)層,并評估期望性能。結(jié)果顯示,該方法可以找到少量神經(jīng)網(wǎng)絡(luò)架構(gòu),這些架構(gòu)可以在沒有權(quán)重訓(xùn)練的情況下執(zhí)行多個強(qiáng)化學(xué)習(xí)任務(wù),或 MNIST 等監(jiān)督學(xué)習(xí)任務(wù)。

如下是兩個不用學(xué)習(xí)權(quán)重的神經(jīng)網(wǎng)絡(luò)示例,分別是二足行走智能體(上)和賽車(下):

為什么神經(jīng)網(wǎng)絡(luò)不用學(xué)習(xí)權(quán)重

在生物學(xué)中,早成性物種是指那些天生就有一些能力的幼生體。很多證據(jù)表明蜥蜴和蛇等動物天生就懂得逃避捕食者,鴨子在孵化后也能自己學(xué)會游泳和進(jìn)食。

相比之下,我們在訓(xùn)練智能體執(zhí)行任務(wù)時,會選擇一個典型的神經(jīng)網(wǎng)絡(luò)框架,并相信它有潛力為這個任務(wù)編碼特定的策略。注意這里只是「有潛力」,我們還要學(xué)習(xí)權(quán)重參數(shù),才能將這種潛力變化為能力。

受到自然界早成行為及先天能力的啟發(fā),在這項工作中,研究者構(gòu)建了一個能「自然」執(zhí)行給定任務(wù)的神經(jīng)網(wǎng)絡(luò)。也就是說,找到一個先天的神經(jīng)網(wǎng)絡(luò)架構(gòu),然后只需要隨機(jī)初始化的權(quán)重就能執(zhí)行任務(wù)。研究者表示,這種不用學(xué)習(xí)參數(shù)的神經(jīng)網(wǎng)絡(luò)架構(gòu)在強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)都有很好的表現(xiàn)。

其實在我們的理解中,如果我們想象神經(jīng)網(wǎng)絡(luò)架構(gòu)提供的就是一個圈,那么常規(guī)學(xué)習(xí)權(quán)重就是找到一個最優(yōu)「點」(或最優(yōu)參數(shù)解)。但是對于不用學(xué)習(xí)權(quán)重的神經(jīng)網(wǎng)絡(luò),它就相當(dāng)于引入了一個非常強(qiáng)的歸納偏置,以至于,整個架構(gòu)偏置到能直接解決某個問題。

如上是我們對兩種網(wǎng)絡(luò)的直觀理解。一般神經(jīng)網(wǎng)絡(luò)在架構(gòu)內(nèi)隨機(jī)初始化權(quán)重,再學(xué)習(xí)權(quán)重以找到最優(yōu)解,這樣的模型就能完成特定任務(wù)。一般只要架構(gòu)足夠「大」,那么它很可能包含最優(yōu)解,梯度下降也就能大致找到它了。

但是對于不用學(xué)習(xí)權(quán)重的神經(jīng)網(wǎng)絡(luò),它相當(dāng)于不停地特化架構(gòu),或者說降低模型方差。這樣,當(dāng)架構(gòu)越來越小而只包含最優(yōu)解時,隨機(jī)化的權(quán)重也就能解決實際問題了。當(dāng)然,如研究者那樣從小架構(gòu)到大架構(gòu)搜索也是可行的,只要架構(gòu)能正好將最優(yōu)解包圍住就行了。

以前就有懶得學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)

幾十年的神經(jīng)網(wǎng)絡(luò)研究為不同的任務(wù)提供了具有強(qiáng)歸納偏置的構(gòu)造塊。比如卷積神經(jīng)網(wǎng)絡(luò)就尤其適合處理圖像。

Ulyanov 等人 [109] 展示了隨機(jī)初始化的 CNN 可在標(biāo)準(zhǔn)逆問題(如去噪、超分辨率和圖像修復(fù))中作為手工先驗知識(handcrafted prior)使用,且性能優(yōu)越。

Schmidhuber 等人 [96] 展示了使用習(xí)得線性輸入層的隨機(jī)初始化 LSTM 可以預(yù)測時序,而傳統(tǒng) RNN 不行。近期在自注意力 [113] 和膠囊網(wǎng)絡(luò) [93] 方面的研究拓寬了創(chuàng)建適用于多個任務(wù)的架構(gòu)的構(gòu)造塊范圍。

受隨機(jī)初始化 CNN 和 LSTM 的啟發(fā),該研究旨在搜索權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò),即這些具備強(qiáng)歸納偏置的網(wǎng)絡(luò)可以使用隨機(jī)權(quán)重執(zhí)行不同任務(wù)。

核心思想

為了尋找具備強(qiáng)歸納偏置的神經(jīng)網(wǎng)絡(luò)架構(gòu),研究者提出通過降低權(quán)重重要性的方式來搜索架構(gòu)。具體步驟為:1)為每一個網(wǎng)絡(luò)連接提供單一的共享權(quán)重參數(shù);2)在較大的權(quán)重參數(shù)值范圍內(nèi)評估網(wǎng)絡(luò)。

該研究沒有采用優(yōu)化固定網(wǎng)絡(luò)權(quán)重的方式,而是優(yōu)化在大范圍權(quán)重值上都有良好性能的架構(gòu)。研究者證明,該方法可生成使用隨機(jī)權(quán)重參數(shù)執(zhí)行不同連續(xù)控制任務(wù)的網(wǎng)絡(luò)。

圖 1:權(quán)重?zé)o關(guān)神經(jīng)網(wǎng)絡(luò)示例:二足行走智能體(左)、賽車(右)。研究者通過降低權(quán)重重要性的方式搜索架構(gòu)。網(wǎng)絡(luò)使用單一的共享權(quán)重值。所有架構(gòu)在大范圍權(quán)重值上進(jìn)行性能優(yōu)化后,仍然能夠在沒有權(quán)重訓(xùn)練的情況下執(zhí)行不同任務(wù)。

權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)搜索

創(chuàng)建編碼解的網(wǎng)絡(luò)架構(gòu)與神經(jīng)架構(gòu)搜索(NAS)解決的問題有著本質(zhì)上的區(qū)別。NAS 技術(shù)的目標(biāo)是生成訓(xùn)練完成后能夠超越人類手工設(shè)計的架構(gòu)。從來沒有人聲稱該解是該網(wǎng)絡(luò)架構(gòu)所固有的。

為了生成自身能夠編碼解的架構(gòu),權(quán)重的重要性必須最小化。在評估網(wǎng)絡(luò)性能時,研究者沒有選擇使用最優(yōu)權(quán)重值的網(wǎng)絡(luò),而從隨機(jī)分布中抽取權(quán)重值。用權(quán)重采樣取代權(quán)重訓(xùn)練可以確保性能只與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)有關(guān)。

然而,由于維度很高,除了最簡單的網(wǎng)絡(luò)外,權(quán)重空間的可靠采樣在所有網(wǎng)絡(luò)上都是不可行的。盡管維度問題阻礙了研究者對高維權(quán)重空間進(jìn)行高效采樣,但通過在所有權(quán)重上執(zhí)行權(quán)重共享,權(quán)重值的數(shù)量減少到 1。

系統(tǒng)采樣單個權(quán)值非常簡單、高效,可以讓我們進(jìn)行幾次試驗就能近似網(wǎng)絡(luò)性能。然后可以利用這一近似來搜索更好的架構(gòu)。

主要流程

搜索權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)(WANN)的流程如下:

創(chuàng)建最少神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的初始群組;

在多個 rollout 上對每個網(wǎng)絡(luò)進(jìn)行評估,每個 rollout 分配一個不同的共享權(quán)重值;

根據(jù)網(wǎng)絡(luò)的性能和復(fù)雜度對其進(jìn)行排序;

通過改變排名最高的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)創(chuàng)建新的群組,這些拓?fù)浣Y(jié)構(gòu)是通過錦標(biāo)賽選擇法(tournament selection)根據(jù)概率選擇的。

接下來,算法從 (2) 開始重復(fù),生成復(fù)雜度遞增的權(quán)重?zé)o關(guān)拓?fù)浣Y(jié)構(gòu),其性能優(yōu)于之前的幾代。

圖 2:與權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)搜索圖示。

通過每次 rollout 時采樣單個共享權(quán)重,與權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)搜索在避免權(quán)重訓(xùn)練的同時,探索神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的空間。研究者基于多次 rollout 評估網(wǎng)絡(luò),在每次 rollout 時,為單個共享權(quán)重指定相應(yīng)的值,并記錄實驗期間的累積獎勵。

之后,根據(jù)網(wǎng)絡(luò)的性能和復(fù)雜度對網(wǎng)絡(luò)群組進(jìn)行排序。然后,根據(jù)概率選出排名最高的網(wǎng)絡(luò)以生成新的群組,排名最高的網(wǎng)絡(luò)是會隨機(jī)變化的。之后重復(fù)這一過程。

最最核心的拓?fù)渌阉?/p>

用于搜索神經(jīng)網(wǎng)絡(luò)拓?fù)涞乃阕邮艿缴窠?jīng)進(jìn)化算法 NEAT 的啟發(fā)。不過 NEAT 中的拓?fù)浜蜋?quán)重值是同時進(jìn)行優(yōu)化的,而本研究無視權(quán)重,僅使用拓?fù)渌阉魉阕印?/p>

最初的搜索空間包括多個稀疏連接網(wǎng)絡(luò)、沒有隱藏節(jié)點的網(wǎng)絡(luò),以及輸入和輸出層之間僅有少量可能連接的網(wǎng)絡(luò)。使用 insert node、add connection、change activation 這三個算子中的其中一個修改已有網(wǎng)絡(luò),從而創(chuàng)建新網(wǎng)絡(luò)。新節(jié)點的激活函數(shù)是隨機(jī)分配的。

圖 3:搜索網(wǎng)絡(luò)拓?fù)淇臻g的算子。

鑒于網(wǎng)絡(luò)的前饋本質(zhì),在之前不連接的節(jié)點之間添加新連接。當(dāng)隱藏節(jié)點的激活函數(shù)被改變后,激活函數(shù)進(jìn)入隨機(jī)分配模式。激活函數(shù)包括常見函數(shù)(如線性激活函數(shù)、sigmoid、ReLU)和不那么常見的(如 Gaussian、sinusoid、step),它們編碼輸入和輸出之間的多種關(guān)系。

實驗結(jié)果

該研究在三個連續(xù)控制任務(wù)上評估權(quán)重?zé)o關(guān)神經(jīng)網(wǎng)絡(luò)(WANN):CartPoleSwingUp、BipedalWalker-v2 和 CarRacing-v0。研究者基于之前研究常用的標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)策略創(chuàng)建權(quán)重?zé)o關(guān)網(wǎng)絡(luò)架構(gòu),從中選取最好的 WANN 架構(gòu)進(jìn)行平均性能對比(100 次試驗)。

表 1:隨機(jī)采樣網(wǎng)絡(luò)和使用權(quán)重訓(xùn)練的網(wǎng)絡(luò)在連續(xù)控制任務(wù)上的性能。

傳統(tǒng)的固定拓?fù)渚W(wǎng)絡(luò)僅在大量調(diào)參后才能生成有用的行為,而 WANN 使用隨機(jī)共享權(quán)重都可以執(zhí)行任務(wù)。

由于 WANN 很小,很容易解釋,因此我們可以查看以下網(wǎng)絡(luò)圖示,了解其工作原理。

圖 4:權(quán)重?zé)o關(guān)拓?fù)潆S著時間的變化。Generation 128:添加復(fù)雜度,以改進(jìn)小車的平衡動作。

模型最終在 BipedalWalker-v2 任務(wù)上獲得的最好效果。

模型最終在 CarRacing-v0 任務(wù)上獲得的最好效果。

有監(jiān)督分類問題又怎樣

WANN 方法在強(qiáng)化學(xué)習(xí)任務(wù)上取得的成果讓我們開始思考,它還可以應(yīng)用到哪些問題?WANN 能夠編碼輸入之間的關(guān)系,非常適合強(qiáng)化學(xué)習(xí)任務(wù):低維輸入加上內(nèi)部狀態(tài)和環(huán)境交互,使反應(yīng)型和自適應(yīng)控制器得以發(fā)現(xiàn)。

然而,分類問題沒那么模糊,它界限分明,對就是對,錯就是錯。作為概念證明,研究者調(diào)查了 WANN 在 MNIST 數(shù)據(jù)集上的表現(xiàn)。

即使是在高維分類任務(wù)中,WANN 方法依然表現(xiàn)非常好(如圖 5 左所示)。雖然局限于單個權(quán)重值,WANN 方法能夠分類 MNIST 數(shù)字,且性能堪比具備數(shù)千個權(quán)重的單層神經(jīng)網(wǎng)絡(luò)(權(quán)重通過梯度下降進(jìn)行訓(xùn)練)。創(chuàng)建的架構(gòu)依然保持權(quán)重訓(xùn)練所需的靈活性,從而進(jìn)一步提升準(zhǔn)確率。

圖 5:MNIST 數(shù)據(jù)集上的分類準(zhǔn)確率。

上圖左:以多個權(quán)重值作為集成進(jìn)行實例化的 WANN 比隨機(jī)權(quán)重采樣的網(wǎng)絡(luò)性能好得多,且性能與具有數(shù)千個權(quán)重的線性分類器相同。上圖右:在所有數(shù)字上具有更高準(zhǔn)確率的單個權(quán)重值不存在。WANN 可被實例化為多個不同網(wǎng)絡(luò),它們具有創(chuàng)建集成的可能性。

MNIST 分類網(wǎng)絡(luò)進(jìn)化為可以使用隨機(jī)權(quán)重。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:真正的神經(jīng)網(wǎng)絡(luò),敢于不學(xué)習(xí)權(quán)重

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    寫flash,要不要加個判斷?

    “寫flash,要不要加個判斷?”這是我一個朋友的提問。
    的頭像 發(fā)表于 11-21 10:07 ?657次閱讀
    寫flash,<b class='flag-5'>要不要</b>加個判斷?

    要不要學(xué)MSP430

    現(xiàn)在比較糾結(jié)!到底要不要學(xué)習(xí)MSP430!似乎他除了低功耗也沒有什么了!哎。。。
    發(fā)表于 10-04 16:00

    allegro中作貼片封裝到底要不要Thermal Relief pad和Anti Pad

    allegro中作貼片封裝到底要不要Thermal Relief pad和Anti Pad,網(wǎng)上有的說要,有的說不要,個人認(rèn)為不需要,大牛們給個意見!!
    發(fā)表于 03-09 16:00

    allegro中作貼片封裝到底要不要Thermal Relief pad和Anti Pad

    allegro中作貼片封裝到底要不要Thermal Relief pad和Anti Pad,網(wǎng)上有的說要,有的說不要,個人認(rèn)為不需要,大牛們給個意見!!
    發(fā)表于 03-09 16:02

    測控類要不要學(xué)習(xí)板卡?。。。?!

    電氣控制專業(yè)的以后想找測控類的工作,重點應(yīng)該學(xué)習(xí)LabVIEW的那些東西?要不要學(xué)習(xí)板卡,那種卡使用一點?新手(菜鳥),語言不當(dāng)千萬見諒!
    發(fā)表于 03-06 15:54

    【PYNQ-Z2試用體驗】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識

    學(xué)習(xí)和認(rèn)知科學(xué)領(lǐng)域,是一種模仿生物神經(jīng)網(wǎng)絡(luò)(動物的中樞神經(jīng)系統(tǒng),特別是大腦)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計算模型,用于對函數(shù)進(jìn)行估計或近似。神經(jīng)網(wǎng)絡(luò)由大量的人工
    發(fā)表于 03-03 22:10

    【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡(luò)

    }或o koko_{k})的誤差神經(jīng)元偏倚的變化量:ΔΘ ΔΘ Delta Theta=學(xué)習(xí)步長η ηeta × ×imes 乘以神經(jīng)元的誤差BP神經(jīng)網(wǎng)絡(luò)算法過程
    發(fā)表于 07-21 04:00

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量
    發(fā)表于 07-12 08:02

    卷積神經(jīng)網(wǎng)絡(luò)簡介:什么是機(jī)器學(xué)習(xí)

    抽象人工智能 (AI) 的世界正在迅速發(fā)展,人工智能越來越多地支持以前無法實現(xiàn)或非常難以實現(xiàn)的應(yīng)用程序。本系列文章解釋了卷積神經(jīng)網(wǎng)絡(luò) (CNN) 及其在 AI 系統(tǒng)中機(jī)器學(xué)習(xí)中的重要性。CNN 是從
    發(fā)表于 02-23 20:11

    電腦固態(tài)硬盤到底要不要分區(qū)

    隨著固態(tài)硬盤入門容量進(jìn)入240GB時代,它負(fù)擔(dān)的已經(jīng)不單單是系統(tǒng)盤的職責(zé),常用的軟件及個人文檔都可以享受到高速的待遇。不過固態(tài)硬盤到底要不要分區(qū)?分區(qū)分幾個依然是恒古不變的爭議話題。
    的頭像 發(fā)表于 01-12 11:14 ?1.4w次閱讀

    要不要安裝360全景導(dǎo)航?

    要不要安裝360全景導(dǎo)航
    的頭像 發(fā)表于 11-26 11:04 ?1399次閱讀
    <b class='flag-5'>要不要</b>安裝360全景導(dǎo)航?

    為什么冬季油耗偏高?到底要不要熱車?

    為什么冬季油耗偏高?到底要不要熱車?
    的頭像 發(fā)表于 11-24 16:30 ?653次閱讀
    為什么冬季油耗偏高?<b class='flag-5'>到底</b><b class='flag-5'>要不要</b>熱車?

    卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點 卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的區(qū)別

    深度神經(jīng)網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法,其主要特點是由多層神經(jīng)元構(gòu)成,可以根據(jù)數(shù)據(jù)自動調(diào)整神經(jīng)元之間的
    發(fā)表于 08-21 17:07 ?3859次閱讀

    工廠到底要不要上MES?

    工廠到底要不要上MES?這幾年,很多工廠老板都開始思考這個問題。上吧,又害怕資金投入得不到回報,費時費力又費財;不上吧,看到身邊的同行接連地加入MES行列,經(jīng)營得風(fēng)生水起,再過幾年差距就拉開了……
    的頭像 發(fā)表于 01-04 16:28 ?394次閱讀

    BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機(jī)制

    (Backpropagation Algorithm,簡稱BP算法)來不斷調(diào)整網(wǎng)絡(luò)權(quán)重和閾值,以最小化網(wǎng)絡(luò)輸出與目標(biāo)值之間的誤差。本文將從BP神經(jīng)網(wǎng)絡(luò)的基本原理、
    的頭像 發(fā)表于 07-10 15:49 ?385次閱讀