當遇到序列任務時,神經(jīng)網(wǎng)絡會遭受災難性遺忘。DeepMind研究人員通過在函數(shù)空間中引入貝葉斯推理,使用誘導點稀疏GP方法和優(yōu)化排練數(shù)據(jù)點來克服這個問題。今天和大家分享這篇Reddit高贊論文。
這篇由DeepMind研究團隊出品的論文名字叫“Functional Regularisation for Continual Learning”(持續(xù)學習的功能正規(guī)化)。研究人員引入了一個基于函數(shù)空間貝葉斯推理的持續(xù)學習框架,而不是深度神經(jīng)網(wǎng)絡的參數(shù)。該方法被稱為用于持續(xù)學習的函數(shù)正則化,通過在底層任務特定功能上構造和記憶一個近似的后驗信念,避免忘記先前的任務。
為了實現(xiàn)這一點,他們依賴于通過將神經(jīng)網(wǎng)絡的最后一層的權重視為隨機和高斯分布而獲得的高斯過程。然后,訓練算法依次遇到任務,并利用誘導點稀疏高斯過程方法構造任務特定函數(shù)的后驗信念。在每個步驟中,首先學習新任務,然后構建總結(summary),其包括(i)引入輸入和(ii)在這些輸入處的函數(shù)值上的后驗分布。然后,這個總結通過Kullback-Leibler正則化術語規(guī)范學習未來任務,從而避免了對早期任務的災難性遺忘。他們在分類數(shù)據(jù)集中演示了自己的算法,例如Split-MNIST,Permuted-MNIST和Omniglot。
通過函數(shù)正則化解決災難性遺忘
近年來,人們對持續(xù)學習(也稱為終身學習)的興趣再度興起,這是指以在線方式從可能與不斷增加的任務相關的數(shù)據(jù)中學習的系統(tǒng)。持續(xù)學習系統(tǒng)必須適應所有早期任務的良好表現(xiàn),而無需對以前的數(shù)據(jù)進行大量的重新訓練。
持續(xù)學習的兩個主要挑戰(zhàn)是:
(i)避免災難性遺忘,比如記住如何解決早期任務;
(ii)任務數(shù)量的可擴展性。
其他可能的設計包括向前和向后轉移,比如更快地學習后面的任務和回顧性地改進前面的任務。值得注意的是,持續(xù)學習與元學習(meta-learning)或多任務學習有很大的不同。在后一種方法中,所有任務都是同時學習的,例如,訓練是通過對小批量任務進行二次抽樣,這意味著沒有遺忘的風險。
與許多最近關于持續(xù)學習的著作相似,他們關注的是理想化的情況,即一系列有監(jiān)督的學習任務,具有已知的任務邊界,呈現(xiàn)給一個深度神經(jīng)網(wǎng)絡的持續(xù)學習系統(tǒng)。一個主要的挑戰(zhàn)是有效地規(guī)范化學習,使深度神經(jīng)網(wǎng)絡避免災難性的遺忘,即避免導致早期任務的預測性能差的網(wǎng)絡參數(shù)配置。在不同的技術中,他們考慮了兩種不同的方法來管理災難性遺忘。
一方面,這些方法限制或規(guī)范網(wǎng)絡的參數(shù),使其與以前的任務中學習的參數(shù)沒有明顯的偏差。 這包括將持續(xù)學習構建為順序近似貝葉斯推理的方法,包括EWC和VCL。這種方法由于表征漂移(representation drift)而具有脆弱性(brittleness)。也就是說,隨著參數(shù)適應新任務,其他參數(shù)被約束/正規(guī)化的值變得過時。
另一方面,他們有預演/回放緩沖方法,它使用過去觀察的記憶存儲來記住以前的任務。它們不會受到脆弱性的影響,但是它們不表示未知函數(shù)的不確定性(它們只存儲輸入-輸出),并且如果任務復雜且需要許多觀察來正確地表示,那么它們的可擴展性會降低。優(yōu)化存儲在重放緩沖區(qū)中的最佳觀察結果也是一個未解決的問題。
在論文中,研究人員發(fā)展了一種新的持續(xù)學習方法,解決了這兩個類別的缺點。它是基于近似貝葉斯推理,但基于函數(shù)空間而不是神經(jīng)網(wǎng)絡參數(shù),因此不存在上述的脆弱性。這種方法通過記住對底層特定任務功能的近似后驗信念,避免忘記先前的任務。
為了實現(xiàn)這一點,他們考慮了高斯過程(GPs),并利用誘導點稀疏GP方法總結了使用少量誘導點的函數(shù)的后驗分布。這些誘導點及其后驗分布通過變分推理框架內(nèi)的KullbackLeibler正則化項,來規(guī)范未來任務的持續(xù)學習,避免了對早期任務的災難性遺忘。因此,他們的方法與基于重播的方法相似,但有兩個重要的優(yōu)勢。
首先,誘導點的近似后驗分布捕獲了未知函數(shù)的不確定性,并總結了給定所有觀測值的全后驗分布。其次,誘導點可以使用來自GP文獻的專門標準進行優(yōu)化,實現(xiàn)比隨機選擇觀測更好的性能。
為了使他們的函數(shù)正則化方法能夠處理高維和復雜的數(shù)據(jù)集,他們使用具有神經(jīng)網(wǎng)絡參數(shù)化特征的線性核。這樣的GPs可以理解為貝葉斯神經(jīng)網(wǎng)絡,其中只有最后一層的權重以貝葉斯方式處理,而早期層的權重是優(yōu)化的。這種觀點允許在權重空間中進行更有效和準確的計算訓練程序,然后將近似轉換為函數(shù)空間,在函數(shù)空間中構造誘導點,然后用于規(guī)范未來任務的學習。他們在分類中展示了自己的方法,并證明它在Permuted-MNIST,Split-MNIST和Omniglot上具有最先進的性能。
實驗簡介
研究人員考慮了三個持續(xù)學習分類問題中的實驗:Split-MNIST,PermutedMNIST和Sequenn Omniglot。他們比較了其方法的兩種變體,稱為功能正則化持續(xù)學習(FRCL)。
表1:Permuted-MNIST和Split-MNIST的結果。對于在這項工作中進行的實驗,他們顯示了10次隨機重復的平均值和標準差。在適用的情況下,他們還會在括號中報告每個任務的誘導點/重放緩沖區(qū)大小的數(shù)量。
表2:Sequential Omniglo的結果。所示為超過5個隨機任務排列的平均值和標準偏差。請注意,由于不現(xiàn)實的假設,“每個任務的單一模型”和“漸進網(wǎng)絡”方法不能直接比較。他們將其包括在內(nèi),因為它們?yōu)槠溆嗟某掷m(xù)學習方法提供了性能的上限。
他們將自己的方法與文獻中的其他方法進行比較,引用公布的結果,并使用與簡單的重放-緩沖方法相對應的附加基線(BASELINE)進行持續(xù)學習。對于所有實現(xiàn)的方法,即FRCL-RND,F(xiàn)RCL-TR和BASELINE,他們不在共享特征向量參數(shù)θ上放置任何額外的正則化器(例如“2懲罰”或批量規(guī)范化等)。
鑒于Permuted-MNIST和Omniglot是多類分類問題,其中每個第k個任務涉及對Ck類的分類,他們需要推廣模型和變分方法來處理每個任務的多個GP函數(shù)。正如他們在補充中詳述的那樣,這樣做很簡單。FRCL方法已使用GPflow實現(xiàn)。
圖1:左欄中的面板顯示隨機誘導點(BASELINE&FRCL-RND;見頂部圖像)和相應的最終/優(yōu)化誘導點(FRCL-TR);請參閱Permuted-MNIST基準測試的第一項任務。誘導點的數(shù)量限制為10個,每行對應于不同的運行。右欄中的面板提供隨機誘導點的tsne可視化,最終/優(yōu)化的那些將一起顯示所有剩余的訓練輸入。為了獲得這種可視化,他們將tsne應用于訓練輸入的完整神經(jīng)網(wǎng)絡特征向量矩陣ΦX1。
討論與未來研究
研究人員引入了一種用于監(jiān)督連續(xù)學習的函數(shù)正則化方法,該方法將誘導點GP推理與深度神經(jīng)網(wǎng)絡相結合。該方法構造特定于任務的后驗信念或總結,包括對函數(shù)值的誘導輸入和分布,這些函數(shù)值捕獲了與任務相關的未知函數(shù)的不確定性。隨后,任務特定的總結使他們能夠規(guī)范持續(xù)學習并避免災難性的遺忘。
關于使用GPs進行在線學習的相關工作,請注意先前的算法是以在線方式學習單個任務,其中來自該任務的數(shù)據(jù)依次到達。相比之下,論文提出了一種處理一系列不同任務的連續(xù)學習方法。
未來研究的方向是強制執(zhí)行固定的內(nèi)存緩沖區(qū),在這種情況下,需要將所有先前看到的任務的總結壓縮為單個總結。最后,在論文中,他們將該方法應用于具有已知任務邊界的監(jiān)督分類任務,將其擴展到處理未知任務邊界,并考慮在其他領域的應用,如強化學習。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4717瀏覽量
100023 -
函數(shù)
+關注
關注
3文章
4238瀏覽量
61973 -
DeepMind
+關注
關注
0文章
129瀏覽量
10770
原文標題:Reddit熱議!DeepMind最新研究解決災難性遺忘難題
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論