0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SGD的隨機(jī)項在其選擇最終的全局極小值點的關(guān)鍵性作用

DPVg_AI_era ? 來源:lp ? 2019-03-06 09:15 ? 次閱讀

在密蘇里科技大學(xué)與百度大數(shù)據(jù)實驗室合作的一篇論文中,研究人員從理論視角對SGD在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的行為進(jìn)行了刻畫,揭示了SGD的隨機(jī)項在其選擇最終的全局極小值點的關(guān)鍵性作用。這項工作加深了對SGD優(yōu)化過程的理解,也有助于構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練理論。

梯度下降是機(jī)器學(xué)習(xí)算法中最常用的一種優(yōu)化方法。

其中,隨機(jī)梯度下降 (Stochastic Gradient Descent, SGD) 由于學(xué)習(xí)速率快并且可以在線更新,常被用于訓(xùn)練各種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,很多當(dāng)前性能最優(yōu) (SOTA) 模型都使用了SGD。

然而,由于SGD 每次隨機(jī)從訓(xùn)練集中選擇少量樣本進(jìn)行學(xué)習(xí),每次更新都可能不會按照正確的方向進(jìn)行,因此會出現(xiàn)優(yōu)化波動。

對于非凸函數(shù)而言,SGD就只會收斂到局部最優(yōu)點。但同時,SGD所包含的這種隨機(jī)波動也可能使優(yōu)化的方向從當(dāng)前的局部最優(yōu)跳到另一個更好的局部最優(yōu)點,甚至是全局最優(yōu)。

在密蘇里科技大學(xué)與百度大數(shù)據(jù)實驗室日前合作公開的一篇論文中,研究人員利用概率論中的大偏差理論對SGD在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的行為進(jìn)行了刻畫。

“這項工作的出發(fā)點在于試圖理解SGD的優(yōu)化過程和GD有什么不同,尤其是SGD的隨機(jī)項(也是GD所沒有的)在隱式正則化中到底起到什么作用?!闭撐牡谝蛔髡摺⒚芴K里科技大學(xué)數(shù)學(xué)系助理教授胡文清博士在接受新智元采訪時說。

“通過變分分析和構(gòu)造勢函數(shù),我們發(fā)現(xiàn),由于有方差 (variance) 的存在,對于任何局部最優(yōu)而言,SGD都有一定逃逸的可能性?!毖芯控?fù)責(zé)人、百度大數(shù)據(jù)實驗室科學(xué)家浣軍博士告訴新智元:“如果時間足夠長,SGD會以馬氏鏈的方式遍歷所有的局部最優(yōu),最終達(dá)到一個全局最優(yōu)。”

“對于過參數(shù)化網(wǎng)絡(luò) (over parameterized network),全局最優(yōu)的點在任何數(shù)據(jù)點的梯度都是0。SGD就會被限制在這樣的位置上。”

不同梯度下降優(yōu)化方法在損失曲面鞍點處的表現(xiàn),過參數(shù)化網(wǎng)絡(luò)的全局最優(yōu)點在任何數(shù)據(jù)點的梯度都是0,SGD就會被限制在這樣的位置上。

這項工作有助于我們更深刻地理解SGD在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)過程,以及訓(xùn)練其它機(jī)器學(xué)習(xí)模型中的機(jī)制和作用。

擬勢函數(shù):隨機(jī)梯度下降中損失函數(shù)的隱式正則項

人們普遍認(rèn)為SGD是一種“隱式正則項”,能夠自己在模型或數(shù)據(jù)集中尋找一個局部最小點。

此前有研究從變分推斷的角度分析SGD逃離bad minima的現(xiàn)象。還有研究發(fā)現(xiàn),SGD的逃逸速率跟噪聲協(xié)方差有關(guān),尤其是在深度神經(jīng)網(wǎng)絡(luò)模型中。

在這篇題為《將擬勢函數(shù)視為隨機(jī)梯度下降損失函數(shù)中的隱式正則項》的論文中,作者提出了一種統(tǒng)一的方法,將擬勢作為一種量化關(guān)系的橋梁,在SGD隱式正則化與SGD的隨機(jī)項的協(xié)方差結(jié)構(gòu)之間建立了聯(lián)系。

“從‘?dāng)M勢’這種統(tǒng)一的觀點出發(fā),能更清楚地從數(shù)學(xué)上描述SGD的長時間動力學(xué)?!焙那宀┦空f。

具體說,他們將隨機(jī)梯度下降 (SGD) 的變分推斷看做是一個勢函數(shù)最小化的過程,他們將這個勢函數(shù)稱之為“擬勢函數(shù)”(quasi–potential),用(全局)擬勢φQP表示。

這個擬勢函數(shù)能夠表征具有小學(xué)習(xí)率的SGD的長期行為。研究人員證明,SGD最終達(dá)到的全局極小值點,既依賴于原來的損失函數(shù)f,也依賴于SGD所自帶的隨機(jī)項的協(xié)方差結(jié)構(gòu)。

不僅如此,這項工作的理論預(yù)測對于一般的非凸優(yōu)化問題都成立,揭示了SGD隨機(jī)性的協(xié)方差結(jié)構(gòu)在其選擇最終的全局極小值點這個動力學(xué)過程的關(guān)鍵性作用,進(jìn)一步揭示了機(jī)器學(xué)習(xí)中SGD的隱式正則化的機(jī)制。

下面是新智元對論文凸損失函數(shù)相關(guān)部分的編譯,點擊“閱讀原文”查看論文了解更多。

局部擬勢:凸損失函數(shù)的情況

我們假設(shè)原來的損失函數(shù)f(x)是凸函數(shù),只允許一個最小點O,這也是它的全局最小點。設(shè)O是原點。

我們將在這一節(jié)中介紹局部準(zhǔn)勢函數(shù),并通過哈密頓-雅可比型偏微分方程將其與SGD噪聲協(xié)方差結(jié)構(gòu)聯(lián)系起來。分析的基礎(chǔ)是將LDT解釋為軌跡空間中的路徑積分理論。

SGD作為梯度下降(GD)的一個小隨機(jī)擾動

首先,我們給出一個假設(shè):

假設(shè)1:假設(shè)損失函數(shù)f(x)允許梯度?f(x),即L–Lipschitz:

(1)

我們假設(shè)Σ(x)是x中的分段Lipschitz,并且SDG協(xié)方差矩陣D(x)對于所有x∈Rd是可逆的,使得:

(2)

對于ε>0,SGD過程具有接近由如下確定性方程表征的梯度下降(GD)流的軌跡:

(3)

事實上,我們可以很容易地證明有以下內(nèi)容:

引理1:基于假設(shè)1,我們有,對于任何T>0,

(4)

對一些常數(shù)C = C(T, L, M) > 0。

當(dāng)上述公式成立時,我們可以很容易得出在區(qū)間0≤t≤T內(nèi),x(t)和xGD(t)收斂于。因此,在有限的時間內(nèi),SGD過程x(t)將被吸引到原點O的鄰域。

由于O是凸損失函數(shù)f(x)的唯一最小點,R中的每一點都被梯度流Rd吸引到O。

在僅有一個最小點O的情況下,也可以執(zhí)行由于小的隨機(jī)擾動而對吸引子(attractor)的逃逸特性的理解。

大偏差理論解釋為軌跡空間中的路徑積分

為了定量地描述這種逃逸特性,我們建議使用概率論中的大偏差理論(LDT)。粗略地說,這個理論給出了路徑空間中的概率權(quán)重,而權(quán)重的指數(shù)部分由一個作用量泛函S給出。

局部擬勢函數(shù)作為變分問題和哈密頓-雅可比方程的解

我們可以定義一個局部擬勢函數(shù)為:

(5)

將公式(5)和下面的公式6)進(jìn)行結(jié)合

(6)

給出了平穩(wěn)測度的指數(shù)漸近:

(7)

這意味著在梯度系統(tǒng)只有一個穩(wěn)定吸引子O的情況下,擬勢φQP(x)是由局部φQPloc(x;x0)給定,這是變分問題(公式5)的解。

局部最小點的逃逸屬性(根據(jù)局部擬勢)

局部擬勢φQPloc(x;x0)的另一個顯著特征是它描述了局部最小點的逃逸性質(zhì)。從sharp極小值到flat極小值的逃逸是導(dǎo)致良好泛化的一個關(guān)鍵特征。

LDT估計提供了一種工具,可以獲得退出概率的指數(shù)估計值,并從吸引子獲得平均首次退出時間。

并且我們可以證明一個過程x(t)在局部最小點處的逃逸性質(zhì),如出口概率、平均逃逸時間甚至第一個出口位置,都與擬勢有關(guān)。

全局?jǐn)M勢:SGD在各個局部極小值點之間的馬氏鏈動力學(xué)

現(xiàn)在再假設(shè)損失函數(shù)f(x)是非凸的,存在多個局部極小值點。這種情況下,對每個局部極小值點的吸引區(qū)域,都可數(shù)學(xué)上構(gòu)造由前述所介紹的局部擬勢。

SGD在進(jìn)入一個局部極小值點之后,會在其協(xié)方差結(jié)構(gòu)所帶來的噪聲的作用下,逃逸這個局部極小值點,從而進(jìn)入另一個局部極小值點。

按照前述的介紹,這種逃逸可以由局部擬勢給出。然而在全局情形,不同的極小值點之間的局部擬勢不一樣,而從一個極小值點到另一個極小值點之間的這種由逃逸產(chǎn)生的躍遷,會誘導(dǎo)一個局部極小值點之間的馬氏鏈。

我們的文章指出,SGD的長時間極限行為,正是以這種馬氏鏈的方式,遍歷可能的局部極小值點,最終達(dá)到一個全局極小值點。

值得一提的是,這個全局極小值點不一定是原來損失函數(shù)的全局極小值點,而是和SGD的隨機(jī)性的協(xié)方差結(jié)構(gòu)有關(guān),這一點可以由上節(jié)中局部擬勢的構(gòu)造方式看出。

這就表明SGD的隨機(jī)性所產(chǎn)生的協(xié)方差結(jié)構(gòu),影響了其長期行為以及最終的全局極小值點的選擇。

文章中給出了一個例子,說明當(dāng)損失函數(shù)f(x)有兩個完全對稱的全局極小值點,而其所對應(yīng)的協(xié)方差結(jié)構(gòu)不同的情況下,SGD會傾向于選擇其中一個全局極小值點,這一個極小值點對應(yīng)的協(xié)方差結(jié)構(gòu)更接近各向同性(isotropic)。

未來工作

研究人員希望通過這項工作,進(jìn)一步理解SGD所訓(xùn)練出的局部極小點的泛化性能,特別是泛化能力與協(xié)方差結(jié)構(gòu)的關(guān)系?;诖耍麄兤诖M(jìn)一步的結(jié)果將不僅僅局限于overparametrized神經(jīng)網(wǎng)絡(luò),而對一般的深度學(xué)習(xí)模型都適用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:你真的了解隨機(jī)梯度下降中的“全局最優(yōu)”嗎?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何對一波形所有極大(?。?b class='flag-5'>值用三次樣條插函數(shù)擬...

    哪位大神能幫我一下,本人在做小電流接地系統(tǒng)選線,在matlab中搭建了系統(tǒng)模型后進(jìn)行了單相接地故障仿真,對于仿出來的波形要進(jìn)行HHT變換,其中第一步就是要對仿真圖形所有極大極小值用三次樣條插
    發(fā)表于 08-09 19:10

    SoC 多處理器混合關(guān)鍵性系統(tǒng)

    我想運用生成即保證正確(correct-by-construction)規(guī)則設(shè)計多處理器混合關(guān)鍵性系統(tǒng),請問生成即保證正確(correct-by-construction)規(guī)則可用嗎?在什么情況下可用?
    發(fā)表于 02-17 16:18

    關(guān)于檢測的離散信號求極值問題

    我現(xiàn)在收集到一些離散信號,一維數(shù)組,想找到極大極小值,然后連線用三次樣條擬合,1、請問有沒有什么好用的控件或者算法找到這些極大極小值2、由于采樣率的緣故,總會有的極大或者
    發(fā)表于 01-03 10:55

    印刷電路板的圖像分割

    灰度之間),而且靠近于波谷,所以考慮在其領(lǐng)域內(nèi)尋找極小值。 為了分割PCB的目標(biāo)圖像,可以先確定出直方圖的目標(biāo)峰,再確定極小值
    發(fā)表于 08-29 10:53

    怎么用模擬退火算法求全局最優(yōu)解?

    一種完完全全的貪心算法。這樣求出的極小值,并不一定整段函數(shù)的全局極小值,而極可能是局部極小值。例如下圖 可以看出,有三個,均是
    發(fā)表于 09-29 08:04

    LCD1602驅(qū)動程序關(guān)鍵性操作

    C51單片機(jī)LCD1602驅(qū)動程序LCD1602簡介1602的引腳操作時序?qū)懖僮鲿r序時序參數(shù)LCD1602關(guān)鍵性操作一、初始化二、清屏指令二、進(jìn)入模式設(shè)置指令三、顯示開關(guān)控制指令四、功能設(shè)定指令
    發(fā)表于 11-18 08:56

    keras內(nèi)置的7個常用的優(yōu)化器介紹

    法,隨機(jī)梯度下降,小批量梯度下降法。它們的學(xué)習(xí)率是固定的。 1.1 基礎(chǔ)梯度下降算法 顧名思義,梯度下降法的計算過程就是沿梯度下降的方向求解極小值(使得損失函數(shù)最小,也即準(zhǔn)確率最高)。 假設(shè)
    發(fā)表于 08-18 06:32

    射頻電路應(yīng)用設(shè)計的關(guān)鍵性培訓(xùn)資料

    射頻電路應(yīng)用設(shè)計的關(guān)鍵性培訓(xùn)資料 1.   Implications of Grounding 2.   Possible Problems Hidden
    發(fā)表于 05-07 19:38 ?28次下載

    射頻電路應(yīng)用設(shè)計的關(guān)鍵性課題

    射頻電路應(yīng)用設(shè)計的關(guān)鍵性課題:1.  Interference and Isolation       o 
    發(fā)表于 05-07 19:39 ?22次下載

    基于鏈路關(guān)鍵性的流量工程路由算法徐亞峰

    基于鏈路關(guān)鍵性的流量工程路由算法_徐亞峰
    發(fā)表于 03-16 08:00 ?0次下載

    梯度下降兩大痛:陷入局部極小值和過擬合

    基于梯度下降訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,我們將冒網(wǎng)絡(luò)落入局部極小值的風(fēng)險,網(wǎng)絡(luò)在誤差平面上停止的位置并非整個平面的最低點。這是因為誤差平面不是內(nèi)凸的,平面可能包含眾多不同于全局最小的局部極小值
    的頭像 發(fā)表于 04-27 17:01 ?2w次閱讀
    梯度下降兩大痛<b class='flag-5'>點</b>:陷入局部<b class='flag-5'>極小值</b>和過擬合

    機(jī)器學(xué)習(xí)之感知機(jī)python是如何實現(xiàn)的

    算法選擇,最終的目標(biāo)是求損失函數(shù)的最小,利用機(jī)器學(xué)習(xí)中最常用的梯度下降GD或者隨機(jī)梯度下降SGD來求解。
    發(fā)表于 03-30 09:36 ?932次閱讀
    機(jī)器學(xué)習(xí)之感知機(jī)python是如何實現(xiàn)的

    基于雙曲網(wǎng)絡(luò)空間嵌入與極小值聚類的社區(qū)劃分算法

    。根據(jù)龐加萊圓盤中的角度統(tǒng)計節(jié)點分布關(guān)系,得到θ曲線,并以最優(yōu)模塊度選擇曲線極小值作為最優(yōu)社區(qū)的劃分依據(jù)。使用中國移動用戶的真實訪問數(shù)據(jù)對算法進(jìn)行有效評估,結(jié)果表明,與 Louvain、SLPA和正則化譜聚類算法相比,該算法無
    發(fā)表于 04-01 15:18 ?11次下載
    基于雙曲網(wǎng)絡(luò)空間嵌入與<b class='flag-5'>極小值</b>聚類的社區(qū)劃分算法

    基于局部熵擬合與全局信息的改進(jìn)活動輪廓模型

    的中心,改變輪廓半徑的大小以確定初始輪廓的位置。使用局部熵來増強(qiáng)圖像邊緣處的響應(yīng),將局部熵圖像擬合能量與RSF模型共同構(gòu)成局部能量,并引入圖像的
    發(fā)表于 05-26 15:31 ?5次下載

    實現(xiàn)關(guān)鍵性電流節(jié)省的其他方法是什么

    利用這些具有超低靜態(tài)電流的汽車 LDO,您將能夠顯著地改善汽車電池的使用壽命。您在系統(tǒng)中實現(xiàn)關(guān)鍵性電流節(jié)省的其他方法是什么?  
    的頭像 發(fā)表于 02-06 09:12 ?971次閱讀