0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么基于梯度的方法能夠在深度學(xué)習(xí)的優(yōu)化中行之有效

jmiy_worldofai ? 來源:cg ? 2018-12-24 09:41 ? 次閱讀

神經(jīng)網(wǎng)絡(luò)的優(yōu)化本質(zhì)上是一個(gè)非凸問題,而簡單的基于梯度的算法在實(shí)踐中似乎總是能夠解決這類問題。這種現(xiàn)象是深度學(xué)習(xí)的核心支柱之一,而目前有許多理論科學(xué)家家正試圖解開這個(gè)謎:為什么基于梯度的方法能夠在深度學(xué)習(xí)的優(yōu)化中行之有效。

一篇來自 offconvex.org博客的文章對(duì)最近一些試圖解決這個(gè)問題的工作進(jìn)行了綜述,并且在最后討論了作者本人與 Sanjeev Arora,Noah Golowich 以及 Wei Hu 等人一起撰寫的新論文(https://arxiv.org/pdf/1810.02281.pdf)。在這篇論文中,他們針對(duì)深度線性神經(jīng)網(wǎng)絡(luò)中的梯度下降問題,提出了一種能夠保證以線性速率收斂到全局最小值的方法。關(guān)于深度學(xué)習(xí)應(yīng)用的論文多如牛毛,而關(guān)于基礎(chǔ)工作原理的文章彌足珍貴。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。

函數(shù)圖像曲面方法及其局限性

許多關(guān)于深度學(xué)習(xí)優(yōu)化的論文都隱含著這樣一種假設(shè),即通過建立損失函數(shù)圖像的曲面(landscape)的幾何特性(特別是在臨界點(diǎn),也就是梯度開始消失的點(diǎn)),可以嚴(yán)謹(jǐn)?shù)乩斫膺@種優(yōu)化方法。例如,通過與凝聚態(tài)物理中的球形自旋玻璃模型進(jìn)行類比,Choromanska等人在2015年提出了一個(gè)現(xiàn)已在深度學(xué)習(xí)領(lǐng)域廣為人知的觀點(diǎn):

函數(shù)曲面猜想(Landscape Conjecture):

在神經(jīng)網(wǎng)絡(luò)優(yōu)化問題中,次優(yōu)臨界點(diǎn)的 Hessian(二階導(dǎo)矩陣)的特征值很可能存在負(fù)數(shù)。換而言之,幾乎沒有糟糕的局部最小值(讓梯度下降算法誤認(rèn)為局部最小值是全局最小值的點(diǎn)),而且?guī)缀跛械陌包c(diǎn)都是嚴(yán)格的。

該猜想的對(duì)于各種包括淺層(2 層)模型在內(nèi)的簡單問題的損失函數(shù)圖像的曲面的強(qiáng)形式已經(jīng)得到了證明,這樣的問題包括矩陣感知(https://papers.nips.cc/paper/6271-global-optimality-of-local-search-for-low-rank-matrix-recovery.pdf )、矩陣補(bǔ)全(https://papers.nips.cc/paper/6048-matrix-completion-has-no-spurious-local-minimum.pdf )、正交張量分解(http://proceedings.mlr.press/v40/Ge15.pdf )、相位反演(https://arxiv.org/pdf/1602.06664.pdf )以及帶二次激活的神經(jīng)網(wǎng)絡(luò)(http://proceedings.mlr.press/v80/du18a/du18a.pdf )等。目前已經(jīng)有一些工作針對(duì)當(dāng)函數(shù)曲面猜想成立時(shí)如何實(shí)現(xiàn)梯度下降收斂到全局最小值進(jìn)行了一些研究。例如,Rong Ge(http://www.offconvex.org/2016/03/22/saddlepoints/ )、Ben Recht(http://www.offconvex.org/2016/03/24/saddles-again/ )、Chi Jin 和 Michael Jordan(http://www.offconvex.org/2017/07/19/saddle-efficiency/ )等人的博客中有一些在這類工作方面非常棒的介紹文章。他們介紹了梯度下降可以如何通過逃離所有嚴(yán)格的鞍點(diǎn)來達(dá)到二階局部最小值(Hessian 為正半定的臨界點(diǎn)),以及當(dāng)將我們對(duì)算法添加擾動(dòng)時(shí)這個(gè)過程將如何起作用。請(qǐng)注意,在函數(shù)曲面猜想下,即當(dāng)沒有糟糕的局部最小值、也沒有非嚴(yán)格鞍點(diǎn)時(shí),二階局部最小值也就是全局最小值。

然而,出于很多原因,函數(shù)曲面方法(和函數(shù)曲面猜想)顯然不能像這樣被應(yīng)用到深度(三層或更多層)的網(wǎng)絡(luò)上。首先,深度網(wǎng)絡(luò)通常會(huì)引入非嚴(yán)格鞍點(diǎn)(例如,在所有權(quán)重都為零的點(diǎn),詳情請(qǐng)參閱 Kawaguchi 等人在2016發(fā)表的論文「Deep Learning without Poor Local Minima」:https://papers.nips.cc/paper/6112-deep-learning-without-poor-local-minima.pdf )。其次,函數(shù)曲面方法的觀點(diǎn)很大程度上忽視了算法層面上的因素,而在實(shí)踐中算法層面的因素對(duì)深度網(wǎng)絡(luò)的收斂有很大的影響——比如初始化方法的類型(http://proceedings.mlr.press/v28/sutskever13.html )或批量歸一化(http://proceedings.mlr.press/v37/ioffe15.pdf )。最后,正如我在之前的文章(http://www.offconvex.org/2018/03/02/acceleration-overparameterization/ )中談到的,基于 SanjeevArora和 Elad Hazan(http://proceedings.mlr.press/v80/arora18a/arora18a.pdf )的工作,為經(jīng)典線性模型添加(冗余)線性層有時(shí)可以加速基于梯度的優(yōu)化過程,這樣做盡管會(huì)為之前的凸優(yōu)化問題引入一定的非凸性,但是不會(huì)增強(qiáng)模型的表現(xiàn)能力。任何只依賴于臨界點(diǎn)屬性的函數(shù)曲面分析都難以解釋這樣的現(xiàn)象,因?yàn)橥ㄟ^這樣的方法,沒有什么比優(yōu)化一個(gè)具有全局最小值的臨界點(diǎn)的凸目標(biāo)函數(shù)更簡單的了。

另一種可能的解決方案?

函數(shù)曲面方法在分析深度學(xué)習(xí)中的優(yōu)化問題時(shí)的局限性說明它可能忽略了太多重要的細(xì)節(jié)。也許,與其思考「函數(shù)曲面方法是否是一種優(yōu)雅的方法?」不如把問題轉(zhuǎn)向「由特定的初始化方法得到的特定優(yōu)化器的軌跡有怎樣的行為?」

盡管基于軌跡的方法似乎比函數(shù)曲面分析更加復(fù)雜,但是這種方法已經(jīng)取得了顯著的進(jìn)展。最近的一些論文(如 Brutzkus and Globerson 2017(http://proceedings.mlr.press/v70/brutzkus17a/brutzkus17a.pdf );Li and Yuan 2017(https://papers.nips.cc/paper/6662-convergence-analysis-of-two-layer-neural-networks-with-relu-activation.pdf )、Zhong et al. 2017(http://proceedings.mlr.press/v70/zhong17a/zhong17a.pdf );Tian 2017(http://proceedings.mlr.press/v70/tian17a/tian17a.pdf );Brutzkus et al. 2018(https://openreview.net/pdf?id=rJ33wwxRb );Li et al. 2018(http://proceedings.mlr.press/v75/li18a/li18a.pdf );Du et al. 2018(https://arxiv.org/pdf/1806.00900.pdf );Liao et al. 2018(http://romaincouillet.hebfree.org/docs/conf/nips_GDD.pdf ))已經(jīng)采用了這種策略,成功地分析了不同類型的淺層模型。此外,基于軌跡的分析也正開始涉足函數(shù)曲面方法之外的領(lǐng)域,他們已經(jīng)針對(duì)線性神經(jīng)網(wǎng)絡(luò)的情況,成功地實(shí)現(xiàn)了在任意深度下使用梯度下降方法收斂到全局最小值。

針對(duì)深度線性神經(jīng)網(wǎng)絡(luò)的基于軌跡的分析

線性神經(jīng)網(wǎng)絡(luò)是帶有(或不帶有)線性激活函數(shù)的全連接神經(jīng)網(wǎng)絡(luò)。具體而言,一個(gè)輸入維度為d0、輸出維度為dN、隱層維度為 d1,d2,...,dN-1,深度為 N 的線性網(wǎng)絡(luò)是一個(gè)從 Rd_0到 Rd_N的線性映射,它被參數(shù)化為

其中

可以被看作第j層的權(quán)值矩陣。盡管這樣的表示方法看起來沒有什么特別,但線性神經(jīng)網(wǎng)絡(luò)優(yōu)化過程的復(fù)雜度卻讓人有些驚訝,它們會(huì)導(dǎo)致具有多個(gè)最小值和鞍點(diǎn)的非凸訓(xùn)練問題。用于線性神經(jīng)網(wǎng)絡(luò)的基于梯度的算法被人們認(rèn)為是一種深度學(xué)習(xí)中的優(yōu)化問題理論上的替代品,近一段時(shí)間,它們?cè)诰€性神經(jīng)網(wǎng)絡(luò)上的應(yīng)用受到了極大的關(guān)注。

據(jù)我所知,Saxe et al.2014(https://arxiv.org/pdf/1312.6120.pdf )的工作首次對(duì)深度(三層或更多層)的線性網(wǎng)絡(luò)進(jìn)行了基于軌跡的分析,在白化后的數(shù)據(jù)上處理最小化 L2 損失的梯度流(學(xué)習(xí)率極小的梯度下降)。盡管這個(gè)分析有很重要的貢獻(xiàn),但卻并未正式實(shí)現(xiàn)收斂到全局最小值,也沒有考慮計(jì)算復(fù)雜度方面的因素(收斂所需的迭代次數(shù))。近期研究 Bartlett et al. 2018(http://proceedings.mlr.press/v80/bartlett18a.html )的研究在解決這些問題的工作上取得了進(jìn)展,通過將基于軌跡的分析用于線性殘差網(wǎng)絡(luò)的特定環(huán)境的梯度下降,即在所有層中統(tǒng)一寬度(d0=d1=d2=...=dN)及初始化方式(對(duì)于任意的 j,有 Wj=I)的線性網(wǎng)絡(luò)。考慮到不同的數(shù)據(jù)-標(biāo)簽分布(他們將其歸納為「targets」),Bartlett 等人展示了可證明的梯度下降以線性速率收斂到全局最小值的情況——損失函數(shù)值在經(jīng)過O(log1/ε)次迭代后與最優(yōu)值的差小于ε(大于 0)。

在本文作者與 Sanjeev Arora、Noah Golowich 以及 Wei Hu 合作撰寫的一篇新論文(https://arxiv.org/pdf/1810.02281.pdf )中,我們?cè)诎l(fā)揮基于軌跡的方法的功效方面又向前邁進(jìn)了一步。具體而言,我們分析了任意不包含「瓶頸層」的線性神經(jīng)網(wǎng)絡(luò)梯度下降的軌跡,瓶頸層的隱藏維度不小于輸入和輸出維度之間的最小值(對(duì)于任意的 j,有 dj≥min{d0,dN});我們還證明了以線性速率到全局最小值的收斂性。我們指出了初始化方法需要滿足下面兩個(gè)條件:(1)近似平衡度:對(duì)于任意的 j,有 WTj+1Wj+1≈WjWjT;(2)缺失邊界:初始損失小于任意秩缺虧缺解的損失。我們證明這兩個(gè)條件都是必要條件,不滿足其中任意一個(gè)都可能導(dǎo)致軌跡不收斂。在線性殘差網(wǎng)絡(luò)的特例中,初始化時(shí)的近似平衡度很容易滿足,而且對(duì)于通過以零為中心的微小隨機(jī)擾動(dòng)進(jìn)行初始化的常見設(shè)定也同樣成立。后者也會(huì)導(dǎo)致出現(xiàn)具有正概率的缺失邊界。對(duì)于 dN=1 的情況(即標(biāo)量回歸),我們提供了一個(gè)能同時(shí)滿足這兩個(gè)條件的隨機(jī)初始化方案,因此能在恒定概率下以線性速率收斂到全局最小值。

我們的分析的關(guān)鍵在于觀察「如果權(quán)重被初始化到了近似平衡的狀態(tài),它們是否會(huì)在梯度下降的整個(gè)迭代中一直這樣保持」。換句話說,優(yōu)化方法所采取的軌跡遵循下面的特性:

也就是說,在整個(gè)時(shí)間軸上,所有的層(近似地)都有相同的奇異值集合,每一層的左奇異向量(近似地)與下一層的右奇異向量相同。我們說明了這種規(guī)律性意味著梯度下降的穩(wěn)定地運(yùn)行下去,從而證明,即使在損失函數(shù)圖像整體上來說十分復(fù)雜時(shí)(包括許多非嚴(yán)格鞍點(diǎn)),它可能在優(yōu)化器所采取的特定軌跡周圍表現(xiàn)得尤為良好。

結(jié)語

通過函數(shù)圖像方法解決深度學(xué)習(xí)中優(yōu)化問題,即分析與訓(xùn)練使用的算法無關(guān)的目標(biāo)函數(shù)的幾何性質(zhì),從概念上來說十分吸引人。但是這一策略存在固有的局限性,主要是因?yàn)樗笳麄€(gè)目標(biāo)函數(shù)都要很優(yōu)雅,這似乎是一個(gè)過于嚴(yán)格的要求。替代函數(shù)圖像的一種方法是考慮優(yōu)化器及其初始化方法,并且僅僅沿著所得到的軌跡關(guān)注其函數(shù)圖像。這種替代方法正得到越來越多的關(guān)注。函數(shù)圖像分析目前僅限于淺層(兩層)模型,而基于軌跡的方法最近已經(jīng)可以處理任意深度的模型,證明了梯度下降能以線性速率收斂到全局最小值。但是,由于基于軌跡的分析方法僅僅在線性神經(jīng)網(wǎng)絡(luò)上取得了成功,仍有還有很多工作有待完成。在我看來,基于軌跡的方法也將成為我們正式理解深度非線性網(wǎng)絡(luò)的基于梯度的優(yōu)化方法的關(guān)鍵。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:分析梯度下降的軌跡,更好地理解深度學(xué)習(xí)中的優(yōu)化問題

文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    28035的解密廣告已經(jīng)遍布大街小巷,請(qǐng)問有沒有什么當(dāng)前能夠行之有效的反解密方法?

    本帖最后由 一只耳朵怪 于 2018-6-12 11:27 編輯 眼下28035的解密廣告已經(jīng)遍布大街小巷了,TI給的硬件加密形同虛設(shè)。。。請(qǐng)問有沒有什么當(dāng)前能夠行之有效的反解密方法?想寫個(gè)軟件加密算法來的,但28035又
    發(fā)表于 06-11 00:46

    AI工程師 10 個(gè)深度學(xué)習(xí)方法

    ),那么算法總是能夠找到最優(yōu)點(diǎn)。進(jìn)行最優(yōu)化時(shí),遇到這些特殊的地形(凸函數(shù))自然是最好的。另外,山頂初始位置(即函數(shù)的初始值)不同,最終到達(dá)山底的路徑也完全不同。同樣,不同的流速(即梯度
    發(fā)表于 03-07 20:17

    幾種常用的、行之有效的抗干擾技術(shù)是什么

    幾種常用的、行之有效的抗干擾技術(shù)是什么
    發(fā)表于 06-08 06:20

    基于深度學(xué)習(xí)的異常檢測的研究方法

    的研究方法進(jìn)行了系統(tǒng)而全面的綜述。此外,我們回顧了這些方法不同應(yīng)用領(lǐng)域中的應(yīng)用,并評(píng)估了它們的有效性。我們根據(jù)所采用的基本假設(shè)和方法,將最
    發(fā)表于 07-12 07:10

    低功耗深度休眠后無法喚醒燒錄程序的解決辦法是什么?

    使用復(fù)位按鍵喚醒,碰運(yùn)氣燒錄程序,未果,查找資料、聯(lián)系華大代理,尋得以下行之有效方法。解決方法:華大半導(dǎo)體單片機(jī)資料包:仿真及編程工具中:CCID在線離線編程器、Cortex-M離線編程器和...
    發(fā)表于 12-06 07:06

    深度學(xué)習(xí)技術(shù)的開發(fā)與應(yīng)用

    時(shí)間安排大綱具體內(nèi)容實(shí)操案例三天關(guān)鍵點(diǎn)1.強(qiáng)化學(xué)習(xí)的發(fā)展歷程2.馬爾可夫決策過程3.動(dòng)態(tài)規(guī)劃4.無模型預(yù)測學(xué)習(xí)5.無模型控制學(xué)習(xí)6.價(jià)值函數(shù)逼近7.策略梯度
    發(fā)表于 04-21 14:57

    什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?

    FPGA實(shí)現(xiàn)。易于適應(yīng)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)深度學(xué)習(xí)是一個(gè)非?;钴S的研究領(lǐng)域,每天都在設(shè)計(jì)新的 DNN。其中許多結(jié)合了現(xiàn)有的標(biāo)準(zhǔn)計(jì)算,但有些需要全新的計(jì)算方法。特別是具有特殊結(jié)構(gòu)的網(wǎng)絡(luò)難以
    發(fā)表于 02-17 16:56

    ATX電源電路的分析

    檢修atx開關(guān)電源,從+5vsb、ps-on和pw-ok信號(hào)入手來定位故障區(qū)域,是快速檢修中行之有效方法。
    發(fā)表于 06-28 17:33 ?854次下載

    如何提高消費(fèi)者對(duì)物聯(lián)網(wǎng)服務(wù)的信心和使用意愿方面行之有效的見解

    ,該報(bào)告基于對(duì)3000名消費(fèi)者的調(diào)查,旨在為企業(yè)提供關(guān)于如何提高消費(fèi)者對(duì)物聯(lián)網(wǎng)服務(wù)的信心和使用意愿方面行之有效的見解。
    的頭像 發(fā)表于 01-08 09:36 ?2792次閱讀

    深度學(xué)習(xí)優(yōu)化方法學(xué)習(xí)率衰減方式的詳細(xì)資料概述

    深度學(xué)習(xí)作為現(xiàn)今機(jī)器學(xué)習(xí)領(lǐng)域中的重要的技術(shù)手段,圖像識(shí)別、機(jī)器翻譯、自然語言處理等領(lǐng)域都已經(jīng)很成熟,并獲得了很好的成果。文中針對(duì)深度
    發(fā)表于 12-18 16:47 ?9次下載

    深度學(xué)習(xí)中多種優(yōu)化算法

    深度學(xué)習(xí)中,有很多種優(yōu)化算法,這些算法需要在極高維度(通常參數(shù)有數(shù)百萬個(gè)以上)也即數(shù)百萬維的空間進(jìn)行梯度下降,從最開始的初始點(diǎn)開始,尋找最
    的頭像 發(fā)表于 08-28 09:52 ?2487次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中多種<b class='flag-5'>優(yōu)化</b>算法

    基于深度學(xué)習(xí)的自適應(yīng)梯度閥值判別方法

    深度學(xué)習(xí)的自適應(yīng)梯度閾值判別方法。對(duì)海溫梯度圖進(jìn)行標(biāo)注,通過 Mask r-CNN訓(xùn)練得到海洋鋒像素級(jí)識(shí)別模型,統(tǒng)計(jì)每一類鋒特有的
    發(fā)表于 03-19 16:18 ?17次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的自適應(yīng)<b class='flag-5'>梯度</b>閥值判別<b class='flag-5'>方法</b>

    幾種行之有效的集成電路拆卸方法資料下載

    電子發(fā)燒友網(wǎng)為你提供幾種行之有效的集成電路拆卸方法資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計(jì)、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-11 08:52 ?10次下載
    幾種<b class='flag-5'>行之有效</b>的集成電路拆卸<b class='flag-5'>方法</b>資料下載

    人工智能領(lǐng)域的梯度學(xué)習(xí)研究

    前向梯度學(xué)習(xí)通常用于計(jì)算含有噪聲的方向梯度,是一種符合生物學(xué)機(jī)制、可替代反向傳播的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法。然而,當(dāng)要
    發(fā)表于 05-30 10:34 ?333次閱讀
    人工智能領(lǐng)域的<b class='flag-5'>梯度</b><b class='flag-5'>學(xué)習(xí)</b>研究

    深度學(xué)習(xí)的模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型訓(xùn)練過程中,往往會(huì)遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對(duì)深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:41 ?456次閱讀