0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從淺層到深層神經(jīng)網(wǎng)絡(luò):概覽深度學(xué)習(xí)優(yōu)化算法

AI智勝未來 ? 來源:機(jī)器之心 ? 2023-06-15 11:20 ? 次閱讀

來源:機(jī)器之心

優(yōu)化算法一直以來是機(jī)器學(xué)習(xí)能根據(jù)數(shù)據(jù)學(xué)到知識(shí)的核心技術(shù)。而好的優(yōu)化算法可以大大提高學(xué)習(xí)速度,加快算法的收斂速度和效果。該論文從淺層模型到深度模型縱覽監(jiān)督學(xué)習(xí)中常用的優(yōu)化算法,并指出了每一種優(yōu)化算法的優(yōu)點(diǎn)及局限性,同時(shí)其還包括了一階和二階等各種算法的形式化表達(dá)。機(jī)器之心主要對(duì)本論文選擇性地編譯了優(yōu)化算法的部分,更詳細(xì)的推導(dǎo)及介紹請(qǐng)查看原論文。

摘要:本篇論文旨在介紹關(guān)于將最優(yōu)化方法應(yīng)用于機(jī)器學(xué)習(xí)的關(guān)鍵模型、算法、以及一些開放性問題。這篇論文是寫給有一定知識(shí)儲(chǔ)備的讀者,尤其是那些熟悉基礎(chǔ)優(yōu)化算法但是不了解機(jī)器學(xué)習(xí)的讀者。首先,我們推導(dǎo)出一個(gè)監(jiān)督學(xué)習(xí)問題的公式,并說明它是如何基于上下文和基本假設(shè)產(chǎn)生各種優(yōu)化問題。然后,我們討論這些優(yōu)化問題的一些顯著特征,重點(diǎn)討論 logistic 回歸和深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練的案例。本文的后半部分重點(diǎn)介紹幾種優(yōu)化算法,首先是凸 logistic 回歸,然后討論一階方法,包括了隨機(jī)梯度法(SGD)、方差縮減隨機(jī)方法(variance reducing stochastic method)和二階方法的使用。最后,我們將討論如何將這些方法應(yīng)用于深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,并著重描述這些模型的復(fù)雜非凸結(jié)構(gòu)所帶來的困難。

1、引言

在過去二十年里,機(jī)器學(xué)習(xí)這一迷人的算法領(lǐng)域幾乎以史無前例的速度崛起。機(jī)器學(xué)習(xí)以統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)為基礎(chǔ),以數(shù)學(xué)優(yōu)化方法為核心。事實(shí)上,近來優(yōu)化方法研究領(lǐng)域中的許多最新理論和實(shí)際進(jìn)展都受到了機(jī)器學(xué)習(xí)和其它數(shù)據(jù)驅(qū)動(dòng)的學(xué)科的影響。然而即使有這些聯(lián)系,統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和致力于機(jī)器學(xué)習(xí)相關(guān)問題的優(yōu)化方法研究之間仍存在許多障礙。因此本文試圖概述機(jī)器學(xué)習(xí)學(xué)習(xí)算法而打破這種障礙。

本篇論文的目的是給出與機(jī)器學(xué)習(xí)領(lǐng)域相關(guān)的一些關(guān)鍵問題和研究問題的概述??紤]到涉及運(yùn)籌學(xué)領(lǐng)域的知識(shí),我們假設(shè)讀者熟悉基本的優(yōu)化方法理論,但是仍將引入在廣義機(jī)器學(xué)習(xí)領(lǐng)域使用的相關(guān)術(shù)語和概念,希望借此促進(jìn)運(yùn)籌學(xué)專家和其它貢獻(xiàn)領(lǐng)域的人員之間的溝通。為了實(shí)現(xiàn)這一目的,我們?cè)谠~匯表 1 中列出了本論文將介紹和使用的最重要的術(shù)語。

03f8f49e-0a8f-11ee-962d-dac502259ad0.jpg

表 1 :監(jiān)督機(jī)器學(xué)習(xí)的術(shù)語表(監(jiān)督機(jī)器學(xué)習(xí)的目的之一就是理解輸入空間 X 中每個(gè)輸入向量 x 和輸出空間 Y 中相應(yīng)輸出向量 y 之間的關(guān)系)

2、解決Logistic回歸問題的優(yōu)化方法(淺層模型的優(yōu)化方法)

當(dāng) L 和 r 是關(guān)于 w 的任意凸函數(shù)時(shí),可以運(yùn)用在本節(jié)中討論的方法來解決問題(11):

0425fb4c-0a8f-11ee-962d-dac502259ad0.png

這一類中包含很多機(jī)器學(xué)習(xí)模型,包括支持向量機(jī)、Lasso(Least Absolute Shrinkage and Selection Operator)、稀疏逆協(xié)方差選擇等。有關(guān)這些模型的詳細(xì)信息請(qǐng)參見 [86] 和其中的參考文獻(xiàn)。為了每一步都能具體(展現(xiàn)出來),此處我們指定以二分類的正則化logistic回歸為例(進(jìn)行講解)。為了簡化例子中的符號(hào),我們作不失一般性的假設(shè),令043da58a-0a8f-11ee-962d-dac502259ad0.png。(此處省去了偏置項(xiàng) b0),這一省略操作可以通過在輸入向量上增加一維恒為 1 的特征值來彌補(bǔ))。當(dāng) w 和 x 都是 d 維時(shí)就可以令其為特定的凸優(yōu)化問題。

044a5a28-0a8f-11ee-962d-dac502259ad0.png

值得一提的是,對(duì)于此類問題,正則化項(xiàng)必不可少。想一想為什么說它必不可少,假設(shè)對(duì)于所有的 i ∈{1,...,n},有參數(shù)向量 w,滿足 yi(wT*xi) > 0 以及(存在)無界射線 {θw : θ > 0}。那問題就很明朗了,在這個(gè)例子中,當(dāng) θ →∞時(shí),

045f8506-0a8f-11ee-962d-dac502259ad0.png

也就是說函數(shù)(式 12)無法取最小值。另一方面,通過增加(強(qiáng)制)正則化函數(shù) r,可以保證問題(12)將具有最優(yōu)解。

對(duì)于正則化函數(shù) r,我們將會(huì)參考常用選擇0473055e-0a8f-11ee-962d-dac502259ad0.png和 r(w) = ||w||1。不過為了簡單起見,我們通常會(huì)選擇前者,因?yàn)樗沟霉?12 對(duì)于每一個(gè)因子是連續(xù)可微的。相反,r(w) = ||w||1 會(huì)導(dǎo)致非平滑問題,為此,(實(shí)現(xiàn))函數(shù)最小化就需要更復(fù)雜的算法。

2.1 一階方法

我們首先討論用一階方法求解問題(12),這里的」一階」僅僅指對(duì)函數(shù) F 中的參數(shù)進(jìn)行一階偏導(dǎo)的數(shù)學(xué)技巧。

2.1.1 梯度下降法

從概念上講,最小化光滑凸目標(biāo)的最簡單的方法是梯度下降法,具體分析參見 [ 62 ]。在這種方法中,從初始化估計(jì)值 w0 開始,通過下述公式迭代地更新權(quán)重估計(jì)值。

047890d2-0a8f-11ee-962d-dac502259ad0.png

其中 αk > 0 是一個(gè)步長參數(shù)。步長序列 {αk} 的選擇直接決定此算法的性能。在優(yōu)化研究領(lǐng)域,人們普遍認(rèn)為,在每次迭代中采用線性搜索來確定 {αk },可以為解決各種類型的問題找到一個(gè)性能優(yōu)越的算法。然而,對(duì)于機(jī)器學(xué)習(xí)應(yīng)用程序來說,這種運(yùn)算成本高昂,因?yàn)槊看魏瘮?shù) F 的計(jì)算都需要傳遞整個(gè)數(shù)據(jù)集,如果 n 過大,很可能帶來高昂的(訓(xùn)練)成本。

好在當(dāng)每個(gè)αk 都設(shè)置為一個(gè)正的常數(shù)α且它是一個(gè)足夠小的固定值時(shí),從理論上分析,該算法的收斂性仍可以得到保證。(固定的步長常數(shù)在機(jī)器學(xué)習(xí)領(lǐng)域叫做學(xué)習(xí)率。但即使不是常數(shù),也有人把αK 或整個(gè)序列 {αK } 叫做學(xué)習(xí)率)。該算法的收斂速度取決于函數(shù) f 是強(qiáng)凸函數(shù)還是弱凸函數(shù)。

用于解決 L1 范數(shù)正則化的logistic回歸問題的梯度下降和加速梯度下降拓展算法分別被稱作 ISTA 和 FISTA。我們觀察到,在這種情況下,即使λ> 0,目標(biāo)函數(shù)也不會(huì)是強(qiáng)凸函數(shù)。只有目標(biāo)函數(shù)為凸時(shí) [5],ISTA 和 FISTA 具有與其對(duì)應(yīng)的平滑函數(shù)相同的次線性收斂速度。

梯度下降在 ML 訓(xùn)練過程中的一個(gè)重要特性就是計(jì)算出每次迭代中求解函數(shù) F 的梯度的運(yùn)算成本。在 ML 的訓(xùn)練過程中,單個(gè)梯度計(jì)算的成本通常是 O(ND),這個(gè)確實(shí)可以看到,例如,在正則化項(xiàng)為0473055e-0a8f-11ee-962d-dac502259ad0.png的情況中,函數(shù) F 關(guān)于每一個(gè)特定的 w 的梯度是

0499bfc8-0a8f-11ee-962d-dac502259ad0.png

2.1.2 隨機(jī)梯度法

隨機(jī)梯度法由于其用于最小化隨機(jī)目標(biāo)函數(shù)而在運(yùn)籌學(xué)領(lǐng)域廣為人知,同時(shí)也是 ML 社區(qū)中的一種特征優(yōu)化算法。該算法最初由 Robbins 和 Monro [ 67 ] 在解決隨機(jī)方程組問題時(shí)提出,值得注意的是,它可以用于最小化具有良好收斂性的隨機(jī)目標(biāo),而且每次迭代的計(jì)算復(fù)雜度僅為 O(d)而不是 O(nd)(梯度下降中的計(jì)算復(fù)雜度)。

在每一次迭代中,隨機(jī)梯度法都會(huì)計(jì)算梯度 F(Wk)的無偏估計(jì) GK。該估計(jì)可以以及低的代價(jià)計(jì)算得到;例如,對(duì)于公式(12),某次迭代的隨機(jī)梯度可被求解為

04aedbb0-0a8f-11ee-962d-dac502259ad0.png

其中 Sk 被稱作小批量,它的所有元素都是從總數(shù)據(jù)集 {1,...,n} 中按均勻分布選出來的。接下來的運(yùn)算類似于梯度下降:

04bcd4ae-0a8f-11ee-962d-dac502259ad0.png

毫無疑問,該算法的關(guān)鍵在于選擇步長序列 {αk}。不同于梯度下降,固定的步長(即學(xué)習(xí)率)不能保證算法會(huì)收斂到強(qiáng)凸函數(shù) F 的最小值,而只保證收斂到最小值的鄰域。

SGD 的收斂速度比梯度下降慢。尤其當(dāng)函數(shù) F 是強(qiáng)凸函數(shù)時(shí),該算法只保證當(dāng) k ≥ O(1/ε) 時(shí)可以得到預(yù)期精度的解(即滿足 E[F(wk)]-F(w) ≤ ε的解),而當(dāng)函數(shù) F 僅僅是凸函數(shù)時(shí),只有在 k ≥ O(1/ε^2) [11] 時(shí)才能保證得出上述解。

另一方面,正如前文提及的,如果 Sk 的大小由一個(gè)常數(shù)限定(獨(dú)立于 n 或 k 的常數(shù)),那么 SGD 的每次的迭代成本都比梯度下降法小 0(n)倍。

然而,在實(shí)際運(yùn)用中,標(biāo)準(zhǔn)的 SGD 并不一定是解決機(jī)器學(xué)習(xí)中優(yōu)化問題的最有效方法。事實(shí)上,機(jī)器學(xué)習(xí)和優(yōu)化算法領(lǐng)域在開發(fā)改進(jìn)或替代 SGD 方面進(jìn)行了大量的積極研究。在隨后的兩部分中,我們將討論兩類方法:方差縮減法和二階方法。但是在這兩類方法以外,還有多種方法。例如,加有動(dòng)量的 SGD 就是一個(gè)實(shí)踐中被發(fā)現(xiàn)的性能好于好于標(biāo)準(zhǔn) SGD 的拓展版 SGD。見下圖算法 1

04d30274-0a8f-11ee-962d-dac502259ad0.jpg

2.1.3 方差縮減法(Variance reducing method)

考慮到問題(11),人們發(fā)現(xiàn)通過利用目標(biāo) F 的結(jié)構(gòu)作為 n 個(gè)函數(shù)的有限和再加上簡單的凸函數(shù)項(xiàng),可以改善 SGD 方法。目前已經(jīng)研究出幾種方法,如 SAG [74],SAGA [22],SDCA [76] 和 SVRG [44]。

為了方便引用,我們把 SVRG 叫做算法 2。該算法在每個(gè)外部迭代中執(zhí)行一次完整的梯度計(jì)算,然后沿著隨機(jī)方向再迭代 L 步,這是整個(gè)梯度的隨機(jī)修正過程。內(nèi)環(huán)步長 L(inner loop size)必須滿足一定的條件以保證收斂 [ 44 ]。

04def1ce-0a8f-11ee-962d-dac502259ad0.jpg

SVRG,全稱為隨機(jī)方差減小梯度,其名稱源自于該算法可以被視為 SGD 的方差減小變體(尤其是有限和最小化/finite-sum minimization)。

研究員通過結(jié)合 SVRG 和 SAGA 的一些思想,提出一個(gè)新的方法,叫做 SARAH。僅是內(nèi)層迭代步長不同于 SVRG,SARAH 的公式如下

04f1c240-0a8f-11ee-962d-dac502259ad0.png

該變化導(dǎo)致0513b31e-0a8f-11ee-962d-dac502259ad0.png,使得 SARAH 中的步長不基于無偏梯度估計(jì)。不過,相對(duì)于 SVRG,它獲得了改進(jìn)的收斂特性。

05197362-0a8f-11ee-962d-dac502259ad0.jpg

表 2 :最小化強(qiáng)凸函數(shù)的一階方法計(jì)算復(fù)雜度

0530a8f2-0a8f-11ee-962d-dac502259ad0.jpg

表 3 :最小化一般凸函數(shù)的一階方法計(jì)算復(fù)雜度

2.2 二階方法和擬牛頓法

受確定性優(yōu)化研究領(lǐng)域幾十年研究成果的激勵(lì),ML 優(yōu)化中最活躍的研究領(lǐng)域之一就是關(guān)于如何使用二階導(dǎo)數(shù)(即曲率)信息來加速訓(xùn)練。

不幸的是,當(dāng) n 或 d 很大時(shí),在機(jī)器學(xué)習(xí)應(yīng)用程序中,海塞矩陣(Hessian matrix)的計(jì)算和存儲(chǔ)變得非常昂貴。

另一類基于形如(21)模型的算法是擬牛頓方法:

054e2db4-0a8f-11ee-962d-dac502259ad0.png

有趣的是,這些方法沒有計(jì)算出顯式二階導(dǎo)數(shù),而是通過在每次迭代中應(yīng)用低秩更新構(gòu)造完全由一階導(dǎo)數(shù)的海塞近似矩陣。例如,讓我們簡要介紹最流行的擬牛頓算法,全稱為 Broyden-Fletcher-Goldfarb-Shanno(BFGS)方法。在這種方法中,我們首先可以看到(21)的最小值為、05568db0-0a8f-11ee-962d-dac502259ad0.png進(jìn)一步發(fā)現(xiàn)它實(shí)際上可以方便地計(jì)算出逆 Hessian 近似。由于05648564-0a8f-11ee-962d-dac502259ad0.png隨著步長 sk = w_k+1 ? wk 和位移 yk = ?F(wk+1) ? ?F(wk) 的移動(dòng),有人選擇?05648564-0a8f-11ee-962d-dac502259ad0.png以最小化057eae3a-0a8f-11ee-962d-dac502259ad0.png以滿足割線方程 sk = (B^-1)yk。使用精心挑選的規(guī)范表達(dá),這個(gè)問題的解析式可以顯示的寫成

058d14ca-0a8f-11ee-962d-dac502259ad0.png

其中05a59428-0a8f-11ee-962d-dac502259ad0.png之間的差異可以僅表示為二階矩陣。

為方便引用,完整的經(jīng)典 BFGS 算法被稱為算法 3。

05b32eb2-0a8f-11ee-962d-dac502259ad0.jpg

即使采用二階信息,隨機(jī)優(yōu)化方法(無差異減少)也無法達(dá)到比次線性更快的收斂速度。不過,使用二階信息是一個(gè)不錯(cuò)的想法,因?yàn)槿绻H凭仃囀諗坑诤H仃嚨恼鎸?shí)解,則可以減少收斂速度中的常數(shù),同時(shí)還可以減少病態(tài)(ill-conditioning)的影響。

不幸的是,盡管已經(jīng)觀察到了實(shí)際的效率提升,但在理論上還沒有一個(gè)真正的二階方法,可以實(shí)現(xiàn)這樣的提升。到目前為止,只要海塞(近似)矩陣保持良好特性,大多數(shù)實(shí)際的方法只能保證實(shí)現(xiàn) SGD 的收斂(速率)特性。例如,如果序列 {Bk}(不一定由 BFGS 更新生成)對(duì)所有 k 滿足:

05c49ada-0a8f-11ee-962d-dac502259ad0.png

此時(shí)05dad6c4-0a8f-11ee-962d-dac502259ad0.png具有與 SGD 相同的收斂速度屬性。我們就 可以合理地假設(shè)這些限定適用于上述討論的方法,這些假設(shè)有適當(dāng)?shù)谋U稀H欢?,在擬牛頓方法的背景下應(yīng)該小心,其中隨機(jī)梯度估計(jì)可能與海塞近似相關(guān)。

3、深度學(xué)習(xí)

沿著這些方向進(jìn)行的主要進(jìn)展包括深層神經(jīng)網(wǎng)絡(luò)(DNN)的運(yùn)用。機(jī)器學(xué)習(xí)的一個(gè)相應(yīng)的分支稱為深度學(xué)習(xí)(或分層學(xué)習(xí)),它代表了一類試圖通過使用包含連續(xù)線性和非線性變換的多層次深層圖來構(gòu)造數(shù)據(jù)中高層次抽象的算法 [6, 51, 73, 37, 38, 23]。近年來科學(xué)家們已經(jīng)研究了各種神經(jīng)網(wǎng)絡(luò)類型,包括全連接神經(jīng)網(wǎng)絡(luò)(FNN)[84,28],卷積神經(jīng)網(wǎng)絡(luò)(CNN)[50] 和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[41,57,52]。對(duì)于我們來說,將主要關(guān)注前兩類神經(jīng)網(wǎng)絡(luò),同時(shí)留意其它網(wǎng)絡(luò)。

3.1 簡介

首先介紹深度神經(jīng)網(wǎng)絡(luò)(DNN)的結(jié)構(gòu)和信息傳遞方式。DNN的結(jié)構(gòu)是一個(gè)由節(jié)點(diǎn)組成的圖,其中每個(gè)節(jié)點(diǎn)被稱為一個(gè)神經(jīng)元,神經(jīng)元按照一定的順序排列成不同的層。在簡單的情況下,邊僅存在于一層神經(jīng)元和下一層神經(jīng)元之間。DNN的關(guān)鍵在于信息如何通過它進(jìn)行“饋送”。在前饋網(wǎng)絡(luò)的簡單情況下,這是通過以下方式實(shí)現(xiàn)的:首先,將輸入向量x的每個(gè)元素分別傳遞給第一層中的不同神經(jīng)元,也稱為輸入層。然后,在與相應(yīng)邊緣相關(guān)聯(lián)的權(quán)重的乘法下,將該層中的值傳遞給下一層中的神經(jīng)元。一旦到達(dá)給定節(jié)點(diǎn),可以通過應(yīng)用(線性或非線性)激活函數(shù)進(jìn)一步轉(zhuǎn)換值,然后繼續(xù)通過網(wǎng)絡(luò)傳遞值。網(wǎng)絡(luò)的最后一層提供了預(yù)測(cè)輸出p(x),稱為輸出層,而在輸入層和輸出層之間的層稱為隱藏層。

近年來神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的日益普及是由于理論和實(shí)踐方面的原因。1989 年建立的通用逼近定理 [42] 表明,只有一個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò)可以在對(duì)激活函數(shù)的溫和假設(shè)下,逼近 R d 的緊湊子集上的任何連續(xù)函數(shù)。在實(shí)踐方面,優(yōu)化技術(shù)和計(jì)算資源使用的最新進(jìn)展有助于訓(xùn)練 DNN 進(jìn)行大規(guī)模應(yīng)用,例如語音識(shí)別 [40、35]、圖像分類 [18、47、77]、人類行為 識(shí)別 [43]、視頻分類 [45]、預(yù)測(cè) [56、36、81、83]、機(jī)器翻譯 [17、2] 和土木工程 [26、1、46、24];另見 [89]。

3.2 隨機(jī)梯度下降法

我們引用以下內(nèi)容來強(qiáng)調(diào)將優(yōu)化算法應(yīng)用于訓(xùn)練 DNN 的令人困惑的反應(yīng)。首先,例如在 [11] 中,有一個(gè)結(jié)論表明,通過應(yīng)用 SGD 來最小化非凸目標(biāo)函數(shù)(一直從輸入×輸出空間繪制),可以保證預(yù)期梯度風(fēng)險(xiǎn)將消失,至少在一個(gè)子序列上是這樣,即:06098ac8-0a8f-11ee-962d-dac502259ad0.png。這一結(jié)論令人欣慰,這表明 SGD 可以實(shí)現(xiàn)與其他最先進(jìn)的基于梯度的優(yōu)化算法類似的收斂保證。然而,盡管文獻(xiàn)中的種種保證是有局限性的; 畢竟,盡管許多基于梯度的優(yōu)化算法確保目標(biāo)函數(shù)單調(diào)減少,但 SG 并不以這種方式計(jì)算。因此,如果一個(gè)子序列收斂到一個(gè)固定點(diǎn),那么我們?cè)趺茨艽_定該點(diǎn)不是鞍點(diǎn),或者是有誤差局部最小值,亦或是一些目標(biāo)值比初始點(diǎn)差的最大值?事實(shí)上,我們并不能肯定。也就是說,SGD 方法通常擅長找到局部極小值,而不是全局最小值。另一方面,SGD 往往會(huì)在固定值附近減緩收斂速度,這可能會(huì)阻礙它在深度神經(jīng)網(wǎng)絡(luò)中發(fā)展。

一般來說,對(duì)于非凸問題,SGD 的收斂速度記錄在 [29,30],但是它們非常有限,特別是它們不適用于§1.3 中的討論。因此,我們不能以同樣的方式爭(zhēng)論 SGD 是機(jī)器學(xué)習(xí)中非凸優(yōu)化問題的最佳方法。此外,下式

06154c0a-0a8f-11ee-962d-dac502259ad0.png

中的學(xué)習(xí)界限是沒有用的,因?yàn)閷?duì)于許多 DNN 和 CNN,由神經(jīng)網(wǎng)絡(luò)產(chǎn)生的分類的復(fù)雜度 C 比訓(xùn)練樣本數(shù) n 大得多。事實(shí)上,在 [90] 中,經(jīng)驗(yàn)表明,只有這些集合中的數(shù)據(jù)隨機(jī)擾動(dòng),神經(jīng)網(wǎng)絡(luò)才能輕易地超過典型的數(shù)據(jù)集類型。

3.3 海塞-自由優(yōu)化方法(Hessian-free method)

有研究者發(fā)現(xiàn)我們可以修改 DNN 的反向傳播算法來計(jì)算這樣的海塞-矢量乘積,因?yàn)樗鼈兛梢员豢醋魇欠较驅(qū)?shù) [65]。計(jì)算這種乘積的復(fù)雜度只是比計(jì)算梯度多一個(gè)常數(shù)因子。所得到的類的方法通常被稱為海塞-自由優(yōu)化方法,因?yàn)楫?dāng)訪問和使用 Hessian 信息時(shí),沒有顯式地存儲(chǔ) Hessian 矩陣。

由于目標(biāo)函數(shù)的非凸性,在 DNN 的情況中出現(xiàn)了其它的問題,真正的海塞矩陣可能不是正定矩陣。一般來說,在確定性優(yōu)化中,處理這個(gè)問題的兩種可能的方法是修改海森矩陣和運(yùn)用置信域(trust region)方法。這兩種方法都在訓(xùn)練 DNN 的情況中探討過,例如,在 [54,55] 中,提出了一種高斯牛頓法,其在(11)中函數(shù) F 的 Hessian 的公式中的第一項(xiàng)近似于 Hessian 矩陣(省略了正則化項(xiàng))

06238fcc-0a8f-11ee-962d-dac502259ad0.png

其中06321cae-0a8f-11ee-962d-dac502259ad0.png是關(guān)于第一個(gè)參數(shù)的損失函數(shù) l(·, ·) 的海塞矩陣,?p(w, xi) 是 dy-維函數(shù) p(w, x) 對(duì)于權(quán)重 w 的雅可比式,?^2 [pj (w, xi)] for all j ∈ {1, . . . , dy} 是關(guān)于 w 的按元素運(yùn)算的海塞矩陣。

3.4 子采樣海森方法(Subsampled Hessian method)

最近,在一系列論文(3, 15, 34)中,研究員們利用一個(gè)很一般的隨機(jī)模型框架,對(duì)凸區(qū)域和非凸情形下的置信域、線搜索和自適應(yīng)三次正則化方法進(jìn)行了分析。在這項(xiàng)工作中,它表明,只要梯度和 Hessian 估計(jì)是足夠準(zhǔn)確的一些正概率,使用隨機(jī)不精確梯度和 Hessian 信息的標(biāo)準(zhǔn)優(yōu)化方法就可以保留其收斂速度。

在機(jī)器學(xué)習(xí)和采樣 Hessian 和梯度的情況下,結(jié)果只要求| SK |必須選擇足夠大的相對(duì)于該算法采取的步驟的長度。例如,在 [ 3, 34 ],| SK |大小與置信域半徑的關(guān)系。需要注意的是,對(duì)于采樣的海塞矩陣,其對(duì)樣本集的大小要求比采樣的梯度要高得多,因此支持使用精確梯度的海塞估計(jì)的思想催生了強(qiáng)大的算法,它擁有強(qiáng)大理論支撐和良好的實(shí)踐高效性。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:從淺層到深層神經(jīng)網(wǎng)絡(luò):概覽深度學(xué)習(xí)優(yōu)化算法

文章出處:【微信號(hào):AI智勝未來,微信公眾號(hào):AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    處理技術(shù)也可以通過深度學(xué)習(xí)來獲得更優(yōu)異的效果,比如去噪、超分辨率和跟蹤算法等。為了跟上時(shí)代的步伐,必須對(duì)深度學(xué)習(xí)
    的頭像 發(fā)表于 01-11 10:51 ?1594次閱讀
    詳解<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用

    AlexNetMobileNet,帶你入門深度神經(jīng)網(wǎng)絡(luò)

    俊楠分享了典型模式-深度神經(jīng)網(wǎng)絡(luò)入門。本文詳細(xì)介紹了關(guān)于深度神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,并詳細(xì)介紹了各個(gè)階段模型的結(jié)構(gòu)及特點(diǎn)。直播回顧請(qǐng)點(diǎn)擊以下是精彩視頻內(nèi)容整理:問題引出
    發(fā)表于 05-08 15:57

    神經(jīng)網(wǎng)絡(luò)資料

    基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法
    發(fā)表于 05-16 17:25

    【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡(luò)

    傳播的,不會(huì)回流),區(qū)別于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。BP算法(Back Propagation):誤差反向傳播算法,用于更新網(wǎng)絡(luò)中的權(quán)重。BP神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 07-21 04:00

    神經(jīng)網(wǎng)絡(luò)和反向傳播算法

    03_深度學(xué)習(xí)入門_神經(jīng)網(wǎng)絡(luò)和反向傳播算法
    發(fā)表于 09-12 07:08

    改善深層神經(jīng)網(wǎng)絡(luò)--超參數(shù)優(yōu)化、batch正則化和程序框架 學(xué)習(xí)總結(jié)

    深度學(xué)習(xí)工程師-吳恩達(dá)》02改善深層神經(jīng)網(wǎng)絡(luò)--超參數(shù)優(yōu)化、batch正則化和程序框架 學(xué)習(xí)
    發(fā)表于 06-16 14:52

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),但此時(shí)神經(jīng)網(wǎng)絡(luò)的發(fā)展正處于下坡 時(shí)期,沒有引起足夠的重視。感知機(jī)提出到 2006 年以前,此階段稱為淺層 學(xué)習(xí),2006
    發(fā)表于 08-02 10:39

    神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

    微軟研究人員在深度神經(jīng)網(wǎng)絡(luò)(deep neural network)上取得突破, 使其在性能上能趕上目前最先進(jìn)的語音識(shí)別技術(shù)。
    發(fā)表于 08-17 11:54 ?47次下載

    快速了解神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的教程資料免費(fèi)下載

    本文檔的詳細(xì)介紹的是快速了解神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的教程資料免費(fèi)下載主要內(nèi)容包括了:機(jī)器學(xué)習(xí)概述,線性模型,前饋神經(jīng)網(wǎng)絡(luò),卷積
    發(fā)表于 02-11 08:00 ?33次下載
    快速了解<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的教程資料免費(fèi)下載

    基于改進(jìn)郊狼優(yōu)化算法淺層神經(jīng)網(wǎng)絡(luò)進(jìn)化

    基于改進(jìn)郊狼優(yōu)化算法淺層神經(jīng)網(wǎng)絡(luò)進(jìn)化
    發(fā)表于 06-24 15:40 ?15次下載

    什么是神經(jīng)網(wǎng)絡(luò)?什么是卷積神經(jīng)網(wǎng)絡(luò)?

    在介紹卷積神經(jīng)網(wǎng)絡(luò)之前,我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識(shí)。就目前而言,神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法的核
    的頭像 發(fā)表于 02-23 09:14 ?3099次閱讀

    深度ReLU網(wǎng)絡(luò)的對(duì)應(yīng)淺層網(wǎng)絡(luò)

    ? 只要你用了ReLU,我們就是好朋就是“淺度學(xué)習(xí)”。 最近有研究證明,所有基于ReLU的深度神經(jīng)網(wǎng)絡(luò)都可以重寫為功能相同的3層神經(jīng)網(wǎng)絡(luò)。 ? 基于這個(gè)證明,倫敦國王學(xué)院的研究團(tuán)隊(duì)還提
    的頭像 發(fā)表于 07-03 14:13 ?472次閱讀
    <b class='flag-5'>深度</b>ReLU<b class='flag-5'>網(wǎng)絡(luò)</b>的對(duì)應(yīng)<b class='flag-5'>淺層</b><b class='flag-5'>網(wǎng)絡(luò)</b>

    卷積神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn) 卷積神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)的區(qū)別

    深度神經(jīng)網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法,其主要特點(diǎn)是由多層神經(jīng)元構(gòu)成,可以根據(jù)數(shù)據(jù)自動(dòng)調(diào)整
    發(fā)表于 08-21 17:07 ?3609次閱讀

    淺析深度神經(jīng)網(wǎng)絡(luò)壓縮與加速技術(shù)

    深度神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的一種框架,它是一種具備至少一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)。與淺層
    的頭像 發(fā)表于 10-11 09:14 ?595次閱讀
    淺析<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>壓縮與加速技術(shù)

    神經(jīng)網(wǎng)絡(luò)優(yōu)化算法有哪些

    神經(jīng)網(wǎng)絡(luò)優(yōu)化算法深度學(xué)習(xí)領(lǐng)域中的核心技術(shù)之一,旨在通過調(diào)整網(wǎng)絡(luò)中的參數(shù)(如權(quán)重和偏差)來最小化
    的頭像 發(fā)表于 07-03 16:01 ?280次閱讀