0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習中最常見的10個方法盤點

Dbwd_Imgtec ? 來源:網(wǎng)絡整理 ? 作者:工程師陳翠 ? 2018-10-05 08:40 ? 次閱讀

在過去十年中,人們對機器學習的興趣激增。幾乎每天,我們都可以在各種各樣的計算機科學課程、行業(yè)會議、華爾街日報等等看到有關機器學習的討論。在所有關于機器學習的討論中,許多人把機器學習能做的事情和他們希望機器學習做的事情混為一談。從根本上講,機器學習是使用算法從原始數(shù)據(jù)中提取信息,并在某種類型的模型中表示這些信息。我們使用這個模型來推斷還沒有建模的其他數(shù)據(jù)。

神經(jīng)網(wǎng)絡是機器學習的一種模型,它們至少有50年歷史了。神經(jīng)網(wǎng)絡的基本單元是節(jié)點(node),基本上是受哺乳動物大腦中的生物神經(jīng)元啟發(fā)。神經(jīng)元之間的連接也以生物的大腦為模型,這些連接隨著時間的推移而發(fā)展的方式是為“訓練”。

在20世紀80年代中期和90年代初期,許多重要的模型架構進步都是在神經(jīng)網(wǎng)絡中進行的。然而,為了獲得良好性能所需的時間和數(shù)據(jù)越來越多,這極大的降低了研究人員的興趣。在21世紀初期,計算能力呈指數(shù)級增長,研究人員看到了計算機技術的“寒武紀爆發(fā)”。作為該領域的一個重要競爭者——深度學習,因為計算能力的爆炸式增長,贏得了許多重要的機器學習競賽。截至目前,這種趨勢仍然沒有減退;今天,我們看到機器學習的每個角落都提到了深度學習。

最近,我開始閱讀有關該深度學習的學術論文。根據(jù)我的研究,以下是一些對該領域的發(fā)展產(chǎn)生巨大影響的出版物:

紐約大學基于梯度的學習應用于文檔識別(1998),它將卷積神經(jīng)網(wǎng)絡引入機器學習世界。

多倫多大學的DeepBoltzmann Machines(2009),它為Boltzmann機器提供了一種新的學習算法,包含許多隱藏變量層。

斯坦福和谷歌使用大規(guī)模無監(jiān)督學習構建高級功能(2012),解決了僅使用未標記數(shù)據(jù)構建高級,類特定功能檢測器的問題。

Berkeley的DeCAF-一種用于通用視覺識別的深度卷積激活功能(2013),它發(fā)布了DeCAF,這是一種深度卷積激活功能的開源實現(xiàn),以及所有相關的網(wǎng)絡參數(shù),使視覺研究人員能夠進行深度實驗跨越一系列視覺概念學習范例的表示。

DeepMind使用Deep ReinforcementLearning(2016)播放Atari,它提供了第一個深度學習模型,可以使用強化學習直接從高維感覺輸入成功學習控制策略。

通過研究和學習論文,我學到了很多關于深度學習的豐富知識。在這里,我想分享AI工程師可以應用于機器學習問題的10種強大的深度學習方法。但首先,讓我們來定義深度學習是什么。深度學習對于許多人來說是一個挑戰(zhàn),因為它的形式在過去十年中逐漸發(fā)生了改變。為了向各位更好的說明深層學習的地位,下圖說明了人工智能,機器學習和深度學習之間關系的概念。

人工智能領域很廣泛,并且已經(jīng)存在了很長時間。深度學習是機器學習領域的一個子集,而機器學習只是人工智能的一個子領域。將深度學習網(wǎng)絡與之前的前饋多層網(wǎng)絡進行區(qū)分:

深度學習比以前的網(wǎng)絡更多的神經(jīng)元;

深度學習中有更復雜的連接層的方式;

“寒武紀爆炸”的提供的計算能力;

深度學習可以自動進行特征提取。

當我說到“更多神經(jīng)元”時,是指近年來神經(jīng)元的數(shù)量不斷增加,深度學習就可以表示更為復雜的模型。層也從多層網(wǎng)絡中每一層的完全連接,進化成卷積神經(jīng)網(wǎng)絡中神經(jīng)元片段的局部連接,以及與遞歸神經(jīng)網(wǎng)絡中的同一神經(jīng)元的循環(huán)連接(與前一層的連接除外)。

深度學習可以被定義為具有大量參數(shù)和層數(shù)的神經(jīng)網(wǎng)絡:

無人監(jiān)督的預訓練網(wǎng)絡;

卷積神經(jīng)網(wǎng)絡;

循環(huán)神經(jīng)網(wǎng)絡;

遞歸神經(jīng)網(wǎng)絡。

在這篇文章中,我主要對后三種網(wǎng)絡進行講解。卷積神經(jīng)網(wǎng)絡(CNN)基本上式已經(jīng)跨越使用共享權重的空間延伸的標準神經(jīng)網(wǎng)絡。CNN旨在通過在內部的卷積來識別圖像,該卷積看到圖像上識別對象的邊緣。遞歸神經(jīng)網(wǎng)絡基本上是一個使用時間延伸擴展空間的標準神經(jīng)網(wǎng)絡,它提取進入下一時間步的邊沿,而不是在同一時間進入下一層。RNN進行序列識別,例如語音或文本信號,因其內部具有循環(huán),意味著在RNN網(wǎng)絡中存在短時記憶。遞歸神經(jīng)網(wǎng)絡更類似于分層網(wǎng)絡,其中輸入序列實際上與時間無關,但輸入必須以樹狀方式分層處理。

下面的10種方法可以應用于所有這些架構。

反向傳播

Back-prop反向傳播只是一種簡單計算函數(shù)的偏導數(shù)的方法,它具有函數(shù)組合的形式(如神經(jīng)網(wǎng)絡中)。當你使用基于梯度的方法解決最優(yōu)化問題(梯度下降只是其中之一)時,你希望在每次迭代時計算函數(shù)漸變,這個時候它便可以發(fā)揮作用。

對于神經(jīng)網(wǎng)絡,其目標函數(shù)具有組合的形式。你如何計算梯度?有兩種常見的方法可以做到:(i)分析微分法。如果你知道函數(shù)的形式,你只需使用鏈式規(guī)則(基本微積分)計算導數(shù)。(ii)有限差分的近似微分。該方法在計算上是昂貴的,因為評估函數(shù)的數(shù)量是O(N),其中N是參數(shù)的數(shù)量。與解析微分相比,這種方法的計算成本是昂貴的。在調試時,通常使用有限差分驗證反向傳播的執(zhí)行效果。

隨機梯度下降

想象梯度下降的直觀方式是想象一條源自山頂?shù)暮恿鞯穆窂?。梯度下降的目標正是河流努力實現(xiàn)的目標,即從山頂流到最低點。

現(xiàn)在,如果山的地形形狀使得河流在到達其最終目的地之前不必完全停在任何地方,這是我們想要的理想情況。在機器學習中,這相當于說,我們已經(jīng)從初始點(山頂)開始找到解決方案的全局最小值(或最優(yōu)值)。然而,可能由于地形性質,導致河流路徑出現(xiàn)若干的坑洼,會迫使河流困住和停滯。在機器學習方面,這種坑洼被稱為局部最優(yōu)解,這是我們不想要的情況。當然有很多方法可以解決局部最優(yōu)解問題,這里我不打算進一步討論。

因此,梯度下降傾向于陷入局部最小值,這取決于地形的性質(或ML術語中的函數(shù))。但是,當你有一種特殊的山地形狀(形狀像一個碗,用ML術語稱為凸函數(shù))時,算法始終能夠找到最優(yōu)值。你可以想象將這條河流可視化。在機器學習中,這些特殊的地形(也稱為凸函數(shù))總是需要優(yōu)化的。另外,你從山頂開始(即函數(shù)的初始值)的位置不同,最終你到達山底的路徑也完全不同。同樣,根據(jù)河流的流淌速度(即梯度下降算法的學習速率或步長),你可能會以不同的方式到達目的地。你是否會陷入或避免一個坑(局部最?。紩贿@兩個標準影響。

學習速率衰減

調整隨機梯度下降優(yōu)化程序的學習速率可以提高性能并縮短訓練時間。有時這也被稱為學習率退火或自適應學習率。在訓練期間最簡單且最常用的學習率調整是隨時間降低學習率的技術。在訓練初期使用較大的學習速率值,可以對學習速率進行大幅調整;在訓練后期,降低學習速率,使模型以一個較小的速率進行權重的更新。這種技術在早期可以快速學習獲得一些較好的權重,并在后期對權重進行微調。

兩種流行且易于使用的學習率衰減如下:

在每個環(huán)節(jié)逐漸降低學習率。

在特定時期使用大幅下降來降低學習速率。

Dropout

具有大量參數(shù)的深度神經(jīng)網(wǎng)絡是非常強大的機器學習系統(tǒng)。然而,過度擬合是這種網(wǎng)絡中的嚴重問題。大型網(wǎng)絡使用起來也很慢,因此在測試時將許多不同的大型神經(jīng)網(wǎng)絡的預測結合起來很難處理過度擬合。Dropout就是一種解決此問題的技術。

深度學習中最常見的10個方法盤點

關鍵思想是在訓練期間從神經(jīng)網(wǎng)絡中隨機刪除單元及其連接,這可以防止單元間的過度適應。在訓練期間,從指數(shù)數(shù)量的不同“稀疏”網(wǎng)絡中抽取樣本。在測試時,通過簡單地使用具有較小權重的單解開網(wǎng)絡(untwinednetwork),很容易近似平均所有這些稀疏網(wǎng)絡以達到預測的效果。這顯著減少了過度擬合,并且比其他正則化方法表現(xiàn)的更好。Dropout已被證明可以改善神經(jīng)網(wǎng)絡在計算機視覺,語音識別,文檔分類和計算生物學等領域的監(jiān)督學習任務的性能,并在許多基準數(shù)據(jù)集上獲得最先進的結果。

最大池化

最大池化是基于樣本的離散化過程。目的是對輸入表示(圖像、隱藏層輸出矩陣等)進行下采樣,通過降低其維數(shù)并允許對包含在子區(qū)域中的特征進行合并。

通過提供表征的抽象形式,這種方法在某種程度上有助于解決過擬合。同樣,它也通過減少學習參數(shù)的數(shù)量和提供基本的內部表征的轉換不變性來減少計算量。最大池化是通過將最大過濾器應用于通常不重疊的初始表征子區(qū)域來完成的。

批量歸一化

當然,包括深度網(wǎng)絡在內的神經(jīng)網(wǎng)絡需要仔細調整權重初始化和學習參數(shù)。批量歸一化有助于讓中國過程更簡單一點。

權重問題:

無論那種權重的初始化,隨機還是憑經(jīng)驗選擇,它們都和學習權重差別很大。考慮一個小批量數(shù)據(jù)集,在最初的時期,在特征激活時都會有許多異常值。

深度神經(jīng)網(wǎng)絡本身脆弱的,即初始層的微小擾動都會導致后面層很大的變化。

在反向傳播期間,這些現(xiàn)象會導致梯度偏移,這意味著在學習權重以產(chǎn)生所需輸出之前,梯度必須補償異常值。這也將導致需要額外的時間來收斂。

深度學習中最常見的10個方法盤點

批量歸一化將這些梯度從離散規(guī)則化為正常值,并在小批量的范圍內朝向共同目標(通過歸一化它們)流動。

學習率問題:通常,學習率保持較小,使得只有一小部分的梯度用來校正權重,原因是異常激活的梯度不應該影響已經(jīng)學習好的權重。通過批量歸一化,這些異常值被激活的可能性就會減少,因此可以使用更高的學習率來加速學習過程。

長短期記憶

LSTM網(wǎng)絡具有以下三個方面,使其與遞歸神經(jīng)網(wǎng)絡中的常規(guī)神經(jīng)元區(qū)分開來:

它可以控制何時讓輸入進入神經(jīng)元。

它可以控制何時記住上一個時間步驟中計算的內容。

它可以控制何時將輸出傳遞給下一個時間戳。

LSTM的優(yōu)點在于它根據(jù)當前輸入本身決定所有這些,如下圖所示:

深度學習中最常見的10個方法盤點

當前時間戳處的輸入信號x(t)決定所有上述3個點。輸入門決定點1.遺忘門在點2上做出決定,輸出門在點3上做出決定。輸入門能單獨能夠做出這三個決定。這受到了我們的大腦是如何工作的啟發(fā),并且可以處理突然的上下文切換。

skim-gram

詞嵌入模型的目標是為了每個詞匯學習一個高維密集表征,其中嵌入向量之間的相似性顯示了相應單詞之間的語義或句法相似性。Skip-gram是學習詞嵌入算法的模型。

skip-gram模型(以及許多其他詞嵌入模型)背后的主要思想如下:如果兩個詞匯有相似的上下文,則它們是相似的。

換句話說,假設你有一句話,比如“貓是哺乳動物”。如果你使用術語“狗”而不是“貓”,句子仍然是一個有意義的句子。因此在該示例中,“狗”和“貓”可以共享相同的背景(即“是哺乳動物”)。

基于上述假設,你可以考慮一個上下文窗口(一個包含k個連續(xù)術語的窗口)。然后你應該跳過其中一個單詞,并嘗試學習除了跳過的一個術語之外的所有術語并預測跳過的術語的神經(jīng)網(wǎng)絡。因此如果兩個單詞在大型語料庫中重復地共享相似的上下文,那些這些術語的嵌入向量將具有相似的向量。

連續(xù)的詞袋模型(Continuous Bag of Words)

在自然語言處理問題中,我們希望學習將文檔中的每個單詞表示為數(shù)字向量,使得出現(xiàn)在相似上下文中的單詞具有彼此接近的向量。在連續(xù)詞袋模型中,目標是能夠使用圍繞特定單詞的上下文并預測特定單詞。

我們通過在一個大型語料庫中抽取大量句子來做到這一點,每次看到一個單詞時,我們都會使用其上下文單詞。然后我們將上下文單詞輸入到一個神經(jīng)網(wǎng)絡中,并預測該上下文中心的單詞。

當我們有數(shù)千個這樣的上下文單詞和中心單詞時,我們就有一個神經(jīng)網(wǎng)絡數(shù)據(jù)集的實例。我們訓練神經(jīng)網(wǎng)絡,在經(jīng)過編碼的隱藏層的輸出表示特定單詞的嵌入。碰巧的是,當我們在大量句子上訓練時,類似上下文中的單詞會得到類似的向量。

遷移學習

考慮下圖像是如何通過卷積神經(jīng)網(wǎng)絡的。假設你有一個圖像,你應用卷積,你得到像素組合作為輸出。如果碰到了邊緣,則再次應用卷積,所以現(xiàn)在輸出是邊或線的組合。然后再次應用卷積,此時的輸出將是線的組合,依此類推。你可以將其視為每個層尋找特定模式。神經(jīng)網(wǎng)絡的最后一層往往變得非常專業(yè)。如果你正在使用ImageNet,那么你的網(wǎng)絡最后一層將尋找兒童或狗或飛機或其他什么。再后退幾層你可能會看到網(wǎng)絡正在尋找眼睛或耳朵或嘴或輪子。

深度CNN中的每個層逐漸建立了更高和更高級別的特征表征。最后幾層往往專注于你輸入模型的任何數(shù)據(jù)。另一方面,早期的圖層更通用,是在更大類的圖片中找到很多簡單的模式。

遷移學習是指你在一個數(shù)據(jù)集上訓練CNN,切斷最后一層,在其他不同的數(shù)據(jù)集上重新訓練模型的最后一層。直觀地說,你正在重新訓練模型以識別不同的更高級別的功能。因此,模型訓練的時間會大大減少,因此當你沒有足夠的數(shù)據(jù)或者訓練所需的太多資源時,遷移學習是一種有用的工具。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5422

    瀏覽量

    120591

原文標題:深度學習中最常見的10個方法,你應該知道!

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    數(shù)據(jù)分析中最常用、最好用的20Python庫分享

    【導讀】Python在解決數(shù)據(jù)科學任務和挑戰(zhàn)方面處于領先地位。而一些方便易用的庫則幫助了開發(fā)人員高效開發(fā)。在這里我們整理了20深度學習、數(shù)據(jù)分析中最常用、最好用的Python庫,供
    的頭像 發(fā)表于 01-03 09:28 ?5153次閱讀
    數(shù)據(jù)分析<b class='flag-5'>中最常</b>用、最好用的20<b class='flag-5'>個</b>Python庫分享

    機器學習中最常見錯誤解決方案

    近日,軟件架構師、數(shù)據(jù)科學家、Kaggle 大師 Agnis Liukis 撰寫了一篇文章,他在文中談了談在機器學習中最常見的一些初學者錯誤的解決方案,以確保初學者了解并避免它們。
    的頭像 發(fā)表于 08-08 16:56 ?2370次閱讀

    盤點PCB設計中的常見錯誤

    搞技術,難免存在錯誤,只有經(jīng)歷過錯誤,才能更快地成長。PCB設計也一樣,今天就來盤點一下PCB設計中最常見的錯誤。
    的頭像 發(fā)表于 01-12 09:53 ?1174次閱讀
    <b class='flag-5'>盤點</b>PCB設計中的<b class='flag-5'>常見</b>錯誤

    AI工程師 10 深度學習方法

    學到了大量關于深度學習的相關知識。在這里,我想分享人工智能工程師 10 用于解決機器學習問題的強大的
    發(fā)表于 03-07 20:17

    電路中最常見到的電容使用方法

    基于電容常用功能,詳細介紹各功能應用電路中最常見到的電容使用方法
    發(fā)表于 03-17 08:08

    請問模擬前端中最常見的模/數(shù)轉換器有哪幾種類型?

    模擬前端中最常見的模/數(shù)轉換器有哪幾種類型?
    發(fā)表于 04-20 06:33

    音頻合成中最常見的基本波形

    本文介紹音頻合成中最常見的幾個基本波形。這些基本波形在模擬聲音合成中,是電壓控制振蕩器(VCO)與低頻振蕩器(LFO)的發(fā)聲依據(jù)。當然在數(shù)字音頻合成中,也是最基本的和需要了解的
    發(fā)表于 10-07 13:11 ?1w次閱讀

    深度學習中最常見10方法,你應該知道!

    由 無名氏 于 星期一, 2018-09-17 12:49 發(fā)表 在過去十年中,人們對機器學習的興趣激增。幾乎每天,我們都可以在各種各樣的計算機科學課程、行業(yè)會議、華爾街日報等等看到有關機器學習
    發(fā)表于 09-18 22:58 ?3803次閱讀

    PCB組裝中最常見的缺陷

    PCB 組裝中最常見的缺陷及其預防方法。 在快速轉向 PCB 組裝階段,一錯誤會影響整個 PCB 組裝的生產(chǎn)。但是,雖然錯誤是每個過程的一部分,但可以非常避免。 請檢查 PCB 組裝過程中的以下
    的頭像 發(fā)表于 09-25 18:59 ?2448次閱讀

    探頭在測量過程中最常見的錯誤

    以下這些錯誤,是大家在測量過程中最常見的,請牢記它們并在平時的測量中規(guī)避這些錯誤,以便獲得更精準的測量結果。
    的頭像 發(fā)表于 08-14 11:02 ?1320次閱讀

    最常見的目標跟蹤算法

    對象跟蹤問題一直是計算機視覺的熱點任務之一,簡單的可以分為單目標跟蹤與多目標跟蹤,最常見的目標跟蹤算法都是基于檢測的跟蹤算法,首先發(fā)現(xiàn)然后標記,好的跟蹤算法必須具備REID的能力。今天小編斗膽給大家推薦一結合傳統(tǒng)算法跟深度
    的頭像 發(fā)表于 09-14 16:20 ?2555次閱讀

    PCB設計中最常見到的五設計問題以及相應的對策

    包含有 PCB 設計。由于設計過程錯綜復雜,很多常見的錯誤會反復出現(xiàn)。下面羅列出在 PCB 設計中最常見到的五設計問題以及相應的對策。
    的頭像 發(fā)表于 10-11 15:10 ?1023次閱讀

    深度學習框架對照表

    深度學習框架,并對它們進行對比。 1. TensorFlow TensorFlow是由Google Brain團隊開發(fā)的一款深度學習框架,目前是
    的頭像 發(fā)表于 08-17 16:11 ?694次閱讀

    反激式電源中最常見的噪聲來源

    電子發(fā)燒友網(wǎng)站提供《反激式電源中最常見的噪聲來源.doc》資料免費下載
    發(fā)表于 11-15 10:34 ?1次下載
    反激式電源<b class='flag-5'>中最常見</b>的噪聲來源

    功能測試覆蓋中最常見的是什么方法

    功能測試覆蓋是軟件測試過程中的一重要環(huán)節(jié),它主要關注軟件產(chǎn)品的功能實現(xiàn)是否符合需求規(guī)格說明。在功能測試覆蓋中,有多種方法可以采用,以確保測試的全面性和有效性。本文將詳細介紹功能測試覆蓋中最常見
    的頭像 發(fā)表于 05-30 14:55 ?364次閱讀