0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)網(wǎng)絡(luò)中的參數(shù)和超參數(shù)

倩倩 ? 來(lái)源:極客Array ? 2020-04-17 14:40 ? 次閱讀

參數(shù)VS超參數(shù)(Parameters vs Hyperparameters)

想要你的深度神經(jīng)網(wǎng)絡(luò)起很好的效果,你還需要規(guī)劃好你的參數(shù)以及超參數(shù)。

什么是超參數(shù)?

比如算法中的learning rate a(學(xué)習(xí)率)、iterations(梯度下降法循環(huán)的數(shù)量)、L(隱藏層數(shù)目)、n^([l])(隱藏層單元數(shù)目)、choice of activation function(激活函數(shù)的選擇)都需要你來(lái)設(shè)置,這些數(shù)字實(shí)際上控制了最后的參數(shù)W和b的值,所以它們被稱作超參數(shù)。

實(shí)際上深度學(xué)習(xí)有很多不同的超參數(shù),之后我們也會(huì)介紹一些其他的超參數(shù),如momentum、mini batch size、regularization parameters等等。

如何尋找超參數(shù)的最優(yōu)值?

走Idea—Code—Experiment—Idea這個(gè)循環(huán),嘗試各種不同的參數(shù),實(shí)現(xiàn)模型并觀察是否成功,然后再迭代。

今天的深度學(xué)習(xí)應(yīng)用領(lǐng)域,還是很經(jīng)驗(yàn)性的過(guò)程,通常你有個(gè)想法,比如你可能大致知道一個(gè)最好的學(xué)習(xí)率值,可能說(shuō)a=0.01最好,我會(huì)想先試試看,然后你可以實(shí)際試一下,訓(xùn)練一下看看效果如何。然后基于嘗試的結(jié)果你會(huì)發(fā)現(xiàn),你覺(jué)得學(xué)習(xí)率設(shè)定再提高到0.05會(huì)比較好。如果你不確定什么值是最好的,你大可以先試試一個(gè)學(xué)習(xí)率a,再看看損失函數(shù)J的值有沒(méi)有下降。

然后你可以試一試大一些的值,然后發(fā)現(xiàn)損失函數(shù)的值增加并發(fā)散了。然后可能試試其他數(shù),看結(jié)果是否下降的很快或者收斂到在更高的位置。你可能?chē)L試不同的a并觀察損失函數(shù)J這么變了,試試一組值,然后可能損失函數(shù)變成這樣,這個(gè)a值會(huì)加快學(xué)習(xí)過(guò)程,并且收斂在更低的損失函數(shù)值上(箭頭標(biāo)識(shí)),我就用這個(gè)a值了。

在前面,還有很多不同的超參數(shù)。然而,當(dāng)你開(kāi)始開(kāi)發(fā)新應(yīng)用時(shí),預(yù)先很難確切知道,究竟超參數(shù)的最優(yōu)值應(yīng)該是什么。所以通常,你必須嘗試很多不同的值,并走這個(gè)循環(huán),試試各種參數(shù)。試試看5個(gè)隱藏層,這個(gè)數(shù)目的隱藏單元,實(shí)現(xiàn)模型并觀察是否成功,然后再迭代。

另一個(gè)近來(lái)深度學(xué)習(xí)的影響是它用于解決很多問(wèn)題,從計(jì)算機(jī)視覺(jué)語(yǔ)音識(shí)別,到自然語(yǔ)言處理,到很多結(jié)構(gòu)化的數(shù)據(jù)應(yīng)用,比如網(wǎng)絡(luò)廣告或是網(wǎng)頁(yè)搜索或產(chǎn)品推薦等等。

我所看到過(guò)的就有很多其中一個(gè)領(lǐng)域的研究員,這些領(lǐng)域中的一個(gè),嘗試了不同的設(shè)置,有時(shí)候這種設(shè)置超參數(shù)的直覺(jué)可以推廣,但有時(shí)又不會(huì)。所以我經(jīng)常建議人們,特別是剛開(kāi)始應(yīng)用于新問(wèn)題的人們,去試一定范圍的值看看結(jié)果如何。

然后在后面的筆記中,我們會(huì)用更系統(tǒng)的方法,用系統(tǒng)性的嘗試各種超參數(shù)取值。

然后其次,甚至是你已經(jīng)用了很久的模型,可能你在做網(wǎng)絡(luò)廣告應(yīng)用,在你開(kāi)發(fā)途中,很有可能學(xué)習(xí)率的最優(yōu)數(shù)值或是其他超參數(shù)的最優(yōu)值是會(huì)變的,所以即使你每天都在用當(dāng)前最優(yōu)的參數(shù)調(diào)試你的系統(tǒng),你還是會(huì)發(fā)現(xiàn),最優(yōu)值過(guò)一年就會(huì)變化,因?yàn)?a href="http://www.ttokpm.com/v/tag/1247/" target="_blank">電腦的基礎(chǔ)設(shè)施,CPU或是GPU可能會(huì)變化很大。

所以有一條經(jīng)驗(yàn)規(guī)律可能每幾個(gè)月就會(huì)變。如果你所解決的問(wèn)題需要很多年時(shí)間,只要經(jīng)常試試不同的超參數(shù),勤于檢驗(yàn)結(jié)果,看看有沒(méi)有更好的超參數(shù)數(shù)值,相信你慢慢會(huì)得到設(shè)定超參數(shù)的直覺(jué),知道你的問(wèn)題最好用什么數(shù)值。

這可能的確是深度學(xué)習(xí)比較讓人不滿的一部分,也就是你必須嘗試很多次不同可能性。

但參數(shù)設(shè)定這個(gè)領(lǐng)域,深度學(xué)習(xí)研究還在進(jìn)步中,所以可能過(guò)段時(shí)間就會(huì)有更好的方法決定超參數(shù)的值,也很有可能由于CPU、GPU、網(wǎng)絡(luò)和數(shù)據(jù)都在變化,這樣的指南可能只會(huì)在一段時(shí)間內(nèi)起作用,只要你不斷嘗試,并且嘗試保留交叉檢驗(yàn)或類似的檢驗(yàn)方法,然后挑一個(gè)對(duì)你的問(wèn)題效果比較好的數(shù)值。

近來(lái)受深度學(xué)習(xí)影響,很多領(lǐng)域發(fā)生了變化,從計(jì)算機(jī)視覺(jué)到語(yǔ)音識(shí)別到自然語(yǔ)言處理到很多結(jié)構(gòu)化的數(shù)據(jù)應(yīng)用,比如網(wǎng)絡(luò)廣告、網(wǎng)頁(yè)搜索、產(chǎn)品推薦等等;

有些同一領(lǐng)域設(shè)置超參數(shù)的直覺(jué)可以推廣,但有時(shí)又不可以,特別是那些剛開(kāi)始研究新問(wèn)題的人們應(yīng)該去嘗試一定范圍內(nèi)的結(jié)果如何,甚至那些用了很久的模型得學(xué)習(xí)率或是其他超參數(shù)的最優(yōu)值也有可能會(huì)改變。

有一條經(jīng)驗(yàn)規(guī)律:經(jīng)常試試不同的超參數(shù),勤于檢查結(jié)果,看看有沒(méi)有更好的超參數(shù)取值,你將會(huì)得到設(shè)定超參數(shù)的直覺(jué)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    時(shí)間緊急,所以菜鳥(niǎo)特此來(lái)詢問(wèn)-----神經(jīng)網(wǎng)絡(luò)參數(shù)畫(huà)法

    小弟想問(wèn)下 那個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)和改進(jìn)遺傳算法的圖標(biāo)是從程序面板哪里畫(huà)出來(lái)的?具體路徑哪里謝謝了
    發(fā)表于 03-16 14:55

    機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)參數(shù)的代價(jià)函數(shù)

    吳恩達(dá)機(jī)器學(xué)習(xí)筆記之神經(jīng)網(wǎng)絡(luò)參數(shù)的反向傳播算法
    發(fā)表于 05-22 15:11

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    ,同理,閾值越大,則容納的模式類也就越多----------以上純屬個(gè)人理解,如果有錯(cuò)誤歡迎指正。ART比較好地緩解了競(jìng)爭(zhēng)型學(xué)習(xí)的“可塑性-穩(wěn)定性窘境”,其中可塑性指神經(jīng)網(wǎng)絡(luò)要能夠?qū)W習(xí)新知識(shí),穩(wěn)定性
    發(fā)表于 07-21 04:30

    神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索有什么優(yōu)勢(shì)?

    近年來(lái),深度學(xué)習(xí)的繁榮,尤其是神經(jīng)網(wǎng)絡(luò)的發(fā)展,顛覆了傳統(tǒng)機(jī)器學(xué)習(xí)特征工程的時(shí)代,將人工智能的浪潮推到了歷史最高點(diǎn)。然而,盡管各種神經(jīng)網(wǎng)絡(luò)模型層出不窮,但往往模型性能越高,對(duì)參數(shù)的要求
    發(fā)表于 09-11 11:52

    改善深層神經(jīng)網(wǎng)絡(luò)--參數(shù)優(yōu)化、batch正則化和程序框架 學(xué)習(xí)總結(jié)

    《深度學(xué)習(xí)工程師-吳恩達(dá)》02改善深層神經(jīng)網(wǎng)絡(luò)--參數(shù)優(yōu)化、batch正則化和程序框架 學(xué)習(xí)總結(jié)
    發(fā)表于 06-16 14:52

    如何移植一個(gè)CNN神經(jīng)網(wǎng)絡(luò)到FPGA?

    )第二步:使用Lattice sensAI 軟件編譯已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),定點(diǎn)化網(wǎng)絡(luò)參數(shù)。該軟件會(huì)根據(jù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)設(shè)的FPGA資源進(jìn)行分析并給出性能評(píng)估報(bào)告,此外用戶還可以在軟件
    發(fā)表于 11-26 07:46

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是如何定義的?

    什么是卷積神經(jīng)網(wǎng)絡(luò)?ImageNet-2010網(wǎng)絡(luò)結(jié)構(gòu)是如何構(gòu)成的?有哪些基本參數(shù)?
    發(fā)表于 06-17 11:48

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測(cè)的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以提高模型的預(yù)測(cè)
    發(fā)表于 07-12 08:02

    可分離卷積神經(jīng)網(wǎng)絡(luò)在 Cortex-M 處理器上實(shí)現(xiàn)關(guān)鍵詞識(shí)別

    /激活要調(diào)節(jié)模型,使之不超出微控制器的內(nèi)存和計(jì)算限制范圍,必須執(zhí)行參數(shù)搜索。下表顯示了神經(jīng)網(wǎng)絡(luò)架構(gòu)及必須優(yōu)化的相應(yīng)參數(shù)。
    發(fā)表于 07-26 09:46

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    神經(jīng)網(wǎng)絡(luò)可以建立參數(shù)Kp,Ki,Kd自整定的PID控制器?;贐P神經(jīng)網(wǎng)絡(luò)的PID控制系統(tǒng)結(jié)構(gòu)框圖如下圖所示:控制器由兩部分組成:經(jīng)典增量式PID控制器;BP神經(jīng)網(wǎng)絡(luò)...
    發(fā)表于 09-07 07:43

    BP神經(jīng)網(wǎng)絡(luò)在水質(zhì)參數(shù)預(yù)測(cè)的應(yīng)用_張昕

    BP神經(jīng)網(wǎng)絡(luò)在水質(zhì)參數(shù)預(yù)測(cè)的應(yīng)用_張昕
    發(fā)表于 03-19 11:26 ?1次下載

    卷積神經(jīng)網(wǎng)絡(luò)的振動(dòng)信號(hào)模態(tài)參數(shù)識(shí)別

    神經(jīng)網(wǎng)絡(luò)改成處理一維信號(hào)的卷積神經(jīng)網(wǎng)絡(luò),其中輸入層改成待提取模態(tài)參數(shù)的振動(dòng)信號(hào)集合,中間層改成若干一維卷積層、抽樣層,輸出層得到的為信號(hào)對(duì)應(yīng)的Ⅳ階模態(tài)參數(shù)集合;然后,在誤差評(píng)估
    發(fā)表于 12-05 14:39 ?5次下載
    卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的振動(dòng)信號(hào)模態(tài)<b class='flag-5'>參數(shù)</b>識(shí)別

    深度神經(jīng)網(wǎng)絡(luò)不同參數(shù)調(diào)整規(guī)則總結(jié)

    在深度神經(jīng)網(wǎng)絡(luò),參數(shù)的調(diào)整是一項(xiàng)必備技能,通過(guò)觀察在訓(xùn)練過(guò)程的監(jiān)測(cè)指標(biāo)如損失loss和準(zhǔn)確率來(lái)判斷當(dāng)前模型處于什么樣的訓(xùn)練狀態(tài),及時(shí)調(diào)
    的頭像 發(fā)表于 08-29 15:53 ?4827次閱讀

    自構(gòu)造RBF神經(jīng)網(wǎng)絡(luò)及其參數(shù)優(yōu)化

    自構(gòu)造RBF神經(jīng)網(wǎng)絡(luò)及其參數(shù)優(yōu)化說(shuō)明。
    發(fā)表于 05-31 15:25 ?9次下載

    教大家怎么選擇神經(jīng)網(wǎng)絡(luò)參數(shù)

    1. 神經(jīng)網(wǎng)絡(luò)參數(shù)分類 神經(jīng)網(wǎng)路參數(shù)主要包
    的頭像 發(fā)表于 06-19 14:49 ?3510次閱讀
    教大家怎么選擇<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的<b class='flag-5'>超</b><b class='flag-5'>參數(shù)</b>