0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三種常見的損失函數(shù)和兩種常用的激活函數(shù)介紹和可視化

電子工程師 ? 來源:lq ? 2019-05-05 11:42 ? 次閱讀

【導(dǎo)語】本文對梯度函數(shù)和損失函數(shù)間的關(guān)系進(jìn)行了介紹,并通過可視化方式進(jìn)行了詳細(xì)展示。另外,作者對三種常見的損失函數(shù)和兩種常用的激活函數(shù)也進(jìn)行了介紹和可視化。

你需要掌握關(guān)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基礎(chǔ)知識。本文嘗試通過可視化方法,對損失函數(shù)、梯度下降和反向傳播之間的關(guān)系進(jìn)行介紹。

損失函數(shù)和梯度下降之間的關(guān)系

為了對梯度下降過程進(jìn)行可視化,我們先來看一個簡單的情況:假設(shè)神經(jīng)網(wǎng)絡(luò)的最后一個節(jié)點(diǎn)輸出一個權(quán)重?cái)?shù)w,該網(wǎng)絡(luò)的目標(biāo)值是0。在這種情況下,網(wǎng)絡(luò)所使用的損失函數(shù)為均方誤差(MSE)。

當(dāng)w大于0時,MSE的導(dǎo)數(shù) dy/dw 值為正。dy/dw 為正的原因可以解釋為,w中的正方向變化將導(dǎo)致y的正方向變化。為了減少損失值,需要在w的負(fù)方向上進(jìn)行如下變換:

當(dāng)w小于0時,MSE的導(dǎo)數(shù) dy/dw 值為負(fù),這意味著w中的正方向變化將導(dǎo)致y的負(fù)方向變化。 為了減少損失,需要在w的正方向上做如下變換:

因此,權(quán)重更新的公式如下:

其中 learning_rate 是一個常量,用于調(diào)節(jié)每次更新的導(dǎo)數(shù)的百分比。調(diào)整 Learning_rate 值主要是用于防止w更新步伐太小或太大,或者避免梯度爆炸(梯度太大)或梯度消失的問題(梯度太小)。

下圖展示了一個更長且更貼近實(shí)際的計(jì)算過程,在該計(jì)算過程中,需要使用sigmoid激活函數(shù)對權(quán)重進(jìn)行處理。為了更新權(quán)重w1,相對于w1的損失函數(shù)的導(dǎo)數(shù)可以以如下的方式得到:

損失函數(shù)對權(quán)重的求導(dǎo)過程

從上面闡釋的步驟可以看出,神經(jīng)網(wǎng)絡(luò)中的權(quán)重由損失函數(shù)的導(dǎo)數(shù)而不是損失函數(shù)本身來進(jìn)行更新或反向傳播。因此,損失函數(shù)本身對反向傳播并沒有影響。下面對各類損失函數(shù)進(jìn)行了展示:

L2損失函數(shù)

MSE(L2損失)的導(dǎo)數(shù)更新的步長幅度為2w。 當(dāng)w遠(yuǎn)離目標(biāo)值0時,MSE導(dǎo)數(shù)的步長幅度變化有助于向w反向傳播更大的步長,當(dāng)w更接近目標(biāo)值0時,該變化使得向w進(jìn)行反向傳播的步長變小。

L1損失函數(shù)

MAE(L1損失)的導(dǎo)數(shù)是值為1或負(fù)1的常數(shù),這可能不是理想的區(qū)分w與目標(biāo)值之間距離的方式。

交叉熵?fù)p失函數(shù)

交叉熵?fù)p失函數(shù)中w的范圍是0和1之間。當(dāng)w接近1時,交叉熵減少到0。交叉熵的導(dǎo)數(shù)是 -1/w。

Sigmoid激活函數(shù)

Sigmoid函數(shù)的導(dǎo)數(shù)值域范圍在0到0.25之間。 sigmoid函數(shù)導(dǎo)數(shù)的多個乘積可能會得到一個接近于0的非常小的數(shù)字,這會使反向傳播失效。這類問題常被稱為梯度消失。

Relu激活函數(shù)

Relu是一個較好的激活函數(shù),其導(dǎo)數(shù)為1或0,在反向傳播中使網(wǎng)絡(luò)持續(xù)更新權(quán)重或不對權(quán)重進(jìn)行更新。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4237

    瀏覽量

    61969
  • 梯度
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    10291
  • 可視化
    +關(guān)注

    關(guān)注

    1

    文章

    1141

    瀏覽量

    20738

原文標(biāo)題:可視化深入理解損失函數(shù)與梯度下降 | 技術(shù)頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    常見的幾種可視化介紹

    說說常見的幾種可視化一、信息可視化信息可視化就是對抽象數(shù)據(jù)進(jìn)行直觀視覺呈現(xiàn)的研究,抽象數(shù)據(jù)既包含數(shù)值數(shù)據(jù),也包含非數(shù)值數(shù)據(jù)如文本信息、地圖信息等,它們可通過利用圖形圖像處理、人機(jī)交互、
    發(fā)表于 07-12 07:49

    Keras可視化神經(jīng)網(wǎng)絡(luò)架構(gòu)的4方法

    解模型結(jié)構(gòu)、激活函數(shù)、模型參數(shù)形狀(神經(jīng)元數(shù)量)等keras 中有一些現(xiàn)成的包可以創(chuàng)建我們的神經(jīng)網(wǎng)絡(luò)模型的可視化表示。前個包可以在模型訓(xùn)練之前使用(只需要定義和編譯模型);但是Ten
    發(fā)表于 11-02 14:55

    keras可視化介紹

    , 0.24421487748622894]5 訓(xùn)練過程的可視化:keras + Tensorboard Tensorboard提供訓(xùn)練過程可視化的功能,是通過keras的回調(diào)函數(shù)來實(shí)現(xiàn)的。 # 截取部分代碼如下
    發(fā)表于 08-18 07:53

    兩種標(biāo)準(zhǔn)信號之間的函數(shù)變換

    函數(shù)變換的方法解決兩種標(biāo)準(zhǔn)信號之間的轉(zhuǎn)換,進(jìn)而闡述了數(shù)學(xué)在解決實(shí)際問題中的應(yīng)用。關(guān)鍵詞:函數(shù)變換、標(biāo)準(zhǔn)信號。Abstract: This paper resolved the conversion between two st
    發(fā)表于 08-05 08:14 ?8次下載

    基于面繪制與體繪制的CT可視化實(shí)現(xiàn)方法

    醫(yī)學(xué)圖像可視化方法分為面繪制和體繪制。討論了兩種繪制方法的思想和優(yōu)缺點(diǎn),介紹兩種算法的機(jī)理和實(shí)現(xiàn)過程。采用Visualizati
    發(fā)表于 02-21 14:48 ?37次下載

    函數(shù)可視化與Matlab作

    函數(shù)可視化與Matlab作2.1 實(shí)驗(yàn)與觀察:函數(shù)可視化2.1.1 Matlab二維繪圖命令1.周期函數(shù)與線性p-周期
    發(fā)表于 10-17 00:30 ?2142次閱讀
    <b class='flag-5'>函數(shù)</b>的<b class='flag-5'>可視化</b>與Matlab作

    三種波形函數(shù)振蕩器電路

    三種波形函數(shù)振蕩器電路
    發(fā)表于 02-25 16:10 ?1026次閱讀
    <b class='flag-5'>三種</b>波形<b class='flag-5'>函數(shù)</b>振蕩器電路

    Python的三種函數(shù)應(yīng)用及代碼

    布爾值。舉例如下: 2.map()函數(shù)的用法 map(func,seq)函數(shù)包含個參數(shù),map()適用于列表seq所有的元素,它返回一個新的列表(被函數(shù)func改變后的列表)。 3.
    發(fā)表于 11-15 13:07 ?1325次閱讀
    Python的<b class='flag-5'>三種</b><b class='flag-5'>函數(shù)</b>應(yīng)用及代碼

    ReLU到Sinc的26神經(jīng)網(wǎng)絡(luò)激活函數(shù)可視化大盤點(diǎn)

    本文介紹了26個激活函數(shù)的圖示及其一階導(dǎo)數(shù),在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)決定來自給定輸入集的節(jié)點(diǎn)的輸出,其中非線性
    發(fā)表于 01-11 17:42 ?3.1w次閱讀
    ReLU到Sinc的26<b class='flag-5'>種</b>神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>激活</b><b class='flag-5'>函數(shù)</b><b class='flag-5'>可視化</b>大盤點(diǎn)

    帕塞瓦定理的兩種常見形式

    帕塞瓦定理的兩種常見形式, 在我的《隨機(jī)信號分析》里面作為附錄4, 即帕塞瓦定理的兩種常見形式, 第三種形式即不
    的頭像 發(fā)表于 04-02 11:13 ?9656次閱讀

    函數(shù)宏的三種封裝方式

    范圍在宏的第一個分號后便結(jié)束。即 a = b 和 b = tmp 均不受控制語句所作用。 因此,在工程中,一般使用三種方式
    的頭像 發(fā)表于 12-22 15:49 ?3609次閱讀

    CNN的三種可視化方法介紹

    導(dǎo)讀 對神經(jīng)網(wǎng)絡(luò)進(jìn)行可視化分析不管是在學(xué)習(xí)上還是實(shí)際應(yīng)用上都有很重要的意義,基于此,本文介紹了3CNN的可視化方法:可視化中間特征圖,
    的頭像 發(fā)表于 12-29 11:49 ?2333次閱讀

    詳解十激活函數(shù)的優(yōu)缺點(diǎn)

    激活函數(shù)(Activation Function)是一添加到人工神經(jīng)網(wǎng)絡(luò)中的函數(shù),旨在幫助網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式。類似于人類大腦中基于神經(jīng)元的模型,
    的頭像 發(fā)表于 03-05 16:15 ?1.3w次閱讀
    詳解十<b class='flag-5'>種</b><b class='flag-5'>激活</b><b class='flag-5'>函數(shù)</b>的優(yōu)缺點(diǎn)

    卷積神經(jīng)網(wǎng)絡(luò)激活函數(shù)的作用

    起著至關(guān)重要的作用,它們可以增加網(wǎng)絡(luò)的非線性,提高網(wǎng)絡(luò)的表達(dá)能力,使網(wǎng)絡(luò)能夠?qū)W習(xí)到更加復(fù)雜的特征。本文將詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的作用、常見
    的頭像 發(fā)表于 07-03 09:18 ?328次閱讀

    前饋神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和常見激活函數(shù)

    激活函數(shù)的非線性變換,能夠?qū)W習(xí)和模擬復(fù)雜的函數(shù)映射,從而解決各種監(jiān)督學(xué)習(xí)任務(wù)。本文將詳細(xì)闡述前饋神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),包括其組成層、權(quán)重和偏置、激活
    的頭像 發(fā)表于 07-09 10:31 ?232次閱讀