0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)中的代價(jià)函數(shù)與交叉熵

lviY_AI_shequ ? 來(lái)源:未知 ? 作者:李倩 ? 2018-05-09 15:04 ? 次閱讀

本文將介紹信息量,熵,交叉熵,相對(duì)熵的定義,以及它們與機(jī)器學(xué)習(xí)算法中代價(jià)函數(shù)的定義的聯(lián)系。

1. 信息量

信息的量化計(jì)算:

解釋如下:

信息量的大小應(yīng)該可以衡量事件發(fā)生的“驚訝程度”或不確定性:

如果有人告訴我們一個(gè)相當(dāng)不可能的事件發(fā)生了,我們收到的信息要多于我們被告知某個(gè)很可能發(fā)?的事件發(fā)?時(shí)收到的信息。如果我們知道某件事情?定會(huì)發(fā)?,那么我們就不會(huì)接收到信息。 也就是說(shuō),信息量應(yīng)該連續(xù)依賴(lài)于事件發(fā)生的概率分布p(x)。因此,我們想要尋找一個(gè)基于概率p(x)計(jì)算信息量的函數(shù)h(x),它應(yīng)該具有如下性質(zhì):

h(x) >= 0,因?yàn)樾畔⒘勘硎镜玫蕉嗌傩畔?,不?yīng)該為負(fù)數(shù)。

h(x, y) = h(x) + h(y),也就是說(shuō),對(duì)于兩個(gè)不相關(guān)事件x和y,我們觀察到兩個(gè)事件x, y同時(shí)發(fā)?時(shí)獲得的信息應(yīng)該等于觀察到事件各?發(fā)?時(shí)獲得的信息之和;

h(x)是關(guān)于p(x)的單調(diào)遞減函數(shù),也就是說(shuō),事件x越容易發(fā)生(概率p(x)越大),信息量h(x)越小。

又因?yàn)槿绻麅蓚€(gè)不相關(guān)事件是統(tǒng)計(jì)獨(dú)?的,則有p(x, y) =p(x)p(y)。根據(jù)不相關(guān)事件概率可乘、信息量可加,很容易想到對(duì)數(shù)函數(shù),看出h(x)一定與p(x)的對(duì)數(shù)有關(guān)。因此,有滿(mǎn)足上述性質(zhì)。

2. 熵(信息熵)

對(duì)于一個(gè)隨機(jī)變量X而言,它的所有可能取值的信息量的期望就稱(chēng)為熵。熵的本質(zhì)的另一種解釋?zhuān)鹤疃唐骄幋a長(zhǎng)度(對(duì)于離散變量)。

離散變量:

連續(xù)變量:

3. 交叉熵

現(xiàn)有關(guān)于樣本集的2個(gè)概率分布p和q,其中p為真實(shí)分布,q非真實(shí)分布。按照真實(shí)分布p來(lái)衡量識(shí)別一個(gè)樣本的熵,即基于分布p給樣本進(jìn)行編碼的最短平均編碼長(zhǎng)度為:

如果使用非真實(shí)分布q來(lái)給樣本進(jìn)行編碼,則是基于分布q的信息量的期望(最短平均編碼長(zhǎng)度),由于用q來(lái)編碼的樣本來(lái)自分布p,所以期望與真實(shí)分布一致。所以基于分布q的最短平均編碼長(zhǎng)度為:

上式CEH(p, q)即為交叉熵的定義。

4. 相對(duì)熵

將由q得到的平均編碼長(zhǎng)度比由p得到的平均編碼長(zhǎng)度多出的bit數(shù),即使用非真實(shí)分布q計(jì)算出的樣本的熵(交叉熵),與使用真實(shí)分布p計(jì)算出的樣本的熵的差值,稱(chēng)為相對(duì)熵,又稱(chēng)KL散度。

KL(p, q) = CEH(p, q) - H(p)=

相對(duì)熵(KL散度)用于衡量?jī)蓚€(gè)概率分布p和q的差異。注意,KL(p, q)意味著將分布p作為真實(shí)分布,q作為非真實(shí)分布,因此KL(p, q) != KL(q, p)。

5. 機(jī)器學(xué)習(xí)中的代價(jià)函數(shù)與交叉熵

若 p(x)是數(shù)據(jù)的真實(shí)概率分布, q(x)是由數(shù)據(jù)計(jì)算得到的概率分布。機(jī)器學(xué)習(xí)的目的就是希望q(x)盡可能地逼近甚至等于p(x) ,從而使得相對(duì)熵接近最小值0. 由于真實(shí)的概率分布是固定的,相對(duì)熵公式的后半部分(-H(p))就成了一個(gè)常數(shù)。那么相對(duì)熵達(dá)到最小值的時(shí)候,也意味著交叉熵達(dá)到了最小值。對(duì)q(x)的優(yōu)化就等效于求交叉熵的最小值。另外,對(duì)交叉熵求最小值,也等效于求最大似然估計(jì)(maximum likelihood estimation)。

特別的,在logistic regression中,p:真實(shí)樣本分布,服從參數(shù)為p的0-1分布,即X~B(1,p)

p(x = 1) = y

p(x = 0) = 1 - yq:待估計(jì)的模型,服從參數(shù)為q的0-1分布,即X~B(1,q)

p(x = 1) = h(x)

p(x = 0) = 1-h(x)

其中h(x)為logistic regression的假設(shè)函數(shù)。兩者的交叉熵為:

對(duì)所有訓(xùn)練樣本取均值得:

這個(gè)結(jié)果與通過(guò)最大似然估計(jì)方法求出來(lái)的結(jié)果一致。使用最大似然估計(jì)方法參加博客Logistic Regression.

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4284

    瀏覽量

    62328
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8353

    瀏覽量

    132315
  • 交叉熵
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    2348

原文標(biāo)題:信息量,熵,交叉熵,相對(duì)熵與代價(jià)函數(shù)

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    信息是什么?

    2018-04-22 開(kāi)胃學(xué)習(xí)數(shù)學(xué)系列 - 信息
    發(fā)表于 03-14 10:02

    什么是交叉?

    2018-04-22 開(kāi)胃學(xué)習(xí)數(shù)學(xué)系列 - 交叉
    發(fā)表于 03-21 11:08

    機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)參數(shù)的代價(jià)函數(shù)

    吳恩達(dá)機(jī)器學(xué)習(xí)筆記之神經(jīng)網(wǎng)絡(luò)參數(shù)的反向傳播算法
    發(fā)表于 05-22 15:11

    交叉的作用原理

    交叉作為損失函數(shù)在神經(jīng)網(wǎng)絡(luò)的作用和幾種常用的交叉損失
    發(fā)表于 06-03 09:10

    機(jī)器學(xué)習(xí)的分類(lèi)器

    各種機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景分別是什么?例如,k近鄰,貝葉斯,決策樹(shù),svm,邏輯斯蒂回歸和最大模型
    發(fā)表于 09-10 10:53

    大數(shù)據(jù)邊界向量調(diào)節(jié)函數(shù)支持向量機(jī)研究

    大數(shù)據(jù)邊界向量調(diào)節(jié)函數(shù)支持向量機(jī)研究_林蔚
    發(fā)表于 01-07 19:08 ?0次下載

    采用交叉支持向量機(jī)和模糊積分的電網(wǎng)故障診斷_邊莉

    采用交叉支持向量機(jī)和模糊積分的電網(wǎng)故障診斷_邊莉
    發(fā)表于 01-08 13:26 ?0次下載

    機(jī)器學(xué)習(xí)經(jīng)典損失函數(shù)比較

    所有的機(jī)器學(xué)習(xí)算法都或多或少的依賴(lài)于對(duì)目標(biāo)函數(shù)最大化或者最小化的過(guò)程。我們常常將最小化的函數(shù)稱(chēng)為損失函數(shù),它主要用于衡量模型的預(yù)測(cè)能力。
    的頭像 發(fā)表于 06-13 17:53 ?8517次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>經(jīng)典損失<b class='flag-5'>函數(shù)</b>比較

    機(jī)器學(xué)習(xí)的logistic函數(shù)和softmax函數(shù)總結(jié)

    本文簡(jiǎn)單總結(jié)了機(jī)器學(xué)習(xí)最常見(jiàn)的兩個(gè)函數(shù),logistic函數(shù)和softmax函數(shù)。首先介紹兩者的定義和應(yīng)用,最后對(duì)兩者的聯(lián)系和區(qū)別進(jìn)行了總結(jié)
    的頭像 發(fā)表于 12-30 09:04 ?9708次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的logistic<b class='flag-5'>函數(shù)</b>和softmax<b class='flag-5'>函數(shù)</b>總結(jié)

    基于交叉算法的跟馳模型標(biāo)定

    的確定性標(biāo)定方法會(huì)導(dǎo)致大量局部最優(yōu)值的出現(xiàn)。在此基礎(chǔ)上,本文提出了基于交叉算法的跟馳模型標(biāo)定的框架,基于蒙地卡羅與重要樣本策略逐步逼近參數(shù)的最優(yōu)概率密度函數(shù)。實(shí)例分別采用合成數(shù)據(jù)與實(shí)測(cè)數(shù)據(jù)標(biāo)定智能駕駛模型
    發(fā)表于 01-11 16:23 ?8次下載
    基于<b class='flag-5'>交叉</b><b class='flag-5'>熵</b>算法的跟馳模型標(biāo)定

    當(dāng)機(jī)器學(xué)習(xí)遇上SSD,會(huì)擦出怎樣的火花呢?

    判斷一個(gè)函數(shù)的好壞,這需要確定一個(gè)衡量標(biāo)準(zhǔn),也就是我們通常說(shuō)的損失函數(shù)(Loss Function),損失函數(shù)的確定也需要依據(jù)具體問(wèn)題而定,如回歸問(wèn)題一般采用歐式距離,分類(lèi)問(wèn)題一般采用交叉
    的頭像 發(fā)表于 09-07 16:12 ?2629次閱讀
    當(dāng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>遇上SSD,會(huì)擦出怎樣的火花呢?

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中分類(lèi)與回歸常用的幾種損失函數(shù)

    本文將介紹機(jī)器學(xué)習(xí)、深度學(xué)習(xí)中分類(lèi)與回歸常用的幾種損失函數(shù),包括均方差損失 Mean Squared Loss、平均絕對(duì)誤差損失 Mean Absolute Error Loss、Hu
    的頭像 發(fā)表于 10-09 16:36 ?6169次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中分類(lèi)與回歸常用的幾種損失<b class='flag-5'>函數(shù)</b>

    機(jī)器學(xué)習(xí)若干典型的目標(biāo)函數(shù)構(gòu)造方法

    幾乎所有的機(jī)器學(xué)習(xí)算法都?xì)w結(jié)為求解最優(yōu)化問(wèn)題。有監(jiān)督學(xué)習(xí)算法在訓(xùn)練時(shí)通過(guò)優(yōu)化一個(gè)目標(biāo)函數(shù)而得到模型,然后用模型進(jìn)行預(yù)測(cè)。無(wú)監(jiān)督學(xué)習(xí)算法通常通
    的頭像 發(fā)表于 12-26 09:52 ?4216次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>中</b>若干典型的目標(biāo)<b class='flag-5'>函數(shù)</b>構(gòu)造方法

    機(jī)器學(xué)習(xí)找一個(gè)好用的函數(shù)的原因是什么

    (1)機(jī)器學(xué)習(xí)中經(jīng)典的“支持向量機(jī)(SVM)”的主要提出者弗拉基米爾·萬(wàn)普尼克(Vladimir Vapnik),在其著作《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》這樣定義
    的頭像 發(fā)表于 11-02 16:15 ?750次閱讀

    機(jī)器學(xué)習(xí)交叉驗(yàn)證方法

    機(jī)器學(xué)習(xí)交叉驗(yàn)證(Cross-Validation)是一種重要的評(píng)估方法,它通過(guò)將數(shù)據(jù)集分割成多個(gè)部分來(lái)評(píng)估模型的性能,從而避免過(guò)擬合或欠擬合問(wèn)題,并幫助選擇最優(yōu)的超參數(shù)。本文將
    的頭像 發(fā)表于 07-10 16:08 ?811次閱讀