本文將介紹信息量,熵,交叉熵,相對(duì)熵的定義,以及它們與機(jī)器學(xué)習(xí)算法中代價(jià)函數(shù)的定義的聯(lián)系。
1. 信息量
信息的量化計(jì)算:
解釋如下:
信息量的大小應(yīng)該可以衡量事件發(fā)生的“驚訝程度”或不確定性:
如果有人告訴我們一個(gè)相當(dāng)不可能的事件發(fā)生了,我們收到的信息要多于我們被告知某個(gè)很可能發(fā)?的事件發(fā)?時(shí)收到的信息。如果我們知道某件事情?定會(huì)發(fā)?,那么我們就不會(huì)接收到信息。 也就是說(shuō),信息量應(yīng)該連續(xù)依賴(lài)于事件發(fā)生的概率分布p(x)。因此,我們想要尋找一個(gè)基于概率p(x)計(jì)算信息量的函數(shù)h(x),它應(yīng)該具有如下性質(zhì):
h(x) >= 0,因?yàn)樾畔⒘勘硎镜玫蕉嗌傩畔?,不?yīng)該為負(fù)數(shù)。
h(x, y) = h(x) + h(y),也就是說(shuō),對(duì)于兩個(gè)不相關(guān)事件x和y,我們觀察到兩個(gè)事件x, y同時(shí)發(fā)?時(shí)獲得的信息應(yīng)該等于觀察到事件各?發(fā)?時(shí)獲得的信息之和;
h(x)是關(guān)于p(x)的單調(diào)遞減函數(shù),也就是說(shuō),事件x越容易發(fā)生(概率p(x)越大),信息量h(x)越小。
又因?yàn)槿绻麅蓚€(gè)不相關(guān)事件是統(tǒng)計(jì)獨(dú)?的,則有p(x, y) =p(x)p(y)。根據(jù)不相關(guān)事件概率可乘、信息量可加,很容易想到對(duì)數(shù)函數(shù),看出h(x)一定與p(x)的對(duì)數(shù)有關(guān)。因此,有滿(mǎn)足上述性質(zhì)。
2. 熵(信息熵)
對(duì)于一個(gè)隨機(jī)變量X而言,它的所有可能取值的信息量的期望就稱(chēng)為熵。熵的本質(zhì)的另一種解釋?zhuān)鹤疃唐骄幋a長(zhǎng)度(對(duì)于離散變量)。
離散變量:
連續(xù)變量:
3. 交叉熵
現(xiàn)有關(guān)于樣本集的2個(gè)概率分布p和q,其中p為真實(shí)分布,q非真實(shí)分布。按照真實(shí)分布p來(lái)衡量識(shí)別一個(gè)樣本的熵,即基于分布p給樣本進(jìn)行編碼的最短平均編碼長(zhǎng)度為:
如果使用非真實(shí)分布q來(lái)給樣本進(jìn)行編碼,則是基于分布q的信息量的期望(最短平均編碼長(zhǎng)度),由于用q來(lái)編碼的樣本來(lái)自分布p,所以期望與真實(shí)分布一致。所以基于分布q的最短平均編碼長(zhǎng)度為:
上式CEH(p, q)即為交叉熵的定義。
4. 相對(duì)熵
將由q得到的平均編碼長(zhǎng)度比由p得到的平均編碼長(zhǎng)度多出的bit數(shù),即使用非真實(shí)分布q計(jì)算出的樣本的熵(交叉熵),與使用真實(shí)分布p計(jì)算出的樣本的熵的差值,稱(chēng)為相對(duì)熵,又稱(chēng)KL散度。
KL(p, q) = CEH(p, q) - H(p)=
相對(duì)熵(KL散度)用于衡量?jī)蓚€(gè)概率分布p和q的差異。注意,KL(p, q)意味著將分布p作為真實(shí)分布,q作為非真實(shí)分布,因此KL(p, q) != KL(q, p)。
5. 機(jī)器學(xué)習(xí)中的代價(jià)函數(shù)與交叉熵
若 p(x)是數(shù)據(jù)的真實(shí)概率分布, q(x)是由數(shù)據(jù)計(jì)算得到的概率分布。機(jī)器學(xué)習(xí)的目的就是希望q(x)盡可能地逼近甚至等于p(x) ,從而使得相對(duì)熵接近最小值0. 由于真實(shí)的概率分布是固定的,相對(duì)熵公式的后半部分(-H(p))就成了一個(gè)常數(shù)。那么相對(duì)熵達(dá)到最小值的時(shí)候,也意味著交叉熵達(dá)到了最小值。對(duì)q(x)的優(yōu)化就等效于求交叉熵的最小值。另外,對(duì)交叉熵求最小值,也等效于求最大似然估計(jì)(maximum likelihood estimation)。
特別的,在logistic regression中,p:真實(shí)樣本分布,服從參數(shù)為p的0-1分布,即X~B(1,p)
p(x = 1) = y
p(x = 0) = 1 - yq:待估計(jì)的模型,服從參數(shù)為q的0-1分布,即X~B(1,q)
p(x = 1) = h(x)
p(x = 0) = 1-h(x)
其中h(x)為logistic regression的假設(shè)函數(shù)。兩者的交叉熵為:
對(duì)所有訓(xùn)練樣本取均值得:
這個(gè)結(jié)果與通過(guò)最大似然估計(jì)方法求出來(lái)的結(jié)果一致。使用最大似然估計(jì)方法參加博客Logistic Regression.
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4284瀏覽量
62328 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315 -
交叉熵
+關(guān)注
關(guān)注
0文章
4瀏覽量
2348
原文標(biāo)題:信息量,熵,交叉熵,相對(duì)熵與代價(jià)函數(shù)
文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛(ài)好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論