相對(duì)熵,又稱為KL散度(Kullback-Leibler divergence),是兩個(gè)概率分布P和Q差別的非對(duì)稱性的度量。近日,CMU的助理教授Simon DeDeo就在推特上表示:“用到KL散度的領(lǐng)域十分廣泛,包括心理學(xué)、認(rèn)知學(xué)(epistemic)、熱力學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算、幾何學(xué)等等。關(guān)于這個(gè)話題我能開(kāi)一場(chǎng)研討會(huì)?!?/span>
于是,Simon Dedeo就在他的推特上列出了KL散度在各領(lǐng)域不同的使用情況,并附上相關(guān)文章。論智整理編譯如下:
心理學(xué)
在心理學(xué)領(lǐng)域,KL散度可以作為預(yù)測(cè)注意力指向哪里的優(yōu)秀預(yù)測(cè)器。在美國(guó)南加州大學(xué)2005年發(fā)表的一篇論文中,研究人員用數(shù)據(jù)流和新穎的數(shù)學(xué)方法探究了人們?cè)隗@訝情況下大腦的反應(yīng)。他們認(rèn)為,驚訝是一種一般的、理論上的概念,它可以由第一原理生成,并還可以通過(guò)時(shí)空尺寸、感覺(jué)形態(tài)和數(shù)據(jù)類型及數(shù)據(jù)來(lái)源形成。
利用貝葉斯框架理論,研究人員捕捉到實(shí)驗(yàn)對(duì)象的先驗(yàn)概率分布,然后將背景信息表示為:
其中模型或假設(shè)為M。有了先驗(yàn)分布,新數(shù)據(jù)帶來(lái)的基本影響D將先驗(yàn)分布轉(zhuǎn)換為后驗(yàn)分布{P(M|D)},表示為:
在這個(gè)框架中,如果實(shí)驗(yàn)對(duì)象的情緒未受影響,那么D就不含有驚訝情緒,即后驗(yàn)和先驗(yàn)是一樣的。反之,如果研究對(duì)象產(chǎn)生驚訝的情緒,那么后驗(yàn)和先驗(yàn)就會(huì)產(chǎn)生距離。于是研究人員通過(guò)測(cè)量后驗(yàn)和先驗(yàn)之間的距離,間接地測(cè)出是否有驚訝知情。這就用到了KL散度,表示為:
論文地址:ilab.usc.edu/surprise/
認(rèn)知學(xué)
KL散度可以作為決定實(shí)驗(yàn)方向的測(cè)量標(biāo)準(zhǔn)(讓模型產(chǎn)生的效果最大化)。通常,T-optimality是用來(lái)獲得最優(yōu)設(shè)計(jì),以分辨具有正態(tài)分布的同方差模型。該功能經(jīng)過(guò)拓展,還用于研究文學(xué)中異方差情況和二元響應(yīng)模型。在2007年的一篇論文中,來(lái)自西班牙和意大利的研究人員提出了一種基于KL距離的新標(biāo)準(zhǔn),用于區(qū)分相應(yīng)的不具有動(dòng)態(tài)分布的模型。
統(tǒng)計(jì)學(xué)
KL散度在統(tǒng)計(jì)學(xué)中的應(yīng)用可就太多了,但是作者重點(diǎn)討論了它作為測(cè)量近似求解法失敗的工具。 在作者曾經(jīng)寫(xiě)的博客中有這樣一個(gè)例子:假設(shè)我們是太空科學(xué)家,到了一座遙遠(yuǎn)的陌生星球,我們想研究星球上一種蟲(chóng)子,這種蟲(chóng)子有10顆牙齒,但是長(zhǎng)期生活過(guò)后,蟲(chóng)子的牙齒會(huì)脫落一部分,收集了一部分樣本后,我們得到了以下牙齒數(shù)量分布:
雖然數(shù)據(jù)很好,但是有一點(diǎn)問(wèn)題。我們離地球太遠(yuǎn)了,傳輸數(shù)據(jù)回去的成本太高。我們現(xiàn)在想將數(shù)據(jù)簡(jiǎn)化成簡(jiǎn)單模型,只保留一兩個(gè)參數(shù)。其中一種方法是用一種均勻分布的方式表示蟲(chóng)子的牙齒數(shù)量。我們知道一共存在11種可能的情況:
很顯然,我們的數(shù)據(jù)并不是均勻分布的,但是它看起來(lái)也不像我們通常所見(jiàn)的某種分布形態(tài)。另一種方法是我們可以試著用二項(xiàng)分布對(duì)數(shù)據(jù)建模。在這個(gè)案例中,我們需要做的就是估計(jì)二項(xiàng)分布中概率參數(shù)。我們知道,假設(shè)試驗(yàn)次數(shù)為n,概率為p,那么期望值就是E[x]=n?p。在這個(gè)案例中,n=10,期望值就是我們數(shù)據(jù)的平均數(shù),假設(shè)是5.7吧。所以我們對(duì)p的最佳估計(jì)就是0.57.得到的二項(xiàng)分布如下:
將這些模型與原始數(shù)據(jù)對(duì)比,沒(méi)有一個(gè)能完美契合的,但是哪個(gè)更好呢?
其中雖然存在一些錯(cuò)誤的指標(biāo),但我們最初的目的是盡量減少發(fā)送的信息。所以,想要知道那種模型保留了原始數(shù)據(jù)最多的信息,最好的方法就是用KL散度。
計(jì)算(機(jī)器學(xué)習(xí))
KL散度可以作為檢測(cè)模型是否有效的工具,即可以顯示模型留有多少的無(wú)用信息。在Still等人2012年發(fā)表的一篇論文中,他們?yōu)榱藴y(cè)試模型的質(zhì)量,利用KL散度。
另一個(gè)機(jī)器學(xué)習(xí)的應(yīng)用:將KL散度(通常在這種情況下被稱為“交叉熵”)當(dāng)做自動(dòng)編碼器、深度學(xué)習(xí)等的基本損失函數(shù)。
另外,還可用作算法公平性(algorithmic fairness)。如何以最佳方式限制一個(gè)預(yù)測(cè)算法,同時(shí)還要保證公平。本文作者與2016年發(fā)表論文,研究了大數(shù)據(jù)中的變量問(wèn)題。
作者認(rèn)為,當(dāng)我們用機(jī)器學(xué)習(xí)處理公共政策時(shí),我們發(fā)現(xiàn)很多有用的變量與其他一些有問(wèn)題的變量結(jié)合在了一起。這一現(xiàn)象在大數(shù)據(jù)時(shí)代更加嚴(yán)重,有些預(yù)測(cè)根本沒(méi)有強(qiáng)有力的理論支撐。如果高質(zhì)量算法無(wú)法提供有力的證明,那么隨意做出決策是非常危險(xiǎn)的。為了保證預(yù)測(cè)的準(zhǔn)確性,作者用KL散度對(duì)兩種決策進(jìn)行比較。
論文地址:arxiv.org/abs/1412.4643
計(jì)算(壓縮)
當(dāng)為一種系統(tǒng)設(shè)計(jì)的壓縮算法無(wú)法應(yīng)用到另一種系統(tǒng)上時(shí),就需要用KL散度進(jìn)行計(jì)算。
文化發(fā)展
我們認(rèn)為KL散度還可以作為研究個(gè)人發(fā)展與創(chuàng)新人物的測(cè)量標(biāo)準(zhǔn)。在2016年的一篇論文中,研究人員認(rèn)為,在一個(gè)不確定資源分布的陌生環(huán)境中進(jìn)行研究,總會(huì)在新舊發(fā)現(xiàn)中搖擺不定,二者要進(jìn)行權(quán)衡。在查找信息的過(guò)程中也是如此,求知若渴的人總會(huì)猶豫,是在已知領(lǐng)域深究,還是開(kāi)發(fā)新領(lǐng)域的研究呢?為了研究這一決策過(guò)程,他們以達(dá)爾文為例,找出了他的閱讀筆記中出現(xiàn)的所有書(shū),并用KL散度生成了一個(gè)模型,量化了他的讀書(shū)選擇。
論文地址:www.sciencedirect.com/science/article/pii/S0010027716302840
同時(shí),KL散度還能用來(lái)研究競(jìng)爭(zhēng)與合作的創(chuàng)造以及想法的分享。在前不久發(fā)表的論文中,美國(guó)研究人員就利用KL散度研究在法國(guó)大革命期間,人們是如何做出民主決策的。
論文地址:www.pnas.org/content/115/18/4607.short
量子理論
劍橋大學(xué)的學(xué)生Felix Leditzky寫(xiě)了一本關(guān)于相對(duì)熵的介紹及其在量子理論中的應(yīng)用的博士論文,其中包括KL散度是如何在互換算子的情況下生成量子的。論文共200頁(yè),感興趣的同學(xué)可以拜讀一下。
論文地址:pdfs.semanticscholar.org/30a7/6a44a4f0f882c58bd0b636d6393956258c3f.pdf
用戶@postquantum補(bǔ)充:“如果你有一些受限的操作類別,那么KL散度會(huì)告訴你你需要多少原材料(研究成果、量子糾纏、信息),這種測(cè)量是獨(dú)一無(wú)二的?!本唧w可參考論文:arxiv.org/abs/quant-ph/0207177
另外如果你想使用廣義熵和超統(tǒng)計(jì)學(xué)(即耦合系統(tǒng)),這是Rényi熵的特殊情況。
論文地址:www.pnas.org/content/108/16/6390
數(shù)字人文學(xué)科
KL散度與TFIDF相關(guān),但是當(dāng)它涉及粗?;瘯r(shí),KL散度的性能更好。(特征最明顯的單詞在梳理文件時(shí)部分KL較高;停止詞的KL值最低)。具體可查看相關(guān)論文。
論文地址:www.mdpi.com/1099-4300/15/6/2246
經(jīng)濟(jì)學(xué)
另外,KL散度在經(jīng)濟(jì)學(xué)中也有出現(xiàn),推特用戶@itsaguytalking就發(fā)表論文,用KL散度研究不同國(guó)家之間的貿(mào)易情況,論文研究的目的是如何測(cè)量不同意見(jiàn)之間的距離。
論文地址:www.columbia.edu/~ez2197/HowToMeasureDisagreement.pdf
生物學(xué)
在2015年的一篇論文中,研究者Nihat Ay認(rèn)為,隨機(jī)交互單元的相互依賴型通常由靜態(tài)聯(lián)合概率分布的KL散度量化得來(lái)的,而概率分布來(lái)自對(duì)應(yīng)的參數(shù)集合上。本文中的設(shè)置由靜態(tài)擴(kuò)展為動(dòng)態(tài)版本,利用馬爾科夫鏈信息幾何來(lái)捕捉暫時(shí)的相互依賴關(guān)系。
論文地址:www.mdpi.com/1099-4300/17/4/2432
幾何學(xué)
將微分幾何擴(kuò)展到概率單純形時(shí),KL散度作為非測(cè)量連接。
熱力學(xué)
一項(xiàng)可以從不平衡的系統(tǒng)中提取的測(cè)量方法,使其達(dá)到平衡。
結(jié)語(yǔ)
由此可見(jiàn),KL散度作為概率的概念之一,在多個(gè)領(lǐng)域都得到了應(yīng)用。除了上述所介紹的領(lǐng)域外,KL散度最常用的領(lǐng)域還是統(tǒng)計(jì)學(xué)。除了上文所說(shuō)的用處,在模型選擇上,它還是赤池信息量準(zhǔn)則的基礎(chǔ)標(biāo)準(zhǔn)。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132315 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8854瀏覽量
137212
原文標(biāo)題:從機(jī)器學(xué)習(xí)到人文,詳解KL散度的多種用途
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論