編者按:數(shù)據(jù)科學(xué)家Jonny Brooks-Bartlett撰寫的零基礎(chǔ)概率論教程的第六篇,深入淺出地講解概率分布這一概念。
在之前的文章中,我介紹了概率論的基本概念和基本公理。數(shù)學(xué)家會(huì)為這些感到興奮,但在實(shí)踐中,概率論中比較常用的是概率分布。
概率分布用于許多領(lǐng)域,但我們很少看到相應(yīng)的解釋。通常作者會(huì)假定讀者已經(jīng)了解概率分布了。本文將嘗試解釋什么是概率分布。
什么是概率分布?
回憶一下,隨機(jī)變量是值為一個(gè)隨機(jī)事件的結(jié)果的變量(如果不知所云,請(qǐng)溫習(xí)下本系列的第一篇)。例如,擲骰子的點(diǎn)數(shù)或拋硬幣的結(jié)果是隨機(jī)變量。
概率分布是隨機(jī)變量所有可能結(jié)果及其相應(yīng)概率的列表。
例如,均勻6面骰的概率分布為:
更明確地說(shuō),這是一個(gè)有限支持的離散單元概率分布的例子。這讀起來(lái)比較拗口,所以讓我分解這一表述,逐步理解。
離散(discrete)這意味著如果我選擇任意兩個(gè)連續(xù)的結(jié)果,我無(wú)法取得位于兩者之間的結(jié)果。例如,考慮投擲六面骰的結(jié)果1點(diǎn)和2點(diǎn),我沒(méi)法得到兩者之間的點(diǎn)數(shù)(例如,我沒(méi)法擲出1.5點(diǎn))。在數(shù)學(xué)上,我們會(huì)說(shuō),結(jié)果列表是可數(shù)的(不過(guò)我不會(huì)進(jìn)一步定義可數(shù)集和不可數(shù)集了,否則就沒(méi)完沒(méi)了了)。你大概可以猜想,當(dāng)我們涉及連續(xù)(continuous)概率分布時(shí),這一點(diǎn)會(huì)不成立。
單元(univariate)這意味著我們只有一個(gè)(隨機(jī))變量。在這一情形下,我們只有擲骰的結(jié)果。相反,如果我們有不止一個(gè)變量,那我們稱其為多元分布(multivariate distribution)。如果我們有兩個(gè)變量,那么這一多元分布的特例稱為二元分布(bivariate distribution)。
有限支持(finite support)這意味著結(jié)果的數(shù)目是有限的?;旧?,支持是定義概率分布的結(jié)果。所以,在我們的例子中,支持是1、2、3、4、5、6. 由于這些值不是無(wú)限的,所以我們說(shuō)這是有限支持的概率分布。
函數(shù)入門
我們?yōu)楹握務(wù)摵瘮?shù)?
在上面的投擲六面骰的例子中,只有六種可能的結(jié)果,所以我們可以在一個(gè)表格中寫下整個(gè)概率分布。但在很多場(chǎng)景中,結(jié)果的數(shù)量可能很大,用表格羅列會(huì)很枯燥乏味。更糟的是,可能結(jié)果的數(shù)目也許是無(wú)限的,在那樣的情形下,就沒(méi)法編寫表格了。
為了免去為每個(gè)分布編寫表格的麻煩,我們可以轉(zhuǎn)而定義一個(gè)函數(shù)。函數(shù)允許我們簡(jiǎn)潔地定義一個(gè)概率分布。
所以,讓我們首先介紹一般意義上的函數(shù),接著再介紹用于概率分布的函數(shù)。
什么是函數(shù)?
從一個(gè)非常抽象的層次上說(shuō),函數(shù)是一個(gè)接受輸入并返回輸出的盒子。在大多數(shù)情況下,函數(shù)事實(shí)上需要對(duì)輸入進(jìn)行一些處理,以得到有用的輸出。
讓我們自行定義一個(gè)函數(shù)。比方說(shuō),這個(gè)函數(shù)接受一個(gè)數(shù)字作為輸入,在輸入數(shù)字上加2,并返回新數(shù)字作為輸出,如下圖所示:
所以,如果輸入是5,我們的函數(shù)會(huì)加上2,并返回輸出5 + 2 = 7
函數(shù)記法
給我們想要?jiǎng)?chuàng)建的所有函數(shù)畫示意圖是件枯燥乏味的工作。我們轉(zhuǎn)而使用符號(hào)/字母,以便更簡(jiǎn)潔地表示函數(shù)。我們用“x”替換單詞“input”(輸入),用“f”替換單詞“function”(函數(shù)),用“f(x)”替換單詞“輸出”。所以,上面的示意圖現(xiàn)在變成這樣了:
這要好一點(diǎn),不過(guò),需要畫示意圖表示函數(shù)做了什么這個(gè)問(wèn)題仍然存在。數(shù)學(xué)家可不想浪費(fèi)寶貴的精力畫盒子,所以發(fā)明了更好的表示函數(shù)的方式,什么也不用畫。在數(shù)學(xué)上,我們的函數(shù)可以定義為:
這和上面的示意圖是等價(jià)的,因?yàn)槲覀兛梢悦鞔_看到函數(shù)的輸入是x,我們的函數(shù)稱為f,并且我們知道函數(shù)在輸入上加2,并返回x + 2作為輸出。
值得注意的是,函數(shù)名和輸入的字母選擇是任意的。我可以說(shuō)輸入是“a”,將函數(shù)稱為“add_two”(加二):
這和之前的函數(shù)定義完全等價(jià)。
這里關(guān)鍵的一點(diǎn)是,有了函數(shù)定義,我們可以看到如何轉(zhuǎn)換任何輸入。給定函數(shù)f(x) = x + 2,我們會(huì)知道如果輸入是10做什么,或者如果輸入是10000做什么。所以我們不用像之前那樣列出一個(gè)表格。
這里需要指出的是,我們即將使用的函數(shù)的輸入和輸出都是數(shù)字。然而,函數(shù)可以接受任何你喜歡的東西作為輸入,并輸出任何你喜歡的東西(甚至什么都不輸出)。例如,我們可以在編程語(yǔ)言中編寫一個(gè)函數(shù),接受一個(gè)文本字符串作為輸入,并輸出字符串的第一個(gè)字母。下面是用Python編程語(yǔ)言寫的一個(gè)例子:
def get_first_letter(my_string):
return my_string[0]
get_first_letter('Hello World') # 結(jié)果為 'H'
譯者注:這里僅為示例,實(shí)際定義函數(shù)的時(shí)候還需要考慮輸入字符串為空的情況,需要捕獲IndexError異?;蛳刃信袛嘧址欠駷榭?。
用圖像表示函數(shù)
函數(shù)的主要優(yōu)勢(shì)之一是讓我們知道如何轉(zhuǎn)換任何輸入,所以我們可以利用這一知識(shí)可視化函數(shù)?;氐街暗睦觙(x) = x + 2. 它的圖像是這樣的:
底下的橫軸表示輸入數(shù)字,相應(yīng)地,左側(cè)的縱軸表示輸出值f(x) = x + 2. 例如,我們看到,表示函數(shù)的藍(lán)線穿過(guò)了x = 1處的(白色)縱線和f(x) = 3處的(白色)橫線。這從圖像上顯示了f(1) = 1 + 2 = 3.
函數(shù)的參數(shù)
函數(shù)最重要的特征之一是參數(shù)。參數(shù)是函數(shù)內(nèi)部不必作為輸入傳入的數(shù)字。在我們的例子f(x) = x + 2中,數(shù)字“2”是一個(gè)參數(shù),因?yàn)槲覀冃枰鼇?lái)定義函數(shù),但沒(méi)有將它納入函數(shù)的輸入。
參數(shù)之所以重要,是因?yàn)樗鼈冎苯記Q定輸出。例如,定義另一個(gè)函數(shù)h(x) = x + 3. 函數(shù)f(x) = x + 2和新定義的函數(shù)h(x) = x + 3之間唯一的區(qū)別是參數(shù)值(新函數(shù)的參數(shù)是“3”而不是“2”)。這一差異意味著相同輸入得到的輸出完全不同。讓我們看下相應(yīng)的圖像:
參數(shù)可以算是概率(分布)函數(shù)最重要的特征了,因?yàn)樗鼈兌x了函數(shù)的輸出,告訴我們隨機(jī)過(guò)程得到特定結(jié)果的似然。在數(shù)據(jù)科學(xué)問(wèn)題中,我們常常試圖估計(jì)參數(shù),我之前曾經(jīng)介紹過(guò)兩種估計(jì)參數(shù)的方法:最大似然估計(jì)和貝葉斯推斷。
現(xiàn)在我們可以用函數(shù)語(yǔ)言討論概率分布了。
概率質(zhì)量函數(shù):離散概率分布
當(dāng)我們使用概率函數(shù)描述離散概率分布時(shí),我們將其稱為概率質(zhì)量函數(shù)(probability mass function),通常縮寫為pmf.
還記得我們?cè)谶@個(gè)系列的第一篇提到的隨機(jī)變量概率的記法嗎?我們將隨機(jī)變量記為大寫的X,而將變量的值記為小寫的x,隨機(jī)變量概率則記為P(X=x). 因此,如果我們的隨機(jī)變量是投擲骰子的點(diǎn)數(shù),我們可以將擲出3點(diǎn)的概率記為P(X=3) = 1/6.
概率質(zhì)量函數(shù)(記為“f”)返回結(jié)果的概率:
我知道這里開始有點(diǎn)嚇人,但請(qǐng)多容忍一點(diǎn)數(shù)學(xué)。上面的公式不過(guò)是表明,概率質(zhì)量函數(shù)“f”返回結(jié)果x的概率。
所以讓我們回到均勻6面骰的例子(你大概已經(jīng)厭煩這個(gè)例子了吧?)。概率質(zhì)量函數(shù)f不過(guò)是返回結(jié)果的概率。因此擲出三點(diǎn)的概率是f(3) = 1/6.
由于概率質(zhì)量函數(shù)返回概率,所以它必須遵循我在前一篇描述的概率法則(公理)。也就是說(shuō),概率質(zhì)量函數(shù)輸出0到1之間的值(含),而所有結(jié)果的概率質(zhì)量函數(shù)輸出之和等于1. 在數(shù)學(xué)上,我們可以將這兩個(gè)條件表達(dá)為:
所以說(shuō),我們可以用表格和函數(shù)表示離散概率分布。我們也可以用圖形表示投擲骰子這個(gè)例子:
離散概率分布示例:伯努利分布
有些概率分布出現(xiàn)得非常頻繁,人們對(duì)它們進(jìn)行了全面的研究,并命名了這些概率分布。伯努利分布(Bernoulli distribution)就是一個(gè)例子。它是描述有兩種可能結(jié)果的過(guò)程的概率分布,比如拋硬幣。
伯努利分布的概率質(zhì)量函數(shù)為:
這里,x表示結(jié)果,值為1或0. 所以我們可以說(shuō)正面 = 1,反面 = 0. p是表示結(jié)果為1的概率的參數(shù)。所以在扔均勻硬幣問(wèn)題中,扔出正面或反面的概率是0.5,因此我們令p = 0.5.
我們經(jīng)常想要明確標(biāo)出概率質(zhì)量函數(shù)中包含的參數(shù),所以伯努利分布的概率質(zhì)量函數(shù)可以表示為:
注意,這里我們使用分號(hào)隔開輸入變量和參數(shù)。
概率密度函數(shù):連續(xù)概率分布
有時(shí)我們關(guān)心具有連續(xù)結(jié)果的隨機(jī)變量的概率。例如,從某個(gè)族群中隨機(jī)抽取的成人的身高,出租車司機(jī)等待下一個(gè)乘客的時(shí)間。在這些例子中,用連續(xù)概率分布描述隨機(jī)變量更合適。
當(dāng)我們使用概率函數(shù)描述連續(xù)概率分布時(shí),我們稱其為概率密度函數(shù)(probability density function),通常縮寫為pdf.
概率密度函數(shù)的概念比概率質(zhì)量函數(shù)要稍微復(fù)雜一點(diǎn),不過(guò)別擔(dān)心,我們能夠理解。我覺(jué)得先講一個(gè)連續(xù)概率分布的例子,再討論連續(xù)概率分布的性質(zhì),比較容易理解。
連續(xù)概率分布示例:正態(tài)分布
正態(tài)分布大概是所有概率和統(tǒng)計(jì)學(xué)問(wèn)題中最常見的分布了。它如此常見的原因之一是中央極限定理。本文不會(huì)深入介紹這個(gè)定理,不過(guò)你可以參考Carson Forter寫的博客文章The Only Theorem Data Scientists Need To Know,其中解釋了這個(gè)定理是什么,還有它和正態(tài)分布的關(guān)系。
正態(tài)分布的概率密度函數(shù)定義為:
其中,參數(shù)(分號(hào)后的符號(hào))μ表示均值(分布的中心點(diǎn)),σ表示標(biāo)準(zhǔn)差(分布的散布程度)。
如果我們將均值設(shè)為零(μ=0),標(biāo)準(zhǔn)差設(shè)為1(σ=1),那么我們將得到如下圖所示的分布:
正態(tài)分布是一個(gè)無(wú)限支持的連續(xù)單元概率分布。無(wú)限支持意味著我們可以為負(fù)無(wú)窮大到正無(wú)窮大之前的所有結(jié)果計(jì)算概率密度函數(shù)值。在數(shù)學(xué)上,我們有時(shí)稱其支持整條實(shí)直線(vhole real line)
連續(xù)概率分布性質(zhì)
首先需要注意的是縱軸從0開始向上延伸。這是概率密度函數(shù)需要遵守的規(guī)則。概率密度函數(shù)的任何輸出值大于等于零,或者說(shuō),輸出非負(fù):
然而,和概率質(zhì)量函數(shù)不同,概率密度函數(shù)的輸出不是概率值。這是一個(gè)極為重要的差別。
要從概率密度函數(shù)求得概率,我們需要找到曲線下的面積。例如,假設(shè)我們的樣本分布均值 = 3,標(biāo)準(zhǔn)差 = 1,我們?cè)谙聢D中畫出結(jié)果位于0到1之間的概率:
數(shù)學(xué)上表達(dá)為:
上式的意思是,概率密度函數(shù)0到1之間的積分(等式左邊)等于隨機(jī)變量的結(jié)果位于0到1之間的概率(等式右邊)。
原諒我沒(méi)有明確地介紹積分是什么,積分是如何工作的(我在本系列的邊緣化一文中簡(jiǎn)短地介紹了積分的概念,但沒(méi)有涉及如何計(jì)算積分)。如果你不了解積分,那么目前而言你需要知道的是積分是一種求曲線下面積的方法,在這里給我們提供結(jié)果的概率。也許我需要撰寫一個(gè)簡(jiǎn)短的系列,初步介紹微積分。
現(xiàn)在我們看到了概率密度函數(shù)的另一個(gè)性質(zhì)。也就是兩個(gè)結(jié)果之間的概率,是概率密度函數(shù)在這兩點(diǎn)間的積分(等價(jià)于求出概率密度函數(shù)在兩點(diǎn)之間的曲線下的面積)。數(shù)學(xué)上,這可以表示為:
別忘了我們?nèi)匀恍枰裱怕史植嫉囊?guī)則,也就是所有可能結(jié)果之和等于1. 如果我們將范圍設(shè)定為“負(fù)無(wú)窮大”到“正無(wú)窮大”,那么就可以覆蓋所有可能的情形。因此,對(duì)概率密度函數(shù)而言:
也就是說(shuō),負(fù)無(wú)窮大到正無(wú)窮大之間的曲線下面積等于1.
連續(xù)概率分布重要的一個(gè)性質(zhì)(可能看起來(lái)很怪異)是隨機(jī)變量取得特定結(jié)果的概率為0. 例如,如果我們嘗試求解結(jié)果等于數(shù)字2的概率,我們將得到:
這個(gè)概念可能看起來(lái)很詭異,但如果你理解微積分,就比較容易理解這點(diǎn)。本文不會(huì)介紹微積分。相反,我想從中總結(jié)出一點(diǎn),我們只討論兩個(gè)值之間的概率,或者討論出現(xiàn)大于或小于特定值的結(jié)果的概率。我們不討論結(jié)果等于特定值的概率。
眼尖的讀者可能注意到我用了“小于號(hào)(<)”和“大于號(hào)(>)”,而不是“大于等于號(hào)(≤)”和“小于等于號(hào)(≥)”。就連續(xù)概率分布而言,這實(shí)際上并沒(méi)有關(guān)系,兩者是一樣的。
所以隨機(jī)變量取a和b之間的值的概率等于取a和b之間(含)的概率。
參數(shù)重要性
我們之前提到,參數(shù)可以改變函數(shù)的輸出值,在概率分布上也是一樣。
上圖是兩個(gè)正態(tài)分布的概率密度函數(shù)的圖像。藍(lán)色分布的參數(shù)值為μ=0、σ=1,而紅色分布的參數(shù)值為μ=2、σ=0.5.
很明顯,使用錯(cuò)誤的參數(shù)值會(huì)得到離你的期望相差很遠(yuǎn)的結(jié)果。
總結(jié)
哇!這篇文章比我預(yù)想的要長(zhǎng)很多。讓我們總結(jié)一下要點(diǎn):
概率分布是結(jié)果及相應(yīng)概率的列表。
我們可以用表格羅列小分布的結(jié)果和概率,但大分布用函數(shù)概括更方便。
離散概率分布的表示函數(shù)稱為概率質(zhì)量函數(shù)。
連續(xù)概率分布的表示函數(shù)稱為概率密度函數(shù)。
表示概率分布的函數(shù)同樣遵循概率法則。
概率質(zhì)量函數(shù)的輸出是概率,概率密度函數(shù)曲線下面積表示概率。
概率函數(shù)的參數(shù)在定義隨機(jī)變量結(jié)果概率上起關(guān)鍵作用。
我原本打算在這篇文章中介紹多元分布的,但是因?yàn)楸疚囊呀?jīng)很長(zhǎng)了,所以會(huì)在之后的文章中介紹。
現(xiàn)在你已經(jīng)初步理解了什么是概率分布,請(qǐng)閱讀Sean Owen的Common Probability Distributions: The Data Scientist’s Crib Sheet。如果想要了解更多概率分布,可以查看維基百科上的列表(相當(dāng)長(zhǎng)的一個(gè)列表)。
一如既往地感謝閱讀本文。我希望這篇文章幫助你學(xué)到了一點(diǎn)東西。歡迎留言評(píng)論和提問(wèn)。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4284瀏覽量
62325 -
概率
+關(guān)注
關(guān)注
0文章
17瀏覽量
13012
原文標(biāo)題:零基礎(chǔ)概率論入門:概率分布
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論