本文通過(guò)案例介紹了正態(tài)分布和貝塔分布的概念。
正態(tài)分布
正態(tài)分布,是一種非常常見的連續(xù)概率分布,其也叫做常態(tài)分布(normal distribution),或者根據(jù)其前期的研究貢獻(xiàn)者之一高斯的名字來(lái)稱呼,高斯分布(Gaussian distribution)。正態(tài)分布是自然科學(xué)與行為科學(xué)中的定量現(xiàn)象的一個(gè)方便模型。
各種各樣的心理學(xué)測(cè)試結(jié)果和物理現(xiàn)象的觀測(cè)值,比如光子計(jì)數(shù)等都被發(fā)現(xiàn)近似地服從正態(tài)分布。甚至生活中很多現(xiàn)象的表征結(jié)果也符合正態(tài)分布的分布規(guī)律。盡管這些現(xiàn)象的根本原因經(jīng)常是未知的,甚至被采樣的樣本的原始群體分布并不服從正態(tài)分布,但這個(gè)變量的采樣分布均值仍會(huì)近似服從正態(tài)分布。
正態(tài)分布的概率密度函數(shù)呈左右對(duì)稱的鐘形,其具體表達(dá)式為:
因?yàn)檎龖B(tài)分布是如此的常見而這個(gè)式子是如此的奇怪,我們打算重溫高斯當(dāng)年的推導(dǎo)過(guò)程,但部分細(xì)節(jié)不會(huì)那么嚴(yán)謹(jǐn)?shù)淖C明,只是帶領(lǐng)大家看看高斯當(dāng)年的思路是如何的。
首先,高斯事先假定了如下條件,才得到了正態(tài)分布的連續(xù)密度函數(shù)。
即: 誤差分布導(dǎo)出的極大似然估計(jì) = 算術(shù)平均值
這里我們把全部過(guò)程用直白的語(yǔ)言復(fù)述一遍。
貝塔分布
貝塔分布,beta分布,簡(jiǎn)單來(lái)說(shuō),就是一個(gè)事件出現(xiàn)的概率的概率密度分布。
舉個(gè)例子,籃球比賽的三分命中率是衡量籃球后衛(wèi)運(yùn)動(dòng)員很重要的一個(gè)指標(biāo)。通過(guò)過(guò)去的歷史經(jīng)驗(yàn),我們知道運(yùn)動(dòng)員的三分命中率很難超過(guò)40%。假如老張是一個(gè)優(yōu)秀老練的籃球后衛(wèi),其過(guò)去歷史的三分命中率是35%,總投數(shù)為10000次,命中次為3500次。請(qǐng)問(wèn)他在新賽季剛開始的時(shí)候,得到了一次三分投球機(jī)會(huì),請(qǐng)問(wèn)他這次投中的概率服從什么分布呢?
我們必須清楚,這個(gè)概率一定不是確定的,而是服從某種分布。這個(gè)概率密度分布函數(shù)應(yīng)該在0.35處最大,沿兩邊逐漸遞減。
這個(gè)概率就服從beta分布。確切的說(shuō),是服從
還有個(gè)運(yùn)動(dòng)員小張,而小張很年輕也很優(yōu)秀,他的歷史三分命中率也是35%,但是總投數(shù)為1000次,命中次數(shù)為350次。請(qǐng)問(wèn)他在新賽季首投三分,命中概率的分布和老張一樣嗎?
明顯不一樣!雖然他們的歷史投球命中率都是35%,但是我們直覺認(rèn)為老張比小張更靠譜,老張首投命中的概率密度分布應(yīng)該在0.35附近高于小張的。事實(shí)上,我們可以迅速借助python的scipy庫(kù)中內(nèi)置的beta統(tǒng)計(jì)方法。
我們來(lái)看一下圖像。
的確如此。那么beta分布的具體表達(dá)式是什么呢?
關(guān)于伽馬函數(shù)和貝塔函數(shù),這里我們不做贅述。
需要指出的是,看起來(lái)beta分布的概率密度函數(shù)和高斯分布的曲線很像,實(shí)則不然。
再舉個(gè)例子,假如老張的孫子也想做做運(yùn)動(dòng)員,老張煞有介事的統(tǒng)計(jì)了小小張的歷史三分投數(shù),為5投1中。問(wèn)他下一次投球,也就是第六次投球,命中的概率的分布是怎樣的?如果過(guò)去是5投2中,5投3中,和5投4中呢?
可以看到,beta分布的PDF和高斯分布的曲線形狀差別可大了。
編輯:hfy
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4286瀏覽量
62335 -
高斯分布
+關(guān)注
關(guān)注
0文章
6瀏覽量
2742
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論