0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

貝葉斯統(tǒng)計(jì)的一個(gè)實(shí)踐案例讓你更快的對(duì)貝葉斯算法有更多的了解

8g3K_AI_Thinker ? 來源:未知 ? 作者:易水寒 ? 2018-07-16 17:15 ? 次閱讀

為了大家可以對(duì)貝葉斯算法有更多的了解,為大家整理過一篇關(guān)于貝葉斯算法的文章。今天將為大家介紹利用貝葉斯統(tǒng)計(jì)的一個(gè)實(shí)踐案例。通項(xiàng)目實(shí)踐達(dá)到學(xué)以致用的目的,相信大家對(duì)貝葉斯統(tǒng)計(jì)的理解和掌握都可以更深入,提煉出更精煉的內(nèi)容。

我來自越南,在新加坡上高中,目前在美國(guó)上大學(xué)。我經(jīng)常聽到身邊的人取笑我看起來很“嬌小”,我應(yīng)該怎樣做運(yùn)動(dòng),去健身房增重,然后才能有“更好的體格”... ...然而我對(duì)這些評(píng)論卻是懷疑的,對(duì)于身高1.69米(5’6)和體重58kg(127lb)的人來說,我有接近完美的 BMI 指數(shù)(20.3)。

后來我明白他們沒有在談?wù)?BMI,他們強(qiáng)調(diào)的是體型。

想想看,他們的出發(fā)點(diǎn)是好的:資料顯示越南男性的平均身高與體重是1米62和58kg,鑒于我身高高出了平均值,但體重與越南男性平均體重卻相同,我可能會(huì)“看起來”更瘦一些。 “看起來”圈起來劃重點(diǎn)。 如果體重相同,但是身高更高,那看起來更苗條更修長(zhǎng),這是一件邏輯很簡(jiǎn)單的事。而我在考慮這是一個(gè)值得進(jìn)一步探究的科學(xué)問題。

那么問題來了,在身高1米69的越南男性中,我的體型有多瘦?。?/p>

我們需要一種方法論的方法來研究這個(gè)主題,一個(gè)好方法是盡可能多地找到越南男子身高和體重的數(shù)據(jù),看看我的數(shù)據(jù)處于哪個(gè)位置。

▌越南人口概況

在網(wǎng)上搜索后,我找到了一份包含超過10,000名越南人的人口統(tǒng)計(jì)信息調(diào)查研究數(shù)據(jù)。 我將樣本量范圍縮小到18-29歲年齡段的男性。 這使我有383名年齡在18-29歲左右的越南男性的樣本,對(duì)于接下來的分析來說已經(jīng)是足夠的了。

首先畫出人口重量直方圖,看看我在越南男性中哪個(gè)位置。

紅線顯示樣本的中位數(shù),橙色線顯示均值

這個(gè)圖表明,我略低于這383名越南青年體重的平均數(shù)和中位數(shù)。是好消息嗎? 然而,問題的重點(diǎn)并不在于我的體重與樣本相比如何。假設(shè)越南男性人口的健康狀況良好,并且整個(gè)越南人口可以由這383個(gè)人代表,但考慮到1米68的身高因素,我們可以推斷出我的體重與整個(gè)越南人口相比是什么情況。 為此,我們需要深入研究回歸分析。

第一步繪制關(guān)于身高和體重的二維散點(diǎn)圖。

好吧,我的數(shù)據(jù)看起來處在很平均的位置上。實(shí)際上,如果我們只查看那些身高168cm的人的數(shù)據(jù)(想象一條在168cm處的垂直線,并穿過紅點(diǎn)),那么我的體重比這些人稍輕一些。

另一個(gè)觀察到的重要結(jié)果是,散點(diǎn)圖的離散程度表明了越南男性的身高和體重之間存在著較強(qiáng)的線性關(guān)系。我們將進(jìn)行定量分析以深入了解這種關(guān)系。

我們需要做的是快速添加“標(biāo)準(zhǔn)的最小二乘”線。稍后我會(huì)更多地介紹這條線,但現(xiàn)在先展示它。

我們的最小二乘線是y = -86.32 + 0.889x,會(huì)發(fā)現(xiàn)在我這個(gè)年齡的越南男性的通常情況是,高1厘米體重就會(huì)增加0.88千克。

但是,這并不能回答我們的問題。在身高為1米68時(shí),58公斤的體重會(huì)被認(rèn)為是太重,太輕或只是平均? 為了更加定量地解釋這個(gè)問題,如果我們有一個(gè)身高為1米68的人的分布,我的體重下降到25,50或75個(gè)百分點(diǎn)的幾率是多少? 要做到這一點(diǎn),需要我們深入挖掘并理解回歸背后的理論。

▌線性回歸的理論

在線性回歸模型中,Y變量的預(yù)期值(在我們的例子中,人的體重)是X(高度)的線性函數(shù)。 我們稱之為線性關(guān)系,其中 β0 和 β1 分別是截距和斜率; 也就是說,我們假設(shè)E(Y | X = x)= β0 + β1 * X。 但是我們不知道 β0 和 β1 的值,因此它就是未知參數(shù)。

在最標(biāo)準(zhǔn)的線性回歸模型中,我們進(jìn)一步假設(shè)給定 X = x下Y的條件分布是正態(tài)分布的。這意味著簡(jiǎn)單的線性回歸模型:

可以寫成下面的形式,注意,在許多模型中,我們可以用精度參數(shù) τ 替換方差參數(shù) σ,其中 τ = 1 / σ。

總結(jié):因變量 Y 服從滿足平均值 μi 和精度參數(shù) τ 的正態(tài)分布。 μi 與由 β0 和 β1 參數(shù)化的 X 是線性關(guān)系

最后,我們還假設(shè)未知方差不依賴于 x ; 這個(gè)假設(shè)被稱為同方差。

上述內(nèi)容可能有點(diǎn)多,可以在下面這張圖中看到剛討論過的內(nèi)容。

在實(shí)際的數(shù)據(jù)分析問題中,我們只給出黑點(diǎn)(數(shù)據(jù))。我們的目標(biāo)是使用這些數(shù)據(jù),對(duì)我們不知道的事情做出推斷,包括 β0,β1(陰影,藍(lán)色虛線)和 σ(紅色正常密度的寬度)。 注意每個(gè)點(diǎn)周圍的正態(tài)分布看起來完全相同。 這是同方差性的性質(zhì)。

▌參數(shù)估計(jì)

現(xiàn)在,你可以通過幾種方法來估計(jì) β0 和 β1。如果你使用最小二乘法來估計(jì)此類模型,則不必?fù)?dān)心概率公式,因?yàn)槟闼阉?β0 和 β1 的最優(yōu)值的方式是使擬合值與預(yù)測(cè)值的平方誤差最小化。另一種,可以使用最大似然估計(jì)來估計(jì)這種模型,你可以通過最大化似然函數(shù)來尋找參數(shù)的最優(yōu)值。

注意:一個(gè)有趣的結(jié)果是(這里沒有數(shù)學(xué)證明),如果我們進(jìn)一步假設(shè)誤差也屬于正態(tài)分布,則最小二乘估計(jì)量也是最大似然估計(jì)量。

▌使用貝葉斯觀點(diǎn)的線性回歸

貝葉斯方法不是單獨(dú)最大化似然函數(shù),而是假設(shè)了參數(shù)的先驗(yàn)分布并使用貝葉斯定理:

似然函數(shù)與上面的相同,但是不同之處在于對(duì)待估計(jì)參數(shù)β0,β1,τ假設(shè)了一些先驗(yàn)分布并且將它們包括到了等式中:

“ 什么是先驗(yàn),為什么我們的方程看起來復(fù)雜了10倍?”

相信我,這個(gè)先驗(yàn)信息雖然看起來感覺有點(diǎn)奇怪,但它非常直觀。事實(shí)是,有一個(gè)非常強(qiáng)烈的哲學(xué)推理,為什么我們可以使用一些看似任意的分布來確定一個(gè)未知參數(shù)(在我們的例子中是β0,β1,τ)。這些先驗(yàn)分布是為了在看到數(shù)據(jù)之前捕捉我們對(duì)數(shù)據(jù)分布特點(diǎn)的看法。在觀察一些數(shù)據(jù)之后,我們應(yīng)用貝葉斯規(guī)則來獲得這些未知參數(shù)的后驗(yàn)分布,它考慮了先驗(yàn)信息和數(shù)據(jù)。從這個(gè)后驗(yàn)分布我們可以計(jì)算數(shù)據(jù)的預(yù)測(cè)分布。

這些先驗(yàn)分布是為了表達(dá)我們?cè)诳吹綌?shù)據(jù)之前,對(duì)數(shù)據(jù)分布特點(diǎn)的一種假設(shè)

最終的估計(jì)值將取決于(1)你的數(shù)據(jù)和(2)先驗(yàn)信息,但數(shù)據(jù)中包含的信息越多,先驗(yàn)信息的作用就越小。

“所以我可以選擇先驗(yàn)分布嗎?”

這是一個(gè)很好的問題,因?yàn)橛袩o限的選擇。 (理論上)只有一個(gè)正確的先驗(yàn),即表示你的先驗(yàn)假設(shè)。然而,在實(shí)踐中,先驗(yàn)分布的選擇可能相當(dāng)主觀,有時(shí)甚至是任意的。我們可以選擇標(biāo)準(zhǔn)偏差較大的正態(tài)先驗(yàn)(小精度)。例如,我們可以假設(shè) β0 和 β1 是來自均值為 0 和標(biāo)準(zhǔn)差為 10,000 的正態(tài)分布。這被稱為無信息先驗(yàn),因?yàn)榛旧线@種分布將是相當(dāng)平坦的(即,它為特定范圍內(nèi)的任何值分配幾乎相等的概率)。

接下來,如果這種先驗(yàn)分布是我們的選擇,我們不必?fù)?dān)心哪個(gè)分布可能會(huì)更好,因?yàn)樗男螤顜缀醵际瞧教沟?,并且后?yàn)分布并不關(guān)心先驗(yàn)分布的分布情況特點(diǎn)。

同樣,對(duì)于精度 τ,我們知道這些必須是非負(fù)的,所以選擇一個(gè)限制為非負(fù)值的分布是有意義的。例如,我們可以使用低形狀和尺度參數(shù)的 Gamma 分布。

另一個(gè)有用的非信息選擇是均勻分布。如果你選擇σ或τ的均勻分布,你可能會(huì)得到John K. Kruschke所說的模型。

▌?dòng)肦和JAGS進(jìn)行仿真

迄今為止這個(gè)理論非常好。求解方程在數(shù)學(xué)上具有挑戰(zhàn)性。在絕大多數(shù)情況下,后驗(yàn)分布不會(huì)直接可用(正態(tài)分布和 Gamma 分布是多么的復(fù)雜,你必須將其中的一系列數(shù)據(jù)乘在一起)。

馬爾可夫鏈蒙特卡羅方法通常用于估計(jì)模型的參數(shù)。JAGS工具包幫助我們做到了這一點(diǎn)。

JAGS工具是基于馬爾可夫鏈蒙特卡羅(MCMC)的仿真過程,能產(chǎn)生參數(shù)空間 θ =(β0;β1;τ)的許多迭代結(jié)果。 在該參數(shù)空間中為每個(gè)參數(shù)生成的樣本分布將接近該參數(shù)的總體分布。

為什么會(huì)這樣? 解釋非常復(fù)雜。簡(jiǎn)單的解釋就是:MCMC通過構(gòu)建具有目標(biāo)后驗(yàn)分布的馬爾可夫鏈,從而在后驗(yàn)分布中生成樣本。

講真它并不好玩。 與通常解析方程(2)的方式不同,我們可以做一些聰明的抽樣,從數(shù)學(xué)角度證明我們樣本的分布是 β0,β1,τ 的實(shí)際分布。

▌如何使用這個(gè)JAGS工具呢

我們?cè)赗中通過如下步驟運(yùn)行JAGS

第一步,我們用文本格式編寫我們的模型:

然后,我們使用JAGs進(jìn)行模擬。在這里,我設(shè)定 JAGs 模擬參數(shù)空間θ 10000次的值。在這樣的采樣之后,我們可以得到如下所示θ=(β0;β1;τ)的采樣數(shù)據(jù)。

現(xiàn)在我們對(duì)參數(shù)空間θ進(jìn)行10,000次迭代,記住通過公式:

這意味著,如果我們用 x = 168 cm 代替每次迭代,我們將找到 10,000 個(gè)體重值,并且因此給出高度為 168 cm 的體重分布。

我們現(xiàn)在是在給定身高條件下,計(jì)算我體重的百分位。我們能做的就是根據(jù)我的身高找到我體重百分位數(shù)的分布。

現(xiàn)在,這個(gè)圖告訴我們的是,我的體重(給定168厘米的身高)最有可能位于越南人口模擬數(shù)據(jù)的0.3%左右。例如,我們可以找到我的體重在前40個(gè)百分點(diǎn)或更少的百分位數(shù)。

所以絕大多數(shù)證據(jù)表明身高168厘米,體重58公斤會(huì)使我處于越南人口分布中百分位數(shù)較低的位置。也許是時(shí)候去健身房并增加一些體重了。畢竟,如果你不能相信貝葉斯統(tǒng)計(jì)的結(jié)果,你還能相信什么呢?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 貝葉斯
    +關(guān)注

    關(guān)注

    0

    文章

    77

    瀏覽量

    12529
  • MCMC
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    6586
  • 線性回歸
    +關(guān)注

    關(guān)注

    0

    文章

    41

    瀏覽量

    4277

原文標(biāo)題:讓我去健身的不是漂亮小姐姐,居然是貝葉斯統(tǒng)計(jì)

文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    機(jī)器學(xué)習(xí)的樸素講解

    秦剛剛的機(jī)器學(xué)習(xí)成長(zhǎng)之路之樸素
    發(fā)表于 05-15 14:41

    六大步驟學(xué)習(xí)算法

    學(xué)習(xí)算法的五個(gè)步驟
    發(fā)表于 07-16 16:57

    樸素法的優(yōu)缺點(diǎn)

    樸素法(1) 之 基礎(chǔ)概念
    發(fā)表于 08-05 11:32

    常用的分類方法:樸素

    統(tǒng)計(jì)學(xué)習(xí)方法樸素
    發(fā)表于 11-05 09:24

    對(duì)樸素算法的理解

    我對(duì)樸素算法的理解
    發(fā)表于 05-15 14:13

    全概率公式與公式分享

    全概率公式與公式(
    發(fā)表于 06-08 15:14

    使用PyMC3包實(shí)現(xiàn)線性回歸

    是固定的,而在統(tǒng)計(jì)中,它們是隨機(jī)變量?! ☆l率主義者使用極大似然估計(jì)(MLE)的方法來推導(dǎo)線性回歸模型的值。MLE的結(jié)果是每個(gè)參數(shù)的
    發(fā)表于 10-08 15:59

    網(wǎng)絡(luò)精確推理算法的研究

    網(wǎng)絡(luò)是以概率理論為基礎(chǔ)的不確定知識(shí)表示模型,網(wǎng)絡(luò)推理的目的是得到隨機(jī)變量的概率分布。
    發(fā)表于 08-15 09:34 ?38次下載

    算法(bayesian)介紹

    是基于概率的算法,是Thomas Bayes:位偉大的數(shù)學(xué)大師所創(chuàng)建的。
    發(fā)表于 06-01 17:58 ?0次下載

    網(wǎng)絡(luò)分析

    網(wǎng)絡(luò)
    發(fā)表于 03-31 10:40 ?2次下載

    分類算法及其實(shí)現(xiàn)

     算法描述及實(shí)現(xiàn)根據(jù)樸素公式,每個(gè)測(cè)試樣
    發(fā)表于 02-02 15:54 ?7384次閱讀
    <b class='flag-5'>貝</b><b class='flag-5'>葉</b><b class='flag-5'>斯</b>分類<b class='flag-5'>算法</b>及其實(shí)現(xiàn)

    樸素NB經(jīng)典案例

    分類算法統(tǒng)計(jì)學(xué)的種分類方法,其分類原理就是利用
    發(fā)表于 02-28 10:17 ?2次下載

    文秒懂優(yōu)化/Bayesian Optimization

    ,大神/優(yōu)化專家們求輕噴,覺得不錯(cuò)的記得幫點(diǎn)贊/在看/轉(zhuǎn)發(fā)幫擴(kuò)散哦!謝謝。 梳理這個(gè)問題有這么兩個(gè)原因: 1、在工業(yè)界,最近我看到不少同學(xué)在探索并使用
    的頭像 發(fā)表于 04-09 11:26 ?1.6w次閱讀
    <b class='flag-5'>一</b>文秒懂<b class='flag-5'>貝</b><b class='flag-5'>葉</b><b class='flag-5'>斯</b>優(yōu)化/Bayesian Optimization

    樸素分類 樸素算法的優(yōu)點(diǎn)

    。 雖然這個(gè)簡(jiǎn)化方式在定程度上降低了分類算法的分類效果,但是在實(shí)際的應(yīng)用場(chǎng)景中,極大地簡(jiǎn)化了
    的頭像 發(fā)表于 10-02 17:14 ?9138次閱讀

    簡(jiǎn)述對(duì)公式的基本理解

    簡(jiǎn)述對(duì)公式的基本理解
    發(fā)表于 10-18 10:01 ?0次下載