久久久国产AV,九九九国产精品成人免费视频

摘要：人工智能、無(wú)人駕駛、語(yǔ)音圖片識(shí)別與大數(shù)據(jù)有什么關(guān)系？海難空難如何搜救？垃圾短信、垃圾郵件如何識(shí)別？這些看起來(lái)彼此不相關(guān)的領(lǐng)域之間會(huì)有什么聯(lián)系嗎？答案是，它們都會(huì)用到同一個(gè)數(shù)學(xué)公式——貝葉斯公式。

AlphaGo為代表的人工智能，徹底的戰(zhàn)勝了人類的圍棋大師，震撼了全世界，那么人工智能的背后，有著怎樣的科技在支撐？本文要介紹的就是人工智能背后的簡(jiǎn)單原理——貝葉斯公式。

人工智能、無(wú)人駕駛、語(yǔ)音圖片識(shí)別與大數(shù)據(jù)有什么關(guān)系？海難空難如何搜救？垃圾短信、垃圾郵件如何識(shí)別？這些看起來(lái)彼此不相關(guān)的領(lǐng)域之間會(huì)有什么聯(lián)系嗎？答案是，它們都會(huì)用到同一個(gè)數(shù)學(xué)公式——貝葉斯公式。它雖然看起來(lái)很簡(jiǎn)單、很不起眼，但卻有著深刻的內(nèi)涵。那么貝葉斯公式是如何從默默無(wú)聞到現(xiàn)在廣泛應(yīng)用、無(wú)所不能的呢？先來(lái)看兩個(gè)經(jīng)典例子。

1、天蝎號(hào)核潛艇搜救

2014年初馬航MH370航班失聯(lián)，所有人都密切關(guān)注搜救的進(jìn)展情況。那么我們是用什么方法在茫茫大海中尋找失聯(lián)的飛機(jī)或者船只的呢？這要從天蝎號(hào)核潛艇說(shuō)起。

1968年5月，美國(guó)海軍的天蝎號(hào)核潛艇在大西洋亞速海海域突然失蹤，潛艇和艇上的99名海軍官兵全部杳無(wú)音信。按照事后調(diào)查報(bào)告的說(shuō)法，罪魁禍?zhǔn)资沁@艘潛艇上的一枚奇怪的魚雷，發(fā)射出去后竟然敵我不分，扭頭射向自己，讓潛艇中彈爆炸。

為了尋找天蝎號(hào)的位置，美國(guó)政府從國(guó)內(nèi)調(diào)集了包括多位專家的搜索部隊(duì)前往現(xiàn)場(chǎng)，其中包括一位名叫John Craven的數(shù)學(xué)家，他的頭銜是“美國(guó)海軍特別計(jì)劃部首席科學(xué)家”。在搜尋潛艇的問(wèn)題上，Craven提出的方案使用了上面提到的貝葉斯公式。他召集了數(shù)學(xué)家、潛艇專家、海事搜救等各個(gè)領(lǐng)域的專家。

每個(gè)專家都有自己擅長(zhǎng)的領(lǐng)域，但并非通才，沒(méi)有專家能準(zhǔn)確估計(jì)到在出事前后潛艇到底發(fā)生了什么。有趣的是，Craven并不是按照慣常的思路要求團(tuán)隊(duì)成員互相協(xié)商尋求一個(gè)共識(shí)，而是讓各位專家編寫了各種可能的“劇本”，讓他們按照自己的知識(shí)和經(jīng)驗(yàn)對(duì)于情況會(huì)向哪一個(gè)方向發(fā)展進(jìn)行猜測(cè)，并評(píng)估每種情境出現(xiàn)的可能性。據(jù)說(shuō)，為了給枯燥的工作增加一些趣味，Craven還準(zhǔn)備了威士忌酒作為“投注”正確的獎(jiǎng)品。

因?yàn)樵贑raven的方案中，結(jié)果很多是這些專家以猜測(cè)、投票甚至可以說(shuō)賭博的形式得到的，不可能保證所有結(jié)果的準(zhǔn)確性，他的這一做法受到了很多同行的質(zhì)疑?？墒且?yàn)樗阉鳚撏У娜蝿?wù)緊迫，沒(méi)有時(shí)間進(jìn)行精確的實(shí)驗(yàn)、建立完整可靠的理論，Craven的辦法不失為一個(gè)可行的辦法。

由于失事時(shí)潛艇航行的速度快慢、行駛方向、爆炸沖擊力的大小、爆炸時(shí)潛艇方向舵的指向都是未知量，即使知道潛艇在哪里爆炸，也很難確定潛艇殘骸最后被海水沖到哪里。Craven粗略估計(jì)了一下，半徑20英里的圓圈內(nèi)的數(shù)千英尺深的海底，都是天蝎號(hào)核潛艇可能沉睡的地方，要在這么大的范圍，這么深的海底找到潛艇幾乎成了不可能完成的任務(wù)。

Craven把各位專家的意見(jiàn)綜合到一起，得到了一張20英里海域的概率圖。整個(gè)海域被劃分成了很多個(gè)小格子，每個(gè)小格子有兩個(gè)概率值p和q，p是潛艇躺在這個(gè)格子里的概率，q是如果潛艇在這個(gè)格子里，它被搜索到的概率。按照經(jīng)驗(yàn)，第二個(gè)概率值主要跟海域的水深有關(guān)，在深海區(qū)域搜索失事潛艇的“漏網(wǎng)”可能性會(huì)更大。如果一個(gè)格子被搜索后，沒(méi)有發(fā)現(xiàn)潛艇的蹤跡，那么按照貝葉斯公式，這個(gè)格子潛艇存在的概率就會(huì)降低：

由于所有格子概率的總和是1，這時(shí)其他格子潛艇存在的概率值就會(huì)上升：

每次尋找時(shí)，先挑選整個(gè)區(qū)域內(nèi)潛艇存在概率值最高的一個(gè)格子進(jìn)行搜索，如果沒(méi)有發(fā)現(xiàn)，概率分布圖會(huì)被“洗牌”一次，搜尋船只就會(huì)駛向新的“最可疑格子”進(jìn)行搜索，這樣一直下去，直到找到天蝎號(hào)為止。

最初開(kāi)始搜救時(shí)，海軍人員對(duì)Craven和其團(tuán)隊(duì)的建議嗤之以鼻，他們憑經(jīng)驗(yàn)估計(jì)潛艇是在爆炸點(diǎn)的東側(cè)海底。但幾個(gè)月的搜索一無(wú)所獲，他們才不得不聽(tīng)從了Craven的建議，按照概率圖在爆炸點(diǎn)的西側(cè)尋找。經(jīng)過(guò)幾次搜索，潛艇果然在爆炸點(diǎn)西南方的海底被找到了。

由于這種基于貝葉斯公式的方法在后來(lái)多次搜救實(shí)踐中被成功應(yīng)用，現(xiàn)在已經(jīng)成為海難空難搜救的通行做法。

2009年法航空難搜救的后驗(yàn)概率分布圖：

2014馬航MH370失聯(lián)搜索區(qū)域：

2、聯(lián)邦黨人文集作者公案

1787年5月，美國(guó)各州（當(dāng)時(shí)為13個(gè)）代表在費(fèi)城召開(kāi)制憲會(huì)議；1787年9月，美國(guó)的憲法草案被分發(fā)到各州進(jìn)行討論。一批反對(duì)派以“反聯(lián)邦主義者”為筆名，發(fā)表了大量文章對(duì)該草案提出批評(píng)。憲法起草人之一亞歷山大·漢密爾頓著急了，他找到曾任外交國(guó)務(wù)秘書（即后來(lái)的國(guó)務(wù)卿）的約翰·杰伊，以及紐約市國(guó)會(huì)議員麥迪遜，一同以普布利烏斯（Publius）的筆名發(fā)表文章，向公眾解釋為什么美國(guó)需要一部憲法。他們走筆如飛，通常在一周之內(nèi)就會(huì)發(fā)表3-4篇新的評(píng)論。1788年，他們所寫的85篇文章結(jié)集出版，這就是美國(guó)歷史上著名的《聯(lián)邦黨人文集》。

《聯(lián)邦黨人文集》出版的時(shí)候，漢密爾頓堅(jiān)持匿名發(fā)表，于是，這些文章到底出自誰(shuí)人之手，成了一樁公案。1810年，漢密爾頓接受了一個(gè)政敵的決斗挑戰(zhàn)，但出于基督徒的宗教信仰，他決意不向?qū)Ψ介_(kāi)槍。在決斗之前數(shù)日，漢密爾頓自知時(shí)日不多，他列出了一份《聯(lián)邦黨人文集》的作者名單。1818年，麥迪遜又提出了另一份作者名單。這兩份名單并不一致。在85篇文章中，有73篇文章的作者身份較為明確，其余12篇存在爭(zhēng)議。

1955年，哈佛大學(xué)統(tǒng)計(jì)學(xué)教授Fredrick Mosteller找到芝加哥大學(xué)的年輕統(tǒng)計(jì)學(xué)家David Wallance，建議他跟自己一起做一個(gè)小課題，他想用統(tǒng)計(jì)學(xué)的方法，鑒定出《聯(lián)邦黨人文集》的作者身份。

但這根本就不是一個(gè)小課題。漢密爾頓和麥迪遜都是文章高手，他們的文風(fēng)非常接近。從已經(jīng)確定作者身份的那部分文本來(lái)看，漢密爾頓寫了9.4萬(wàn)字，麥迪遜寫了11.4萬(wàn)字。漢密爾頓每個(gè)句子的平均長(zhǎng)度是34.55字，而麥迪遜是34.59字。就寫作風(fēng)格而論，漢密爾頓和麥迪遜簡(jiǎn)直就是一對(duì)雙胞胎。漢密爾頓和麥迪遜寫這些文章，用了大約一年的時(shí)間，而Mosteller和Wallance甄別出作者的身份花了10多年的時(shí)間。

如何分辨兩人寫作風(fēng)格的細(xì)微差別，并據(jù)此判斷每篇文章的作者就是問(wèn)題的關(guān)鍵。他們所采用的方法就是以貝葉斯公式為核心的包含兩個(gè)類別的分類算法。先挑選一些能夠反映作者寫作風(fēng)格的詞匯，在已經(jīng)確定了作者的文本中，對(duì)這些特征詞匯的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)，然后再統(tǒng)計(jì)這些詞匯在那些不確定作者的文本中的出現(xiàn)頻率，從而根據(jù)詞頻的差別推斷其作者歸屬。這其實(shí)和我們現(xiàn)在使用的垃圾郵件過(guò)濾器的原理是一樣的。

他們是在沒(méi)有計(jì)算機(jī)幫助的條件下用手工處理“大數(shù)據(jù)”，這一工程的耗時(shí)耗力是可想而知的。將近100個(gè)哈佛大學(xué)的學(xué)生幫助他們處理數(shù)據(jù)。學(xué)生們用最原始的方式，用打字機(jī)把《聯(lián)邦黨人文集》的文本打出來(lái)，然后把每個(gè)單詞剪下來(lái)，按照字母表的順序，把這些單詞分門別類地匯集在一起。有個(gè)學(xué)生干得累了，伸了個(gè)懶腰，長(zhǎng)長(zhǎng)地呼了一口氣。他這一口氣用力太猛，一下子把剛剛歸置好的單詞條吹得如柳絮紛飛，一屋子學(xué)生瞬間石化，估計(jì)很多人連滅了他的心都有。而這只是手工大數(shù)據(jù)時(shí)代的日常。

Mosteller和Wallance這是要在干草垛里找繡花針。他們首先剔除掉用不上的詞匯。比如，《聯(lián)邦黨人文集》里經(jīng)常談到“戰(zhàn)爭(zhēng)”、“立法權(quán)”、“行政權(quán)”等，這些詞匯是因主題而出現(xiàn)，并不反映不同作者的寫作風(fēng)格。只有像“in”，“an”，“of”，“upon”這些介詞、連詞等才能顯示出作者風(fēng)格的微妙差異。

一位歷史學(xué)家好心地告訴他們，有一篇1916年的論文提到，漢密爾頓總是用“while”，而麥迪遜則總是用“whilst”。但僅僅有這一個(gè)線索是不夠的。“while”和“whilst”在這12篇作者身份待定的文章里出現(xiàn)的次數(shù)不夠多。況且，漢密爾頓和麥迪遜有時(shí)候會(huì)合寫一篇文章，也保不齊他們會(huì)互相改文章，要是漢密爾頓把麥迪遜的“whilst”都改成了“while”呢？

當(dāng)學(xué)生們把每個(gè)單詞的小紙條歸類、粘好之后，他們發(fā)現(xiàn)，漢密爾頓的文章里平均每一頁(yè)紙會(huì)出現(xiàn)兩次“upon”，而麥迪遜幾乎一次也不用。漢密爾頓更喜歡用“enough”，麥迪遜則很少用。其它一些有用的詞匯包括：“there”、“on”等等。1964年，Mosteller和Wallance發(fā)表了他們的研究成果。他們的結(jié)論是，這12篇文章的作者很可能都是麥迪遜。他們最拿不準(zhǔn)的是第55篇，麥迪遜是作者的概率是240：1。

這個(gè)研究引起了極大的轟動(dòng)，但最受震撼的不是憲法研究者，而是統(tǒng)計(jì)學(xué)家。Mosteller和Wallance的研究，把貝葉斯公式這個(gè)被統(tǒng)計(jì)學(xué)界禁錮了200年的幽靈從瓶子中釋放了出來(lái)。

一、什么是貝葉斯公式

18世紀(jì)英國(guó)業(yè)余數(shù)學(xué)家托馬斯·貝葉斯提出過(guò)一種看上去似乎顯而易見(jiàn)的觀點(diǎn)：“用客觀的新信息更新我們最初關(guān)于某個(gè)事物的信念后，我們就會(huì)得到一個(gè)新的、改進(jìn)了的信念?！?這個(gè)研究成果，因?yàn)楹?jiǎn)單而顯得平淡無(wú)奇，直到他死后的兩年才于1763年由他的朋友理查德·普萊斯幫助發(fā)表。它的數(shù)學(xué)原理很容易理解，簡(jiǎn)單說(shuō)就是，如果你看到一個(gè)人總是做一些好事，則會(huì)推斷那個(gè)人多半會(huì)是一個(gè)好人。這就是說(shuō)，當(dāng)你不能準(zhǔn)確知悉一個(gè)事物的本質(zhì)時(shí)，你可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率。用數(shù)學(xué)語(yǔ)言表達(dá)就是：支持某項(xiàng)屬性的事件發(fā)生得愈多，則該屬性成立的可能性就愈大。與其他統(tǒng)計(jì)學(xué)方法不同，貝葉斯方法建立在主觀判斷的基礎(chǔ)上，你可以先估計(jì)一個(gè)值，然后根據(jù)客觀事實(shí)不斷修正。

1774年，法國(guó)數(shù)學(xué)家皮埃爾-西蒙·拉普拉斯獨(dú)立地再次發(fā)現(xiàn)了貝葉斯公式。拉普拉斯關(guān)心的問(wèn)題是：當(dāng)存在著大量數(shù)據(jù)，但數(shù)據(jù)又可能有各種各樣的錯(cuò)誤和遺漏的時(shí)候，我們?nèi)绾尾拍軓闹姓业秸鎸?shí)的規(guī)律。拉普拉斯研究了男孩和女孩的生育比例。有人觀察到，似乎男孩的出生數(shù)量比女孩更高。這一假說(shuō)到底成立不成立呢？拉普拉斯不斷地搜集新增的出生記錄，并用之推斷原有的概率是否準(zhǔn)確。每一個(gè)新的記錄都減少了不確定性的范圍。拉普拉斯給出了我們現(xiàn)在所用的貝葉斯公式的表達(dá)：

P(A/B)=P(B/A)*P(A)/P(B)，

該公式表示在B事件發(fā)生的條件下A事件發(fā)生的條件概率，等于A事件發(fā)生條件下B事件發(fā)生的條件概率乘以A事件的概率，再除以B事件發(fā)生的概率。公式中，P(A）也叫做先驗(yàn)概率，P(A/B)叫做后驗(yàn)概率。嚴(yán)格地講，貝葉斯公式至少應(yīng)被稱為“貝葉斯-拉普拉斯公式”。

二、默默無(wú)聞200年

貝葉斯公式現(xiàn)在已經(jīng)非常流行，甚至在熱門美劇《生活大爆炸》中謝耳朵也秀了一下。但它真正得到重視和廣泛應(yīng)用卻是最近二三十年的事，其間被埋沒(méi)了200多年。這是為什么呢？原因在于我們有另外一種數(shù)學(xué)工具——經(jīng)典統(tǒng)計(jì)學(xué)，或者叫頻率主義統(tǒng)計(jì)學(xué)（我們?cè)趯W(xué)校學(xué)的主要是這種統(tǒng)計(jì)學(xué)），它在200多年的時(shí)間里一直表現(xiàn)不錯(cuò)。從理論上講，它可以揭示一切現(xiàn)象產(chǎn)生的原因，既不需要構(gòu)建模型，也不需要默認(rèn)條件，只要進(jìn)行足夠多次的測(cè)量，隱藏在數(shù)據(jù)背后的原因就會(huì)自動(dòng)揭開(kāi)面紗。

在經(jīng)典統(tǒng)計(jì)學(xué)看來(lái)，科學(xué)是關(guān)于客觀事實(shí)的研究，我們只要反復(fù)觀察一個(gè)可重復(fù)的現(xiàn)象，直到積累了足夠多的數(shù)據(jù)，就能從中推斷出有意義的規(guī)律。而貝葉斯方法卻要求科學(xué)家像算命先生一樣，從主觀猜測(cè)出發(fā)，這顯然不符合科學(xué)精神。就連拉普拉斯后來(lái)也放棄了貝葉斯方法這一思路，轉(zhuǎn)向經(jīng)典統(tǒng)計(jì)學(xué)。因?yàn)樗l(fā)現(xiàn)，如果數(shù)據(jù)量足夠大，人們完全可以通過(guò)直接研究這些樣本來(lái)推斷總體的規(guī)律。

打個(gè)比方來(lái)幫助我們理解這兩種統(tǒng)計(jì)學(xué)方法的區(qū)別。假如我們想知道某個(gè)區(qū)域里海拔最低的地方，經(jīng)典統(tǒng)計(jì)學(xué)的方法是首先進(jìn)行觀測(cè)，取得區(qū)域內(nèi)不同地方的海拔數(shù)據(jù)，然后從中找出最低點(diǎn)。這個(gè)數(shù)據(jù)量必須足夠多，以反映區(qū)域內(nèi)地形全貌的特征，這樣我們才能相信找到的就是實(shí)際上的最低點(diǎn)。而貝葉斯方法是我不管哪里最低，就憑感覺(jué)在區(qū)域內(nèi)隨便選個(gè)地方開(kāi)始走，每一步都往下走，雖然中間可能有一些曲折，但相信這樣走早晚能夠到達(dá)最低點(diǎn)?？梢钥闯?，貝葉斯方法的關(guān)鍵問(wèn)題是這個(gè)最終到達(dá)的低點(diǎn)可能不是真正的最低點(diǎn)，而是某個(gè)相對(duì)低點(diǎn)，它可能對(duì)該區(qū)域的地形（碗型、馬鞍形等）和最初我們主觀選擇的出發(fā)點(diǎn)有依賴性。如果問(wèn)題域是碗型的，我們到達(dá)的就是最低點(diǎn)；但如果是馬鞍形或者其他復(fù)雜曲面，那么我們到達(dá)的可能是多個(gè)相對(duì)低點(diǎn)（極點(diǎn)）中的一個(gè)，而不是真正的最低點(diǎn)。這是貝葉斯方法最受經(jīng)典統(tǒng)計(jì)學(xué)方法詬病的原因，也是它在過(guò)去的200多年被雪藏的原因所在。

貝葉斯方法原理示意圖：

三、初顯威力

長(zhǎng)期以來(lái)，貝葉斯方法雖然沒(méi)有得到主流學(xué)界的認(rèn)可，但其實(shí)我們經(jīng)常會(huì)不自覺(jué)地應(yīng)用它來(lái)進(jìn)行決策，而且還非常有效。比如炮兵在射擊時(shí)會(huì)使用貝葉斯方法進(jìn)行瞄準(zhǔn)。炮彈與子彈不同，它的飛行軌跡是拋物線，瞄準(zhǔn)的難度更大，因此他們會(huì)先根據(jù)計(jì)算和經(jīng)驗(yàn)把炮管調(diào)整到一個(gè)可能命中的瞄準(zhǔn)角度（先驗(yàn)概率），然后再根據(jù)炮彈的實(shí)際落點(diǎn)進(jìn)行調(diào)整（后驗(yàn)概率），這樣在經(jīng)過(guò)2-3次射擊和調(diào)整后炮彈就能夠命中目標(biāo)了。

在日常生活中，我們也常使用貝葉斯方法進(jìn)行決策。比如在一個(gè)陌生的地方找餐館吃飯，因?yàn)橹安涣私饽募也宛^好，似乎只能隨機(jī)選擇，但實(shí)際上并非如此，我們會(huì)根據(jù)貝葉斯方法，利用以往積累的經(jīng)驗(yàn)來(lái)提供判斷的線索。經(jīng)驗(yàn)告訴我們，通常那些坐滿了客人的餐館的食物要更美味些，而那些客人寥寥的餐館，食物可能不怎么樣而且可能會(huì)被宰。這樣，我們就往往通過(guò)觀察餐廳的上座率來(lái)選擇餐館就餐。這就是我們根據(jù)先驗(yàn)知識(shí)進(jìn)行的主觀判斷。在吃過(guò)以后我們對(duì)這個(gè)餐館有了更多實(shí)際的了解，以后再選擇時(shí)就更加容易了。所以說(shuō)，在我們認(rèn)識(shí)事物不全面的情況下，貝葉斯方法是一種很好的利用經(jīng)驗(yàn)幫助作出更合理判斷的方法。

而正是天蝎號(hào)核潛艇搜救和聯(lián)邦黨人文集作者公案，兩個(gè)標(biāo)志性的事件在讓學(xué)術(shù)界開(kāi)始重視貝葉斯方法上起到了重要作用。

與計(jì)算機(jī)的結(jié)合使貝葉斯公式巨大的實(shí)用價(jià)值進(jìn)一步體現(xiàn)出來(lái)，它不但為我們提供了一條全新的問(wèn)題解決路徑，帶來(lái)工具和理念的革命，而且甚至可能是人類大腦本身的認(rèn)知和構(gòu)建方式。

貝葉斯公式在聯(lián)邦黨人文集作者公案和天蝎號(hào)核潛艇搜救中大顯身手后，開(kāi)始引起學(xué)術(shù)界的注意和重視，而其上世紀(jì)八十年代在自然語(yǔ)言處理領(lǐng)域的成功，向我們展示了一條全新的問(wèn)題解決路徑。計(jì)算能力的不斷提高和大數(shù)據(jù)的出現(xiàn)使它的威力日益顯現(xiàn)，一場(chǎng)轟轟烈烈的“貝葉斯革命”正在發(fā)生。

四、真正的突破

自然語(yǔ)言處理就是讓計(jì)算機(jī)代替人來(lái)翻譯語(yǔ)言、識(shí)別語(yǔ)音、認(rèn)識(shí)文字和進(jìn)行海量文獻(xiàn)的自動(dòng)檢索。但是人類的語(yǔ)言可以說(shuō)是信息里最復(fù)雜最動(dòng)態(tài)的一部分。人們最初想到的方法是語(yǔ)言學(xué)方法，讓計(jì)算機(jī)學(xué)習(xí)人類的語(yǔ)法、分析語(yǔ)句等等。尤其是在喬姆斯基（有史以來(lái)最偉大的語(yǔ)言學(xué)家）提出 “形式語(yǔ)言” 以后，人們更堅(jiān)定了利用語(yǔ)法規(guī)則的辦法進(jìn)行文字處理的信念。遺憾的是，幾十年過(guò)去了，在計(jì)算機(jī)語(yǔ)言處理領(lǐng)域，基于這個(gè)語(yǔ)法規(guī)則的方法幾乎毫無(wú)突破。

其實(shí)早在幾十年前，數(shù)學(xué)家兼信息論的祖師爺香農(nóng) (Claude Shannon)就提出了用數(shù)學(xué)方法處理自然語(yǔ)言的想法。遺憾的是當(dāng)時(shí)的計(jì)算機(jī)根本無(wú)法滿足大量信息處理的需要，所以他的這一想法并沒(méi)有引起重視。

率先成功利用數(shù)學(xué)方法解決自然語(yǔ)言處理問(wèn)題的是語(yǔ)音和語(yǔ)言處理大師賈里尼克 (Fred Jelinek)。他引入一個(gè)全新的視角，認(rèn)為語(yǔ)音識(shí)別就是根據(jù)接收到的一個(gè)信號(hào)序列推測(cè)說(shuō)話人實(shí)際發(fā)出的信號(hào)序列（說(shuō)的話）和要表達(dá)的意思。這就把語(yǔ)音識(shí)別問(wèn)題轉(zhuǎn)化為一個(gè)通信問(wèn)題，而且進(jìn)一步可以簡(jiǎn)化為用貝葉斯公式處理的數(shù)學(xué)問(wèn)題。

一般情況下，一個(gè)句子中的每個(gè)字符都跟它前面的所有字符相關(guān)，這樣公式中的條件概率計(jì)算就非常復(fù)雜，難以實(shí)現(xiàn)。為了簡(jiǎn)化問(wèn)題，他做了兩個(gè)假設(shè)：

1、說(shuō)話人說(shuō)的句子是一個(gè)馬爾科夫鏈，也就是說(shuō)，句子中的每個(gè)字符都只由它前一個(gè)字符決定；

2、獨(dú)立輸入假設(shè)，就是每個(gè)接受的字符信號(hào)只由對(duì)應(yīng)的發(fā)送字符決定。

這樣的簡(jiǎn)化看起來(lái)有點(diǎn)簡(jiǎn)單粗暴，每個(gè)字符在語(yǔ)義上都是和文章的其他部分相關(guān)的，怎么可能只跟它前一個(gè)字符相關(guān)呢？很多人不相信用這么簡(jiǎn)單的數(shù)學(xué)模型能解決復(fù)雜的語(yǔ)音識(shí)別、機(jī)器翻譯等問(wèn)題。其實(shí)不光是一般人，就連很多語(yǔ)言學(xué)家都曾質(zhì)疑過(guò)這種方法的有效性。但事實(shí)證明，這個(gè)基于貝葉斯公式的統(tǒng)計(jì)語(yǔ)言模型比任何當(dāng)時(shí)已知的借助某種規(guī)則的解決方法都有效。賈里尼克和貝克夫婦在七十年代分別獨(dú)立提出用這個(gè)模型進(jìn)行語(yǔ)音識(shí)別，八十年代微軟公司用這個(gè)模型成功開(kāi)發(fā)出第一個(gè)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)?，F(xiàn)在我們手機(jī)上的語(yǔ)音識(shí)別和語(yǔ)音輸入功能都已經(jīng)非常成熟而且好用了。

更加可貴的是，這種語(yǔ)音識(shí)別系統(tǒng)不但能夠識(shí)別靜態(tài)的詞庫(kù)，而且對(duì)詞匯的動(dòng)態(tài)變化具有很好的適應(yīng)性，即使是新出現(xiàn)的詞匯，只要這個(gè)詞已經(jīng)被大家高頻使用，用于訓(xùn)練的數(shù)據(jù)量足夠多，系統(tǒng)就能正確地識(shí)別。這反映出貝葉斯公式對(duì)現(xiàn)實(shí)變化的高度敏感，對(duì)增量信息有非常好的適應(yīng)能力。

自然語(yǔ)言處理方面的成功開(kāi)辟了一條全新的問(wèn)題解決路徑：

1、原來(lái)看起來(lái)非常復(fù)雜的問(wèn)題可以用貝葉斯公式轉(zhuǎn)化為簡(jiǎn)單的數(shù)學(xué)問(wèn)題；

2、可以把貝葉斯公式和馬爾科夫鏈結(jié)合以簡(jiǎn)化問(wèn)題，使計(jì)算機(jī)能夠方便求解；雖然我們不完全了解為什么這種看似粗暴的簡(jiǎn)化并不影響我們的研究過(guò)程，但從實(shí)踐看來(lái)它非常有效；

3、將大量觀測(cè)數(shù)據(jù)輸入模型進(jìn)行迭代——也就是對(duì)模型進(jìn)行訓(xùn)練，我們就可以得到希望的結(jié)果。

隨著計(jì)算能力的不斷提高、大數(shù)據(jù)技術(shù)的發(fā)展，原來(lái)手工條件下看起來(lái)不可思議的進(jìn)行模型訓(xùn)練的巨大工作量變得很容易實(shí)現(xiàn)，它們使貝葉斯公式巨大的實(shí)用價(jià)值體現(xiàn)出來(lái)。

五、經(jīng)典統(tǒng)計(jì)學(xué)的困難和貝葉斯革命

1、經(jīng)典統(tǒng)計(jì)學(xué)的困難

當(dāng)貝葉斯方法在實(shí)際應(yīng)用中不斷證明自己的同時(shí)，經(jīng)典統(tǒng)計(jì)學(xué)卻遇到了困境。經(jīng)典統(tǒng)計(jì)學(xué)比較適合于解決小型的問(wèn)題，同時(shí)該方法要求我們獲得足夠多的樣本數(shù)據(jù)，而且要求這些樣本能夠代表數(shù)據(jù)的整體特征。在處理涉及幾個(gè)參數(shù)的問(wèn)題時(shí)，它可以得心應(yīng)手。但如果相對(duì)于問(wèn)題的復(fù)雜程度，我們只掌握少量的信息時(shí)，經(jīng)典統(tǒng)計(jì)學(xué)就顯得力不從心了，原因就是數(shù)據(jù)的稀疏性問(wèn)題。

都大數(shù)據(jù)時(shí)代了，還存在數(shù)據(jù)稀疏性問(wèn)題嗎？答案是肯定的。具體來(lái)說(shuō)，一個(gè)取決于n個(gè)參數(shù)，并且每個(gè)參數(shù)只有兩種表現(xiàn)（0或者1）的系統(tǒng)，共有2的n次方種現(xiàn)象。如果某類癌癥的產(chǎn)生過(guò)程中有100個(gè)基因參與（這其實(shí)很保守了，人類總共有幾萬(wàn)個(gè)基因），那么它有2的100次方種可能的基因圖譜；根據(jù)采樣定理進(jìn)行估算，采用經(jīng)典統(tǒng)計(jì)學(xué)方法至少需要獲得1%-10%的樣本才能確定其病因，也就是需要制作出數(shù)萬(wàn)億億億個(gè)患有該疾病的病人的基因圖譜！這不具備可操作性。所以用經(jīng)典統(tǒng)計(jì)學(xué)方法無(wú)法解釋由相互聯(lián)系、錯(cuò)綜復(fù)雜的原因（相關(guān)參數(shù)）所導(dǎo)致的現(xiàn)象。

2、貝葉斯網(wǎng)絡(luò)帶來(lái)工具革命

而目前的情況是，相對(duì)簡(jiǎn)單的問(wèn)題已經(jīng)解決得差不多了，剩下的都非常復(fù)雜。龍卷風(fēng)的形成、星系的起源、致病基因、大腦的運(yùn)作機(jī)制等，要揭示隱藏在這些問(wèn)題背后的規(guī)律，就必須理解它們的成因網(wǎng)絡(luò)，把錯(cuò)綜復(fù)雜的事件梳理清楚。由于經(jīng)典統(tǒng)計(jì)學(xué)失效，科學(xué)家別無(wú)選擇，他們必須從眾多可能奏效的法則中選擇一些可以信任的，并以此為基礎(chǔ)建立理論模型。為了能做出這樣的選擇，為了能在眾多可能性中確定他們認(rèn)為最為匹配的，過(guò)去，科學(xué)家多少是依靠直覺(jué)來(lái)彌補(bǔ)數(shù)據(jù)上的缺失和空白。而貝葉斯公式正好以嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)形式幫他們實(shí)現(xiàn)了這一點(diǎn)。科學(xué)家把所有假設(shè)與已有知識(shí)、觀測(cè)數(shù)據(jù)一起代入貝葉斯公式，就能得到明確的概率值。而要破譯某種現(xiàn)象的成因網(wǎng)絡(luò)，只需將公式本身也結(jié)成網(wǎng)絡(luò)，即貝！葉！斯！網(wǎng)！絡(luò)！，它是貝葉斯公式和圖論結(jié)合的產(chǎn)物，一種全新的科學(xué)高效的工具。

網(wǎng)絡(luò)化想法的提出也不是一帆風(fēng)順的。直到上世紀(jì)80年代，美國(guó)數(shù)學(xué)家朱迪亞·珀?duì)柌抛C明，使用貝葉斯網(wǎng)絡(luò)應(yīng)該可以揭示復(fù)雜現(xiàn)象背后的成因。操作原理是這樣的：如果我們不清楚一個(gè)現(xiàn)象的成因，首先根據(jù)我們認(rèn)為最有可能的原因來(lái)建立一個(gè)模型；然后把每個(gè)可能的原因作為網(wǎng)絡(luò)中的節(jié)點(diǎn)連接起來(lái)，根據(jù)已有的知識(shí)、我們的預(yù)判或者專家意見(jiàn)給每個(gè)連接分配一個(gè)概率值。接下來(lái)只需要向這個(gè)模型代入觀測(cè)數(shù)據(jù)，通過(guò)網(wǎng)絡(luò)節(jié)點(diǎn)間的貝葉斯公式重新計(jì)算出概率值。為每個(gè)新數(shù)據(jù)、每個(gè)連接重復(fù)這種計(jì)算，直到形成一個(gè)網(wǎng)絡(luò)圖，任意兩個(gè)原因之間的連接都得到精確的概率值為止，就大功告成了。即使實(shí)驗(yàn)數(shù)據(jù)存在空白或者充斥噪聲和干擾信息，不懈追尋各種現(xiàn)象發(fā)生原因的貝葉斯網(wǎng)絡(luò)依然能夠構(gòu)建出各種復(fù)雜現(xiàn)象的模型。貝葉斯公式的價(jià)值在于，當(dāng)觀測(cè)數(shù)據(jù)不充分時(shí)，它可以將專家意見(jiàn)和原始數(shù)據(jù)進(jìn)行綜合，以彌補(bǔ)測(cè)量中的不足。我們的認(rèn)知缺陷越大，貝葉斯公式的價(jià)值就越大。

心血管疾病成因的貝葉斯網(wǎng)絡(luò)

和前面提到的馬爾可夫鏈類似，我們可以假設(shè)貝葉斯網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的狀態(tài)值取決于其前面的有限個(gè)狀態(tài)。不同的是，貝葉斯網(wǎng)絡(luò)比馬爾可夫鏈靈活，它不受馬爾可夫鏈的鏈狀結(jié)構(gòu)的約束，因此可以更準(zhǔn)確地描述事件之間的相關(guān)性?？梢哉f(shuō)，馬爾可夫鏈?zhǔn)秦惾~斯網(wǎng)絡(luò)的特例，而貝葉斯網(wǎng)絡(luò)是馬爾可夫鏈的推廣，它給復(fù)雜問(wèn)題提供了一個(gè)普適性的解決框架。

為了確定各個(gè)節(jié)點(diǎn)之間的相關(guān)性，需要用已知數(shù)據(jù)對(duì)貝葉斯網(wǎng)絡(luò)進(jìn)行迭代和訓(xùn)練。由于網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜，理論上，用現(xiàn)有的計(jì)算機(jī)是不可計(jì)算的（基于馮·諾依曼結(jié)構(gòu)的計(jì)算機(jī)無(wú)法解決這種NP復(fù)雜度的問(wèn)題，NP（Non-deterministic Polynomial）指用非確定機(jī)在多項(xiàng)式時(shí)間內(nèi)可以解決的問(wèn)題類）。但對(duì)于一些具體的應(yīng)用，可以根據(jù)實(shí)際情況對(duì)網(wǎng)絡(luò)結(jié)構(gòu)（采用網(wǎng)絡(luò)拓?fù)涞膱D同構(gòu)技術(shù)）和訓(xùn)練過(guò)程進(jìn)行簡(jiǎn)化，使它在計(jì)算上可行。如果量子計(jì)算機(jī)開(kāi)發(fā)成功，將能夠完全解決其計(jì)算問(wèn)題。這樣，貝葉斯公式為科學(xué)家開(kāi)辟的新路就完全打通了。

今天一場(chǎng)轟轟烈烈的“貝葉斯革命”正在發(fā)生：生物學(xué)家用貝葉斯公式研究基因的致病機(jī)制；基金經(jīng)理用貝葉斯公式找到投資策略；互聯(lián)網(wǎng)公司用貝葉斯公式改進(jìn)搜索功能，幫助用戶過(guò)濾垃圾郵件；大數(shù)據(jù)、人工智能和自然語(yǔ)言處理中都大量用到貝葉斯公式。既然在手工時(shí)代，我們無(wú)法預(yù)測(cè)到今天貝葉斯公式與計(jì)算機(jī)結(jié)合的威力，那么我們?cè)趺茨芎鲆曍惾~斯網(wǎng)絡(luò)與量子計(jì)算機(jī)結(jié)合可能蘊(yùn)藏的巨大潛力呢？

3、人類大腦的構(gòu)建方式？

貝葉斯公式不僅在自然科學(xué)領(lǐng)域掀起革命，它的應(yīng)用范圍也延伸到了關(guān)于人類行為和人類大腦活動(dòng)的研究領(lǐng)域。教育學(xué)家突然意識(shí)到，學(xué)生的學(xué)習(xí)過(guò)程其實(shí)就是貝葉斯公式的運(yùn)用；心理學(xué)家證明貝葉斯方法是兒童運(yùn)用的唯一思考方法，其他方法他們似乎完全不會(huì)。進(jìn)一步，心理學(xué)研究的成果使科學(xué)家思考人類的大腦結(jié)構(gòu)是否就是一個(gè)貝葉斯網(wǎng)絡(luò)。這個(gè)公式不僅是研究人類思維的工具，它可能就是大腦本身的構(gòu)建方式。這個(gè)觀點(diǎn)十分大膽，但獲得越來(lái)越廣泛的認(rèn)可。因?yàn)樨惾~斯公式是我們?cè)跊](méi)有充分或準(zhǔn)確信息時(shí)最優(yōu)的推理結(jié)構(gòu)，為了提高生存效率，進(jìn)化會(huì)向這個(gè)模式演進(jìn)。貝葉斯公式突然滲透到一切科學(xué)領(lǐng)域，提供了通用的研究框架，這是十分罕見(jiàn)的事情。

人工智能近年來(lái)取得了長(zhǎng)足的進(jìn)步，但目前的人工智能通常需要從大量的數(shù)據(jù)中進(jìn)行學(xué)習(xí)（需要大數(shù)據(jù)的支持），而人類具有“僅從少量案例就形成概念”的能力，兩者之間存在巨大差距。比如，盡管你這輩子只見(jiàn)過(guò)一個(gè)菠蘿，但你一眼就能看出菠蘿的特征，很快就能從一堆水果中認(rèn)出菠蘿來(lái)，甚至還能在紙上畫出菠蘿的簡(jiǎn)筆畫，而目前的人工智能算法得看成千上萬(wàn)張菠蘿的圖片才能做到。人工智能最典型的代表AlphaGo，也是建立在千萬(wàn)甚至過(guò)億次的圍棋對(duì)弈的基礎(chǔ)上才戰(zhàn)勝人類的，也需要大數(shù)據(jù)的支持，同樣的，目前的語(yǔ)音識(shí)別、文字識(shí)別、圖片識(shí)別也是建立在大數(shù)據(jù)的基礎(chǔ)之上。

不過(guò)，這種情況或許已經(jīng)開(kāi)始改變了。2015年底，一篇人工智能論文登上了《科學(xué) 》雜志的封面，為人們帶來(lái)了人工智能領(lǐng)域的一個(gè)重大突破：三名分別來(lái)自麻省理工學(xué)院、紐約大學(xué)和多倫多大學(xué)的研究者開(kāi)發(fā)了一個(gè)“只看一眼就會(huì)寫字”的計(jì)算機(jī)系統(tǒng)。只需向這個(gè)系統(tǒng)展示一個(gè)來(lái)自陌生文字系統(tǒng)的字符，它就能很快學(xué)到精髓，像人一樣寫出來(lái)，甚至還能寫出其他類似的文字——更有甚者，它還通過(guò)了圖靈測(cè)試，我們很難區(qū)分下圖中的字符是人類還是機(jī)器的作品。這個(gè)系統(tǒng)采用的方法就是貝葉斯程序?qū)W習(xí)——一種基于貝葉斯公式的方法。這不但是人工智能領(lǐng)域的重大突破，而且為我們認(rèn)識(shí)人腦的學(xué)習(xí)機(jī)制提供了重要參考。

人和機(jī)器作品對(duì)比圖

六、理念的革命

這不僅僅是一場(chǎng)科學(xué)的革命，同樣也是一場(chǎng)理念的革命。當(dāng)科學(xué)不斷強(qiáng)調(diào)其對(duì)世界認(rèn)識(shí)的客觀性時(shí)，貝葉斯公式卻融入了主觀性因素：它并不向我們表述世界，而是表述我們所掌握的知識(shí)和經(jīng)驗(yàn)。這些帶有觀察者個(gè)人因素的知識(shí)是脫離研究現(xiàn)象本身的；而它在向我們描述外部現(xiàn)實(shí)世界的同時(shí)，也描述了觀察者對(duì)現(xiàn)實(shí)的認(rèn)知的缺陷。更重要的，它迫使我們認(rèn)識(shí)到，科學(xué)理論和科學(xué)模型反映的是現(xiàn)實(shí)的心理意象，而不是現(xiàn)實(shí)本身。而現(xiàn)實(shí)為我們提供數(shù)據(jù)，以保證對(duì)現(xiàn)實(shí)的意象不會(huì)離現(xiàn)實(shí)本身太遠(yuǎn)。在尋找各種現(xiàn)象原因的同時(shí)，它也在規(guī)范著我們的思想。

七、貝葉斯公式這么牛，與我何干？

我們經(jīng)常需要在信息不充分或者不準(zhǔn)確的情況下進(jìn)行判斷和決策，一條街上哪個(gè)飯館最靠譜？在自習(xí)室驚鴻一瞥的女神有沒(méi)有男朋友？老公的公文包里發(fā)現(xiàn)一只口紅，他有沒(méi)有出軌？新開(kāi)發(fā)的App應(yīng)該等做得盡善盡美再發(fā)布，還是應(yīng)該盡早發(fā)布，用互聯(lián)網(wǎng)的力量幫助它完善？我應(yīng)該選擇哪個(gè)工作offer或者還是考公務(wù)員才能使自己的收益最大化？

貝葉斯公式為我們提供了一些決策原則：

平時(shí)注意觀察和思考，建立自己的思維框架，這樣在面臨選擇時(shí)就容易形成一個(gè)接近實(shí)際情況的先驗(yàn)概率，這樣經(jīng)過(guò)少量的試錯(cuò)和糾錯(cuò)的迭代循環(huán)就可能得到理想的結(jié)果；在經(jīng)過(guò)很多次選擇和實(shí)踐的歷練后就能夠形成自己的直覺(jué)，在面對(duì)陌生情況時(shí)，根據(jù)自己的經(jīng)驗(yàn)和少量信息就能夠快速地做出比較準(zhǔn)確的判斷。

大數(shù)據(jù)時(shí)代獲得信息的成本越來(lái)越低，社會(huì)也變得更加開(kāi)放和包容，初始狀態(tài)（先驗(yàn)概率）的重要性下降了，即使最初選擇不理想，只要根據(jù)新情況不斷進(jìn)行調(diào)整，仍然可以取得成功。所以如果當(dāng)下覺(jué)得很難做出選擇，那就傾聽(tīng)內(nèi)心的聲音，讓直覺(jué)來(lái)選擇，這有利于治療選擇恐懼癥。

以開(kāi)發(fā)App的例子來(lái)說(shuō)，先按照自己的想法弄個(gè)可用的原型出來(lái)，然后充分利用互聯(lián)網(wǎng)的力量，讓活躍的用戶社區(qū)幫助它快速迭代，逐漸使它的功能和體驗(yàn)越來(lái)越好。

對(duì)新鮮事物保持開(kāi)放的心態(tài)，愿意根據(jù)新信息對(duì)自己的策略和行為進(jìn)行調(diào)整。

“大膽假設(shè)，小心求證”，“不斷試錯(cuò)，快速迭代”，這些都可以看成貝葉斯公式的不同表述。英國(guó)哲學(xué)家以賽亞·伯林（Isaish Berlin）曾經(jīng)援引古希臘詩(shī)人的斷簡(jiǎn)殘片“狐貍多知而刺猬有一大知”，將人的策略分為狐貍和刺猬兩類。刺猬用一個(gè)宏大的概念解釋所有現(xiàn)象，而狐貍知道很多事情，用多元化的視角看待問(wèn)題，它也愿意包容新的證據(jù)以使得自己的模型與之相適應(yīng)。在這個(gè)快速變化的時(shí)代，固守一個(gè)不變的信條的刺猬很難適應(yīng)環(huán)境的變化，而使用貝葉斯公式的靈活的狐貍才更容易生存。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴