国产精品有码无码AV在线,亚洲无线国产观看原创,亚洲色无码一级毛片一区二区每天将

統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間是否涇渭分明一直學(xué)界爭(zhēng)論的焦點(diǎn)。

有的學(xué)者認(rèn)為機(jī)器學(xué)習(xí)只是統(tǒng)計(jì)學(xué)披了一層光鮮的外衣。而另一些討論則認(rèn)為涉及使用邏輯回歸或者廣義線性模型（GLM）的可以稱作機(jī)器學(xué)習(xí)；否則就不是。

還有一些觀點(diǎn)認(rèn)為：是否執(zhí)行元分析或許是區(qū)分兩個(gè)領(lǐng)域的一個(gè)標(biāo)準(zhǔn)。

但，爭(zhēng)論兩者之間的邊界，真的有意義嗎？如果對(duì)這個(gè)問(wèn)題進(jìn)行嚴(yán)肅地思考，或許我們會(huì)發(fā)現(xiàn)，答案是否定的。

麻省理工Sam Finlayson 博士指出“過(guò)去關(guān)于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)之間的討論很大程度上沒(méi)有切中要害，因?yàn)檫@些討論要么忽略了歷史背景、要么‘回歸方法’歸屬模棱兩可”，因此這種爭(zhēng)論事實(shí)上毫無(wú)意義。

1、歷史背景的忽略：“機(jī)器學(xué)習(xí)”術(shù)語(yǔ)的誕生并不是為了區(qū)分統(tǒng)計(jì)學(xué)

達(dá)特茅斯會(huì)議期間合影數(shù)千年來(lái)，研究者們一直夢(mèng)想建造“智能”設(shè)備，但“人工智能”一詞卻是到1956年才出現(xiàn)。John McCarthy 在當(dāng)時(shí)的達(dá)特茅斯會(huì)議上提出這個(gè)術(shù)語(yǔ)，并將人工智能定義為：制造智能機(jī)器的科學(xué)和工程。

至此之后，人工之智能術(shù)語(yǔ)使用并流行到了今天。

而McCarthy能在會(huì)議上說(shuō)服參會(huì)者使用這一術(shù)語(yǔ)很大程度上因?yàn)檫@個(gè)定義本身就是非常模糊的。

在那個(gè)年代，致力于“智能”的科學(xué)家們的研究視角還未轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)”，而是專注于自動(dòng)機(jī)理論、形式邏輯和控制論等東西。

也就是說(shuō)McCarthy當(dāng)時(shí)想要?jiǎng)?chuàng)造一個(gè)術(shù)語(yǔ)來(lái)容納所有這些范式，而不是傾向于任何特定的方法。

正是在這種情況下，Arthur Samuel（達(dá)特茅斯會(huì)議的與會(huì)者之一）在1959年提出了“機(jī)器學(xué)習(xí)”一詞，并將其定義為一種研究領(lǐng)域，即不進(jìn)行顯式編程就可讓計(jì)算機(jī)進(jìn)行學(xué)習(xí)的研究領(lǐng)域。

之所以有此定義是因?yàn)镾amuels和他的同事們希望通過(guò)讓計(jì)算機(jī)擁有識(shí)別能力，并隨著時(shí)間的推移不斷改進(jìn)這種能力來(lái)使得計(jì)算機(jī)變得更加“智能”。

在今天看來(lái)，這種研究方法似乎并不陌生，但先驅(qū)們卻花費(fèi)了數(shù)十年才讓其成為AI研究的主導(dǎo)范式。

從當(dāng)時(shí)研究者的意圖來(lái)看，機(jī)器學(xué)習(xí)是為了描述計(jì)算機(jī)的設(shè)計(jì)過(guò)程而創(chuàng)建的，該過(guò)程利用統(tǒng)計(jì)方法來(lái)改善性能。也就是說(shuō)該術(shù)語(yǔ)是旨在與構(gòu)建智能機(jī)器的非數(shù)據(jù)驅(qū)動(dòng)方法形成對(duì)比，不是為了與統(tǒng)計(jì)學(xué)形成對(duì)比。

畢竟統(tǒng)計(jì)學(xué)重點(diǎn)使用數(shù)據(jù)驅(qū)動(dòng)的方法為人類提供有效信息。

另一個(gè)被普遍認(rèn)可的機(jī)器學(xué)習(xí)的定義來(lái)自于Tom M.Mitchell 在 1997年出版的教科書，他在書中提到：“機(jī)器學(xué)習(xí)領(lǐng)域涉及如何讓計(jì)算機(jī)程序通過(guò)經(jīng)驗(yàn)而自動(dòng)改進(jìn)的一類問(wèn)題”。

另外，書中還有一個(gè)半正式定義：對(duì)于某類任務(wù) T 和性能度量 P，計(jì)算機(jī)程序從經(jīng)驗(yàn) E 中學(xué)習(xí)，然后它在任務(wù) T 中的性能 P 隨著經(jīng)驗(yàn) E 的提高而提高。

2、關(guān)于誰(shuí)“擁有”回歸的爭(zhēng)論沒(méi)有抓住重點(diǎn)

當(dāng)前許多人試圖在統(tǒng)計(jì)方法和機(jī)器方法之間用二分法強(qiáng)硬的劃定界限，但這顯然是一種獨(dú)裁的專制。

有的人特別執(zhí)著的認(rèn)為：回歸驅(qū)動(dòng)的研究方法是統(tǒng)計(jì)學(xué)專屬，無(wú)論如何不能稱作機(jī)器學(xué)習(xí)。

此類觀點(diǎn)其實(shí)比目前“邏輯回歸等于計(jì)量經(jīng)濟(jì)學(xué)”的觀點(diǎn)還要愚蠢，兩者同樣挑起了激烈的爭(zhēng)論。

六十年來(lái)機(jī)器學(xué)習(xí)社區(qū)一直在致力于“更好的計(jì)算機(jī)”，而并不關(guān)心是奇妙的方法還是統(tǒng)計(jì)數(shù)據(jù)哪個(gè)更優(yōu)。

這也是為什么大多數(shù)教授在機(jī)器學(xué)習(xí)課程教學(xué)的時(shí)候，花大精力來(lái)教授廣義線性模型及其變體。

所以說(shuō)統(tǒng)計(jì)學(xué)在機(jī)器學(xué)習(xí)和人工智能的研究背景下是非常有意義的，機(jī)器學(xué)習(xí)術(shù)語(yǔ)涉及不同的方法，并致力于讓“程序”變得智能。坦率地說(shuō)，任何段位的統(tǒng)計(jì)學(xué)家都不能斷言“脫離實(shí)際研究背景的統(tǒng)計(jì)學(xué)方法是有用的”。

回歸方法歸屬之爭(zhēng)其實(shí)在很大程度上同時(shí)低估了機(jī)器學(xué)習(xí)和統(tǒng)計(jì)，原因大致可以歸納為以下四個(gè)：

1.限制了經(jīng)典統(tǒng)計(jì)方法在構(gòu)建計(jì)算機(jī)程序方面所能發(fā)揮的核心作用；2.忽略了機(jī)器學(xué)習(xí)對(duì)統(tǒng)計(jì)學(xué)的影響，實(shí)際上人工智能和計(jì)算機(jī)學(xué)科很大程度促進(jìn)了統(tǒng)計(jì)學(xué)的復(fù)興。例如Judea Pearl的因果關(guān)系開(kāi)辟了新的統(tǒng)計(jì)學(xué)范式；3.統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間“強(qiáng)硬”的二分法在一定程度上弱化了建模決策中的重要信息，并且這種分類有時(shí)候毫無(wú)意義。4.當(dāng)前機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的頂級(jí)研究學(xué)者大多同時(shí)屬于這兩個(gè)領(lǐng)域。

其實(shí)，當(dāng)前有很多研究都突出了統(tǒng)計(jì)學(xué)家與機(jī)器學(xué)習(xí)研究人員的豐富互動(dòng)，例如著名學(xué)者Rob Tibshirani和Trevor Hastie沒(méi)有糾結(jié)于方法論的邊界線，而是利用機(jī)器學(xué)習(xí)研究人員開(kāi)發(fā)的工具，從而幫助完善統(tǒng)計(jì)學(xué)領(lǐng)域的研究。并不是說(shuō)Hastie和Tibs發(fā)明了新方法，而是意味著這些方法已經(jīng)影響了統(tǒng)計(jì)學(xué)家和機(jī)器學(xué)習(xí)研究人員的日常工作。

3、許多“爭(zhēng)論”在開(kāi)始之前就已注定失敗

目標(biāo)的不同導(dǎo)致了方法和文化的差異，這也是為什么“機(jī)器學(xué)習(xí)”一詞的含義自誕生以來(lái)發(fā)生了如此大的變化。

語(yǔ)言中的脫節(jié)讓許多“爭(zhēng)論”在開(kāi)始之前就已注定失敗。

如上文所述，機(jī)器學(xué)習(xí)這一研究領(lǐng)域之所以得以創(chuàng)立，便是由于計(jì)算機(jī)科學(xué)家試圖創(chuàng)建和理解智能計(jì)算機(jī)系統(tǒng)，至今依舊如此。

主要的機(jī)器學(xué)習(xí)應(yīng)用包括語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、機(jī)器人/自動(dòng)系統(tǒng)、計(jì)算廣告、監(jiān)控、聊天機(jī)器人等等。在嘗試解決這些問(wèn)題的過(guò)程中，機(jī)器學(xué)習(xí)研究者基本總是先從嘗試經(jīng)典的統(tǒng)計(jì)學(xué)方法開(kāi)始，例如相對(duì)簡(jiǎn)單的廣義線性模型（GLM）。

當(dāng)然，長(zhǎng)年累月，計(jì)算機(jī)科學(xué)家也不斷提出了新的方法，讓機(jī)器學(xué)習(xí)這一工具日益強(qiáng)大。

與其他任意背景下的進(jìn)化一樣，用于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)學(xué)方法，其進(jìn)化史也是在“物競(jìng)天擇”的壓力下所形成的。與統(tǒng)計(jì)學(xué)家相比，機(jī)器學(xué)習(xí)研究者往往很少關(guān)注：理解算法背后所執(zhí)行的所有具體動(dòng)作。這一點(diǎn)其實(shí)非常重要，并且越來(lái)越重要。

他們通常最關(guān)注的是模型誤差。這樣就導(dǎo)致機(jī)器學(xué)習(xí)研究者開(kāi)發(fā)的方法往往會(huì)更加靈活，甚至不惜以犧牲可解釋性為代價(jià)來(lái)實(shí)現(xiàn)更高的靈活性。這種離散式的進(jìn)化，就很容易讓機(jī)器學(xué)習(xí)和完全基于方法的統(tǒng)計(jì)學(xué)研究之間的界限變得模糊。

此外，也導(dǎo)致不少統(tǒng)計(jì)學(xué)家并不了解機(jī)器學(xué)習(xí)的歷史。因此毫不驚訝地，他們會(huì)熱衷于采用任何其他的術(shù)語(yǔ)來(lái)定義機(jī)器學(xué)習(xí)領(lǐng)域，即便這種做法毫無(wú)必要。出于同樣的道理，基于“使用”的嚴(yán)格劃分現(xiàn)在變得非常復(fù)雜，實(shí)際上現(xiàn)在很多機(jī)器學(xué)習(xí)從業(yè)者，即便當(dāng)他們僅僅是在應(yīng)用機(jī)器學(xué)習(xí)方法來(lái)做純粹的數(shù)據(jù)分析，而不是驅(qū)動(dòng)計(jì)算機(jī)程序時(shí)，他們依舊會(huì)稱他們是在做機(jī)器學(xué)習(xí)。

雖然從嚴(yán)格的歷史意義上而言，這種說(shuō)法并不對(duì)，但是我認(rèn)為也無(wú)需指責(zé)這種做法，因?yàn)檫@可能是出于習(xí)慣、文化背景或者“認(rèn)為這種說(shuō)法聽(tīng)起來(lái)來(lái)很酷”的綜合影響。

所以在現(xiàn)實(shí)中，人們用到“機(jī)器學(xué)習(xí)”這個(gè)術(shù)語(yǔ)時(shí)，往往指的與機(jī)器學(xué)習(xí)本身非常不同的其他事情。人們可能用它來(lái)表達(dá)：“我正在用統(tǒng)計(jì)學(xué)方法來(lái)讓我設(shè)計(jì)的程序?qū)W習(xí)”或者“我正在設(shè)計(jì)可以部署到自動(dòng)化系統(tǒng)中的數(shù)據(jù)分析”。

又或者表達(dá)的意思是：“我正在使用一個(gè)最初由機(jī)器學(xué)習(xí)社區(qū)開(kāi)發(fā)的方法，如隨機(jī)森林，來(lái)做統(tǒng)計(jì)學(xué)數(shù)據(jù)分析”。而更普遍的情況是，他們使用這個(gè)詞是在說(shuō)：“我自己是一個(gè)機(jī)器學(xué)習(xí)研究者，我就是在使用數(shù)據(jù)做機(jī)器學(xué)習(xí)研究，我怎么高興就怎么說(shuō)。”

實(shí)際上，這一術(shù)語(yǔ)的不同用法并不令人驚訝也不成問(wèn)題，因而這僅僅是由于語(yǔ)言的進(jìn)化而導(dǎo)致的結(jié)果。然而當(dāng)另一群人——數(shù)據(jù)科學(xué)家群起而辯“一個(gè)特定的項(xiàng)目是否能純粹地冠之以機(jī)器學(xué)習(xí)或者統(tǒng)計(jì)學(xué)，二者選其一”時(shí)，就非?；?。

在我看來(lái)，“數(shù)據(jù)科學(xué)家”這一術(shù)語(yǔ)原本就是由機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)交匯而成的。而當(dāng)這一爭(zhēng)論發(fā)生時(shí)，大家往往都帶著各不相同、定義模糊、并且表達(dá)不清的假設(shè)參與爭(zhēng)論，一開(kāi)場(chǎng)便是爭(zhēng)論這些詞的意思。而隨后他們幾乎不會(huì)花時(shí)間去了解這些詞的出處或者聽(tīng)對(duì)方真正要表達(dá)的是什么，而僅僅是相互之間隔空喊話，聲音大然而卻并不清晰。

4、這整場(chǎng)“爭(zhēng)論”差不多就是在浪費(fèi)時(shí)間

現(xiàn)在，讓我們將這些真實(shí)的問(wèn)題擺在桌面上來(lái)談：如今有很多機(jī)器學(xué)習(xí)研究者（或者至少是機(jī)器學(xué)習(xí)愛(ài)好者）對(duì)統(tǒng)計(jì)學(xué)的理解尚有不足。有一部分人確實(shí)就是一位機(jī)器學(xué)習(xí)研究者，然而也有許多專業(yè)的統(tǒng)計(jì)學(xué)家有時(shí)候也會(huì)認(rèn)為自己是機(jī)器學(xué)習(xí)研究者。

而更嚴(yán)重的現(xiàn)實(shí)情況是，機(jī)器學(xué)習(xí)研究的發(fā)展走得如此之快，并且常常在文化上與統(tǒng)計(jì)學(xué)領(lǐng)域脫節(jié)得如此之遠(yuǎn)，以至于我認(rèn)為對(duì)于即便是非常杰出的機(jī)器學(xué)習(xí)研究者而言，對(duì)統(tǒng)計(jì)學(xué)的某些部分“重新發(fā)現(xiàn)”或者“重新發(fā)明”都非常普遍。

這是個(gè)問(wèn)題，也是種浪費(fèi)！最后，由于大量第三方應(yīng)用研究者非常喜歡用“機(jī)器學(xué)習(xí)”這個(gè)術(shù)語(yǔ)：為了讓論文顯得更時(shí)髦而在論文中大量應(yīng)用這一術(shù)語(yǔ)，即便現(xiàn)實(shí)中他們所謂的“機(jī)器學(xué)習(xí)”既不是構(gòu)建自動(dòng)化系統(tǒng)也沒(méi)有使用機(jī)器學(xué)習(xí)領(lǐng)域提出的方法。

（雷鋒網(wǎng)）我認(rèn)為，所有這些問(wèn)題的解決方法，就是讓人們更多地意識(shí)到：大多數(shù)機(jī)器學(xué)習(xí)的數(shù)據(jù)方法實(shí)際上就存在于統(tǒng)計(jì)學(xué)中。無(wú)論這些方法是用到了數(shù)據(jù)分析中還是設(shè)計(jì)智能系統(tǒng)中，我們的首要任務(wù)是培養(yǎng)對(duì)統(tǒng)計(jì)學(xué)原理的深刻理解，而不是執(zhí)拗于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域的劃分是正確還是錯(cuò)誤。

關(guān)于很多工作是機(jī)器學(xué)習(xí)還是統(tǒng)計(jì)學(xué)的無(wú)休止的爭(zhēng)論，最終只會(huì)分散人們的注意力，讓他們無(wú)法花更多精力來(lái)進(jìn)行“如何通過(guò)正確匹配問(wèn)題和特定的工具來(lái)很好地完成工作”的必要對(duì)話和交流——相對(duì)而言，這才是更重要的事。與此同時(shí)，人們固執(zhí)己見(jiàn)地對(duì)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法錯(cuò)誤的二分法，會(huì)讓很多研究者進(jìn)一步養(yǎng)成沒(méi)有必要就不使用復(fù)雜方法的習(xí)慣，僅僅是為了讓自己感覺(jué)像是在做“真正的機(jī)器學(xué)習(xí)”。

這也會(huì)直接導(dǎo)致，人們會(huì)為了讓自己的工作在方法論上聽(tīng)起來(lái)更時(shí)髦，就肆無(wú)忌憚地把自己的工作稱作機(jī)器學(xué)習(xí)。

統(tǒng)計(jì)計(jì)算的黃金時(shí)代，正在推動(dòng)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域變得空前的緊密。當(dāng)然，機(jī)器學(xué)習(xí)研究誕生于計(jì)算機(jī)科學(xué)體系，而當(dāng)代的統(tǒng)計(jì)學(xué)家越來(lái)越多地依賴于計(jì)算機(jī)科學(xué)界幾十年來(lái)開(kāi)創(chuàng)的算法和軟件棧。他們也越來(lái)越多地發(fā)現(xiàn)機(jī)器學(xué)習(xí)研究者所提出的方法的用處，例如高維度回歸，這一點(diǎn)尤其體現(xiàn)在計(jì)算生物學(xué)領(lǐng)域。

另一方面，機(jī)器學(xué)習(xí)社區(qū)也越來(lái)越多地關(guān)注可解釋性、公平性、可驗(yàn)證的魯棒性等主題，這也讓很多研究者優(yōu)先考慮讓機(jī)器學(xué)習(xí)輸出的數(shù)值更直接地與傳統(tǒng)的統(tǒng)計(jì)值一致。至少，即便是在盡可能地使用最復(fù)雜的架構(gòu)來(lái)部署系統(tǒng)時(shí)，人們也普遍意識(shí)到，使用經(jīng)典的統(tǒng)計(jì)學(xué)來(lái)測(cè)量和評(píng)估機(jī)器學(xué)習(xí)模型的性能很有必要。

5、總結(jié)

總而言之，學(xué)界關(guān)于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的爭(zhēng)論是錯(cuò)誤的，人們對(duì)于相關(guān)術(shù)語(yǔ)的使用也是超載的，方法論的二分法也并不正確，機(jī)器學(xué)習(xí)研究者越來(lái)越多地關(guān)注統(tǒng)計(jì)學(xué)，而統(tǒng)計(jì)學(xué)家們也越來(lái)越依賴于計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)社區(qū)。

根本就不存在回歸和兼并陰謀論。

現(xiàn)在出現(xiàn)了很多炒作現(xiàn)象，但并不能改變的一個(gè)事實(shí)是：當(dāng)其他人使用的術(shù)語(yǔ)與你不同時(shí)，那是因?yàn)樗麄儊?lái)自不同的背景、有著不同的目標(biāo)，而不是因?yàn)樗麄儾徽\(chéng)實(shí)或者愚蠢。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴