0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

不同人眼里的機(jī)器學(xué)習(xí)是什么樣的?

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-07-16 08:42 ? 次閱讀

當(dāng)一個(gè)人真正想在機(jī)器學(xué)習(xí)中取得一定成就時(shí),他需要深入微積分、線性代數(shù),掌握一定的統(tǒng)計(jì)學(xué)知識(shí),研究的深度越深,數(shù)學(xué)基礎(chǔ)的重要性就越顯而易見(jiàn)。但是,機(jī)器學(xué)習(xí)和數(shù)學(xué)的這種緊密關(guān)系卻也會(huì)帶來(lái)誤解,現(xiàn)在,一些人已經(jīng)傾向于把機(jī)器學(xué)習(xí)視為美化統(tǒng)計(jì)的手段,更有甚者,一些業(yè)內(nèi)人士也開(kāi)始迷失于混淆,失去了努力的方向。

隨著圍繞深度學(xué)習(xí)的炒作逐漸消退,像上圖這樣的惡搞漫畫(huà)開(kāi)始出現(xiàn)在公眾視野里,每每看到這些圖,一些人會(huì)抱著譏諷的心態(tài)會(huì)心一笑。在他們眼里,機(jī)器學(xué)習(xí)沒(méi)什么值得興奮的,它只是傳統(tǒng)統(tǒng)計(jì)技術(shù)的新包裝,內(nèi)容上換湯不換藥。這種想法正變得越來(lái)越普遍,但機(jī)器學(xué)習(xí)真的不是統(tǒng)計(jì)學(xué)!

雖然深度學(xué)習(xí)火了,這對(duì)機(jī)器學(xué)習(xí)來(lái)說(shuō)卻不是什么好事。為了避免深度學(xué)習(xí)被誤認(rèn)為是import keras就能解決一切的技術(shù),第一批推廣深度學(xué)習(xí)的機(jī)器學(xué)習(xí)研究人員一直在淡化現(xiàn)代神經(jīng)網(wǎng)絡(luò)的作用,而這種矯枉過(guò)正已經(jīng)開(kāi)始對(duì)學(xué)界的發(fā)展和未來(lái)造成不良影響——人們開(kāi)始把它看成空中花園,討論起寒冬即將來(lái)臨,人工智能研究將陷入停滯。

正如Yann LeCun所說(shuō)的那樣,深度學(xué)習(xí)如今的影響已經(jīng)超過(guò)了一個(gè)普通流行詞的影響上限。

本文的目的不是討論AI是否將迎來(lái)嚴(yán)冬,也不是討論機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)哪個(gè)更值得深入研究。相反地,由于計(jì)算機(jī)算力的大幅提高的大型優(yōu)質(zhì)數(shù)據(jù)集的出現(xiàn),再加上深度學(xué)習(xí)的突破性成果,我們要證明,機(jī)器學(xué)習(xí)也是全球技術(shù)進(jìn)步的一大重要前沿。

機(jī)器學(xué)習(xí) != 統(tǒng)計(jì)學(xué)

如果你想融資,寫(xiě)AI;如果你想招聘,寫(xiě)ML;如果你想實(shí)現(xiàn),線性回歸?!獢?shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和人工智能到底有什么區(qū)別?

首先,機(jī)器學(xué)習(xí)不等于統(tǒng)計(jì)學(xué)。雖然把機(jī)器學(xué)習(xí)簡(jiǎn)單等同于統(tǒng)計(jì)學(xué)是個(gè)徹頭徹尾的誤解,但大家產(chǎn)生這種想法確實(shí)也情有可原。機(jī)器學(xué)習(xí)中普遍存在大量統(tǒng)計(jì)學(xué)意義上的概念和術(shù)語(yǔ),比如回歸、權(quán)重、偏差、模型等。機(jī)器學(xué)習(xí)模型也經(jīng)常需要用到統(tǒng)計(jì)函數(shù),比如分類(lèi)模型的softmax輸出是個(gè)logits,模型訓(xùn)練過(guò)程中需要用到logistic回歸。

從技術(shù)上看,這樣理解沒(méi)有問(wèn)題,但僅憑這幾點(diǎn),我們不能把機(jī)器學(xué)習(xí)當(dāng)成統(tǒng)計(jì)學(xué)的附屬物。事實(shí)上,這種比較是沒(méi)有意義的。統(tǒng)計(jì)是數(shù)據(jù)領(lǐng)域的東西,它涉及對(duì)數(shù)據(jù)的理解和解釋。而機(jī)器學(xué)習(xí)只不過(guò)是一類(lèi)計(jì)算算法的集合(可用于分析和決策),它屬于計(jì)算機(jī)科學(xué)領(lǐng)域。在很多情況下,某些機(jī)器學(xué)習(xí)算法既不能分析數(shù)據(jù),也不能構(gòu)建預(yù)測(cè)模型,比如強(qiáng)化學(xué)習(xí)算法不需要事先準(zhǔn)備好的數(shù)據(jù)集,圖像算法的數(shù)據(jù)也不是數(shù)學(xué)意義上的數(shù)據(jù)。

當(dāng)然,這不是說(shuō)機(jī)器學(xué)習(xí)取得的成就都是計(jì)算機(jī)科學(xué)的,和統(tǒng)計(jì)學(xué)一點(diǎn)兒關(guān)系都沒(méi)有。和其他任何研究領(lǐng)域一樣,機(jī)器學(xué)習(xí)的成功是多領(lǐng)域知識(shí)綜合作用的結(jié)果,統(tǒng)計(jì)學(xué)和數(shù)學(xué)在其中尤為明顯。然而,為了正確評(píng)估機(jī)器學(xué)習(xí)方法的強(qiáng)大影響和潛力,首先我們必須要認(rèn)識(shí)到,人工智能的現(xiàn)代發(fā)展不等于計(jì)算機(jī)算力提高+數(shù)據(jù)集+統(tǒng)計(jì)學(xué)。

機(jī)器學(xué)習(xí)不需要高級(jí)統(tǒng)計(jì)知識(shí)

這里我們舉個(gè)例子。當(dāng)我開(kāi)始學(xué)機(jī)器學(xué)習(xí)時(shí),我選上了一門(mén)深度學(xué)習(xí)課。這是我本科必修課的一部分,當(dāng)時(shí)老師要求我們?cè)?a href="http://ttokpm.com/tags/tensorflow/" target="_blank">TensorFlow中實(shí)現(xiàn)并訓(xùn)練Wasserstein GAN。

需要注意的是,我只上過(guò)這么一節(jié)和深度學(xué)習(xí)有關(guān)的必修課,而且課程知識(shí)都忘的差不多了。不用說(shuō),我的統(tǒng)計(jì)學(xué)也不咋地。但是,通過(guò)閱讀論文,我能理解GAN是什么,然后從頭開(kāi)始實(shí)現(xiàn)它。在MS Celebs數(shù)據(jù)集上完成訓(xùn)練后,最后我們生成了非常逼真的虛假圖像。

同樣是在這門(mén)課上,我和同學(xué)還訓(xùn)練了可以分割癌細(xì)胞組織圖像的模型、機(jī)器翻譯模型、文本分類(lèi)模型和圖像風(fēng)格遷移模型,它們用的都是近幾年最先進(jìn)的技術(shù)。但是如果你問(wèn)我們?cè)撛趺从?jì)算人口的方差、怎么計(jì)算邊際概率,大多數(shù)人會(huì)一臉懵逼。

看得出來(lái),這和那些人眼里的機(jī)器學(xué)習(xí)不太一樣。

確實(shí),在深度學(xué)習(xí)領(lǐng)域,專(zhuān)家比學(xué)生有著更深厚的統(tǒng)計(jì)學(xué)基礎(chǔ)。一般而言,信息理論需要對(duì)數(shù)據(jù)和概率有很強(qiáng)的理解,如果要我對(duì)想成為數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師新人提建議,我也會(huì)讓他們好好學(xué)習(xí)統(tǒng)計(jì)學(xué)。但是盡管如此,幾乎沒(méi)有統(tǒng)計(jì)學(xué)背景的人確實(shí)可以深入理解尖端的ML概念,這直接證明ML不是統(tǒng)計(jì)學(xué)的附屬物。

還應(yīng)該承認(rèn)的一點(diǎn)是,撇開(kāi)神經(jīng)網(wǎng)絡(luò),一些機(jī)器學(xué)習(xí)算法確實(shí)要求學(xué)習(xí)者、使用者有更強(qiáng)的統(tǒng)計(jì)和概率背景,但即便這些方法通常被稱(chēng)為統(tǒng)計(jì)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí),它們比常規(guī)的統(tǒng)計(jì)學(xué)理論要淺顯得多。再說(shuō)近幾年機(jī)器學(xué)習(xí)的進(jìn)展幾乎都是神經(jīng)網(wǎng)絡(luò),它們和統(tǒng)計(jì)的關(guān)系就更遠(yuǎn)了。

如今所有領(lǐng)域都在呼吁跨學(xué)科研究,機(jī)器學(xué)習(xí)也不例外。換句話說(shuō),ML研究人員學(xué)習(xí)統(tǒng)計(jì)知識(shí)只不過(guò)是為了處理各種類(lèi)型的數(shù)據(jù),這里不存在上層下層關(guān)系。

機(jī)器學(xué)習(xí)=表征+評(píng)估+優(yōu)化

捫心自問(wèn),我們確實(shí)在算法、優(yōu)化算法、微積分、線性代數(shù)甚至概率論上有扎實(shí)基礎(chǔ),但這些數(shù)學(xué)知識(shí)是我們處理問(wèn)題的工具,它們和高級(jí)統(tǒng)計(jì)知識(shí)不搭邊。

機(jī)器學(xué)習(xí)是一類(lèi)計(jì)算算法,它們通過(guò)迭代計(jì)算某個(gè)目標(biāo)函數(shù)的近似形式。華盛頓大學(xué)計(jì)算機(jī)科學(xué)教授Pedro Domingos曾指出機(jī)器學(xué)習(xí)算法由三個(gè)部分組成:表征、評(píng)估、優(yōu)化。

表征指的是把輸入從一個(gè)空間映射進(jìn)另一個(gè)空間,從而使輸入更容易被理解。以卷積神經(jīng)網(wǎng)絡(luò)為例,無(wú)論輸入圖像是貓是狗,神經(jīng)網(wǎng)絡(luò)是無(wú)法根據(jù)這些原始像素直接分類(lèi)的,因此我們要把像素轉(zhuǎn)換成網(wǎng)絡(luò)更容易解釋和評(píng)估的表征。

評(píng)估基本就是損失函數(shù)。你的算法會(huì)如何有效地把數(shù)據(jù)映射進(jìn)更有用的空間?你的softmax輸出和one-hot編碼標(biāo)簽(分類(lèi))有多接近?你的模型是否正確預(yù)測(cè)了展開(kāi)文本序列的下一個(gè)單詞?……這些內(nèi)容向你展示了模型的性能情況,更重要的是,他們也定義了模型將要學(xué)習(xí)的內(nèi)容。

優(yōu)化是算法的最后一塊內(nèi)容。當(dāng)你開(kāi)始評(píng)估自己的模型時(shí),你會(huì)希望模型的代表性功能能再?gòu)?qiáng)化一下,得分也再高一些,這時(shí)你就要用到優(yōu)化。在神經(jīng)網(wǎng)絡(luò)中,這同樣意味著用一些隨機(jī)梯度下降的變量根據(jù)損失函數(shù)優(yōu)化網(wǎng)絡(luò)的權(quán)重和偏差。

在訓(xùn)練圖像分類(lèi)器時(shí),除了定義適當(dāng)?shù)膿p失函數(shù),我們不要求模型函數(shù)的輸出有邏輯。這意味著雖然我們用了像logistic回歸這樣的統(tǒng)計(jì)函數(shù),而且它確實(shí)為定義模型空間提供了有效信息,但它沒(méi)有把優(yōu)化問(wèn)題轉(zhuǎn)成數(shù)據(jù)理解問(wèn)題。

深度學(xué)習(xí)技巧

為了把統(tǒng)計(jì)學(xué)更徹底地剝離出去,我們來(lái)看深度學(xué)習(xí)。深層神經(jīng)網(wǎng)絡(luò)內(nèi)部的工作機(jī)制幾乎是全新的一套體系,縱使完全連接節(jié)點(diǎn)由權(quán)重和偏差組成,那么卷積層呢?Rectifier activations呢?Batch normalization呢?Residual layers呢?Dropout呢?注意力機(jī)制呢?

這些創(chuàng)新對(duì)深層神經(jīng)網(wǎng)絡(luò)性能的提高至關(guān)重要,它們和傳統(tǒng)統(tǒng)計(jì)技術(shù)沒(méi)有可比性。如果不信,你可以指著自己VGG-16 ConvNet問(wèn)統(tǒng)計(jì)學(xué)家:我的模型過(guò)擬合,怎么辦?看看他們是否覺(jué)得你可以隨意丟棄1億個(gè)參數(shù)里的5000萬(wàn)個(gè)。

更不用說(shuō),深度學(xué)習(xí)根本不在意模型的可解釋性。

新的前沿

在過(guò)去幾年里,你可能已經(jīng)在論文、新聞、社交網(wǎng)絡(luò)上看過(guò)機(jī)器學(xué)習(xí)的無(wú)數(shù)炫酷應(yīng)用,這里我們不再具體介紹。我要告訴你的是,無(wú)論是機(jī)器學(xué)習(xí)還是深度學(xué)習(xí),現(xiàn)在它們能做的事更多。

在2012年以前,對(duì)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的解構(gòu)還只是挑戰(zhàn)。那之后,學(xué)界出現(xiàn)訓(xùn)練完備的CNN和LSTM,實(shí)現(xiàn)了人類(lèi)歷史上的巨大跨越。而現(xiàn)在,計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音轉(zhuǎn)錄等領(lǐng)域已經(jīng)取得了相當(dāng)大的進(jìn)步,人臉識(shí)別、智能助理、無(wú)人車(chē)等相關(guān)產(chǎn)品也已經(jīng)落地應(yīng)用,這是前人不敢想象的。

確實(shí),大多數(shù)機(jī)器學(xué)習(xí)算法最終都涉及擬合數(shù)據(jù),但它相對(duì)過(guò)去是一種進(jìn)步。航天飛機(jī)也不過(guò)是一個(gè)帶翅膀的飛行器,不是嗎?但我們并沒(méi)有看到有人用漫畫(huà)嘲諷NASA進(jìn)行太空探索,也沒(méi)有嘲諷航天飛機(jī)是飛機(jī)的過(guò)度包裝產(chǎn)品。

和太空探索一樣,深度學(xué)習(xí)的出現(xiàn)并沒(méi)有解決世界上所有的問(wèn)題,它在很多地方還面臨重大挑戰(zhàn),尤其是“人工智能”領(lǐng)域。盡管如此,它為我們解決復(fù)雜非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題做出了重大貢獻(xiàn)。未來(lái),機(jī)器學(xué)習(xí)將繼續(xù)代表全球技術(shù)進(jìn)步和創(chuàng)新的前沿。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:不!機(jī)器學(xué)習(xí)不是美化后的統(tǒng)計(jì)學(xué)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    請(qǐng)問(wèn)TLV320AIC3268的ADC轉(zhuǎn)換后的數(shù)據(jù)格式是什么樣的?

    我在使用TLV320AIC3268,但是不知道ADC轉(zhuǎn)換后的數(shù)據(jù)格式是什么樣的?比如是二進(jìn)制補(bǔ)碼嗎?轉(zhuǎn)后的數(shù)據(jù)與輸入的模擬信號(hào)的電壓值有什么關(guān)系?
    發(fā)表于 10-14 07:48

    代碼整潔之道-大師眼中的整潔代碼是什么樣

    幾個(gè)月前寫(xiě)了一篇文章“如何寫(xiě)出難以維護(hù)的代碼”,從中能大概了解到不好維護(hù)的代碼是什么樣,有哪些壞味道,那肯定有人會(huì)反問(wèn),難以維護(hù)的代碼見(jiàn)的太多了,也知道長(zhǎng)什么樣,但是對(duì)于好維護(hù)的代碼是什么樣的比較
    的頭像 發(fā)表于 09-09 16:30 ?265次閱讀
    代碼整潔之道-大師眼中的整潔代碼是<b class='flag-5'>什么樣</b>

    請(qǐng)問(wèn)差分輸入阻抗和輸入阻抗有什么樣的區(qū)別?

    差分輸入阻抗和輸入阻抗有什么樣的區(qū)別?
    發(fā)表于 08-14 07:51

    OPA354應(yīng)該以什么樣的電容負(fù)載標(biāo)準(zhǔn)去使用?

    OPA354這個(gè)電路spec上,開(kāi)環(huán)增益和相位并沒(méi)有說(shuō)明搭載的負(fù)載電容是多大。請(qǐng)問(wèn)在使用芯片時(shí),應(yīng)該以什么樣的電容負(fù)載標(biāo)準(zhǔn)去使用呢。
    發(fā)表于 08-02 08:05

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,其目標(biāo)是通過(guò)讓計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無(wú)需進(jìn)行明確的編程。本文將深入解讀幾種常見(jiàn)的機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-02 11:25 ?672次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無(wú)疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來(lái)了革命性的變化。然而,盡管它們都屬于機(jī)器
    的頭像 發(fā)表于 07-01 11:40 ?1100次閱讀

    FPGA能實(shí)現(xiàn)什么樣的算法?

    FPGA功能如此強(qiáng)大,請(qǐng)問(wèn)用FPGA能實(shí)現(xiàn)或者比較適合實(shí)現(xiàn)什么樣的算法?
    發(fā)表于 05-26 20:18

    RADIO與RFWAKEUP具體功能是什么樣的,如何把系統(tǒng)從低功耗模式喚醒的?

    請(qǐng)教下大家RADIO與RFWAKEUP具體功能是什么樣的,如何把系統(tǒng)從低功耗模式喚醒的,手冊(cè)中關(guān)于射頻與無(wú)線部分介紹的功能是真的少,無(wú)線部分不是STM32WB系列的重要功能之一么,感覺(jué)像藏著掖著一
    發(fā)表于 04-19 08:03

    什么樣的PLC可以直接驅(qū)動(dòng)接觸器?什么樣的PLC不可以直接驅(qū)動(dòng)?

    什么樣的PLC可以直接驅(qū)動(dòng)接觸器?什么樣的PLC不可以直接驅(qū)動(dòng)? PLC(可編程邏輯控制器)是一種用于自動(dòng)化控制系統(tǒng)的電子設(shè)備,用于監(jiān)控和控制多種工業(yè)過(guò)程。其中一個(gè)常見(jiàn)的應(yīng)用是控制和驅(qū)動(dòng)接觸器
    的頭像 發(fā)表于 02-18 14:11 ?1190次閱讀

    大牛談如何學(xué)習(xí)機(jī)器視覺(jué)?

    國(guó)內(nèi)外機(jī)器視覺(jué)發(fā)展的不同。我本人認(rèn)為,只有先搞清了兩邊的不一,才便于說(shuō)清如何下手學(xué)習(xí)。國(guó)外機(jī)器視覺(jué)發(fā)展到今天,已經(jīng)從“一包到底”式的工作程序,發(fā)展到了細(xì)致分工的階段了。
    發(fā)表于 01-15 11:02 ?372次閱讀
    大牛談如何<b class='flag-5'>學(xué)習(xí)機(jī)器</b>視覺(jué)?

    ADIS16375的陀螺儀輸出角度是個(gè)什么樣的角度?

    想知道ADIS16375這款I(lǐng)MU的輸出角度是個(gè)什么樣的角度?是不是姿態(tài)角?其參考坐標(biāo)系是什么?輸出角的實(shí)時(shí)精度是多少?ADIS16365、ADIS16334、ADIS16445、ADIS16485這四款I(lǐng)MU能夠輸出角度嗎?若果能,分別是什么樣的角度?其參考坐標(biāo)系分別是
    發(fā)表于 12-29 06:17

    PCB層疊設(shè)計(jì)是什么?又有什么樣的作用?

    PCB層疊設(shè)計(jì)是什么?又有什么樣的作用? PCB層疊設(shè)計(jì)又稱(chēng)為PCB層壓設(shè)計(jì),是指在印刷電路板的設(shè)計(jì)過(guò)程中,通過(guò)合理地選擇不同層之間的層間結(jié)構(gòu)和層間材料,以及設(shè)計(jì)每層的布線、焊盤(pán)和電源分布等布局,來(lái)
    的頭像 發(fā)表于 12-21 13:49 ?803次閱讀

    請(qǐng)問(wèn)AD2S1200的串行數(shù)據(jù)輸出波形及處理的角度波形是什么樣的?

    AD2S1200的串行數(shù)據(jù)輸出波形及處理的角度波形是什么樣的?
    發(fā)表于 12-20 06:07

    AD7779?DRDY引腳輸出應(yīng)該是什么樣的波形?

    AD7779DRDY 引腳輸出應(yīng)該是什么樣的波形,我測(cè)出來(lái)的是一個(gè)連續(xù)十五個(gè)脈沖,后面是一個(gè)很長(zhǎng)的低電平,這樣的周期
    發(fā)表于 12-11 06:13

    智能汽車(chē)CAN FD總線需要什么樣的降噪對(duì)策?

    智能汽車(chē)CAN FD總線需要什么樣的降噪對(duì)策?
    的頭像 發(fā)表于 11-30 09:37 ?568次閱讀
    智能汽車(chē)CAN FD總線需要<b class='flag-5'>什么樣</b>的降噪對(duì)策?