打破深度學(xué)習(xí)偏見(jiàn),這事跟數(shù)據(jù)量有啥關(guān)系?
大?。?/span>0.4 MB 人氣: 2017-12-06 需要積分:1
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
近日,在深度學(xué)習(xí)領(lǐng)域出現(xiàn)了一場(chǎng)熱烈的爭(zhēng)論。這一切都要從 Jeff Leek 在 Simply Stats 上發(fā)表了一篇題為《數(shù)據(jù)量不夠大,別玩深度學(xué)習(xí)》(Don’t use deep learning your data isn’t that big)的博文開(kāi)始。作者 Jeff Leek 在這篇博文中指出,當(dāng)樣本數(shù)據(jù)集很小時(shí)(這種情況在生物信息領(lǐng)域很常見(jiàn)),即使有一些層和隱藏單元,具有較少參數(shù)的線性模型的表現(xiàn)是優(yōu)于深度網(wǎng)絡(luò)的。為了證明自己的論點(diǎn),Leek 舉了一個(gè)基于 MNIST 數(shù)據(jù)庫(kù)進(jìn)行圖像識(shí)別的例子,分辨 0 或者 1。他還表示,當(dāng)在一個(gè)使用僅僅 80 個(gè)樣本的 MNIST 數(shù)據(jù)集中進(jìn)行 0 和 1 的分類(lèi)時(shí),一個(gè)簡(jiǎn)單的線性預(yù)測(cè)器(邏輯回歸)要比深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確度更高。
這篇博文的發(fā)表引起了領(lǐng)域內(nèi)的爭(zhēng)論,哈佛大學(xué)藥學(xué)院的生物醫(yī)藥信息學(xué)專(zhuān)業(yè)博士后 Andrew Beam 寫(xiě)了篇文章來(lái)反駁:《就算數(shù)據(jù)不夠大,也能玩深度學(xué)習(xí)》(You can probably use deep learning even if your data isn’t that big)。Andrew Beam 指出,即使數(shù)據(jù)集很小,一個(gè)適當(dāng)訓(xùn)練的深度網(wǎng)絡(luò)也能擊敗簡(jiǎn)單的線性模型。
如今,越來(lái)越多的生物信息學(xué)研究人員正在使用深度學(xué)習(xí)來(lái)解決各種各樣的問(wèn)題,這樣的爭(zhēng)論愈演愈烈。這種炒作是真的嗎?還是說(shuō)線性模型就足夠滿足我們的所有需求呢?結(jié)論一如既往——要視情況而定。在這篇文章中,作者探索了一些機(jī)器學(xué)習(xí)的使用實(shí)例,在這些實(shí)例中使用深度學(xué)習(xí)并不明智。并且解釋了一些對(duì)深度學(xué)習(xí)的誤解,作者認(rèn)為正是這些錯(cuò)誤的認(rèn)識(shí)導(dǎo)致深度學(xué)習(xí)沒(méi)有得到有效地使用,這種情況對(duì)于新手來(lái)說(shuō)尤其容易出現(xiàn)。
打破深度學(xué)習(xí)偏見(jiàn)
首先,我們來(lái)看看許多外行者容易產(chǎn)生的偏見(jiàn),其實(shí)是一些半真半假的片面認(rèn)識(shí)。主要有兩點(diǎn),其中的一點(diǎn)更具技術(shù)性,我將詳細(xì)解釋。
深度學(xué)習(xí)在小樣本集上也可以取得很好的效果
深度學(xué)習(xí)是在大數(shù)據(jù)的背景下火起來(lái)的(第一個(gè)谷歌大腦項(xiàng)目向深度神經(jīng)網(wǎng)絡(luò)提供了大量的 Youtube 視頻),自從那以后,絕大部分的深度學(xué)習(xí)內(nèi)容都是基于大數(shù)據(jù)量中的復(fù)雜算法。
然而,這種大數(shù)據(jù) + 深度學(xué)習(xí)的配對(duì)不知為何被人誤解為:深度學(xué)習(xí)不能應(yīng)用于小樣本。如果只有幾個(gè)樣例,將其輸入具有高參數(shù)樣本比例的神經(jīng)網(wǎng)絡(luò)似乎一定會(huì)走上過(guò)擬合的道路。然而,僅僅考慮給定問(wèn)題的樣本容量和維度,無(wú)論有監(jiān)督還是無(wú)監(jiān)督,幾乎都是在真空中對(duì)數(shù)據(jù)進(jìn)行建模,沒(méi)有任何的上下文。
可能的數(shù)據(jù)情況是:你擁有與問(wèn)題相關(guān)的數(shù)據(jù)源,或者該領(lǐng)域的專(zhuān)家可以提供的強(qiáng)大的先驗(yàn)知識(shí),或者數(shù)據(jù)可以以非常特殊的方式進(jìn)行構(gòu)建(例如,以圖形或圖像編碼的形式)。所有的這些情況中,深度學(xué)習(xí)有機(jī)會(huì)成為一種可供選擇的方法——例如,你可以編碼較大的相關(guān)數(shù)據(jù)集的有效表示,并將該表示應(yīng)用到你的問(wèn)題中。
這種典型的示例常見(jiàn)于自然語(yǔ)言處理,你可以學(xué)習(xí)大型語(yǔ)料庫(kù)中的詞語(yǔ)嵌入,例如維基百科,然后將他們作為一個(gè)較小的、較窄的語(yǔ)料庫(kù)嵌入到一個(gè)有監(jiān)督任務(wù)中。極端情況下,你可以用一套神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合學(xué)習(xí)特征表示,這是在小樣本集中重用該表示的一種有效方式。這種方法被稱(chēng)作 “一次性學(xué)習(xí)”(one-shot learning) ,并且已經(jīng)成功應(yīng)用到包括計(jì)算機(jī)視覺(jué)和藥物研發(fā)在內(nèi)的具有高維數(shù)據(jù)的領(lǐng)域。
非常好我支持^.^
(1) 100%
不好我反對(duì)
(0) 0%
下載地址
打破深度學(xué)習(xí)偏見(jiàn),這事跟數(shù)據(jù)量有啥關(guān)系?下載
相關(guān)電子資料下載
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 怎樣延長(zhǎng)半導(dǎo)體元器件的壽命呢? 182
- 機(jī)器學(xué)習(xí)需要掌握的九種工具盤(pán)點(diǎn) 16
- 智能時(shí)代的三大核心技術(shù) 57
- 研華推出EPC-B3000系列嵌入式工控機(jī),搭載先進(jìn)X86架構(gòu)CPU,助力邊緣人工智能應(yīng)用 91
- 探索可觀測(cè)性未來(lái):基調(diào)聽(tīng)云產(chǎn)品VP陳靖華揭秘新一代可觀測(cè)性工具 131
- 異構(gòu)時(shí)代:CPU與GPU的發(fā)展演變 143
- RISC-V要顛覆GPU嗎? 212
- 韓國(guó)半導(dǎo)體10月早期出口數(shù)據(jù)一年來(lái)首次回暖,工信部推動(dòng)通用人工智能與物聯(lián) 195
- AI可在數(shù)秒鐘內(nèi)成功設(shè)計(jì)出行走機(jī)器人 28