0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

這些年來(lái),我們的數(shù)據(jù)科學(xué)究竟發(fā)生了什么變化?

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-13 09:07 ? 次閱讀

編者按:Kaggle是全球最大數(shù)據(jù)建模和數(shù)據(jù)分析競(jìng)賽平臺(tái),也是檢驗(yàn)個(gè)人水平的最佳舞臺(tái)。現(xiàn)如今,隨著社會(huì)對(duì)機(jī)器學(xué)習(xí)人才的需求提高,在Kaggle上刷到過前5%、10%也成了應(yīng)聘的一個(gè)硬指標(biāo)??紤]到Kaggle的權(quán)威性和受歡迎度,這么多年來(lái),這個(gè)平臺(tái)的數(shù)據(jù)應(yīng)該能體現(xiàn)整個(gè)數(shù)據(jù)科學(xué)領(lǐng)域的發(fā)展軌跡。

多年來(lái),數(shù)據(jù)科學(xué)領(lǐng)域的許多趨勢(shì)已經(jīng)發(fā)生了改變。Kaggle,作為全球最大、最受歡迎的數(shù)據(jù)科學(xué)社區(qū),記錄著這些變化的演進(jìn)狀態(tài)。本文將使用Kaggle Meta Data逐一分析,看看這些年來(lái),我們的數(shù)據(jù)科學(xué)究竟發(fā)生了什么變化?

1. 線性回歸 vs logistic回歸

線性回歸與邏輯回歸是機(jī)器學(xué)習(xí)中比較基礎(chǔ)又很常用的內(nèi)容,其中前者可以進(jìn)行連續(xù)值預(yù)測(cè),后者能被用于解決分類問題。所以我們先從它們開始,根據(jù)Kaggle論壇的帖子數(shù)對(duì)比這兩種算法的熱度趨勢(shì)。

藍(lán):線性回歸;橙:logistic回歸

如上圖所示,橙線大多數(shù)時(shí)間都在藍(lán)線之上,用戶這些年來(lái)似乎一直都更喜歡聊logistic回歸。而宏觀來(lái)看,兩種算法的變化趨勢(shì)幾乎吻合,峰值重合度較高,雖然起伏明顯,但這8年來(lái),它們總體是呈上升趨勢(shì)的。

那么logistic回歸受歡迎的原因是什么?一個(gè)跡象表明,Kaggle上的分類問題遠(yuǎn)多于回歸問題,其中一個(gè)代表是這些年來(lái)最受歡迎的泰坦尼克號(hào)生存預(yù)測(cè)競(jìng)賽。這是Kaggle上歷史最“悠久”的競(jìng)賽之一,用戶的討論自然也很激烈。而最受歡迎的回歸問題則是房?jī)r(jià)預(yù)測(cè),但人們通常會(huì)在完成泰坦尼克號(hào)之后再考慮這個(gè)問題。

在2017年10月和2018年3月,Kaggle論壇上關(guān)于logistic回歸的討論量大幅增加。對(duì)此,一個(gè)可能的解釋是平臺(tái)上出現(xiàn)的新競(jìng)賽——惡意評(píng)論分類。當(dāng)時(shí)一些團(tuán)隊(duì)分享了不少和分類模型相關(guān)的高質(zhì)量經(jīng)驗(yàn),其中就包括logistic回歸。

2. XgBoost的霸主地位

藍(lán):決策樹;橙:隨機(jī)森林;綠:XgBoost;紅:LightGBM;紫:CatBoost

在2014年以前,線性模型、決策樹和隨機(jī)森林的討論量雖然不多,但它們占據(jù)絕對(duì)話語(yǔ)權(quán)。2014年,時(shí)為華盛頓大學(xué)博士的陳天奇開源XgBoost算法,受到大眾追捧,之后它也迅速成了Kaggle競(jìng)賽中的??汀r(shí)至今日,XgBoost在競(jìng)賽中的使用率還是很高,性能也很好,不少奪冠方案中都有它的身影。

但是,根據(jù)曲線我們可以注意到,自從2016年LightGBM被提出后,XgBoost的討論量出現(xiàn)了一定程度的下降,而LightGBM卻一路水漲船高。可以預(yù)見,在學(xué)界開源更好的模型前,這個(gè)算法將在未來(lái)幾年占據(jù)主導(dǎo)地位?,F(xiàn)在LightGBM也已經(jīng)出現(xiàn)在不少競(jìng)賽中,比如Porto Seguro的安全駕駛預(yù)測(cè),它的優(yōu)點(diǎn)是比XgBoost實(shí)現(xiàn)速度更快、更簡(jiǎn)單。

除了這些算法,圖中“最年輕”的CatBoost也有走紅的趨勢(shì)。

3. 神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的趨勢(shì)

藍(lán):神經(jīng)網(wǎng)絡(luò);橙:深度學(xué)習(xí)

幾十年來(lái),神經(jīng)網(wǎng)絡(luò)在學(xué)界和工業(yè)界一直不溫不火,但如上圖所示,隨著大型數(shù)據(jù)集的出現(xiàn)和計(jì)算機(jī)算力的大幅提升,近幾年這種趨勢(shì)已經(jīng)發(fā)生了變化。

從2014年起,我們相繼迎來(lái)了theano、tensorflow、keras,與此同時(shí),一個(gè)名為深度學(xué)習(xí)的時(shí)代也漸漸出現(xiàn)在世人視野里。在Kaggle上,用戶發(fā)表的有關(guān)深度學(xué)習(xí)的帖子數(shù)不斷上升,并最終超過神經(jīng)網(wǎng)絡(luò)。此外,諸如亞馬遜、谷歌等的云服務(wù)提供商也正擁抱新技術(shù),以更加積極的姿態(tài)展示在云上訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的能力。

深度學(xué)習(xí)模型是Kaggle競(jìng)賽中的新星,目前它已經(jīng)在圖像分類、文本分類競(jìng)賽中嶄露頭角,比如Data Science Bowl、Quora重復(fù)問題分類等。而伴隨RNN、CNN的不斷改進(jìn),深度學(xué)習(xí)的流行趨勢(shì)似乎已經(jīng)勢(shì)不可擋。此外,一些嘗試已經(jīng)證實(shí),遷移學(xué)習(xí)和預(yù)訓(xùn)練模型在競(jìng)賽中能夠表現(xiàn)出色。

這種技術(shù)讓人們看到了可能性。為了讓用戶從實(shí)踐中學(xué)到更多知識(shí),Kaggle可以推出更多和圖像分類建模相關(guān)的比賽,但以當(dāng)前的情況看,現(xiàn)在限制用戶大規(guī)模使用深度學(xué)習(xí)的是它的算力要求。但這種問題是可以被解決的。Kaggle已經(jīng)添加GPU支持,未來(lái),相信嘗試深度學(xué)習(xí)的用戶會(huì)越來(lái)越多。

4. Kaggle上流行的ML工具

藍(lán):Scikit;橙:Tensorflow;綠:Keras;紅:Pytorch

在2015年以前,如果一個(gè)數(shù)據(jù)科學(xué)家想構(gòu)建機(jī)器學(xué)習(xí)模型,Scikit Learn是他唯一可以選擇的庫(kù);2015年后,這種局面發(fā)生了改變,作為ML生態(tài)的一部分,谷歌開源軟件庫(kù)Tensorflow,并讓它迅速在全球范圍內(nèi)普及。

但是Tensorflow也存在缺點(diǎn),就是它比較難學(xué),因此雖然用戶非常多,但在Kaggle這個(gè)競(jìng)賽平臺(tái)上,大多數(shù)用戶還是傾向于選擇更靈活、更簡(jiǎn)單的Keras。畢竟究其本質(zhì),Keras可以被看作是Tensorflow封裝后的一個(gè)API。

5. XgBoost vs Keras

藍(lán):XgBoost;橙:Keras

既然Keras是深度學(xué)習(xí)框架,我們可以把它看做深層神經(jīng)網(wǎng)絡(luò)的間接代表。

XgBoost與深度學(xué)習(xí)孰優(yōu)孰劣?這是去年Quora上吵翻天的一個(gè)問題。而從Kaggle的數(shù)據(jù)看,前者一直處于領(lǐng)先地位,而后者也在奮力追趕。相比復(fù)雜、層多的神經(jīng)網(wǎng)絡(luò),XgBoost的優(yōu)點(diǎn)是更快,對(duì)硬件要求更低,因此也更受普通用戶歡迎。

但這個(gè)結(jié)果并不代表優(yōu)劣,拿陳天奇博士自己的話說,就是:

不同的機(jī)器學(xué)習(xí)模型適用于不同類型的任務(wù)。深層神經(jīng)網(wǎng)絡(luò)通過對(duì)時(shí)空位置建模,能夠很好地捕獲圖像、語(yǔ)音、文本等高維數(shù)據(jù)。而基于樹模型的XGBoost則能很好地處理表格數(shù)據(jù),同時(shí)還擁有一些深層神經(jīng)網(wǎng)絡(luò)所沒有的特性(如:模型的可解釋性、輸入數(shù)據(jù)的不變性、更易于調(diào)參等)。

6. 可視化工具比拼

藍(lán):Matplotlib;橙:Seaborn;綠:Plotly

從2017年起,Plotly就像開了掛一樣一路走紅,現(xiàn)在已經(jīng)成為Kaggle用戶最常用的可視化工具。排名第二的是Seaborn,它實(shí)際上是在Matplotlib的基礎(chǔ)上進(jìn)行了更高級(jí)的API封裝,生成的圖更好看,而作為補(bǔ)充,Matplotlib的圖更有特色。

7. 數(shù)據(jù)科學(xué)過程步驟比拼

藍(lán):Exploration;橙:特征工程;綠:調(diào)參;紅:集成

在上圖中,最受Kaggle用戶關(guān)注的是模型的集成。參加競(jìng)賽時(shí),雖然最后提交的是一個(gè)模型,但參賽者會(huì)先訓(xùn)練若干個(gè)弱模型,最后再用集成方法進(jìn)行整合堆疊。這種做法在回歸和分類任務(wù)中非常常見。

至于同樣倍受矚目Exploration,近期,無(wú)數(shù)數(shù)據(jù)科學(xué)家已經(jīng)一遍遍強(qiáng)調(diào)了探索性數(shù)據(jù)分析(EDA)的重要性,而他們的呼吁起到了效果。如果我們沒法確保數(shù)據(jù)的可靠性,最后的模型很可能會(huì)出問題。

但對(duì)于這個(gè)結(jié)果,有些人可能會(huì)感到意外。因?yàn)槿绻朐诟?jìng)賽中取得好名次,調(diào)參和模型微調(diào)肯定必不可少,但這兩個(gè)時(shí)間、精力消耗的“大戶”的排名卻不高。所以我們應(yīng)該牢記,雖然集成是建模過程的最后一步,但我們應(yīng)該在特征工程和模型調(diào)整上投入相當(dāng)長(zhǎng)的時(shí)間。

最為人津津樂道的子平臺(tái)

藍(lán):數(shù)據(jù)集;橙:Kernel;綠:競(jìng)賽;紅:Learn

既然Kaggle是個(gè)數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái),用戶們討論的內(nèi)容自然是參加什么競(jìng)賽,用了什么數(shù)據(jù)集,并分享看到的實(shí)用代碼。而根據(jù)上圖的曲線,自從2016年推出后,代碼Kernel的受歡迎度一路飆升,畢竟用戶們可以在上面看到其他參賽者自愿公開的模型代碼,這對(duì)于學(xué)習(xí)和交流來(lái)說是不可多得的優(yōu)質(zhì)資源。

此外,Kaggle還推出了課程子平臺(tái)Kaggle Learn,雖然目前在討論度上不及數(shù)據(jù)集、Kernel和競(jìng)賽,但這些課程主要面向初學(xué)者。未來(lái),隨著課程內(nèi)容的豐富和新手人數(shù)的增加,這個(gè)板塊的流行指日可待。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:Kaggle CTO力薦:從Kaggle歷史數(shù)據(jù)看機(jī)器學(xué)習(xí)競(jìng)賽趨勢(shì)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    這些年,你沒見過的電子元器件

    本帖最后由 eehome 于 2013-1-5 09:53 編輯 這些年,你沒見過的電子元器件,你能認(rèn)出幾個(gè)?
    發(fā)表于 04-28 13:56

    Python人工智能學(xué)習(xí)工具包+入門與實(shí)踐資料集錦

    ,之后漸漸成為我工作中的第一輔助腳本語(yǔ)言,雖然開發(fā)語(yǔ)言是C/C++,但平時(shí)的很多文本數(shù)據(jù)處理任務(wù)都交給了Python。這些年來(lái),接觸和使用了很多Python工具包,特別是在文本處理,科學(xué)計(jì)算,機(jī)器學(xué)習(xí)
    發(fā)表于 11-22 14:46

    IDT將進(jìn)軍模擬領(lǐng)域

    時(shí)刻保持著敏銳的洞察力和預(yù)見性,審時(shí)度勢(shì),適時(shí)而變,才有希望繼續(xù)健康地生存發(fā)展下去。這些年來(lái)我們目睹了太多這樣的例子,收購(gòu)、并購(gòu)、分離、轉(zhuǎn)換市場(chǎng)定位、拓展新的領(lǐng)域,只有“變化”才是唯一不變的。
    發(fā)表于 06-28 07:06

    MCU中的ETH IP是否與H753/743中的相同,還是發(fā)生了變化?

    這些新 MCU 中的 ETH IP 是否與 H753/743 中的相同,還是發(fā)生了變化?在 H73x/72x 的勘誤表中,與 ETH 相關(guān)的項(xiàng)目列表很長(zhǎng)——是因?yàn)?IP 不同,還是更好的測(cè)試?
    發(fā)表于 01-17 06:27

    人機(jī)大戰(zhàn)三周年:圍棋界發(fā)生了哪些巨變?

    三年后的現(xiàn)在,圍棋界的生態(tài)環(huán)境與三年前相比,已經(jīng)發(fā)生了天翻地覆的變化,下面我們通過一組組有趣的對(duì)話來(lái)看看這些變化吧。
    的頭像 發(fā)表于 03-18 09:37 ?2927次閱讀

    手機(jī)屏幕近十年來(lái)發(fā)生了哪些變化

    手機(jī)已經(jīng)是我們日常必不可少的生活元素,甚至已經(jīng)成為了我們生活的一部分,這十年間我們手中的手機(jī)發(fā)生了翻天覆地的變化,你還記得你十年前用著什么手
    的頭像 發(fā)表于 04-28 09:43 ?4652次閱讀

    關(guān)于云數(shù)據(jù)存儲(chǔ)的漏洞及避免漏洞方法

    這些年來(lái),大量的數(shù)據(jù)被轉(zhuǎn)移到云端,包括個(gè)人檔案、照片、文件和受版權(quán)保護(hù)的內(nèi)容。付費(fèi)和免費(fèi)云服務(wù)用戶基數(shù)繼續(xù)增長(zhǎng)。
    發(fā)表于 06-28 16:13 ?932次閱讀

    SSD性能數(shù)據(jù)變化發(fā)生

    不難看出現(xiàn)實(shí)生活中的性能數(shù)據(jù)數(shù)據(jù)表中的數(shù)據(jù)有何不同。但這是什么原因?這些性能變化如何發(fā)生以及如
    的頭像 發(fā)表于 11-04 16:42 ?2968次閱讀

    中國(guó)銀聯(lián)這些年來(lái)數(shù)據(jù)技術(shù)的變革以及優(yōu)化

    2007 年左右,中國(guó)銀聯(lián)開始進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)年代。相較于報(bào)表,數(shù)據(jù)倉(cāng)庫(kù)對(duì)于用戶體驗(yàn)來(lái)說是一個(gè)巨大的革新,基本上體現(xiàn)在數(shù)據(jù)發(fā)展以業(yè)務(wù)為驅(qū)動(dòng),主要有結(jié)構(gòu)化數(shù)據(jù)集中存儲(chǔ)、勾兌整合、服務(wù)業(yè)務(wù)等
    的頭像 發(fā)表于 12-12 14:32 ?3347次閱讀

    側(cè)面指紋和屏下指紋以及人臉識(shí)別該怎么選擇

    隨著科技的發(fā)展,智能手機(jī)逐漸成為我們生活中不可缺少的電子產(chǎn)品。而這些年來(lái)手機(jī)的形態(tài)發(fā)生了巨大的變化,手機(jī)不再是以前那個(gè)用來(lái)打電話、發(fā)短信的工具了,而是越來(lái)越娛樂化、實(shí)用化,追劇、游戲、
    發(fā)表于 12-24 11:36 ?3361次閱讀

    AI熱潮-這些年被人工智能影響的七大領(lǐng)域

    來(lái)源:ST社區(qū) 2012年左右再次興起的人工智能——AI(Artificial Intelligence)熱潮,至今不僅沒有衰退,反而愈演愈熱。越來(lái)越多的領(lǐng)域被人工智能所影響。 無(wú)人駕駛 這些年來(lái)
    的頭像 發(fā)表于 11-15 11:36 ?868次閱讀

    人工智能帶動(dòng)了醫(yī)療保健領(lǐng)域的發(fā)展

    人工智能似乎已經(jīng)改變了全世界幾乎所有領(lǐng)域。值得一提的是,這些年來(lái),醫(yī)療保健行業(yè)發(fā)生了巨大的變化,而生活變得如此便利的程度不能僅僅用言語(yǔ)表達(dá)。
    發(fā)表于 01-20 09:31 ?755次閱讀

    IEEE-1394接口在新世代下的大轉(zhuǎn)變

    我們「老產(chǎn)品煥新計(jì)劃」第二期,將介紹這一個(gè)具有神奇歷史的接口,IEEE-1394(火線)接口。作為當(dāng)時(shí)由蘋果公司推出,并且想與USB一爭(zhēng)高下的傳奇接口,這些年來(lái)發(fā)生了哪些轉(zhuǎn)變,又被賦予了哪些新功能?在這一期
    發(fā)表于 08-12 10:26 ?1520次閱讀

    數(shù)據(jù)中心也能“上天入?!保刻剿骶G色數(shù)據(jù)中心的建設(shè)方案|聯(lián)瑞網(wǎng)卡

    這些年來(lái),全球計(jì)算呈指數(shù)級(jí)增長(zhǎng),在數(shù)據(jù)中心的建設(shè)與運(yùn)行過程中,能源支出及產(chǎn)生的污染不斷激增,有利的建設(shè)地址和高效節(jié)能的冷卻模式,成為探索建設(shè)數(shù)據(jù)中心的主要方向。
    的頭像 發(fā)表于 01-12 17:25 ?689次閱讀
    <b class='flag-5'>數(shù)據(jù)</b>中心也能“上天入?!保刻剿骶G色<b class='flag-5'>數(shù)據(jù)</b>中心的建設(shè)方案|聯(lián)瑞網(wǎng)卡

    C語(yǔ)言使用函數(shù)調(diào)用在內(nèi)存中究竟發(fā)生了什么?

    C語(yǔ)言使用函數(shù)調(diào)用,我們再熟悉不過了,但是函數(shù)調(diào)用在內(nèi)存中究竟發(fā)生了什么真的清楚嗎?只有搞清楚內(nèi)存里的內(nèi)幕,才算完全搞懂函數(shù)的調(diào)用。
    的頭像 發(fā)表于 01-13 14:09 ?1082次閱讀