四虎在线观看成人影院免费视频下载,综合色综合淫综合色综合淫综合网站,瑜伽裤精品一区二区

編者按：Kaggle是全球最大數(shù)據(jù)建模和數(shù)據(jù)分析競(jìng)賽平臺(tái)，也是檢驗(yàn)個(gè)人水平的最佳舞臺(tái)。現(xiàn)如今，隨著社會(huì)對(duì)機(jī)器學(xué)習(xí)人才的需求提高，在Kaggle上刷到過前5%、10%也成了應(yīng)聘的一個(gè)硬指標(biāo)?？紤]到Kaggle的權(quán)威性和受歡迎度，這么多年來(lái)，這個(gè)平臺(tái)的數(shù)據(jù)應(yīng)該能體現(xiàn)整個(gè)數(shù)據(jù)科學(xué)領(lǐng)域的發(fā)展軌跡。

多年來(lái)，數(shù)據(jù)科學(xué)領(lǐng)域的許多趨勢(shì)已經(jīng)發(fā)生了改變。Kaggle，作為全球最大、最受歡迎的數(shù)據(jù)科學(xué)社區(qū)，記錄著這些變化的演進(jìn)狀態(tài)。本文將使用Kaggle Meta Data逐一分析，看看這些年來(lái)，我們的數(shù)據(jù)科學(xué)究竟發(fā)生了什么變化？

1. 線性回歸 vs logistic回歸

線性回歸與邏輯回歸是機(jī)器學(xué)習(xí)中比較基礎(chǔ)又很常用的內(nèi)容，其中前者可以進(jìn)行連續(xù)值預(yù)測(cè)，后者能被用于解決分類問題。所以我們先從它們開始，根據(jù)Kaggle論壇的帖子數(shù)對(duì)比這兩種算法的熱度趨勢(shì)。

藍(lán)：線性回歸；橙：logistic回歸

如上圖所示，橙線大多數(shù)時(shí)間都在藍(lán)線之上，用戶這些年來(lái)似乎一直都更喜歡聊logistic回歸。而宏觀來(lái)看，兩種算法的變化趨勢(shì)幾乎吻合，峰值重合度較高，雖然起伏明顯，但這8年來(lái)，它們總體是呈上升趨勢(shì)的。

那么logistic回歸受歡迎的原因是什么？一個(gè)跡象表明，Kaggle上的分類問題遠(yuǎn)多于回歸問題，其中一個(gè)代表是這些年來(lái)最受歡迎的泰坦尼克號(hào)生存預(yù)測(cè)競(jìng)賽。這是Kaggle上歷史最“悠久”的競(jìng)賽之一，用戶的討論自然也很激烈。而最受歡迎的回歸問題則是房?jī)r(jià)預(yù)測(cè)，但人們通常會(huì)在完成泰坦尼克號(hào)之后再考慮這個(gè)問題。

在2017年10月和2018年3月，Kaggle論壇上關(guān)于logistic回歸的討論量大幅增加。對(duì)此，一個(gè)可能的解釋是平臺(tái)上出現(xiàn)的新競(jìng)賽——惡意評(píng)論分類。當(dāng)時(shí)一些團(tuán)隊(duì)分享了不少和分類模型相關(guān)的高質(zhì)量經(jīng)驗(yàn)，其中就包括logistic回歸。

2. XgBoost的霸主地位

藍(lán)：決策樹；橙：隨機(jī)森林；綠：XgBoost；紅：LightGBM；紫：CatBoost

在2014年以前，線性模型、決策樹和隨機(jī)森林的討論量雖然不多，但它們占據(jù)絕對(duì)話語(yǔ)權(quán)。2014年，時(shí)為華盛頓大學(xué)博士的陳天奇開源XgBoost算法，受到大眾追捧，之后它也迅速成了Kaggle競(jìng)賽中的?？汀r(shí)至今日，XgBoost在競(jìng)賽中的使用率還是很高，性能也很好，不少奪冠方案中都有它的身影。

但是，根據(jù)曲線我們可以注意到，自從2016年LightGBM被提出后，XgBoost的討論量出現(xiàn)了一定程度的下降，而LightGBM卻一路水漲船高。可以預(yù)見，在學(xué)界開源更好的模型前，這個(gè)算法將在未來(lái)幾年占據(jù)主導(dǎo)地位?，F(xiàn)在LightGBM也已經(jīng)出現(xiàn)在不少競(jìng)賽中，比如Porto Seguro的安全駕駛預(yù)測(cè)，它的優(yōu)點(diǎn)是比XgBoost實(shí)現(xiàn)速度更快、更簡(jiǎn)單。

除了這些算法，圖中“最年輕”的CatBoost也有走紅的趨勢(shì)。

3. 神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的趨勢(shì)

藍(lán)：神經(jīng)網(wǎng)絡(luò)；橙：深度學(xué)習(xí)

幾十年來(lái)，神經(jīng)網(wǎng)絡(luò)在學(xué)界和工業(yè)界一直不溫不火，但如上圖所示，隨著大型數(shù)據(jù)集的出現(xiàn)和計(jì)算機(jī)算力的大幅提升，近幾年這種趨勢(shì)已經(jīng)發(fā)生了變化。

從2014年起，我們相繼迎來(lái)了theano、tensorflow、keras，與此同時(shí)，一個(gè)名為深度學(xué)習(xí)的時(shí)代也漸漸出現(xiàn)在世人視野里。在Kaggle上，用戶發(fā)表的有關(guān)深度學(xué)習(xí)的帖子數(shù)不斷上升，并最終超過神經(jīng)網(wǎng)絡(luò)。此外，諸如亞馬遜、谷歌等的云服務(wù)提供商也正擁抱新技術(shù)，以更加積極的姿態(tài)展示在云上訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的能力。

深度學(xué)習(xí)模型是Kaggle競(jìng)賽中的新星，目前它已經(jīng)在圖像分類、文本分類競(jìng)賽中嶄露頭角，比如Data Science Bowl、Quora重復(fù)問題分類等。而伴隨RNN、CNN的不斷改進(jìn)，深度學(xué)習(xí)的流行趨勢(shì)似乎已經(jīng)勢(shì)不可擋。此外，一些嘗試已經(jīng)證實(shí)，遷移學(xué)習(xí)和預(yù)訓(xùn)練模型在競(jìng)賽中能夠表現(xiàn)出色。

這種技術(shù)讓人們看到了可能性。為了讓用戶從實(shí)踐中學(xué)到更多知識(shí)，Kaggle可以推出更多和圖像分類建模相關(guān)的比賽，但以當(dāng)前的情況看，現(xiàn)在限制用戶大規(guī)模使用深度學(xué)習(xí)的是它的算力要求。但這種問題是可以被解決的。Kaggle已經(jīng)添加GPU支持，未來(lái)，相信嘗試深度學(xué)習(xí)的用戶會(huì)越來(lái)越多。

4. Kaggle上流行的ML工具

藍(lán)：Scikit；橙：Tensorflow；綠：Keras；紅：Pytorch

在2015年以前，如果一個(gè)數(shù)據(jù)科學(xué)家想構(gòu)建機(jī)器學(xué)習(xí)模型，Scikit Learn是他唯一可以選擇的庫(kù)；2015年后，這種局面發(fā)生了改變，作為ML生態(tài)的一部分，谷歌開源軟件庫(kù)Tensorflow，并讓它迅速在全球范圍內(nèi)普及。

但是Tensorflow也存在缺點(diǎn)，就是它比較難學(xué)，因此雖然用戶非常多，但在Kaggle這個(gè)競(jìng)賽平臺(tái)上，大多數(shù)用戶還是傾向于選擇更靈活、更簡(jiǎn)單的Keras。畢竟究其本質(zhì)，Keras可以被看作是Tensorflow封裝后的一個(gè)API。

5. XgBoost vs Keras

藍(lán)：XgBoost；橙：Keras

既然Keras是深度學(xué)習(xí)框架，我們可以把它看做深層神經(jīng)網(wǎng)絡(luò)的間接代表。

XgBoost與深度學(xué)習(xí)孰優(yōu)孰劣？這是去年Quora上吵翻天的一個(gè)問題。而從Kaggle的數(shù)據(jù)看，前者一直處于領(lǐng)先地位，而后者也在奮力追趕。相比復(fù)雜、層多的神經(jīng)網(wǎng)絡(luò)，XgBoost的優(yōu)點(diǎn)是更快，對(duì)硬件要求更低，因此也更受普通用戶歡迎。

但這個(gè)結(jié)果并不代表優(yōu)劣，拿陳天奇博士自己的話說，就是：

不同的機(jī)器學(xué)習(xí)模型適用于不同類型的任務(wù)。深層神經(jīng)網(wǎng)絡(luò)通過對(duì)時(shí)空位置建模，能夠很好地捕獲圖像、語(yǔ)音、文本等高維數(shù)據(jù)。而基于樹模型的XGBoost則能很好地處理表格數(shù)據(jù)，同時(shí)還擁有一些深層神經(jīng)網(wǎng)絡(luò)所沒有的特性（如：模型的可解釋性、輸入數(shù)據(jù)的不變性、更易于調(diào)參等）。

6. 可視化工具比拼

藍(lán)：Matplotlib；橙：Seaborn；綠：Plotly

從2017年起，Plotly就像開了掛一樣一路走紅，現(xiàn)在已經(jīng)成為Kaggle用戶最常用的可視化工具。排名第二的是Seaborn，它實(shí)際上是在Matplotlib的基礎(chǔ)上進(jìn)行了更高級(jí)的API封裝，生成的圖更好看，而作為補(bǔ)充，Matplotlib的圖更有特色。

7. 數(shù)據(jù)科學(xué)過程步驟比拼

藍(lán)：Exploration；橙：特征工程；綠：調(diào)參；紅：集成

在上圖中，最受Kaggle用戶關(guān)注的是模型的集成。參加競(jìng)賽時(shí)，雖然最后提交的是一個(gè)模型，但參賽者會(huì)先訓(xùn)練若干個(gè)弱模型，最后再用集成方法進(jìn)行整合堆疊。這種做法在回歸和分類任務(wù)中非常常見。

至于同樣倍受矚目Exploration，近期，無(wú)數(shù)數(shù)據(jù)科學(xué)家已經(jīng)一遍遍強(qiáng)調(diào)了探索性數(shù)據(jù)分析（EDA）的重要性，而他們的呼吁起到了效果。如果我們沒法確保數(shù)據(jù)的可靠性，最后的模型很可能會(huì)出問題。

但對(duì)于這個(gè)結(jié)果，有些人可能會(huì)感到意外。因?yàn)槿绻朐诟?jìng)賽中取得好名次，調(diào)參和模型微調(diào)肯定必不可少，但這兩個(gè)時(shí)間、精力消耗的“大戶”的排名卻不高。所以我們應(yīng)該牢記，雖然集成是建模過程的最后一步，但我們應(yīng)該在特征工程和模型調(diào)整上投入相當(dāng)長(zhǎng)的時(shí)間。

最為人津津樂道的子平臺(tái)

藍(lán)：數(shù)據(jù)集；橙：Kernel；綠：競(jìng)賽；紅：Learn

既然Kaggle是個(gè)數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)，用戶們討論的內(nèi)容自然是參加什么競(jìng)賽，用了什么數(shù)據(jù)集，并分享看到的實(shí)用代碼。而根據(jù)上圖的曲線，自從2016年推出后，代碼Kernel的受歡迎度一路飆升，畢竟用戶們可以在上面看到其他參賽者自愿公開的模型代碼，這對(duì)于學(xué)習(xí)和交流來(lái)說是不可多得的優(yōu)質(zhì)資源。

此外，Kaggle還推出了課程子平臺(tái)Kaggle Learn，雖然目前在討論度上不及數(shù)據(jù)集、Kernel和競(jìng)賽，但這些課程主要面向初學(xué)者。未來(lái)，隨著課程內(nèi)容的豐富和新手人數(shù)的增加，這個(gè)板塊的流行指日可待。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4733

瀏覽量
100415
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8349

瀏覽量
132312
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8854

瀏覽量
137210

原文標(biāo)題：Kaggle CTO力薦：從Kaggle歷史數(shù)據(jù)看機(jī)器學(xué)習(xí)競(jìng)賽趨勢(shì)

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

這些年，你沒見過的電子元器件

本帖最后由 eehome 于 2013-1-5 09:53 編輯 這些年，你沒見過的電子元器件，你能認(rèn)出幾個(gè)？

發(fā)表于 04-28 13:56

Python人工智能學(xué)習(xí)工具包+入門與實(shí)踐資料集錦

，之后漸漸成為我工作中的第一輔助腳本語(yǔ)言，雖然開發(fā)語(yǔ)言是C/C++，但平時(shí)的很多文本數(shù)據(jù)處理任務(wù)都交給了Python。這些年來(lái)，接觸和使用了很多Python工具包，特別是在文本處理，科學(xué)計(jì)算，機(jī)器學(xué)習(xí)

發(fā)表于 11-22 14:46

IDT將進(jìn)軍模擬領(lǐng)域

時(shí)刻保持著敏銳的洞察力和預(yù)見性，審時(shí)度勢(shì)，適時(shí)而變，才有希望繼續(xù)健康地生存發(fā)展下去。這些年來(lái)，我們目睹了太多這樣的例子，收購(gòu)、并購(gòu)、分離、轉(zhuǎn)換市場(chǎng)定位、拓展新的領(lǐng)域，只有“變化”才是唯一不變的。

發(fā)表于 06-28 07:06

MCU中的ETH IP是否與H753/743中的相同，還是發(fā)生了變化？

這些新 MCU 中的 ETH IP 是否與 H753/743 中的相同，還是發(fā)生了變化？在 H73x/72x 的勘誤表中，與 ETH 相關(guān)的項(xiàng)目列表很長(zhǎng)——是因?yàn)?IP 不同，還是更好的測(cè)試？

發(fā)表于 01-17 06:27

人機(jī)大戰(zhàn)三周年:圍棋界發(fā)生了哪些巨變?

三年后的現(xiàn)在，圍棋界的生態(tài)環(huán)境與三年前相比，已經(jīng)發(fā)生了天翻地覆的變化，下面我們通過一組組有趣的對(duì)話來(lái)看看這些變化吧。

發(fā)表于 03-18 09:37 ?2927次閱讀

手機(jī)屏幕近十年來(lái)發(fā)生了哪些變化

手機(jī)已經(jīng)是我們日常必不可少的生活元素，甚至已經(jīng)成為了我們生活的一部分，這十年間我們手中的手機(jī)發(fā)生了翻天覆地的變化，你還記得你十年前用著什么手

發(fā)表于 04-28 09:43 ?4652次閱讀

關(guān)于云數(shù)據(jù)存儲(chǔ)的漏洞及避免漏洞方法

這些年來(lái)，大量的數(shù)據(jù)被轉(zhuǎn)移到云端，包括個(gè)人檔案、照片、文件和受版權(quán)保護(hù)的內(nèi)容。付費(fèi)和免費(fèi)云服務(wù)用戶基數(shù)繼續(xù)增長(zhǎng)。

發(fā)表于 06-28 16:13 ?932次閱讀

SSD性能數(shù)據(jù)的變化與發(fā)生

不難看出現(xiàn)實(shí)生活中的性能數(shù)據(jù)與數(shù)據(jù)表中的數(shù)據(jù)有何不同。但這是什么原因？這些性能變化如何發(fā)生以及如

發(fā)表于 11-04 16:42 ?2968次閱讀

中國(guó)銀聯(lián)這些年來(lái)大數(shù)據(jù)技術(shù)的變革以及優(yōu)化

2007 年左右，中國(guó)銀聯(lián)開始進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)年代。相較于報(bào)表，數(shù)據(jù)倉(cāng)庫(kù)對(duì)于用戶體驗(yàn)來(lái)說是一個(gè)巨大的革新，基本上體現(xiàn)在數(shù)據(jù)發(fā)展以業(yè)務(wù)為驅(qū)動(dòng)，主要有結(jié)構(gòu)化數(shù)據(jù)集中存儲(chǔ)、勾兌整合、服務(wù)業(yè)務(wù)等

發(fā)表于 12-12 14:32 ?3347次閱讀