0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Kaggle創(chuàng)始人Goldbloom:我們是這樣做數(shù)據(jù)科學(xué)競(jìng)賽的

電子工程師 ? 來(lái)源:lq ? 2019-01-23 15:16 ? 次閱讀

不管是初學(xué)者還是大魔王,只要浸潤(rùn)過(guò)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)界,那么對(duì)于Kaggle一定不陌生。各路英豪在這個(gè)平臺(tái)上實(shí)戰(zhàn)練習(xí)、膜拜大神、打怪升級(jí),用某個(gè)媒體人的一句話,“簡(jiǎn)而言之,Kaggle 是玩數(shù)據(jù)、機(jī)器學(xué)習(xí)的開(kāi)發(fā)者們展示功力、揚(yáng)名立萬(wàn)的江湖?!?/p>

為什么有這么多的數(shù)據(jù)科學(xué)家會(huì)在Kaggle花這么多的時(shí)間?kaggle最著名的就是競(jìng)賽了,那么具體的競(jìng)賽怎么做呢?

1 月 19 日,作為Kaggle的由聯(lián)合創(chuàng)始人、首席執(zhí)行官Anthony Goldbloom在“全球新興科技峰會(huì)”中,回答了這兩個(gè)問(wèn)題。

以下Anthony Goldbloom的最新演講,文摘菌做了有刪改的整理~

Kaggle聚集了大量的機(jī)器學(xué)習(xí)的專(zhuān)家以及大數(shù)據(jù)的專(zhuān)家最,截止到目前為止,差不多是有250萬(wàn)人了,在演講的最開(kāi)始,首先介紹一下我們?cè)趉aggle的工作。然后給大家說(shuō)一下我們?cè)趉aggle學(xué)到的一些經(jīng)驗(yàn)。

具體的競(jìng)賽怎么做

在Kaggle里面,我們做好幾項(xiàng)不同的工作,分別是:競(jìng)賽、電腦的數(shù)據(jù)環(huán)境以及數(shù)據(jù)組的共享空間。

我們具體的競(jìng)賽怎么做呢?首先就是有公司會(huì)在我們的網(wǎng)站上面提出一個(gè)問(wèn)題,解決這個(gè)問(wèn)題會(huì)有獎(jiǎng)金。

有一些獎(jiǎng)金還是非常高的。例如上圖,第一個(gè)是美國(guó)國(guó)土安全部,他們希望用算法能夠幫助識(shí)別是否有人攜帶了武器,或者是攜帶其他的一些禁帶品,他們希望這個(gè)算法更加的精準(zhǔn)一些。這非常重要,因?yàn)檫^(guò)篩率如果太低,就意味著效率會(huì)變的非常的低。所以,他們是希望能夠增加效率。

第二個(gè)是Zillow,Zillow其實(shí)就是在它的網(wǎng)站上面可以輸入自己地址,然后根據(jù)房子里面有多少的臥室,多大的房間,有多少個(gè)浴室等估算房子價(jià)值。

Zillow那個(gè)競(jìng)賽,一開(kāi)始他們可能和實(shí)際的房?jī)r(jià)是差了20%,然后呢,他們慢慢的調(diào)了一下算法,越來(lái)越接近正常價(jià)格。

更好的算法能夠幫助他們找到正常的價(jià)格。為了解決這個(gè)問(wèn)題,他們?cè)敢馓峁┏^(guò)100萬(wàn)美元做獎(jiǎng)金。

其他的競(jìng)賽項(xiàng)目,獎(jiǎng)金就沒(méi)有這么多了,但是大家可以看得出來(lái),越來(lái)越多的公司非常重視AI以及這樣的算法。

還有衛(wèi)星圖像的競(jìng)賽,還有關(guān)于森林大火或者是森林減少率的圖像分析的大賽。

所以說(shuō),在kaggle里有各種各樣的問(wèn)題,包括不同的行業(yè)、不同的方面,這里面非常有意思的一點(diǎn),就是所有的問(wèn)題,都可以用差不多的方法來(lái)進(jìn)行解決。當(dāng)我們有兩個(gè)數(shù)據(jù)集的時(shí)候,一個(gè)是訓(xùn)練集,一個(gè)是測(cè)試集,兩者是完全不同的。訓(xùn)練集可以看到結(jié)果,測(cè)試集看不到結(jié)果。

測(cè)試組將采用類(lèi)似的數(shù)據(jù),這樣的測(cè)試組可以幫助我們看一下算法是不是能夠達(dá)到我們的預(yù)期值。對(duì)比不同的算法結(jié)果,我們也會(huì)把不同結(jié)果的對(duì)比進(jìn)行公開(kāi)。

對(duì)比提升算法準(zhǔn)確率

所以說(shuō)大家可以看到,大家如果能夠把自己的結(jié)果進(jìn)行對(duì)比的話,會(huì)有更多的激勵(lì),會(huì)把自己的算法調(diào)整的更好。

之前給大家說(shuō)到的Zillow,一開(kāi)始的準(zhǔn)確率還差15%,最后準(zhǔn)確率只差了5%。是不是5%就沒(méi)有辦法突破了,或者我們需要調(diào)整一些技術(shù)來(lái)彌補(bǔ)這5%。然后公司就會(huì)推出相關(guān)的競(jìng)賽,找到到底是什么原因,有沒(méi)有辦法突破最后的界限。

現(xiàn)在很多的公司也非常看重AI,一方面幫助他們解決問(wèn)題,另一方面幫助他們找到人才。我們每半年都會(huì)有競(jìng)賽,我們和airbnb、Facebook聯(lián)合組織相關(guān)的競(jìng)賽,幫他們找到相關(guān)的人才。

所以說(shuō),分享和學(xué)習(xí)是非常重要的,比如說(shuō)你在競(jìng)賽里面的排名是15名。通過(guò)公開(kāi)你可以知道第一名到底怎么做的以及第一名用采用的技術(shù)。有了這些,你在下次競(jìng)賽的時(shí)候就可以學(xué)習(xí)第一名所使用的技術(shù)了。

因?yàn)檫@里面有很多不同的人,這些人有可能是讀AI的博士,或者有其他的一些業(yè)余選手。但不管是什么人,他都可以在這上面展示自己。

現(xiàn)在中國(guó)已經(jīng)在社區(qū)里面規(guī)模排到第三了,第一是美國(guó),第二大是印度。我們可以看到,有很多非常出色的競(jìng)爭(zhēng)者都來(lái)自于中國(guó)。

Kaggle競(jìng)賽解決實(shí)際問(wèn)題

為什么人們會(huì)競(jìng)賽,為什么公司會(huì)在kaggle網(wǎng)站上面放一些問(wèn)題?

首先,競(jìng)賽非常重要,雖然說(shuō)所有的網(wǎng)站都是深度學(xué)習(xí),深度學(xué)習(xí)其實(shí)是在整個(gè)AI當(dāng)中所使用的是比較小的數(shù)據(jù)組。

但對(duì)于這些問(wèn)題來(lái)講,那些小的數(shù)據(jù)組能解決的問(wèn)題,傳統(tǒng)的工具也可以幫助我們解決。但不管怎樣,我們一開(kāi)始必須要從不同的方面進(jìn)行數(shù)據(jù)的探索,比如說(shuō)我們會(huì)用數(shù)據(jù)繪制圖標(biāo),所以說(shuō)我們可以非常深入的了解數(shù)據(jù)。

在競(jìng)賽里面,人們第二步就是假設(shè),數(shù)據(jù)之間的假設(shè),例如在預(yù)測(cè)車(chē)銷(xiāo)量的競(jìng)賽中,最主要的是用算法預(yù)測(cè)哪一個(gè)車(chē)可能會(huì)賣(mài)的更好。

其中有一個(gè)非常重要的因素是顏色,我們有兩類(lèi):常規(guī)顏色以及非常規(guī)顏色。非常規(guī)顏色的車(chē)會(huì)比較好賣(mài),因?yàn)楦鶕?jù)這個(gè)假設(shè)買(mǎi)二手車(chē)的人可能會(huì)更喜歡一些比較另類(lèi)的車(chē),并且更愛(ài)保養(yǎng)。

通過(guò)這樣的一種算法,我們也會(huì)進(jìn)行頭腦風(fēng)暴,可以幫助我們更好的搜集不同方式或者不同方向的數(shù)據(jù)。

另外,我們進(jìn)行調(diào)參,我們?cè)谶M(jìn)行數(shù)據(jù)的設(shè)計(jì)之后,再次把數(shù)據(jù)放在一個(gè)數(shù)據(jù)庫(kù)當(dāng)中,再進(jìn)行分類(lèi)、調(diào)參和模型融合。

其實(shí),技術(shù)也是非常重要的,所謂的深度學(xué)習(xí),也是競(jìng)賽者經(jīng)常使用的技術(shù)。例如在圖像的識(shí)別當(dāng)中,經(jīng)常使用的卷積神經(jīng)網(wǎng)絡(luò)技術(shù),比如說(shuō)衛(wèi)星圖像還有醫(yī)學(xué)圖像、自動(dòng)駕駛也經(jīng)常使用。

遷移學(xué)習(xí)解決小樣本問(wèn)題

即便說(shuō)是數(shù)據(jù)庫(kù)比較小的,但是我們做的還是非常的好,就是因?yàn)槲覀冇兴^的遷移學(xué)習(xí),也就是說(shuō)我們可以把一系列的學(xué)習(xí)成果轉(zhuǎn)移到其他更大范圍的規(guī)模上。

這個(gè)學(xué)習(xí)的結(jié)果得到了轉(zhuǎn)移之后,我們?cè)谶M(jìn)行一些調(diào)參,即便是有一些比較小的原始的數(shù)據(jù)組,比如說(shuō)對(duì)于醫(yī)學(xué)的圖像,最后這個(gè)建立的模型也還是非常準(zhǔn)確的,也可以幫助我們進(jìn)行更好的應(yīng)用。

另外,我們發(fā)現(xiàn)深度學(xué)習(xí)在其他的領(lǐng)域也做的更好,比如說(shuō)現(xiàn)在我們的神經(jīng)網(wǎng)絡(luò)做的非常得的好,比如利用卷積神經(jīng)網(wǎng)絡(luò)分析醫(yī)療圖像,我們也是讓競(jìng)賽者推斷這個(gè)圖片,去推斷這個(gè)人是不是有癲癇或者是有相關(guān)的一些病癥。

另外還有就是文本,因?yàn)槲谋居行蛄校粋€(gè)字之后又是一個(gè)字,所以說(shuō)這也可通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行分析,所以說(shuō),我們?cè)诤芏嗟膯?wèn)題解決方面,要判斷有哪些技術(shù)是可以應(yīng)用的,哪些技術(shù)是比較擅長(zhǎng)的。

Kaggle競(jìng)賽中最重要的特征

特征一:我們發(fā)現(xiàn)我們的這些競(jìng)賽者都是非常有創(chuàng)造性的一群主體,競(jìng)賽中有一些問(wèn)題是需要對(duì)特征進(jìn)行相關(guān)的工程設(shè)計(jì),所以說(shuō),在我們進(jìn)行神經(jīng)學(xué)習(xí)的時(shí)候,需要一些小辦法來(lái)尋求幫助,判斷看這個(gè)方法是不是管用,這個(gè)方法是不是能夠提高效率,從而能夠幫助我們把整體的效率提升。

特征二:我們競(jìng)賽者都是非常的重視如何對(duì)自己的模型進(jìn)行測(cè)試的,大家建模之后會(huì)進(jìn)行測(cè)試,然后在進(jìn)行調(diào)參,進(jìn)行改進(jìn)......

在模型訓(xùn)練完成之后,進(jìn)入測(cè)試階段,做法是把用過(guò)的數(shù)據(jù)全部“扔掉”。然后用新的數(shù)據(jù)進(jìn)行檢驗(yàn),也就是說(shuō)我們要保證我們的算法不單單只是在原始數(shù)據(jù)上面可以做出準(zhǔn)確的預(yù)測(cè),而且在全新的數(shù)據(jù)面也可以做同樣的結(jié)果。所以說(shuō),我們?cè)谶M(jìn)行模型的測(cè)試的時(shí)候,整體的過(guò)程是非常嚴(yán)苛的。

特征三:大家的編程能力非常棒。版本的控制是非常重要的,其實(shí)對(duì)版本的控制就能夠意味著我們可以知道哪些版本更高效,哪些不能夠奏效,其實(shí)在軟件的這個(gè)領(lǐng)域當(dāng)中,很多的數(shù)據(jù)科學(xué)家以及機(jī)器學(xué)習(xí)的專(zhuān)家都會(huì)使用各種辦法來(lái)進(jìn)行管理,所以說(shuō)他們就會(huì)知道自己在代碼在每個(gè)版本之間會(huì)有不同。

而且這也是非常重要的一個(gè)信息,讓他們知道到底哪個(gè)版本是能夠非常好的運(yùn)作,哪些不太好。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1079

    瀏覽量

    40375
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8353

    瀏覽量

    132315
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5466

    瀏覽量

    120891

原文標(biāo)題:Kaggle創(chuàng)始人Goldbloom:我們是這樣做數(shù)據(jù)科學(xué)競(jìng)賽的

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    貿(mào)澤電子對(duì)FIRST創(chuàng)始人兼發(fā)明家Dean Kamen進(jìn)行視頻專(zhuān)訪

    ? (For Inspiration and Recognition of Science and Technology) 創(chuàng)始人Dean Kamen的視頻專(zhuān)訪。這家非營(yíng)利機(jī)構(gòu)致力于通過(guò)機(jī)器實(shí)踐項(xiàng)目,推動(dòng)
    發(fā)表于 09-12 17:44 ?144次閱讀

    新思科技創(chuàng)始人Aart de Geus博士獲半導(dǎo)體行業(yè)最高榮譽(yù)羅伯特-諾伊斯獎(jiǎng)

    華盛頓州, 2024 年 8 月 12 日 – 近日,新思科技(Synopsys, Inc.,納斯達(dá)克股票代碼:SNPS)創(chuàng)始人兼執(zhí)行主席Aart de Geus博士獲得2024年半導(dǎo)體行業(yè)最高榮譽(yù)
    發(fā)表于 08-12 13:38 ?353次閱讀

    得翼通信創(chuàng)始人及CEO:外掛RPU,捅破射頻天花板

    2024上海世界移動(dòng)通信大會(huì)期間,得翼通信以射頻領(lǐng)域新銳之姿,正式發(fā)布了全球首款RPU(Radio Processing Unit)射頻增強(qiáng)處理器和解決方案。得翼通信的創(chuàng)始人兼CEO王子明博士在接受
    發(fā)表于 07-19 13:38 ?210次閱讀
    得翼通信<b class='flag-5'>創(chuàng)始人</b>及CEO:外掛RPU,捅破射頻天花板

    2023年度國(guó)家自然科學(xué)獎(jiǎng) | 熱烈祝賀晟鵬創(chuàng)始人成會(huì)明院士

    6月24日,全國(guó)科技大會(huì)、國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會(huì)、兩院院士大會(huì)在人民大會(huì)堂隆重舉行。廣東晟鵬材料技術(shù)有限公司(廣東晟鵬科技有限公司)創(chuàng)始人成會(huì)明院士團(tuán)隊(duì)的項(xiàng)目“新型二維材料的創(chuàng)造、制備與物性研究”榮獲
    的頭像 發(fā)表于 06-30 08:10 ?599次閱讀
    2023年度國(guó)家自然<b class='flag-5'>科學(xué)</b>獎(jiǎng) | 熱烈祝賀晟鵬<b class='flag-5'>創(chuàng)始人</b>成會(huì)明院士

    ASML創(chuàng)始人逝世...

    當(dāng)?shù)貢r(shí)間6月11日,光刻機(jī)巨頭ASML在 領(lǐng)英 平臺(tái)發(fā)文悼念公司創(chuàng)始人之一Wim Troost(維姆·特羅斯)離世。 據(jù)百能云芯電.子元器.件商.城了解,ASML公司表示,“Wim Troost去世
    的頭像 發(fā)表于 06-14 16:43 ?812次閱讀

    ASML創(chuàng)始人離世!

    創(chuàng)始人之一,在1987年至1990年期間擔(dān)任首席執(zhí)行官,當(dāng)時(shí)ASML正在努力爭(zhēng)取第一個(gè)客戶。 退休后,Wim 仍是 ASML 和高科技行業(yè)的真正大使。他激勵(lì)了許多后輩。我們感謝 Wim 對(duì) ASML
    的頭像 發(fā)表于 06-13 09:10 ?252次閱讀

    亞馬遜創(chuàng)始人重回世界首富

    近日,亞馬遜創(chuàng)始人杰夫·貝索斯在全球富豪500強(qiáng)排名中再次登頂,成功取代法國(guó)奢侈品巨頭LVMH的老板伯納德·阿爾諾,重新奪回首富的寶座。
    的頭像 發(fā)表于 06-12 17:24 ?676次閱讀

    新火種AI|重磅突發(fā)!OpenAI聯(lián)合創(chuàng)始人官宣離職,GPT-4負(fù)責(zé)人將接任職位

    作者:小巖 編輯:彩云? 萬(wàn)萬(wàn)沒(méi)想到,OpenAI聯(lián)合創(chuàng)始人,首席科學(xué)家Ilya Sutskever在網(wǎng)上銷(xiāo)聲匿跡幾個(gè)月后的首次回歸,竟然是官宣了自己的離職消息。 5月15日,Ilya
    的頭像 發(fā)表于 05-16 09:44 ?366次閱讀
    新火種AI|重磅突發(fā)!OpenAI聯(lián)合<b class='flag-5'>創(chuàng)始人</b>官宣離職,GPT-4負(fù)責(zé)人將接任職位

    OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever宣布離職

    近日,OpenAI的聯(lián)合創(chuàng)始人Ilya Sutskever在社交平臺(tái)上宣布,他將離開(kāi)這家引領(lǐng)人工智能革命的公司。Ilya在推文中回顧了OpenAI的輝煌發(fā)展歷程,并稱(chēng)之為一個(gè)“奇跡”。
    的頭像 發(fā)表于 05-16 09:26 ?446次閱讀

    FTX創(chuàng)始人被判25年監(jiān)禁,律師團(tuán)隊(duì)將上訴

    3月29日,據(jù)報(bào)道,F(xiàn)TX數(shù)字貨幣交易平臺(tái)于2022年末在美申請(qǐng)破產(chǎn)保護(hù)。其聯(lián)合創(chuàng)始人同時(shí)也是當(dāng)時(shí)CEO的Sam Bankman-Fried(SBF)離職后,在巴哈馬被逮捕,并被遞解至美國(guó)等待審判。
    的頭像 發(fā)表于 03-29 09:52 ?378次閱讀

    一加創(chuàng)始人內(nèi)部講話曝光 劉作虎稱(chēng)AI手機(jī)不是噱頭

    一加創(chuàng)始人內(nèi)部講話曝光 劉作虎稱(chēng)AI手機(jī)不是噱頭 AI已經(jīng)在改革千行萬(wàn)業(yè),我們看到一加創(chuàng)始人內(nèi)部講話曝光中就提到AI手機(jī);一加創(chuàng)始人劉作虎在內(nèi)部講話中表示,AI手機(jī)不是噱頭,而是行業(yè)大
    的頭像 發(fā)表于 03-12 15:39 ?849次閱讀

    馬斯克:AI發(fā)展速度前所未見(jiàn) 但馬斯克起訴OpenAI及其創(chuàng)始人

    能比其進(jìn)步更快?,F(xiàn)在人工智能技術(shù)的能力似乎每隔半年就能增長(zhǎng)十倍之多;盡管馬斯克認(rèn)為人工智能不太可能永遠(yuǎn)以這樣的速度增長(zhǎng)。 馬斯克起訴OpenAI及其創(chuàng)始人 馬斯克在舊金山高等法院對(duì)OpenAI及其創(chuàng)始人山姆·奧特曼、格里高利·布
    的頭像 發(fā)表于 03-02 15:29 ?1205次閱讀

    軟銀集團(tuán)創(chuàng)始人孫正義計(jì)劃投1000億美元建AI芯片公司對(duì)抗英偉達(dá)?

    根據(jù)外媒報(bào)道,軟銀集團(tuán)創(chuàng)始人孫正義計(jì)劃籌集1000億美元,成立一家名為Project Izanagi的人工智能處理器公司。
    的頭像 發(fā)表于 02-25 15:36 ?609次閱讀
    軟銀集團(tuán)<b class='flag-5'>創(chuàng)始人</b>孫正義計(jì)劃投1000億美元建AI芯片公司對(duì)抗英偉達(dá)?

    軟銀集團(tuán)創(chuàng)始人孫正義計(jì)劃籌集千億美元成立AI芯片公司

    日本科技投資巨頭軟銀集團(tuán)的創(chuàng)始人孫正義正籌劃一項(xiàng)雄心勃勃的計(jì)劃。據(jù)知情人士透露,他正在尋求籌集高達(dá)1000億美元的資金,以成立一家規(guī)模龐大的AI芯片公司。
    的頭像 發(fā)表于 02-20 13:40 ?679次閱讀

    訃告 | 商湯科技創(chuàng)始人、著名人工智能科學(xué)家湯曉鷗教授去世

    我們懷著無(wú)比沉重的心情,向大家宣布一則令人悲痛的消息: 我們敬愛(ài)的創(chuàng)始人、人工智能科學(xué) 家、浦江實(shí)驗(yàn)室主任、上海 工智能實(shí)驗(yàn)室主任、香港中
    的頭像 發(fā)表于 12-17 15:50 ?416次閱讀