要找到一定特定的數(shù)據(jù)集可以解決各種機(jī)器學(xué)習(xí)問(wèn)題,是一件很難的事情。越來(lái)越多企業(yè)或研究機(jī)構(gòu)將自己的數(shù)據(jù)集公開,已經(jīng)成為全球的趨勢(shì),這也將有助于大家進(jìn)行更多研究。
近期,亞馬遜高級(jí)技術(shù)顧問(wèn) Will Badr 分享了 8 種適用于不同機(jī)器學(xué)習(xí)問(wèn)題的常用數(shù)據(jù)集,并給出相應(yīng)的描述,用法示例以及在某些情況下用于解決與該數(shù)據(jù)集相關(guān)的機(jī)器學(xué)習(xí)問(wèn)題的代碼。
1、Kaggle 數(shù)據(jù)集
鏈接:
https://www.kaggle.com/datasets
這是當(dāng)前數(shù)據(jù)科學(xué)領(lǐng)域最熱門,也是最受歡迎的數(shù)據(jù)集之一。在 Kaggle 中,每個(gè)數(shù)據(jù)集都是對(duì)應(yīng)一項(xiàng)比賽,參賽者可以在這個(gè)小社區(qū)里討論數(shù)據(jù),查找一些公共代碼或在 kernel 中創(chuàng)建自己的項(xiàng)目。Kaggle 中包含大量不同類型,不同大小以及多種不同格式的真實(shí)數(shù)據(jù)集。此外,參賽者還可以看到與每個(gè)數(shù)據(jù)集關(guān)聯(lián)的 kernel,其中許多數(shù)據(jù)科學(xué)家會(huì)上傳自己的 notebooks 來(lái)分析數(shù)據(jù)集,還能找到解決特定數(shù)據(jù)集問(wèn)題的算法實(shí)現(xiàn)。
2、Amazon 數(shù)據(jù)集
鏈接:
https://registry.opendata.aws/
Amazon 數(shù)據(jù)庫(kù)包含不同領(lǐng)域的多種數(shù)據(jù)集,如公共交通,生態(tài)資源,衛(wèi)星圖像等。在數(shù)據(jù)集官網(wǎng)還有一個(gè)搜索框,可以幫助使用者快速找到所需的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集包含相應(yīng)的數(shù)據(jù)集描述和使用示例,數(shù)據(jù)量非常豐富且易于使用。
此外,依托于 Amazon Web Services (AWS) 平臺(tái),如 Amazon S3,這些儲(chǔ)存在云端的數(shù)據(jù)集都有高度的可擴(kuò)展性服務(wù),這對(duì)于那些使用 AWS 進(jìn)行機(jī)器學(xué)習(xí)開發(fā)和實(shí)驗(yàn)的用戶來(lái)說(shuō),將非常方便。因?yàn)樵谠贫耍瑪?shù)據(jù)集的傳輸將非??臁?/p>
3、UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)集
鏈接:
https://archive.ics.uci.edu/ml/datasets.html
這是由加州大學(xué)歐文分校(UCI)信息與計(jì)算機(jī)科學(xué)學(xué)院的研究者創(chuàng)建的一個(gè)包含 100 多種不同類型數(shù)據(jù)集的大型數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)根據(jù)不同的機(jī)器學(xué)習(xí)問(wèn)題來(lái)對(duì)數(shù)據(jù)集進(jìn)行分類,在這里,用戶可以找到單變量、多變量時(shí)間序列數(shù)據(jù)集,分類、回歸、推薦系統(tǒng)數(shù)據(jù)集等。此外,該數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù)集已經(jīng)經(jīng)過(guò)數(shù)據(jù)清洗過(guò)程,是可以直接為用戶使用。
4、Google 數(shù)據(jù)集所搜引擎
鏈接:
https://toolbox.google.com/datasetsearch
2018 年 9 月,Google 推出了這項(xiàng)服務(wù),它是一個(gè)可以按名稱搜索相應(yīng)數(shù)據(jù)集的工具箱,其目標(biāo)是集成數(shù)萬(wàn)個(gè)不同的數(shù)據(jù)集,并對(duì)用戶開放使用。
5、Miscrosoft 數(shù)據(jù)集
鏈接:
https://msropendata.com/
2018 年 7 月,Miscrosoft 聯(lián)合其外部的研究社區(qū)聲明發(fā)布 Miscrosoft Research Open Data 服務(wù)。這項(xiàng)存儲(chǔ)在云端的數(shù)據(jù)庫(kù),包含了一系列在已發(fā)表研究中使用過(guò)的數(shù)據(jù)集,致力于促進(jìn)全球研究社區(qū)的研究合作。
6、Awesome 公開數(shù)據(jù)集
鏈接:
https://github.com/awesomedata/awesome-public-datasets
Awesome 是一個(gè)按不同主題分類的數(shù)據(jù)庫(kù),其中涵蓋了如生物學(xué),經(jīng)濟(jì)學(xué),教育等不同領(lǐng)域的重要數(shù)據(jù)集,其中列出的大多數(shù)數(shù)據(jù)集都可供用戶免費(fèi)試用,但在使用任何數(shù)據(jù)集之前,用戶需要通過(guò)認(rèn)證已獲得使用許可。
7、government 數(shù)據(jù)集
在這里你可以找到那些與政府相關(guān)的數(shù)據(jù)集。為顯示政府工作的透明度,許多國(guó)家機(jī)構(gòu)公開發(fā)布了其國(guó)家在一些領(lǐng)域的數(shù)據(jù)集,如下示例:
EU Open Data:歐洲政府?dāng)?shù)據(jù)集
鏈接:
https://data.europa.eu/euodp/data/dataset
US Gov Data:美國(guó)政府?dāng)?shù)據(jù)(非政治問(wèn)題上的數(shù)據(jù)集,但自特朗普政府上調(diào)以來(lái),該網(wǎng)站數(shù)據(jù)集暫時(shí)無(wú)法使用)
鏈接:
https://www.data.gov/
New Zealand’s Government Dataset:新西蘭政府?dāng)?shù)據(jù)集
鏈接:
https://catalogue.data.govt.nz/dataset
Indian Government Dataset:印度政府?dāng)?shù)據(jù)集
鏈接:
https://data.gov.in/
8、Computer Vision 領(lǐng)域數(shù)據(jù)集
鏈接:
https://www.visualdata.io/
如果是從事圖像處理、計(jì)算機(jī)視覺或深度學(xué)習(xí)領(lǐng)域的工作,那么該數(shù)據(jù)集會(huì)是最好的實(shí)驗(yàn)資源。Visual Data 包含一些可用于構(gòu)建計(jì)算機(jī)視覺(CV)模型的優(yōu)秀數(shù)據(jù)集。使用者可以通過(guò)某個(gè)特定的 CV 任務(wù)來(lái)查找相應(yīng)的數(shù)據(jù)集,如語(yǔ)義分割(semantic segmentation)、圖像生成標(biāo)題(image captioning)、圖像生成(image generation),甚至是無(wú)人駕駛解決方案所需的數(shù)據(jù)集。
原文鏈接:
https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132315 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24619 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
164瀏覽量
10039
原文標(biāo)題:秘籍 | 機(jī)器學(xué)習(xí)數(shù)據(jù)集網(wǎng)址大全
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論