0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何很容易地將數(shù)據(jù)共享為Kaggle數(shù)據(jù)集

8g3K_AI_Thinker ? 來(lái)源:未知 ? 作者:李倩 ? 2018-06-29 15:06 ? 次閱讀

Kaggle,對(duì)于很多學(xué)習(xí)并從事數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的同學(xué)們來(lái)說(shuō)應(yīng)該一點(diǎn)也不陌生。除了每年舉辦一次的 Kaggle 競(jìng)賽被大家廣泛關(guān)注著,相信老司機(jī)們更是經(jīng)常使用 Kaggle 的數(shù)據(jù)集并在上面進(jìn)行實(shí)踐練習(xí)。李飛飛也對(duì) Kaggle 評(píng)論道:“Kaggle 是搜尋、分析公共數(shù)據(jù)集,開(kāi)發(fā)機(jī)器學(xué)習(xí)模型,和提高數(shù)據(jù)科學(xué)專(zhuān)業(yè)水平的最佳場(chǎng)所。” 去年 Google 收購(gòu) Kaggle ,并提出 “推動(dòng) AI 技術(shù)的分享和推廣” 的使命。

在研究和工業(yè)界中,除了提升模型能力外,高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)對(duì)結(jié)果也會(huì)產(chǎn)生不可忽視的影響。因此,人工智能頭條今天特別給大家分享一篇在 Kaggle 上發(fā)表的關(guān)于共享數(shù)據(jù)集收集工作的困難和重要性的文章,希望今后可以有更多的數(shù)據(jù)集被收集與共享。文章的最后還為大家分享了關(guān)于 Kaggle 搜索的Tips,希望對(duì)大家的學(xué)習(xí)和使用數(shù)據(jù)集有所幫助。

▌前言

本文由斯坦福大學(xué)研究計(jì)算和斯坦福醫(yī)學(xué)院的研究軟件工程師Vanessa Sochat 撰寫(xiě)。

我們都知道,數(shù)據(jù)共享是一件很難的事,但在發(fā)現(xiàn)與獎(jiǎng)勵(lì)方面具有很大的潛力。一個(gè)典型的 “共享操作” 可能看起來(lái)像是在移動(dòng)硬盤(pán)上傳遞信息,將壓縮檔案放在某個(gè)大學(xué)或云服務(wù)器上,或批量存儲(chǔ)在一個(gè)安全的大學(xué)集群中。這是最佳方法嗎?這是容易的事嗎?要回答這些問(wèn)題,首先考慮一下數(shù)據(jù)采集的可能經(jīng)歷的旅程。它看起來(lái)像下面這樣:

因?yàn)閿?shù)據(jù)的生成更像是一個(gè)流,這一過(guò)程流經(jīng)常是周期性的,數(shù)據(jù)從步驟 1 到 步驟 6 的過(guò)程中停止的唯一原因就是我們決定停止收集。在最理想的情況下,我們希望將這些步驟完全自動(dòng)化。第 1 步 我們可能是在 MRI 掃描儀上生成圖像,第 2 步可能是用自動(dòng)化腳本將初始文件格式轉(zhuǎn)化為研究人員所需的格式,第 3 步移動(dòng)到專(zhuān)用集群存儲(chǔ),第 4 步用于研究組進(jìn)行使用,第 5 步和第 6 步 (如果兩步全部發(fā)生)是額外的工作,進(jìn)行再次處理并將數(shù)據(jù)傳輸?shù)焦蚕砦恢谩?/p>

通常我們?cè)诘?4 步時(shí)就停止了,因?yàn)檫M(jìn)行到此處已經(jīng)可以滿足實(shí)驗(yàn)室的需求,分析完成并寫(xiě)入文件。有點(diǎn)諷刺的是,在第 5 和 6 步有可能會(huì)開(kāi)啟潛在的發(fā)現(xiàn)之門(mén)。但不言而喻的是,如果我分享了我的數(shù)據(jù)集,但你先發(fā)布,那么我就輸了。數(shù)據(jù)就像橙子一樣,在把它的所有汁液榨干之前,我當(dāng)然不想分享出去。但是,如果共享數(shù)據(jù)集本身可以生成一篇論文(或者類(lèi)似的東西),并且,如果步驟4和步驟5很容易,我們就將會(huì)有更多的數(shù)據(jù)共享。這也是我今天要討論的主題,雖然沒(méi)有可用的生產(chǎn)解決方案,但我將展示如何很容易地將數(shù)據(jù)共享為 Kaggle 數(shù)據(jù)集。

▌動(dòng)態(tài)數(shù)據(jù)

之前我談到了關(guān)于living data的想法,概括的講因?yàn)樾聰?shù)據(jù)的出現(xiàn),我們可以更新我們對(duì)世界的理解,關(guān)于有趣問(wèn)題的答案。知識(shí)表示為靜態(tài)PDF還不夠好,因?yàn)樗槐硎玖艘粋€(gè)時(shí)間點(diǎn)。相反,動(dòng)態(tài)數(shù)據(jù)證實(shí)了我們積累的用來(lái)證實(shí)或否認(rèn)假設(shè)的,知識(shí)是一種有生命的、不斷變化的東西。為了使這個(gè)充滿生機(jī)和變化的東西成為現(xiàn)實(shí),要求提供時(shí)需要很容易。

現(xiàn)在,共享數(shù)據(jù)是在發(fā)布過(guò)程之后的手工操作。許多期刊已經(jīng)鼓勵(lì)或要求進(jìn)行數(shù)據(jù)共享,研究人員可以把某個(gè)時(shí)間點(diǎn)的數(shù)據(jù)集上傳至不同的平臺(tái)。我不認(rèn)為這是了解世界的最佳方式,但是這種做法總比什么都不做好。我們不應(yīng)該使用靜態(tài)文章,而應(yīng)該使用數(shù)據(jù)提要,這些數(shù)據(jù)代入算法中并得到新的答案。我們希望數(shù)據(jù)共享在數(shù)據(jù)生成時(shí)可以自動(dòng)進(jìn)行,并且對(duì)所有想要研究它的研究人員開(kāi)放。就目前而言,這可能是一個(gè)過(guò)于崇高的目標(biāo),但我們可以想象在兩個(gè)極端之間有可能會(huì)發(fā)生什么。

一個(gè)自動(dòng)生成和共享數(shù)據(jù)集的簡(jiǎn)單管道又是怎么樣的? 可能像下面這樣:

第 4 步到第 6 步仍然會(huì)發(fā)生(研究人員正在做分析),但不是有一組人渴望得到這些數(shù)據(jù),而是為了有成千上萬(wàn)的人可以使用它們。不同的是我們?cè)诓襟E 3 中添加了一個(gè)助手,即持續(xù)集成,用以簡(jiǎn)化處理和共享數(shù)據(jù)的過(guò)程。我們通常認(rèn)為持續(xù)集成(CI)用于測(cè)試或部署,但它也可能是數(shù)據(jù)共享的有用工具。因此我們把這個(gè)概念叫做"連續(xù)數(shù)據(jù)"。一旦數(shù)據(jù)被處理并傳輸?shù)窖芯拷M的存儲(chǔ)中,它也可能具有這個(gè)連續(xù)的數(shù)據(jù)步驟,將其打包以便共享。

▌Kaggle API

雖然一個(gè)更大的、機(jī)構(gòu)層面的努力是理想的,但與此同時(shí),我們也可以利用開(kāi)源,免費(fèi)使用Kaggle 這樣的資源。我認(rèn)為 Kaggle 有可能做 Github 在早期科學(xué)重現(xiàn)性方面所做的事情。如果共享數(shù)據(jù)集既簡(jiǎn)單又有趣,有潛在的回報(bào),Kaggle 將會(huì)對(duì)規(guī)?;陌l(fā)現(xiàn)和協(xié)作產(chǎn)生影響。但我們需要一個(gè)開(kāi)始!我決定從顯示我可以使用的 Kaggle API 來(lái)上傳數(shù)據(jù)集開(kāi)始。它在 Web 界面中很容易實(shí)現(xiàn),利用命令行也很容易實(shí)現(xiàn)。簡(jiǎn)單來(lái)說(shuō),我們需要的只是一個(gè)包含數(shù)據(jù)文件和元數(shù)據(jù)(json文件)的目錄,我們可以將API客戶端指向該目錄。例如,這是我上傳的一個(gè)數(shù)據(jù)集:

datapackage.json 描述正在上傳的內(nèi)容

那么,分享你的數(shù)據(jù)集供給他人使用和發(fā)現(xiàn)有多難呢?你可以下載一個(gè)文件證書(shū)來(lái)認(rèn)證服務(wù)。然后把文件(.tar.gz or .csv)放入文件夾中,創(chuàng)建一個(gè) json 文件,并將工具指向它。這些操作很簡(jiǎn)單,你幾乎可以不用任何額外的幫助就完成所有這些事情。將這樣的腳本插入到一些連續(xù)集成中,以便在將數(shù)據(jù)集添加到存儲(chǔ)時(shí)更新數(shù)據(jù)集。

▌Tools

在這里我創(chuàng)建了一個(gè) Docker 容器,提供了一個(gè)之前與 Kaggle API 交互并生成一些數(shù)據(jù)集的簡(jiǎn)短的示例。我在這里介紹一下腳本的基本邏輯。Kaggle 命令行客戶端在很多任務(wù)上都做得很好,但是作為一名開(kāi)發(fā)人員,我希望更多地控制元數(shù)據(jù)規(guī)范和文件的創(chuàng)建。我還希望對(duì)它進(jìn)行 Dockerized,這樣我就可以執(zhí)行一個(gè)與主機(jī)隔離的創(chuàng)建操作。

▌創(chuàng)建容器

此映像提供在 Docker Hub 上,你也可以自己構(gòu)建:

我沒(méi)有將創(chuàng)建腳本公開(kāi)為入口點(diǎn),因?yàn)槲蚁M@是一個(gè)“shell到容器中,并了解發(fā)生了什么”的交互,你可以這樣做:

▌創(chuàng)建數(shù)據(jù)集

create_dataset.py 腳本位于工作目錄中,此方法接收您希望生成數(shù)據(jù)集的參數(shù)。你可以不帶參數(shù)運(yùn)行該腳本來(lái)查看細(xì)節(jié):

對(duì)于這篇文章,更容易看到一個(gè)例子,在 /tmp/data/ARCHIVE,我有我的數(shù)據(jù)集文件(.tar.gz files),所以我首先準(zhǔn)備了一份空白的完整路徑列表:

然后我想把它們上傳到一個(gè)叫做 vanessa/code-images.命令行如下:

上述涉及的參數(shù)說(shuō)明如下:

關(guān)鍵字:以逗號(hào)分隔的關(guān)鍵字列表(無(wú)空格?。?/p>

文件:要上傳的數(shù)據(jù)文件的完整路徑

標(biāo)題:數(shù)據(jù)集標(biāo)題(有空格需要加上引號(hào))

命名:數(shù)據(jù)集本身的名稱(chēng)(不能包含空格或特殊字符以及引號(hào))

用戶名:你的 kaggle 用戶名,或數(shù)據(jù)集所屬組織的名稱(chēng)

接下來(lái)將會(huì)生成一個(gè)包含數(shù)據(jù)包的臨時(shí)目錄:

然后將文件添加到其中,例如,這是我的臨時(shí)文件夾的結(jié)果:

回顧上述過(guò)程,我不需要在此復(fù)制文件,因?yàn)橐话阄也幌矚g對(duì)原始數(shù)據(jù)執(zhí)行任何類(lèi)型的操作(以防出錯(cuò))。然后,該工具將顯示元數(shù)據(jù)文件(上面已經(jīng)顯示過(guò)的文件),然后啟動(dòng)上載。此過(guò)程需要一些時(shí)間,完成后會(huì)顯示一個(gè) URL!

重點(diǎn)提示!有一些后期處理發(fā)生,這可能需要很多額外的時(shí)間(考慮到上傳的大小,這對(duì)我來(lái)說(shuō)確實(shí)如此)。我的數(shù)據(jù)集實(shí)際上直到第二天早上才存在于給定的 URL 中,所以這個(gè)過(guò)程應(yīng)該需要耐心。在完成之前,你會(huì)得到一個(gè) 404。你可以去跑步,或者今天就到此為止。

機(jī)構(gòu)需要優(yōu)先考慮數(shù)據(jù),并幫助研究人員管理自己的數(shù)據(jù)。研究者應(yīng)該能夠得到支持來(lái)管理他們的數(shù)據(jù),然后讓它以編程的方式訪問(wèn)。這必須超越傳統(tǒng)庫(kù)提供的 “歸檔”,深入研究api、通知、部署或分析觸發(fā)器。雖然我們沒(méi)有這些生產(chǎn)系統(tǒng),但一切都是從簡(jiǎn)單的解決方案開(kāi)始的,以便輕松創(chuàng)建和共享數(shù)據(jù)集。我的設(shè)想是,在進(jìn)行計(jì)算的地方 (我們的研究計(jì)算集群)和數(shù)據(jù)存儲(chǔ)的地方(以及通過(guò)上載或API自動(dòng)共享的地方)之間建立牢固的關(guān)系。類(lèi)似這樣:

通知的范圍可以從任何地方發(fā)出:

(1)進(jìn)入一個(gè)提要以告訴另一研究人員新數(shù)據(jù);

(2)觸發(fā) CI 作業(yè)從存儲(chǔ)重新上載到共享位置;

(3)觸發(fā)某個(gè)容器的新版本的構(gòu)建和部署,該容器將數(shù)據(jù)作為依賴(lài)項(xiàng)

▌What We Need:數(shù)據(jù)工程師 & 協(xié)作平臺(tái)

一個(gè)機(jī)構(gòu)需要分配資源和人員來(lái)幫助研究人員提供數(shù)據(jù)。我相信,在未來(lái),研究人員可以通過(guò)協(xié)作平臺(tái),通過(guò)其他研究人員提供的數(shù)據(jù)源,共同合作進(jìn)行研究。

更多內(nèi)容可訪問(wèn)原文鏈接

http://blog.kaggle.com/2018/06/21/open-source-datasets-with-kaggle/

通過(guò)上面的介紹,大家肯定已經(jīng)感受到收集數(shù)據(jù)集這項(xiàng)工作的艱難和重要意義。而作為學(xué)習(xí)者,Kaggle,一個(gè)神一般的資源,面對(duì)成千上萬(wàn)并每天都會(huì)更新添加的數(shù)據(jù),我們又該如何找到數(shù)據(jù)集呢?接下來(lái)大為家介紹一些技巧和竅門(mén),希望可以幫助大家更好的學(xué)習(xí)并利用 Kaggle,找到對(duì)自己有用處,感興趣的數(shù)據(jù)集。

原文鏈接:

http://blog.kaggle.com/2017/09/11/how-can-i-find-a-dataset-on-kaggle/

▌從數(shù)據(jù)集頁(yè)面搜索

點(diǎn)擊 Kaggle 頁(yè)面頂部顯示的 “數(shù)據(jù)集” 標(biāo)簽,即可進(jìn)入數(shù)據(jù)集頁(yè)面

▌數(shù)據(jù)集搜索

當(dāng)您在數(shù)據(jù)集頁(yè)面中使用搜索欄時(shí),與使用頁(yè)面頂部的搜索欄不同,您將獲得包含所有搜索結(jié)果的新頁(yè)面

▌搜索提示

Kaggle 的搜索支持一些額外的搜索語(yǔ)法。這意味著您可以使用以下修改來(lái)更準(zhǔn)確地進(jìn)行搜索。

“”:將搜索文本放在雙引號(hào)(“”)中將搜索引號(hào)中的確切短語(yǔ)。“巧克力蛋糕” 將返回關(guān)于巧克力蛋糕的結(jié)果,但不包括巧克力棒或紅色天鵝絨蛋糕。

+:在兩個(gè)單詞之間加上一個(gè)(+),中間沒(méi)有空格,將返回具有第一個(gè)詞和第二個(gè)詞的搜索結(jié)果?!扒煽肆?+ 蛋糕” 將返回巧克力和蛋糕的結(jié)果,但它們不必一起同時(shí)出現(xiàn)。

|:在兩個(gè)單詞之間放置一個(gè)(|)將返回結(jié)果中包含第一項(xiàng)或第二項(xiàng)。“蛋糕 |巧 克力” 將返回關(guān)于蛋糕或巧克力的結(jié)果。

*:如果您要查找多種拼寫(xiě)的內(nèi)容,可以使用星號(hào)(*)表示 “此處有任何字符”。“choc *” 將返回以 “choc” 開(kāi)頭的結(jié)果,如 “choclate”,“chocked” 或 “chockablock”。

-:將減號(hào)(-)放在單詞前面會(huì)返回不包含該單詞的結(jié)果?!暗案?- 巧克力” 將返回不包含 “巧克力” 一詞的蛋糕的結(jié)果。

▌在搜索結(jié)果中找到特定內(nèi)容

如果您的搜索有很多結(jié)果,在搜索結(jié)果頁(yè)面中使用瀏覽器的 “在頁(yè)面查找” 功能返回有時(shí)會(huì)有所幫助。

▌排序結(jié)果

還可以用不同的方式對(duì)搜索結(jié)果進(jìn)行排序:

熱度:這是結(jié)果排序的默認(rèn)方式。熱度由許多因素決定,包括整體受歡迎程度以及某段時(shí)間內(nèi)活動(dòng)增加。

投票數(shù)最多:根據(jù)他們收到的最高票數(shù)排序。

最近更新[我的推薦]:根據(jù)最近更新的結(jié)果(創(chuàng)建或添加新版本)對(duì)結(jié)果進(jìn)行排序。這是我個(gè)人最喜歡的排序搜索結(jié)果的方式:其他人更可能提出流行的,較舊的數(shù)據(jù)集。我更喜歡看到較新的數(shù)據(jù)集。除其他優(yōu)點(diǎn)之外,我發(fā)現(xiàn)最近更新數(shù)據(jù)集的數(shù)據(jù)集上傳者更可能對(duì)問(wèn)題做出回應(yīng)并對(duì)內(nèi)核發(fā)表評(píng)論。

最近活動(dòng):根據(jù)最近任何人與數(shù)據(jù)集進(jìn)行交互的情況對(duì)結(jié)果進(jìn)行排序,包括評(píng)論,啟動(dòng)或運(yùn)行內(nèi)核。

相關(guān)性:根據(jù)它們對(duì)查詢(xún)的相關(guān)程度對(duì)結(jié)果進(jìn)行排序。

▌特色 VS. 所有 數(shù)據(jù)集

默認(rèn)情況下,只在數(shù)據(jù)集頁(yè)面上顯示 “Featured” 數(shù)據(jù)集。該數(shù)據(jù)集是由 Kaggle團(tuán)隊(duì)成員精選的。特色數(shù)據(jù)集應(yīng)該記錄完整,進(jìn)行過(guò)數(shù)據(jù)清洗并且可以隨時(shí)使用。但是,并非所有數(shù)據(jù)集都具有特征,并且還有幾個(gè)高質(zhì)量數(shù)據(jù)集可能尚未提供。如果您希望看到所有數(shù)據(jù)集,而不僅僅是那些已被選為特色的數(shù)據(jù)集,您可以通過(guò)單擊 “All” 一 詞從 “Featured” 選項(xiàng)卡切換到 “All” 選項(xiàng)卡來(lái)執(zhí)行此操作。您還將看到精選數(shù)據(jù)集,這些數(shù)據(jù)集將通過(guò)標(biāo)題旁灰色 “Featured” 標(biāo)記進(jìn)行區(qū)分。

▌數(shù)據(jù)集標(biāo)簽

另一種查找數(shù)據(jù)集的方法是使用標(biāo)簽(一個(gè)相對(duì)較新的功能)。您可以通過(guò)兩種方式搜索特定標(biāo)簽。首先是通過(guò)點(diǎn)擊數(shù)據(jù)集列表中的標(biāo)簽或數(shù)據(jù)集頁(yè)面上的標(biāo)簽。這將返回具有匹配標(biāo)簽的數(shù)據(jù)集列表。第二個(gè)是在搜索框中搜索標(biāo)簽。您可以通過(guò)添加 “tag” 來(lái)完成此操作,然后在單引號(hào)中添加標(biāo)簽的名稱(chēng)。如果標(biāo)簽中有空格,請(qǐng)包含它們。

標(biāo)簽:'食物和飲料':搜索標(biāo)簽為“食物和飲料”的數(shù)據(jù)集

標(biāo)簽:'internet':搜索標(biāo)簽為“internet”的數(shù)據(jù)集

數(shù)量眾多的標(biāo)簽涵蓋了數(shù)據(jù)發(fā)布者用于使數(shù)據(jù)更容易被發(fā)現(xiàn)的各種主題。目前,用戶無(wú)法添加自己的單獨(dú)標(biāo)簽。建議點(diǎn)擊標(biāo)簽以了解更多有關(guān)標(biāo)簽的信息,而不是使用文本搜索并試圖猜測(cè)某個(gè)標(biāo)簽是否存在。

▌頁(yè)面頂部搜索欄進(jìn)行搜索

當(dāng)知道某些數(shù)據(jù)集已經(jīng)存在,可以在 Kaggle 網(wǎng)頁(yè)頂部的搜索欄進(jìn)行搜索,這是一個(gè)方便的捷徑,但對(duì)于深入搜索,個(gè)人偏好還是喜歡在數(shù)據(jù)集頁(yè)面內(nèi)進(jìn)行搜索

在右側(cè),可以看到當(dāng)搜索 “巧克力“ 時(shí),在數(shù)據(jù)集的最佳結(jié)果都是數(shù)據(jù)集。

在左邊,可以看到,當(dāng)搜索 “巧克力” 時(shí),顯示結(jié)果依次是:數(shù)據(jù)集,內(nèi)核和用戶。

以上是關(guān)于 Kaggle 數(shù)據(jù)集的搜索 Tips,如果此時(shí)您需要使用特定類(lèi)型的數(shù)據(jù),可以上傳您的數(shù)據(jù),也為這項(xiàng)艱難偉大的工程貢獻(xiàn)一份力量。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24538
  • ai技術(shù)
    +關(guān)注

    關(guān)注

    1

    文章

    1243

    瀏覽量

    24003

原文標(biāo)題:如何在Kaggle上受到萬(wàn)人敬仰?

文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Kaggle機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)現(xiàn)狀調(diào)查

    Kaggle 是互聯(lián)網(wǎng)上最著名的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)之一,今年 3 月 8 日,這家機(jī)構(gòu)被谷歌收購(gòu),6 月 6 日又宣布用戶數(shù)量超過(guò)了 100 萬(wàn)人。
    的頭像 發(fā)表于 06-29 09:11 ?9761次閱讀
    <b class='flag-5'>Kaggle</b>機(jī)器學(xué)習(xí)/<b class='flag-5'>數(shù)據(jù)</b>科學(xué)現(xiàn)狀調(diào)查

    #硬聲創(chuàng)作季 人工智能-:2-Kaggle電影數(shù)據(jù)下載與配置

    人工智能數(shù)據(jù)
    Mr_haohao
    發(fā)布于 :2022年10月17日 09:58:52

    谷歌的Dataset Search開(kāi)放至今,為什么還搜不到我的數(shù)據(jù)?

    是什么?」這種對(duì)正在處理的任務(wù)的關(guān)注使得一些問(wèn)題比最初看起來(lái)容易。連接重復(fù)數(shù)據(jù)對(duì)于流行的數(shù)據(jù),在多個(gè)資源庫(kù)中重復(fù)出現(xiàn)是
    發(fā)表于 09-28 16:22

    基于onepanel使用kaggle api提交結(jié)果和下載數(shù)據(jù)的步驟

    在onepanel上使用kaggle api提交結(jié)果和下載數(shù)據(jù)
    發(fā)表于 04-22 11:00

    kaggle泰坦尼克生存預(yù)測(cè)實(shí)施步驟

    數(shù)據(jù)分析-kaggle泰坦尼克號(hào)生存率分析(入門(mén))個(gè)人總結(jié)
    發(fā)表于 09-05 15:36

    是否在沒(méi)有擴(kuò)展指令的情況下乘以16x16u的匯編程序例程?

    有沒(méi)有人有一個(gè)16x 16的乘法例程,它不需要擴(kuò)展指令,比如16F887????數(shù)據(jù)表中有18F45K22的16x16u例程,但它需要擴(kuò)展指令命令MULWF和MOVFF(我可以
    發(fā)表于 04-03 09:54

    BI分享秀——高度開(kāi)放的數(shù)據(jù)分析經(jīng)驗(yàn)共享

    時(shí)容易出現(xiàn)分析無(wú)頭緒的情況,這個(gè)時(shí)候就能夠通過(guò)BI分享秀去參考借鑒他人的分析經(jīng)驗(yàn)。在SpeedBI數(shù)據(jù)分析云平臺(tái)上,BI分享秀充當(dāng)分析經(jīng)驗(yàn)共享的主力,同時(shí)上線的BI模板秀則充當(dāng)新可視
    發(fā)表于 05-12 14:23

    HiSpark AI Camera HarmonyOS :3.深度學(xué)習(xí)探索[一] :魚(yú)臉識(shí)別&資料整理與數(shù)據(jù)共享

    使用的是FishDataset這個(gè)數(shù)據(jù),有3G大小,背景不純凈。數(shù)據(jù)的文件夾名就是魚(yú)類(lèi)的名字。1.2 讀取數(shù)據(jù):1.2.1 基本都要引入的庫(kù): import osimport pat
    發(fā)表于 11-22 16:54

    環(huán)路補(bǔ)償容易

    環(huán)路補(bǔ)償容易 有需要的看一看,不收積分。
    發(fā)表于 11-20 17:05 ?0次下載

    多維數(shù)據(jù)是什么

    使用多維數(shù)據(jù)向?qū)В梢栽?SQL Server 2005 中輕松定義簡(jiǎn)單的多維數(shù)據(jù)。該向?qū)Э梢詭椭?b class='flag-5'>為多維
    的頭像 發(fā)表于 02-24 10:48 ?9503次閱讀
    多維<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>是什么

    Kaggle利于數(shù)據(jù)科學(xué)領(lǐng)域新手學(xué)習(xí)的幾點(diǎn)特征,并帶你學(xué)習(xí)ML相關(guān)知識(shí)

    它們只是Kaggle的Jupyter筆記本版本,反過(guò)來(lái),它只是一種非常有效和酷炫的共享代碼方式,以及大量的可視化,輸出和解釋?!皟?nèi)核”選項(xiàng)卡您帶到一個(gè)公共內(nèi)核列表,人們用它來(lái)展示一些新工具或分享他們對(duì)某些特定
    的頭像 發(fā)表于 11-19 10:13 ?2589次閱讀

    Kaggle創(chuàng)始人Goldbloom:我們是這樣做數(shù)據(jù)科學(xué)競(jìng)賽的

    所以說(shuō),在kaggle里有各種各樣的問(wèn)題,包括不同的行業(yè)、不同的方面,這里面非常有意思的一點(diǎn),就是所有的問(wèn)題,都可以用差不多的方法來(lái)進(jìn)行解決。當(dāng)我們有兩個(gè)數(shù)據(jù)的時(shí)候,一個(gè)是訓(xùn)練,一
    的頭像 發(fā)表于 01-23 15:16 ?2328次閱讀

    如何使用數(shù)據(jù)庫(kù)技術(shù)實(shí)現(xiàn)空間數(shù)據(jù)共享系統(tǒng)的設(shè)計(jì)

    的重要途徑。本文研究當(dāng)前流行空間數(shù)據(jù)共享方案,設(shè)計(jì)一種以XML信息交換標(biāo)準(zhǔn)的空間數(shù)據(jù)轉(zhuǎn)換系統(tǒng),空間數(shù)
    發(fā)表于 09-17 16:07 ?13次下載
    如何使用<b class='flag-5'>數(shù)據(jù)</b>庫(kù)技術(shù)實(shí)現(xiàn)空間<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>共享</b>系統(tǒng)的設(shè)計(jì)

    電流共享變得容易

    電流共享變得容易
    發(fā)表于 05-27 09:00 ?10次下載
    電流<b class='flag-5'>共享</b>變得<b class='flag-5'>容易</b>

    最全自動(dòng)駕駛數(shù)據(jù)分享系列一:目標(biāo)檢測(cè)數(shù)據(jù)

    自動(dòng)駕駛數(shù)據(jù)分享是整數(shù)智能推出的一個(gè)全新分享系列,在這個(gè)系列中,我們介紹目前為止各大科研機(jī)構(gòu)和企業(yè)推出的所有公開(kāi)自動(dòng)駕駛數(shù)據(jù)。
    發(fā)表于 06-06 11:15 ?2次下載
    最全自動(dòng)駕駛<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>分享系列一:目標(biāo)檢測(cè)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>