0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

實現(xiàn)海量數(shù)據(jù)分析及可視化的簡便方法

DPVg_AI_era ? 作者:工程師飛燕 ? 2018-08-07 14:04 ? 次閱讀

【新智元導讀】近期,Kaggle發(fā)布了新的數(shù)據(jù)分析及可視化工具——Kaggle Kerneler bot,用戶只需上傳數(shù)據(jù)集,便可用Python為用戶自動獲取相關的深度數(shù)據(jù)分析結果。本文將帶領讀者體驗一下這款便捷而又高效的工具。

Kaggle Kerneler bot是一個自動生成的kernel,其中包含了演示如何讀取數(shù)據(jù)以及分析工作的starter代碼。用戶可以進入任意一個已經(jīng)發(fā)布的項目,點擊頂部的“Fork Notebook”來編輯自己的副本。接下來,小編將以最熱門的兩個項目作為例子,帶領讀者了解該如何使用這款便捷的工具。

好的開始是成功的一半!

要開始這個探索性分析(exploratory analysis),首先需要導入一些庫并定義使用matplotlib繪制數(shù)據(jù)的函數(shù)。但要注意的是,并不是所有的數(shù)據(jù)分析結果圖像都能夠呈現(xiàn)出來,這很大程度上取決于數(shù)據(jù)本身(Kaggle Kerneler bot只是一個工具,不可能做到Jeff Dean或者Kaggle比賽選手們那么完美的結果)。

In [1]:

frommpl_toolkits.mplot3dimportAxes3Dfromsklearn.decompositionimportPCAfromsklearn.preprocessingimportStandardScalerimportmatplotlib.pyplotasplt#plottingimportnumpyasnp#linearalgebraimportos#accessingdirectorystructureimportpandasaspd#dataprocessing,CSVfileI/O(e.g.pd.read_csv)

在本例中,一共輸入了12個數(shù)據(jù)集。

In [2]:

print(os.listdir('../input'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/007_nagato_yuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/046_alice_margatroid'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/065_sanzenin_nagi'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/096_golden_darkness'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/116_pastel_ink'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/140_seto_san'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/144_kotegawa_yui'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/164_shindou_chihiro'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/165_rollo_lamperouge'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/199_kusugawa_sasara'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/997_ana_coppola'))

接下里,用戶在編輯界面中會看到四個已經(jīng)編好的代碼塊,它們定義了繪制數(shù)據(jù)的函數(shù)。而在發(fā)布后的頁面,這些代碼塊會被隱藏,如下圖所示,只需單擊已發(fā)布界面中的“code”按鈕就可以顯示隱藏的代碼。

準備就緒!讀取數(shù)據(jù)!

首先,讓我們先看一下輸入中的第一個數(shù)據(jù)集:

In [7]:

nRowsRead = 100 # specify ‘None’ if want to read whole file# color.csv may have more rows in reality, but we are only loading/previewing the first 100 rowsdf1 = pd.read_csv(‘。。/input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki/color.csv’, delimiter=‘,’, nrows = nRowsRead)df1.dataframeName = ‘color.csv’nRow, nCol = df1.shapeprint(f‘There are {nRow} rows and {nCol} columns’)

那么數(shù)據(jù)長什么樣子呢?

In [8]:

df1.head(5)

Out [8]:

實現(xiàn)海量數(shù)據(jù)分析及可視化的簡便方法

數(shù)據(jù)可視化:僅需簡單幾行!

樣本的柱狀圖:

In [9]:

plotHistogram(df1, 10, 5)

二維和三維的PCA圖:

In [10]:

plotPCA(df1, 2) # 2D PCAplotPCA(df1, 3) # 3D PCA

同理,更換數(shù)據(jù)集文件的路徑,也可以得到其它數(shù)據(jù)對應的結果。

當然,除了上述幾種可視化的結果外,根據(jù)輸入數(shù)據(jù)以及需求的不同,也可以得到其它數(shù)據(jù)分析可視化結果,例如:

相關矩陣:

In [11]:

plotCorrelationMatrix(df1, 8)

散射和密度圖:

In [12]:

plotScatterMatrix(df1, 20, 10)

針對數(shù)據(jù)分析、數(shù)據(jù)可視化工作,Kaggle kerneler bot應當說是相當?shù)谋憬莺透咝Я?。那么你是否也想嘗試一下呢?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:Kaggle放大招:簡單幾步實現(xiàn)海量數(shù)據(jù)分析及可視化

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    從使用效果來看,數(shù)據(jù)可視化工具離不開數(shù)據(jù)中臺嗎?

    數(shù)據(jù)可視化工具具有數(shù)據(jù)智能分析、數(shù)據(jù)可視化展現(xiàn)兩大作用,同時
    發(fā)表于 05-12 14:14

    為更快讀懂報表,我們將數(shù)據(jù)可視化

    常用圖表的基礎上,開發(fā)數(shù)十種高級數(shù)據(jù)可視化圖表,同時還賦予這些圖表聯(lián)動鉆取功能,讓瀏覽者一眼看懂數(shù)據(jù)的同時還能根據(jù)自身分析需求進行自助式數(shù)據(jù)分析
    發(fā)表于 06-05 17:21

    只有報表直觀了,不能算真正的數(shù)據(jù)可視化

    ——數(shù)據(jù)中心(數(shù)據(jù)中臺)。OurwayBI數(shù)據(jù)可視化軟件的數(shù)據(jù)中臺能支持億級數(shù)據(jù)的匹配抽取,即使
    發(fā)表于 07-01 17:20

    能做數(shù)據(jù)治理的數(shù)據(jù)可視化工具,又快又靈活

    也就無從談起。對這樣的企業(yè)用戶而言,數(shù)據(jù)治理是邁向BI數(shù)據(jù)智能可視化分析的首要關卡,必須先做數(shù)據(jù)治理,統(tǒng)一數(shù)據(jù)分析口徑,厘清
    發(fā)表于 07-13 15:34

    現(xiàn)在做企業(yè)級數(shù)據(jù)分析,離不開秒分析數(shù)據(jù)可視化工具

    找到分析快、深入的數(shù)據(jù)可視化工具還不夠,做企業(yè)級數(shù)據(jù)分析少不了針對企業(yè)用戶實際狀況和需求搭建數(shù)據(jù)分析模型,但這可是份相當耗時、復雜的工作,稍
    發(fā)表于 07-21 15:06

    請問怎么把BI數(shù)據(jù)可視化報表發(fā)給領導看?

    進行解答。怎么把做好的數(shù)據(jù)可視化報表發(fā)給領導?方法:啟用分享功能,生成鏈接或二維碼發(fā)送給領導。步驟:1、返回SpeedBI數(shù)據(jù)分析云首頁,點擊報表右上角“…”,選擇“分享”。在彈出來的
    發(fā)表于 09-01 17:26

    一般圖表做不了的分析,BI數(shù)據(jù)可視化圖表可以

    隨著業(yè)務變化,分析場景細分,出現(xiàn)了越來越多的一般圖表做不了的分析,比如分析顧客滿意度,又比如分析展示運動軌跡、多項目進程等。面對這些分析需求
    發(fā)表于 01-15 10:22

    什么樣的數(shù)據(jù)分析軟件能讓全員自助可視化分析更絲滑?

    的大數(shù)據(jù)時代,數(shù)據(jù)可視化分析的效率、靈活自助性都將極大地影響企業(yè)的經(jīng)營決策。在動則千萬級、過億級的大數(shù)據(jù)量下,企業(yè)更需要一個能夠智能且高效、靈活且自助的BI
    發(fā)表于 09-22 10:04

    奧威BI數(shù)據(jù)可視化軟件|讓業(yè)務獨立自主分析

    增加。怎么才能提高分析效率?BI數(shù)據(jù)可視化軟件的零編程構建分析模型,讓業(yè)務獨立自助分析的做法也就應運而生了。零編程構建
    發(fā)表于 04-11 10:29

    SpeedBI數(shù)據(jù)可視化工具:瀏覽器上做分析

    SpeedBI數(shù)據(jù)分析云是一種在瀏覽器上進行數(shù)據(jù)可視化分析的工具,它能夠將數(shù)據(jù)可視化的形式呈現(xiàn)出來,并支持多種
    發(fā)表于 08-22 10:55

    財務數(shù)據(jù)分析?奧威BI數(shù)據(jù)可視化工具很擅長

    的智能財務指標計算功能,還擁有一套標準、系統(tǒng)的財務數(shù)據(jù)分析方案,無需測試,下載即可用! 奧威BI工具+智能財務方案:輕松完成智能財務數(shù)據(jù)可視化分
    發(fā)表于 08-29 09:44

    千人千面的數(shù)據(jù)分析有沒可能?奧威BI數(shù)據(jù)可視化工具告訴你

    ,實現(xiàn)數(shù)字運營管理。 ③按需篩選。用戶可根據(jù)具體情況按照組織、時間段、產(chǎn)品品類等條件展開數(shù)據(jù)篩選分析。 奧威BI數(shù)據(jù)
    發(fā)表于 08-29 14:45

    可視化策略的數(shù)據(jù)分析

    研究者采用可視化策略(即平行坐標)的數(shù)據(jù)分析方法,更好地展示了多維材料數(shù)據(jù),可以更好地識別不同屬性之間的有用關系。
    的頭像 發(fā)表于 04-27 09:22 ?4411次閱讀
    <b class='flag-5'>可視化</b>策略的<b class='flag-5'>數(shù)據(jù)分析</b>

    BI可視化智能分析平臺開發(fā),大數(shù)據(jù)可視化平臺

    越來越重視,傳統(tǒng)的文本數(shù)據(jù)龐大,難以快速做出分析。而大數(shù)據(jù)可視化BI商業(yè)智能系統(tǒng)可以解決這個問題。數(shù)據(jù)
    發(fā)表于 02-28 09:39 ?580次閱讀

    用標準數(shù)據(jù)分析方案做數(shù)據(jù)可視化更省成本

    標準數(shù)據(jù)分析方案是以豐富經(jīng)驗為基礎,針對數(shù)據(jù)分析共性需求進行設置的數(shù)據(jù)分析方案。在數(shù)據(jù)可視化工具上直接使用標準
    發(fā)表于 10-13 14:26 ?430次閱讀