大數(shù)據(jù)常見處理流程包括:原始數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲、統(tǒng)計分析、存儲至數(shù)據(jù)倉庫、數(shù)據(jù)導(dǎo)出、導(dǎo)入數(shù)據(jù)庫、數(shù)據(jù)可視化。
圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》
一、原始數(shù)據(jù)采集
原始數(shù)據(jù)采集的方式包括:爬蟲程序采集、應(yīng)用數(shù)據(jù)采集。
爬蟲程序采集可在互聯(lián)網(wǎng)中爬取需要的數(shù)據(jù)。
應(yīng)用數(shù)據(jù)采集是指通過集群或分布式部署方式,將應(yīng)用程序的日志文件存儲于多個服務(wù)器中,再將日志文件數(shù)據(jù)集中存儲。
二、數(shù)據(jù)清洗和數(shù)據(jù)存儲
因為采集的數(shù)據(jù)中包含不符合要求的數(shù)據(jù),如格式?jīng)_突的數(shù)據(jù)、漏項的數(shù)據(jù)、錯誤的數(shù)據(jù)等,所以需要數(shù)據(jù)清洗將不符合要求的數(shù)據(jù)去除。
數(shù)據(jù)清洗過程可以較簡單,也可以較復(fù)雜。可以通過向數(shù)據(jù)缺失位置添加某值的方式簡單完成數(shù)據(jù)清洗(含個人理解);也可以通過復(fù)雜的機器學(xué)習(xí)模型清洗數(shù)據(jù)。
數(shù)據(jù)清洗可借助ETL軟件(根據(jù)百度百科:ETL是數(shù)據(jù)倉庫技術(shù))。一般,數(shù)據(jù)被清洗后,數(shù)據(jù)量較大,無法存儲于計算機內(nèi)存中,因此,需將數(shù)據(jù)存儲于HDFS(數(shù)據(jù)存儲)中或其他大數(shù)據(jù)存儲方式中。
三、統(tǒng)計分析和數(shù)據(jù)倉庫
統(tǒng)計分析可通過選擇合適統(tǒng)計分析工具完成??墒褂肕apReduce技術(shù)實現(xiàn)并行統(tǒng)計分析,也可使用Hive數(shù)據(jù)倉庫(Hive數(shù)據(jù)倉庫具有數(shù)據(jù)整理、特殊查詢、分析存儲功能)、Python、R等進行統(tǒng)計分析。
統(tǒng)計分析的難點不在于選擇統(tǒng)計分析工具,而在于需求和分析對象。個人理解:具體的需求和分析對象多樣導(dǎo)致統(tǒng)計分析不能簡單地以某一方式解決所有統(tǒng)計分析問題。
統(tǒng)計分析結(jié)束后,數(shù)據(jù)可被存儲于數(shù)據(jù)倉庫中,可使用Hive數(shù)據(jù)倉庫搭建所需的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)不能直接向用戶呈現(xiàn)。
四、數(shù)據(jù)導(dǎo)出和數(shù)據(jù)庫
因為數(shù)據(jù)倉庫的數(shù)據(jù)不能直接向用戶呈現(xiàn),所以需要將數(shù)據(jù)從數(shù)據(jù)倉庫導(dǎo)出,并將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中以實現(xiàn)數(shù)據(jù)可視化。數(shù)據(jù)導(dǎo)出可使用Sqoop(Sqoop可提供數(shù)據(jù)導(dǎo)入功能)。
數(shù)據(jù)庫一般為關(guān)系型數(shù)據(jù)庫。
五、數(shù)據(jù)可視化
數(shù)據(jù)可視化的目標是使數(shù)據(jù)可被直觀展示,傳統(tǒng)圖形化展示方式種類較多(根據(jù)網(wǎng)絡(luò)資料理解:傳統(tǒng)圖形化展示方式包括條形圖、排列圖、餅圖、環(huán)形圖等)。大數(shù)據(jù)新型可視化方式包括:氣泡圖、數(shù)據(jù)畫像、地圖涂色等。
六、大數(shù)據(jù)應(yīng)用案例
下文介紹Hadoop自帶的MapReduce應(yīng)用案例WordCount,WordCount可統(tǒng)計文件的詞頻。
(1)啟動Hadoop系統(tǒng)服務(wù),需啟動HDFS與Yarn服務(wù)(根據(jù)百度百科:Yarn是新的Hadoop資源管理器,是通用資源管理系統(tǒng))。
圖中紅框內(nèi)命令為HDFS啟動命令,綠框內(nèi)命令為Yarn服務(wù)啟動命令,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
(2)檢查Hadoop安全模式是否為“OFF”狀態(tài),如果Hadoop安全模式的狀態(tài)為“ON”,則只能讀取HDFS中的數(shù)據(jù),不能向HDFS中寫入數(shù)據(jù)。
(3)準備需要處理的數(shù)據(jù),即查看文本文件中的內(nèi)容。
圖中紅框內(nèi)命令為查看文件內(nèi)容命令,綠框內(nèi)為文件中的內(nèi)容,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
(4)執(zhí)行WordCount應(yīng)用程序。WordCount的具體命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被統(tǒng)計文件的目錄名與文件名 統(tǒng)計結(jié)果輸出文件目錄名與文件名。
圖中紅框內(nèi)為WordCount應(yīng)用程序統(tǒng)計結(jié)果輸出文件的內(nèi)容,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作
審核編輯:劉清
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3752瀏覽量
64233 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315 -
python
+關(guān)注
關(guān)注
55文章
4768瀏覽量
84376 -
HDFS
+關(guān)注
關(guān)注
1文章
30瀏覽量
9560
原文標題:大數(shù)據(jù)相關(guān)介紹(11)——大數(shù)據(jù)應(yīng)用的開發(fā)流程
文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論