0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)應(yīng)用的開發(fā)流程

RG15206629988 ? 來源:行業(yè)學(xué)習(xí)與研究 ? 2023-02-22 16:38 ? 次閱讀

大數(shù)據(jù)常見處理流程包括:原始數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲、統(tǒng)計分析、存儲至數(shù)據(jù)倉庫、數(shù)據(jù)導(dǎo)出、導(dǎo)入數(shù)據(jù)庫、數(shù)據(jù)可視化。

49f2d180-b1d5-11ed-bfe3-dac502259ad0.png

圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

一、原始數(shù)據(jù)采集

原始數(shù)據(jù)采集的方式包括:爬蟲程序采集、應(yīng)用數(shù)據(jù)采集。

爬蟲程序采集可在互聯(lián)網(wǎng)中爬取需要的數(shù)據(jù)。

應(yīng)用數(shù)據(jù)采集是指通過集群或分布式部署方式,將應(yīng)用程序的日志文件存儲于多個服務(wù)器中,再將日志文件數(shù)據(jù)集中存儲。

二、數(shù)據(jù)清洗和數(shù)據(jù)存儲

因為采集的數(shù)據(jù)中包含不符合要求的數(shù)據(jù),如格式?jīng)_突的數(shù)據(jù)、漏項的數(shù)據(jù)、錯誤的數(shù)據(jù)等,所以需要數(shù)據(jù)清洗將不符合要求的數(shù)據(jù)去除。

數(shù)據(jù)清洗過程可以較簡單,也可以較復(fù)雜。可以通過向數(shù)據(jù)缺失位置添加某值的方式簡單完成數(shù)據(jù)清洗(含個人理解);也可以通過復(fù)雜的機器學(xué)習(xí)模型清洗數(shù)據(jù)。

數(shù)據(jù)清洗可借助ETL軟件(根據(jù)百度百科:ETL是數(shù)據(jù)倉庫技術(shù))。一般,數(shù)據(jù)被清洗后,數(shù)據(jù)量較大,無法存儲于計算機內(nèi)存中,因此,需將數(shù)據(jù)存儲于HDFS(數(shù)據(jù)存儲)中或其他大數(shù)據(jù)存儲方式中。

三、統(tǒng)計分析和數(shù)據(jù)倉庫

統(tǒng)計分析可通過選擇合適統(tǒng)計分析工具完成??墒褂肕apReduce技術(shù)實現(xiàn)并行統(tǒng)計分析,也可使用Hive數(shù)據(jù)倉庫(Hive數(shù)據(jù)倉庫具有數(shù)據(jù)整理、特殊查詢、分析存儲功能)、Python、R等進行統(tǒng)計分析。

統(tǒng)計分析的難點不在于選擇統(tǒng)計分析工具,而在于需求和分析對象。個人理解:具體的需求和分析對象多樣導(dǎo)致統(tǒng)計分析不能簡單地以某一方式解決所有統(tǒng)計分析問題。

統(tǒng)計分析結(jié)束后,數(shù)據(jù)可被存儲于數(shù)據(jù)倉庫中,可使用Hive數(shù)據(jù)倉庫搭建所需的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)不能直接向用戶呈現(xiàn)。

四、數(shù)據(jù)導(dǎo)出和數(shù)據(jù)庫

因為數(shù)據(jù)倉庫的數(shù)據(jù)不能直接向用戶呈現(xiàn),所以需要將數(shù)據(jù)從數(shù)據(jù)倉庫導(dǎo)出,并將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中以實現(xiàn)數(shù)據(jù)可視化。數(shù)據(jù)導(dǎo)出可使用Sqoop(Sqoop可提供數(shù)據(jù)導(dǎo)入功能)。

數(shù)據(jù)庫一般為關(guān)系型數(shù)據(jù)庫。

五、數(shù)據(jù)可視化

數(shù)據(jù)可視化的目標是使數(shù)據(jù)可被直觀展示,傳統(tǒng)圖形化展示方式種類較多(根據(jù)網(wǎng)絡(luò)資料理解:傳統(tǒng)圖形化展示方式包括條形圖、排列圖、餅圖、環(huán)形圖等)。大數(shù)據(jù)新型可視化方式包括:氣泡圖、數(shù)據(jù)畫像、地圖涂色等。

六、大數(shù)據(jù)應(yīng)用案例

下文介紹Hadoop自帶的MapReduce應(yīng)用案例WordCount,WordCount可統(tǒng)計文件的詞頻。

(1)啟動Hadoop系統(tǒng)服務(wù),需啟動HDFS與Yarn服務(wù)(根據(jù)百度百科:Yarn是新的Hadoop資源管理器,是通用資源管理系統(tǒng))。

4a33be2a-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)命令為HDFS啟動命令,綠框內(nèi)命令為Yarn服務(wù)啟動命令,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作

(2)檢查Hadoop安全模式是否為“OFF”狀態(tài),如果Hadoop安全模式的狀態(tài)為“ON”,則只能讀取HDFS中的數(shù)據(jù),不能向HDFS中寫入數(shù)據(jù)。

(3)準備需要處理的數(shù)據(jù),即查看文本文件中的內(nèi)容。

4a9bfe2c-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)命令為查看文件內(nèi)容命令,綠框內(nèi)為文件中的內(nèi)容,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作

(4)執(zhí)行WordCount應(yīng)用程序。WordCount的具體命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被統(tǒng)計文件的目錄名與文件名 統(tǒng)計結(jié)果輸出文件目錄名與文件名。

4ac8966c-b1d5-11ed-bfe3-dac502259ad0.png

圖中紅框內(nèi)為WordCount應(yīng)用程序統(tǒng)計結(jié)果輸出文件的內(nèi)容,圖片來源:根據(jù)學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》資料制作






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3752

    瀏覽量

    64233
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8353

    瀏覽量

    132315
  • python
    +關(guān)注

    關(guān)注

    55

    文章

    4768

    瀏覽量

    84376
  • HDFS
    +關(guān)注

    關(guān)注

    1

    文章

    30

    瀏覽量

    9560

原文標題:大數(shù)據(jù)相關(guān)介紹(11)——大數(shù)據(jù)應(yīng)用的開發(fā)流程

文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    智慧城市與大數(shù)據(jù)的關(guān)系

    智慧城市與大數(shù)據(jù)之間存在著密切的關(guān)系,這種關(guān)系體現(xiàn)在大數(shù)據(jù)對智慧城市建設(shè)的支撐和推動作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)大數(shù)據(jù)技術(shù)的應(yīng)用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?414次閱讀

    電機控制方案開發(fā)流程

    電機控制應(yīng)用廣泛,電機控制軟件方案核心是MCU,功率器件、驅(qū)動器件;本文介紹電機控制方案開發(fā)流程與需要解決的問題。
    的頭像 發(fā)表于 10-12 16:36 ?593次閱讀
    電機控制方案<b class='flag-5'>開發(fā)</b><b class='flag-5'>流程</b>

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關(guān)工具和技術(shù),如Hive、Pig、HBase等,這些工具可以方便地構(gòu)建復(fù)雜的大數(shù)據(jù)應(yīng)用。Hadoop廣泛應(yīng)用于各種場景,包括數(shù)據(jù)處理和分析、
    的頭像 發(fā)表于 10-08 15:12 ?106次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數(shù)據(jù)</b>應(yīng)用構(gòu)建-提升<b class='flag-5'>數(shù)據(jù)</b>價值利用效能

    CYBT-343026傳輸大數(shù)據(jù)時會丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一個操作 SPP 的應(yīng)用程序。 但是,傳輸大數(shù)據(jù)時有時會丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    dSPACE開發(fā)流程

    電子發(fā)燒友網(wǎng)站提供《dSPACE開發(fā)流程.pdf》資料免費下載
    發(fā)表于 02-29 09:08 ?0次下載

    通過CY7C68013A想實現(xiàn)一個generic HID設(shè)備,如何修改描述符及端點最大數(shù)據(jù)包的大?。?/a>

    通過CY7C68013A想實現(xiàn)一個generic HID設(shè)備,使用一個中斷型輸入端點和一個中斷型輸出端點,最大數(shù)據(jù)包長度均為1024(或512?)字節(jié),請問基于CY3684開發(fā)套件提供的固件模板,該如何修改描述符及端點最大數(shù)據(jù)
    發(fā)表于 02-28 06:37

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具。現(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和領(lǐng)域,對企業(yè)決策和業(yè)務(wù)發(fā)展起到了重要作用。本文將詳細介紹大數(shù)據(jù)技術(shù)的概念、發(fā)展
    的頭像 發(fā)表于 01-31 11:07 ?2976次閱讀

    芯科科技發(fā)布新版藍牙開發(fā)流程

    查看Silicon Labs(亦稱“芯科科技”)近日發(fā)布新版的藍牙開發(fā)流程(Bluetooth Developer Journey),了解更多關(guān)于低功耗藍牙、藍牙Mesh、藍牙定位服務(wù),以及電子貨架標簽(ESL)等設(shè)計方法,我們將概述相關(guān)應(yīng)用
    的頭像 發(fā)表于 01-25 10:09 ?695次閱讀
    芯科科技發(fā)布新版藍牙<b class='flag-5'>開發(fā)</b><b class='flag-5'>流程</b>

    基于工業(yè)大數(shù)據(jù)和物聯(lián)網(wǎng)的智能工廠如何實現(xiàn)

    在中國制造2025及工業(yè)4.0技術(shù)的加持下,離散制造業(yè)的流程工業(yè)實現(xiàn)生產(chǎn)設(shè)備網(wǎng)絡(luò)化、生產(chǎn)數(shù)據(jù)可視化、生產(chǎn)現(xiàn)場無人化等現(xiàn)金數(shù)據(jù)應(yīng)用,做到橫向與縱向的集成,實現(xiàn)邊緣到云端的數(shù)據(jù)通信,實現(xiàn)優(yōu)
    的頭像 發(fā)表于 12-25 15:32 ?529次閱讀

    大數(shù)據(jù)技術(shù)如何為精益管理賦能?

    管理提供數(shù)據(jù)支持 精益管理強調(diào)以數(shù)據(jù)為基礎(chǔ),通過數(shù)據(jù)分析和挖掘,發(fā)現(xiàn)企業(yè)運營中的問題和瓶頸,進而優(yōu)化流程、提高效率。大數(shù)據(jù)技術(shù)能夠?qū)崟r收集、
    的頭像 發(fā)表于 12-19 09:58 ?572次閱讀

    大數(shù)據(jù)與人工智能賦能精益生產(chǎn):掀起工業(yè)革命的浪潮!

    的應(yīng)用主要體現(xiàn)在以下幾個方面: 生產(chǎn)流程優(yōu)化:通過大數(shù)據(jù)分析,企業(yè)可以對生產(chǎn)流程進行全面、深入的了解,找出流程中的瓶頸和浪費,進而優(yōu)化生產(chǎn)流程
    的頭像 發(fā)表于 12-13 16:20 ?379次閱讀

    Get職場新知識:做分析,用大數(shù)據(jù)分析工具

    綜合分析。但現(xiàn)在有了大數(shù)據(jù)分析工具,一切問題都可迎刃而解。 大數(shù)據(jù)分析工具,顧名思義就是專門為分析海量數(shù)據(jù)開發(fā)的一類工具。這類工具具有極強的大數(shù)據(jù)
    發(fā)表于 12-05 09:36

    嵌入式軟件的開發(fā)流程

    電子發(fā)燒友網(wǎng)站提供《嵌入式軟件的開發(fā)流程.doc》資料免費下載
    發(fā)表于 11-17 14:39 ?0次下載
    嵌入式軟件的<b class='flag-5'>開發(fā)</b><b class='flag-5'>流程</b>

    嵌入式軟件開發(fā)流程

    電子發(fā)燒友網(wǎng)站提供《嵌入式軟件開發(fā)流程.ppt》資料免費下載
    發(fā)表于 11-17 14:37 ?3次下載
    嵌入式軟件<b class='flag-5'>開發(fā)</b><b class='flag-5'>流程</b>

    嵌入式系統(tǒng)的組成及開發(fā)流程

    電子發(fā)燒友網(wǎng)站提供《嵌入式系統(tǒng)的組成及開發(fā)流程.ppt》資料免費下載
    發(fā)表于 11-17 14:35 ?1次下載
    嵌入式系統(tǒng)的組成及<b class='flag-5'>開發(fā)</b><b class='flag-5'>流程</b>