0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)系統(tǒng)包括哪些

RG15206629988 ? 來(lái)源:行業(yè)學(xué)習(xí)與研究 ? 2023-02-16 18:24 ? 次閱讀

目前,主流的大數(shù)據(jù)平臺(tái)包括:Hadoop、Spark。

Hadoop是分布式(根據(jù)網(wǎng)絡(luò)資料理解:分布式與集中式相對(duì)應(yīng),對(duì)于大量數(shù)據(jù)計(jì)算,集中于一臺(tái)計(jì)算機(jī)中計(jì)算需耗費(fèi)較長(zhǎng)時(shí)間,通過(guò)將計(jì)算分布于多個(gè)計(jì)算機(jī),節(jié)約整體計(jì)算時(shí)間)系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop的兩個(gè)功能包括:數(shù)據(jù)存儲(chǔ)(HDFS)、數(shù)據(jù)處理(MapReduce)。

Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用計(jì)算引擎。Spark不提供文件管理系統(tǒng),沒(méi)有數(shù)據(jù)存儲(chǔ)功能;Spark的數(shù)據(jù)計(jì)算基于內(nèi)存實(shí)現(xiàn),數(shù)據(jù)處理速度快。

一、HDFS(分布式文件存儲(chǔ))

數(shù)據(jù)通過(guò)HDFS放置于一個(gè)Hadoop集群中,Hadoop集群通常由幾臺(tái)至上千臺(tái)的計(jì)算機(jī)組成。根據(jù)課程介紹理解,百度公司最大的Hadoop集群已超過(guò)4000臺(tái)計(jì)算機(jī)。

數(shù)據(jù)在存儲(chǔ)于HDFS前,被分割成若干數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊儲(chǔ)存于一臺(tái)計(jì)算機(jī)中。不同Hadoop版本所分割的數(shù)據(jù)塊大小不同,Hadoop1.0版本中數(shù)據(jù)塊大小為64MB,Hadoop2.0版本中數(shù)據(jù)塊大小為128MB。Hadoop也可以設(shè)置數(shù)據(jù)塊大?。ê瑐€(gè)人理解)。

e1266bfa-addb-11ed-bfe3-dac502259ad0.png

圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

二、MapReduce(分布式數(shù)據(jù)處理架構(gòu))

MapReduce是分布式計(jì)算框架。開發(fā)人員在運(yùn)用MapReduce處理數(shù)據(jù)時(shí),MapReduce將指定某一Map函數(shù),將一組鍵值對(duì)(根據(jù)網(wǎng)絡(luò)資料理解:鍵值對(duì)可以根據(jù)一個(gè)值獲得對(duì)應(yīng)的一個(gè)值)映射成一組新的鍵值對(duì),并指定并發(fā)的Reduce函數(shù),保證所有Map函數(shù)映射的結(jié)果可以進(jìn)行Reduce規(guī)約(根據(jù)網(wǎng)絡(luò)資料理解:通過(guò)某一連接動(dòng)作將所有元素匯總為一個(gè)結(jié)果的過(guò)程)運(yùn)算。

e1bec99a-addb-11ed-bfe3-dac502259ad0.png

圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

在運(yùn)用MapReduce框架編寫計(jì)算機(jī)程序時(shí),開發(fā)人員只需考慮業(yè)務(wù)邏輯,不需考慮并行管理。

三、MapReduce的WordCount示例

WordCount是統(tǒng)計(jì)文件夾所有文本中某一詞出現(xiàn)的次數(shù)。

其中,WordCount的Map函數(shù)程序代碼如下:

Map(K, V){

For each word w in V

Collect(w,1);

}

WordCount的Map函數(shù)中的K代表文本中的詞,WordCount的Map函數(shù)的功能是將文本中的每個(gè)詞與1建立鍵值對(duì),即每個(gè)詞對(duì)應(yīng)一個(gè)“1”。

WordCount的Reduce函數(shù)程序代碼如下:

Reduce(K.V[]){

int count=0;

For each v in V

count+= v;

Collect(K,count);

}

WordCount的Reduce函數(shù)將經(jīng)過(guò)WordCount的Map函數(shù)處理的相同詞對(duì)應(yīng)的“1”求和,得出某一詞的出現(xiàn)的次數(shù)。

該WordCount示例中,Map和Reduce函數(shù)的具體運(yùn)行如圖一所示:

首先,所有數(shù)據(jù)被整理成單行數(shù)據(jù),圖一流程圖中具有三個(gè)節(jié)點(diǎn)(個(gè)人理解:節(jié)點(diǎn)可被認(rèn)為是計(jì)算機(jī)),圖一中的三行數(shù)據(jù)被分行輸入到三個(gè)節(jié)點(diǎn)中。

然后,Map函數(shù)運(yùn)行,將每個(gè)詞與1建立鍵值對(duì)。

Map函數(shù)運(yùn)行結(jié)束后,Shuffle過(guò)程運(yùn)行,Shuffle過(guò)程是MapReduce內(nèi)設(shè)過(guò)程,可將具有相同詞的鍵值對(duì)中的“1”集合至一個(gè)List(列表)中。如圖一所示,因?yàn)椤癇ear”一詞出現(xiàn)了兩次,所以經(jīng)過(guò)Shuffle過(guò)程后,“Bear”所對(duì)應(yīng)的List為(1,1)。

最后,Reduce函數(shù)運(yùn)行,將Shuffle過(guò)程所生成的List求和,完成對(duì)某一詞出現(xiàn)的次數(shù)統(tǒng)計(jì)。

e1f1375e-addb-11ed-bfe3-dac502259ad0.png

圖一,圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(9)——大數(shù)據(jù)系統(tǒng)(上)

文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    使用CYW20829的BLE進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,BLE丟失數(shù)據(jù)如何解決?

    我目前正在使用 CYW20829 的 BLE 進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的參考),藍(lán)牙被
    發(fā)表于 07-23 07:56

    大數(shù)據(jù)在軍事方面的應(yīng)用

    決策支持:大數(shù)據(jù)技術(shù)為戰(zhàn)爭(zhēng)決策提供了全新的思路和工具。軍事機(jī)關(guān)指揮系統(tǒng)通過(guò)搜集和分析大量的戰(zhàn)場(chǎng)數(shù)據(jù),可以建立復(fù)雜的決策模型,快速分析敵我態(tài)勢(shì),評(píng)估作戰(zhàn)可行性,并推薦最優(yōu)的戰(zhàn)術(shù)方案。這種基于
    的頭像 發(fā)表于 07-16 09:44 ?441次閱讀

    多通道數(shù)據(jù)采集系統(tǒng)的工作原理包括什么

    多通道數(shù)據(jù)采集系統(tǒng)是一種用于從多個(gè)傳感器或信號(hào)源同時(shí)獲取數(shù)據(jù)的電子系統(tǒng)。它廣泛應(yīng)用于工業(yè)自動(dòng)化、科研、醫(yī)療、航空航天等領(lǐng)域。本文將詳細(xì)介紹多通道數(shù)據(jù)
    的頭像 發(fā)表于 07-01 16:01 ?481次閱讀

    大數(shù)據(jù)采集系統(tǒng)分為幾類

    大數(shù)據(jù)采集系統(tǒng)大數(shù)據(jù)生態(tài)系統(tǒng)中的重要組成部分,它負(fù)責(zé)從各種數(shù)據(jù)源收集、整合和存儲(chǔ)數(shù)據(jù)。根據(jù)不同
    的頭像 發(fā)表于 07-01 15:44 ?1044次閱讀

    大數(shù)據(jù)分析平臺(tái)網(wǎng)站

    大數(shù)據(jù)分析平臺(tái)是一種用于處理和分析大規(guī)模數(shù)據(jù)集的系統(tǒng),旨在從海量數(shù)據(jù)中提取有價(jià)值的信息和洞察。以下是大數(shù)據(jù)分析平臺(tái)的主要功能和應(yīng)用場(chǎng)景: 主
    的頭像 發(fā)表于 06-28 15:46 ?314次閱讀

    大數(shù)據(jù)在軍事方面的應(yīng)用有哪些

    大數(shù)據(jù)技術(shù)為戰(zhàn)爭(zhēng)決策提供了全新的思路和工具。軍事機(jī)關(guān)指揮系統(tǒng)通過(guò)搜集和分析大量的戰(zhàn)場(chǎng)數(shù)據(jù),可以建立復(fù)雜的決策模型,快速分析敵我態(tài)勢(shì),評(píng)估作戰(zhàn)可行性,并推薦最優(yōu)的戰(zhàn)術(shù)方案。 利用大數(shù)據(jù)
    的頭像 發(fā)表于 06-23 10:34 ?588次閱讀

    CYBT-343026傳輸大數(shù)據(jù)時(shí)會(huì)丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一個(gè)操作 SPP 的應(yīng)用程序。 但是,傳輸大數(shù)據(jù)時(shí)有時(shí)會(huì)丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    簡(jiǎn)析大數(shù)據(jù)技術(shù)下智能充電樁在網(wǎng)絡(luò)系統(tǒng)中的應(yīng)用

    簡(jiǎn)析大數(shù)據(jù)技術(shù)下智能充電樁在網(wǎng)絡(luò)系統(tǒng)中的應(yīng)用 張穎姣 安科瑞電氣股份有限公司?上海嘉定 201801 摘要:*近幾年來(lái)隨著我國(guó)經(jīng)濟(jì)社會(huì)的飛速發(fā)展,各方面實(shí)力都有了明顯的提升,尤其是步入21世紀(jì)以來(lái)
    的頭像 發(fā)表于 02-26 10:57 ?320次閱讀
    簡(jiǎn)析<b class='flag-5'>大數(shù)據(jù)</b>技術(shù)下智能充電樁在網(wǎng)絡(luò)<b class='flag-5'>系統(tǒng)</b>中的應(yīng)用

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    的核心技術(shù),包括數(shù)據(jù)采集、存儲(chǔ)與管理、處理與分析等方面。 一、大數(shù)據(jù)技術(shù)背景和概念 1.1 背景 隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,人們可以通過(guò)各種途徑產(chǎn)生、獲取和傳輸數(shù)據(jù),使
    的頭像 發(fā)表于 01-31 11:07 ?2391次閱讀

    分布式可視化控制系統(tǒng)助力大數(shù)據(jù)中心數(shù)字化升級(jí)!

    維分布式可視化控制系統(tǒng),該系統(tǒng)以全I(xiàn)P網(wǎng)絡(luò)架構(gòu)為基礎(chǔ),利用現(xiàn)代網(wǎng)絡(luò)技術(shù)、計(jì)算機(jī)技術(shù)和音頻處理技術(shù),通過(guò)網(wǎng)絡(luò)將大數(shù)據(jù)中心系統(tǒng)的運(yùn)營(yíng)管理、安全監(jiān)控、應(yīng)急指揮等系統(tǒng)進(jìn)行整合,搭建了信息采集、
    的頭像 發(fā)表于 12-29 14:59 ?394次閱讀

    針對(duì)大數(shù)據(jù)安全架構(gòu)設(shè)計(jì)的思路和原則

    數(shù)據(jù)分類與標(biāo)記:對(duì)于大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)進(jìn)行分類和標(biāo)記,根據(jù)數(shù)據(jù)的敏感程度和重要性確定相應(yīng)的安全級(jí)別。這可以幫助確定如何處理、存儲(chǔ)和傳輸
    的頭像 發(fā)表于 12-27 11:18 ?1053次閱讀
    針對(duì)<b class='flag-5'>大數(shù)據(jù)</b>安全架構(gòu)設(shè)計(jì)的思路和原則

    Get職場(chǎng)新知識(shí):做分析,用大數(shù)據(jù)分析工具

    、多維動(dòng)態(tài)分析,業(yè)務(wù)人隨時(shí)按需分析,更靈活,更高效。 3、指標(biāo)計(jì)算能力極強(qiáng),能很好地完成計(jì)算組合多變、計(jì)算量極大的財(cái)務(wù)分析指標(biāo)計(jì)算。 現(xiàn)在登錄奧威BI SaaS平臺(tái),即可享受在線連接系統(tǒng),下載方案,執(zhí)行方案后立得百?gòu)圔I報(bào)表的極速大數(shù)據(jù)分析體驗(yàn)。
    發(fā)表于 12-05 09:36

    modbus在通信的過(guò)程中如何實(shí)現(xiàn)大數(shù)據(jù)包的傳輸?

    modbus在通信的過(guò)程中如何實(shí)現(xiàn)大數(shù)據(jù)包的傳輸
    發(fā)表于 10-15 12:23

    STM8L在低功耗模式下進(jìn)行大數(shù)據(jù)運(yùn)算會(huì)增加功耗嗎?

    STM8L在低功耗模式下進(jìn)行大數(shù)據(jù)運(yùn)算會(huì)增加功耗嗎
    發(fā)表于 10-13 07:23

    曙光生態(tài)環(huán)境大數(shù)據(jù)解決方案助力我國(guó)生態(tài)環(huán)境“大數(shù)據(jù)”建設(shè)

    相通、數(shù)據(jù)不規(guī)范等難題。通過(guò)構(gòu)建智慧高效的生態(tài)環(huán)境大數(shù)據(jù)體系成為推動(dòng)我國(guó)生態(tài)環(huán)境保護(hù)的重要支撐。 為全面提升生態(tài)環(huán)境系統(tǒng)化、科學(xué)化、精細(xì)化管理水平,曙光推出生態(tài)環(huán)境大數(shù)據(jù)解決方案。綜合
    的頭像 發(fā)表于 10-11 15:51 ?478次閱讀