0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

spark和hadoop的區(qū)別

PoisonApple ? 來源:網(wǎng)絡(luò)整理 ? 2018-02-12 14:41 ? 次閱讀

SPARK

Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce的算法。

Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。

Spark 是在 Scala 語言中實現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。

盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對 Hadoop 的補充,可以在 Hadoop 文件系統(tǒng)中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發(fā),可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。

Hadoop

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。

用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。

Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。

Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。

spark和hadoop的區(qū)別

spark和hadoop的區(qū)別

解決問題的層面不一樣

首先,Hadoop和Apache Spark兩者都是大數(shù)據(jù)框架,但是各自存在的目的不盡相同。Hadoop實質(zhì)上更多是一個分布式數(shù)據(jù)基礎(chǔ)設(shè)施: 它將巨大的數(shù)據(jù)集分派到一個由普通計算機組成的集群中的多個節(jié)點進行存儲,意味著您不需要購買和維護昂貴的服務(wù)器硬件。

同時,Hadoop還會索引和跟蹤這些數(shù)據(jù),讓大數(shù)據(jù)處理和分析效率達到前所未有的高度。Spark,則是那么一個專門用來對那些分布式存儲的大數(shù)據(jù)進行處理的工具,它并不會進行分布式數(shù)據(jù)的存儲。

兩者可合可分

Hadoop除了提供為大家所共識的HDFS分布式數(shù)據(jù)存儲功能之外,還提供了叫做MapReduce的數(shù)據(jù)處理功能。所以這里我們完全可以拋開Spark,使用Hadoop自身的MapReduce來完成數(shù)據(jù)的處理。

相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,畢竟它沒有提供文件管理系統(tǒng),所以,它必須和其他的分布式文件系統(tǒng)進行集成才能運作。這里我們可以選擇Hadoop的HDFS,也可以選擇其他的基于云的數(shù)據(jù)系統(tǒng)平臺。但Spark默認來說還是被用在Hadoop上面的,畢竟,大家都認為它們的結(jié)合是最好的。

以下是從網(wǎng)上摘錄的對MapReduce的最簡潔明了的解析:

我們要數(shù)圖書館中的所有書。你數(shù)1號書架,我數(shù)2號書架。這就是“Map”。我們?nèi)嗽蕉?,?shù)書就更快。

現(xiàn)在我們到一起,把所有人的統(tǒng)計數(shù)加在一起。這就是“Reduce”。

spark和hadoop的區(qū)別

Spark數(shù)據(jù)處理速度秒殺MapReduce

Spark因為其處理數(shù)據(jù)的方式不一樣,會比MapReduce快上很多。MapReduce是分步對數(shù)據(jù)進行處理的: ”從集群中讀取數(shù)據(jù),進行一次處理,將結(jié)果寫到集群,從集群中讀取更新后的數(shù)據(jù),進行下一次的處理,將結(jié)果寫到集群,等等…“ Booz Allen Hamilton的數(shù)據(jù)科學(xué)家Kirk Borne如此解析。

反觀Spark,它會在內(nèi)存中以接近“實時”的時間完成所有的數(shù)據(jù)分析:“從集群中讀取數(shù)據(jù),完成所有必須的分析處理,將結(jié)果寫回集群,完成,” Born說道。Spark的批處理速度比MapReduce快近10倍,內(nèi)存中的數(shù)據(jù)分析速度則快近100倍。

如果需要處理的數(shù)據(jù)和結(jié)果需求大部分情況下是靜態(tài)的,且你也有耐心等待批處理的完成的話,MapReduce的處理方式也是完全可以接受的。

但如果你需要對流數(shù)據(jù)進行分析,比如那些來自于工廠的傳感器收集回來的數(shù)據(jù),又或者說你的應(yīng)用是需要多重數(shù)據(jù)處理的,那么你也許更應(yīng)該使用Spark進行處理。

大部分機器學(xué)習(xí)算法都是需要多重數(shù)據(jù)處理的。此外,通常會用到Spark的應(yīng)用場景有以下方面:實時的市場活動,在線產(chǎn)品推薦網(wǎng)絡(luò)安全分析,機器日記監(jiān)控等。

災(zāi)難恢復(fù)

兩者的災(zāi)難恢復(fù)方式迥異,但是都很不錯。因為Hadoop將每次處理后的數(shù)據(jù)都寫入到磁盤上,所以其天生就能很有彈性的對系統(tǒng)錯誤進行處理。

Spark的數(shù)據(jù)對象存儲在分布于數(shù)據(jù)集群中的叫做彈性分布式數(shù)據(jù)集(RDD: Resilient Distributed Dataset)中。“這些數(shù)據(jù)對象既可以放在內(nèi)存,也可以放在磁盤,所以RDD同樣也可以提供完成的災(zāi)難恢復(fù)功能,”Borne指出。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1410

    瀏覽量

    33987
  • Hadoop
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    15944
  • SPARK
    +關(guān)注

    關(guān)注

    1

    文章

    105

    瀏覽量

    19857
收藏 人收藏

    評論

    相關(guān)推薦

    大數(shù)據(jù)分析中SparkHadoop,Hive框架該用哪種開源分布式系統(tǒng)

    眾所周知,大數(shù)據(jù)開發(fā)和分析、機器學(xué)習(xí)、數(shù)據(jù)挖掘中,都離不開各種開源分布式系統(tǒng)。最常見的就是 Hadoop、Hive、Spark這三個框架了。最近不少朋友有問到關(guān)于這些的問題: 大廠里還有在用
    的頭像 發(fā)表于 09-17 13:17 ?4401次閱讀

    如何將Hadoop部署在低廉的硬件上

    了 YARN,Yarn 是資源調(diào)度框架,能夠細粒度的管理和調(diào)度任務(wù),還能夠支持其他的計算框架,比如 spark)為核心的 Hadoop 為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎(chǔ)架構(gòu)。
    的頭像 發(fā)表于 09-27 09:40 ?1470次閱讀

    山西嵌入式系統(tǒng)課程| SparkHadoop計算模型之SparkHadoop更...

    上次我們分享了SparkHadoop計算模型的內(nèi)存問題,今天山西思軟嵌入式學(xué)員為大家分享SparkHadoop計算模型的Spark
    發(fā)表于 11-17 16:44

    Hadoop的整體框架組成

    Hadoop是一個用Java編寫的Apache開源框架,允許使用簡單的編程模型跨計算機集群分布式處理大型數(shù)據(jù)集。Hadoop框架工作的應(yīng)用程序在跨計算機集群提供分布式存儲和計算的環(huán)境中工作
    發(fā)表于 05-11 16:00

    Spark入門及安裝與配置

    1.下載spark-2.1.0-bin-hadoop2.7.tgz以下是Spark的官方下載地址:https://www.apache.org/dyn/closer.lua/spark
    發(fā)表于 07-31 16:22

    hadoop發(fā)行版本之間的區(qū)別

    hadoop發(fā)行版本之間的區(qū)別Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數(shù)據(jù)處理。
    發(fā)表于 09-18 16:30

    hadoop框架結(jié)構(gòu)的說明介紹

    如下:(1)數(shù)據(jù)源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka(2)數(shù)據(jù)采集:DK.hadoop(3)數(shù)據(jù)處理模塊:DK.Hadoop
    發(fā)表于 10-15 15:59

    hadoopspark區(qū)別

    什么大的區(qū)別。我記得剛開始接觸大數(shù)據(jù)這方面內(nèi)容的時候,也就這個問題查閱了一些資料,在《FreeRCH大數(shù)據(jù)一體化開發(fā)框架》的這篇說明文檔中有就Hadoopspark區(qū)別進行了簡單的
    發(fā)表于 11-30 15:51

    大數(shù)據(jù)hadoop入門之hadoop家族產(chǎn)品詳解

    Spark和Strom數(shù)據(jù)存在內(nèi)存中 Pig/Hive(Hadoop編程):角色描述Pig是一種高級編程語言,在處理半結(jié)構(gòu)化數(shù)據(jù)上擁有非常高的性能,可以幫助我們縮短開發(fā)周期。Hive是數(shù)據(jù)分析查詢工具,尤其在
    發(fā)表于 12-26 15:02

    采用VMware和CentOS及HadoopSpark安裝和配置

    5 基于 Mac 平臺 VMware 虛擬機的 Spark 安裝 (5)
    發(fā)表于 03-08 16:35

    SparkHadoop的對比

    Spark系列】:Spark為什么比Hadoop
    發(fā)表于 04-06 09:11

    如何使用Apache Spark 2.0

    數(shù)據(jù)集(Resilient Distributed Dataset,RDD)一直是Spark中的主要抽象。RDD API是在Scala集合框架之后建模的,因此間接提供了Hadoop Map / Reduce熟悉的編程
    發(fā)表于 09-28 19:00 ?0次下載
    如何使用Apache <b class='flag-5'>Spark</b> 2.0

    什么是Hadoop? SparkHadoop對比

    Hadoop在2006年開始成為雅虎項目,隨后成為頂級的Apache開源項目。它是一種通用的分布式處理形式,具有多個組件: HDFS(分布式文件系統(tǒng)),它將文件以Hadoop本機格式存儲,并在集群中并行化; YARN,協(xié)調(diào)應(yīng)用程序運行時的調(diào)度程序.
    發(fā)表于 06-04 12:48 ?6800次閱讀

    快速學(xué)習(xí)SparkHadoop的架構(gòu)的方法

    SparkHadoop的架構(gòu)區(qū)別是什么,什么是spark,什么是Hadoop,怎么樣學(xué)習(xí)這些知識點?總的來說,
    的頭像 發(fā)表于 07-18 09:42 ?2041次閱讀

    未來大數(shù)據(jù)時代,Hadoop會被Spark取代?

    毫無疑問,為專家設(shè)計的產(chǎn)品一般都會停留在原來的軌道上,在其他方面不會有所涉及。但Spark在各個行業(yè)都存在一些有意義的分布,這可能要歸功于各種市場上的大數(shù)據(jù)的泛濫。所以,雖然Spark可能有更廣泛的應(yīng)用,但Hadoop仍然支配著
    的頭像 發(fā)表于 03-20 14:12 ?2475次閱讀
    未來大數(shù)據(jù)時代,<b class='flag-5'>Hadoop</b>會被<b class='flag-5'>Spark</b>取代?