0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)分析中Spark,Hadoop,Hive框架該用哪種開源分布式系統(tǒng)

算法與數(shù)據(jù)結(jié)構(gòu) ? 來源:算法與數(shù)據(jù)結(jié)構(gòu) ? 作者:算法與數(shù)據(jù)結(jié)構(gòu) ? 2020-09-17 13:17 ? 次閱讀

眾所周知,大數(shù)據(jù)開發(fā)和分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘中,都離不開各種開源分布式系統(tǒng)。最常見的就是 Hadoop、Hive、Spark這三個框架了。最近不少朋友有問到關(guān)于這些的問題:

大廠里還有在用 Hadoop 嗎?感覺都在用 Spark,有些慌!

SQL boy 大廠面試都問什么?Hadoop、Spark、Flink 都搞過!

聽說百度只用 Hadoop,為什么不用業(yè)界都在用的 Spark !

為什么百度不用SQL支持?jǐn)?shù)據(jù)處理,還在寫一堆 Hadoop 腳本!

Java 開發(fā)需要對大數(shù)據(jù)了解多少,Hbase、Hive、Spark 這些嗎?

不同的業(yè)務(wù)場景決定了不同的系統(tǒng)架構(gòu)選型。Hadoop 用于分布式存儲和 Map-Reduce 計(jì)算,Spark 用于分布式機(jī)器學(xué)習(xí),Hive 則是分布式數(shù)據(jù)庫。Hive 和 Spark 是大數(shù)據(jù)領(lǐng)域內(nèi)為不同目的而構(gòu)建的不同產(chǎn)品。二者都有不可替代的優(yōu)勢。Hive 是一個基于Hadoop 的分布式數(shù)據(jù)庫,Spark 則是一個用于數(shù)據(jù)分析的框架。

這就要求技術(shù)人不得不掌握各種開源的技術(shù)框架。這就會造成顧此失彼,學(xué)完易忘、易混淆的情況。為了解決這個問題,這里推薦給大家一個高效學(xué)習(xí)和開發(fā)的寶藏:一份大數(shù)據(jù)/分布式開發(fā)速查表。內(nèi)容涵蓋:Spark、Hadoop及Hive等日常工作中幾乎所有的技術(shù)知識點(diǎn)。

對比詳細(xì)卻冗長的技術(shù)文檔,速查表要顯得更加便捷與直觀??梢詭痛蠹液茌p松的從上面找到具體某項(xiàng)技術(shù)的快捷命令與語法,相信能大幅提升開發(fā)效率,同時(shí),一些遺忘的知識點(diǎn)也都能通過速查表來快速獲取。

由于篇幅原因,下面只展示了速查表的部分內(nèi)容。無論你是學(xué)習(xí)進(jìn)階,還是日后溫習(xí),這套速查表資料都值得好好珍藏。



1.大數(shù)據(jù)內(nèi)存計(jì)算框架之Spark 必知必會

學(xué)習(xí) Spark ,從大方向說,算子大致可以分為以下兩類: (1)Transformation 變換 / 轉(zhuǎn)換算子:這種變換并不觸發(fā)提交作業(yè),這種算子是延遲執(zhí)行的,也就是說從一個 RDD 轉(zhuǎn)換生成另一個 RDD 的轉(zhuǎn)換操作不是馬上執(zhí)行,需要等到有 Action 操作的時(shí)候才會真正觸發(fā)。 (2)Action 行動算子:這類算子會觸發(fā) SparkContext 提交 job 作業(yè),并將數(shù)據(jù)輸出到 Spark 系統(tǒng)。

Spark 必知必會:Transformation 算子

Spark 必知必會:Action算子

2.大數(shù)據(jù)分布式文件系統(tǒng)之Hadoop 必知必會

內(nèi)容包括:Hadoop Shell ,HDFS 命令有 hadoop fs 和 hdfs dfs 兩種風(fēng)格,都可使用,效果相同。

Hadoop 必知必會:Hadoop Shell

3.大數(shù)據(jù)分布式數(shù)據(jù)庫之Hive必知必會

Hive 的本質(zhì)是將 SQL 語句轉(zhuǎn)換為 MapReduce 或者 spark 等任務(wù)執(zhí)行,并可以針對數(shù)據(jù)倉庫進(jìn)行分布式交互查詢。 內(nèi)容包括:Hive 內(nèi)置函數(shù)速查表,具體有關(guān)系、數(shù)學(xué)及邏輯運(yùn)算符、數(shù)值計(jì)算、日期函數(shù)、條件函數(shù)、字符串函數(shù)、聚合函數(shù)、高級函數(shù)及窗口函數(shù)等。

Hive 必知必會:關(guān)系運(yùn)算符

Hive 必知必會:數(shù)值計(jì)算

Hive 必知必會:字符串函數(shù)

原文標(biāo)題:在百度,Spark,Hadoop,Hive ,哪個更香?

文章出處:【微信公眾號:算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    753

    瀏覽量

    44032
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8353

    瀏覽量

    132315
  • Hadoop
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    15944
  • SPARK
    +關(guān)注

    關(guān)注

    1

    文章

    105

    瀏覽量

    19859
  • hive
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    3833

原文標(biāo)題:在百度,Spark,Hadoop,Hive ,哪個更香?

文章出處:【微信號:TheAlgorithm,微信公眾號:算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    云計(jì)算在大數(shù)據(jù)分析的應(yīng)用

    云計(jì)算在大數(shù)據(jù)分析的應(yīng)用廣泛且深入,它為用戶提供了存儲、計(jì)算、分析和預(yù)測的強(qiáng)大能力。以下是對云計(jì)算在大數(shù)據(jù)分析應(yīng)用的介紹: 一、存儲和處
    的頭像 發(fā)表于 10-24 09:18 ?251次閱讀

    IP 地址大數(shù)據(jù)分析如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

    一、大數(shù)據(jù)分析在網(wǎng)絡(luò)優(yōu)化的作用 1.流量分析 大數(shù)據(jù)分析可以對網(wǎng)絡(luò)的流量進(jìn)行實(shí)時(shí)監(jiān)測和分析,
    的頭像 發(fā)表于 10-09 15:32 ?147次閱讀
    IP 地址<b class='flag-5'>大數(shù)據(jù)分析</b>如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關(guān)工具和技術(shù),如Hive、Pig、HBase等,這些工具可以方便地構(gòu)建復(fù)雜的大數(shù)據(jù)
    的頭像 發(fā)表于 10-08 15:12 ?106次閱讀
    基于Kepware的<b class='flag-5'>Hadoop</b><b class='flag-5'>大數(shù)據(jù)</b>應(yīng)用構(gòu)建-提升<b class='flag-5'>數(shù)據(jù)</b>價(jià)值利用效能

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個開源分布式計(jì)算框架,由UC Berkeley AMP Lab開發(fā),可用于
    的頭像 發(fā)表于 06-28 17:12 ?463次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    大數(shù)據(jù)分析平臺網(wǎng)站

    大數(shù)據(jù)分析平臺是一種用于處理和分析大規(guī)模數(shù)據(jù)集的系統(tǒng),旨在從海量數(shù)據(jù)中提取有價(jià)值的信息和洞察。以下是大數(shù)
    的頭像 發(fā)表于 06-28 15:46 ?550次閱讀

    RDMA技術(shù)在Apache Spark的應(yīng)用

    背景介紹 在當(dāng)今數(shù)據(jù)驅(qū)動的時(shí)代,Apache?Spark已經(jīng)成為了處理大規(guī)模數(shù)據(jù)集的首選框架。作為一個開源
    的頭像 發(fā)表于 03-25 18:13 ?1448次閱讀
    RDMA技術(shù)在Apache <b class='flag-5'>Spark</b><b class='flag-5'>中</b>的應(yīng)用

    分布式存儲與計(jì)算:大數(shù)據(jù)時(shí)代的解決方案

    分布式存儲和計(jì)算技術(shù)應(yīng)運(yùn)而生,并迅速成為處理大數(shù)據(jù)的首選方案。本文將深入探討分布式存儲和計(jì)算的概念、優(yōu)勢及其在各個領(lǐng)域的應(yīng)用情況。 1.分布式存儲和計(jì)算的概念與優(yōu)勢
    的頭像 發(fā)表于 03-07 14:42 ?674次閱讀

    Hadoop是什么?其核心由兩大部分組成,分別是什么?

    Hadoop是一個開源分布式計(jì)算框架,它可以處理大規(guī)模數(shù)據(jù)集并能夠在通常由計(jì)算機(jī)集群或者計(jì)算機(jī)網(wǎng)絡(luò)上的數(shù)千臺計(jì)算機(jī)上并行運(yùn)行。
    的頭像 發(fā)表于 02-05 10:52 ?1618次閱讀

    分布式IO工業(yè)自動化數(shù)據(jù)采集與分析的核心

    代替人工操縱機(jī)器和機(jī)器體系進(jìn)行加工生產(chǎn)的趨勢,分布式I/O可以與各種傳感器、執(zhí)行器和控制系統(tǒng)相連接,實(shí)現(xiàn)生產(chǎn)線的自動化控制。通過實(shí)時(shí)采集和傳輸數(shù)據(jù),分布式I/O能夠精確控制生產(chǎn)過程
    發(fā)表于 12-28 14:47

    分布式系統(tǒng)硬件資源池原理和接入實(shí)踐

    一個無中心對稱的分布式硬件外設(shè)管理系統(tǒng)。同時(shí),分布式硬件框架定義了外設(shè)熱插拔,虛擬硬件保活等機(jī)制,保證業(yè)務(wù)可靠性。在運(yùn)行時(shí),各個硬件外設(shè)的業(yè)務(wù)運(yùn)行于獨(dú)立進(jìn)程
    發(fā)表于 12-06 10:02

    Get職場新知識:做分析,用大數(shù)據(jù)分析工具

    為什么企業(yè)每天累積那么多的數(shù)據(jù),也做數(shù)據(jù)分析,但最后決策還是靠經(jīng)驗(yàn)?很大程度上是因?yàn)檫@些數(shù)據(jù)都被以不同的指標(biāo)和存儲方式放在各自的系統(tǒng),這就
    發(fā)表于 12-05 09:36

    zookeeper分布式原理

    Zookeeper是一個開源分布式協(xié)調(diào)服務(wù),可以用于構(gòu)建高可用、高性能的分布式系統(tǒng)。它提供了一個簡單且高效的層次命名空間,可以用來存儲配置信息、狀態(tài)信息、命名服務(wù)等。Zookeepe
    的頭像 發(fā)表于 12-03 16:33 ?600次閱讀

    分布式數(shù)據(jù)恢復(fù)-hbase+hive分布式存儲誤刪除文件的數(shù)據(jù)恢復(fù)方案

    hbase+hive分布式存儲數(shù)據(jù)恢復(fù)環(huán)境: 16臺某品牌R730XD服務(wù)器節(jié)點(diǎn),每臺物理服務(wù)器節(jié)點(diǎn)上有數(shù)臺虛擬機(jī),虛擬機(jī)上配置的分布式,上層部署hbase
    的頭像 發(fā)表于 11-24 15:55 ?398次閱讀

    springcloud分布式事務(wù)解決方案

    Spring Cloud是一套用于構(gòu)建分布式系統(tǒng)開源框架,它提供了一系列組件和工具,可以幫助開發(fā)人員快速構(gòu)建和管理基于微服務(wù)架構(gòu)的應(yīng)用程序。在分布
    的頭像 發(fā)表于 11-16 11:03 ?1976次閱讀

    spring分布式框架有哪些

    Spring分布式框架是一套基于Spring框架的解決方案,用于構(gòu)建分布式系統(tǒng)。它提供了一系列的組件和模塊,可以幫助開發(fā)人員輕松地構(gòu)建可擴(kuò)展
    的頭像 發(fā)表于 11-16 10:58 ?735次閱讀