Hadoop的優(yōu)點(diǎn)
(1)Hadoop具有按位存儲(chǔ)和處理數(shù)據(jù)能力的高可靠性。
(2)Hadoop通過(guò)可用的計(jì)算機(jī)集群分配數(shù)據(jù),完成存儲(chǔ)和計(jì)算任務(wù),這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中,具有高擴(kuò)展性。
(3)Hadoop能夠在節(jié)點(diǎn)之間進(jìn)行動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,處理速度非???,具有高效性。
(4)Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配,具有高容錯(cuò)性。
Hadoop的缺點(diǎn)
(1)Hadoop不適用于低延遲數(shù)據(jù)訪(fǎng)問(wèn)。
(2)Hadoop不能高效存儲(chǔ)大量小文件。
(3)Hadoop不支持多用戶(hù)寫(xiě)入并任意修改文件。
Hadoop的核心組件
Hadoop自誕生以來(lái),主要出現(xiàn)了Hadoop1、Hadoop2、Hadoop3三個(gè)系列多個(gè)版本。
HDFS和MapReduce是Hadoop1的核心組件,Hadoop生態(tài)圈里的很多組件都是基于HDFS和MapReduce發(fā)展出來(lái)的。在繼Hadoop1之后出現(xiàn)了Hadoop2,Hadoop2在Hadoop1的基礎(chǔ)上做了改進(jìn)。
相比Hadoop1,Hadoop2的三大核心組件分別是HDFS、MapReduce、Yarn。目前市面上絕大部分企業(yè)使用的是Hadoop2,本書(shū)使用的是Hadoop2.7.3這一版本。
Hadoop2的一個(gè)公共模塊和三大核心組件組成了四個(gè)模塊,簡(jiǎn)介如下。
(1)HadoopCommon:為其他Hadoop模塊提供基礎(chǔ)設(shè)施。
(2)HDFS:具有高可靠性、高吞吐量的分布式文件系統(tǒng)。
(3)MapReduce:基于Yarn系統(tǒng),分布式離線(xiàn)并行計(jì)算框架。
(4)Yarn:負(fù)責(zé)作業(yè)調(diào)度與集群資源管理的框架。
-
數(shù)據(jù)處理
+關(guān)注
關(guān)注
0文章
572瀏覽量
28509 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8854瀏覽量
137210
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論