您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

基于Hadoop平臺(tái)的分布式重復(fù)數(shù)據(jù)刪除解決方案

大?。?/span>0.96 MB 人氣: 2017-12-22 需要積分:1

  針對(duì)數(shù)據(jù)中心存在大量數(shù)據(jù)冗余的問題,特別是備份數(shù)據(jù)造成的存儲(chǔ)容量浪費(fèi),提出一種基于Hadoop平臺(tái)的分布式重復(fù)數(shù)據(jù)刪除解決方案。該方案通過檢測(cè)并消除特定數(shù)據(jù)集內(nèi)的冗余數(shù)據(jù),來顯著降低數(shù)據(jù)存儲(chǔ)容量,優(yōu)化存儲(chǔ)空間利用率。利用Hadoop大數(shù)據(jù)處理平臺(tái)下的分布式文件系統(tǒng)(HDFS)和非關(guān)系型數(shù)據(jù)庫(kù)HBase兩種數(shù)據(jù)管理模式,設(shè)計(jì)并實(shí)現(xiàn)一種可擴(kuò)展分布式重刪存儲(chǔ)系統(tǒng)。其中,MapReduce并行編程框架實(shí)現(xiàn)分布式并行重刪處理,HDFS負(fù)責(zé)重刪后的數(shù)據(jù)存儲(chǔ),在HBase數(shù)據(jù)庫(kù)中構(gòu)建索引表,實(shí)現(xiàn)高效數(shù)據(jù)塊索引查詢。最后,利用虛擬機(jī)鏡像文件數(shù)據(jù)集對(duì)系統(tǒng)進(jìn)行了測(cè)試,基于Hadoop平臺(tái)的分布式重刪系統(tǒng)能在保證高重刪率的同時(shí),具有高吞吐率和良好的可擴(kuò)展性。

基于Hadoop平臺(tái)的分布式重復(fù)數(shù)據(jù)刪除解決方案

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?