您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

基于MapReduce的聚類算法在大數(shù)據(jù)運行速度

大?。?/span>1.30 MB 人氣: 2017-11-10 需要積分:0

  隨著信息技術(shù)的進步以及信息化社會的發(fā)展,出現(xiàn)各式各樣的海量數(shù)據(jù),大量的數(shù)據(jù)累積在數(shù)據(jù)庫和數(shù)據(jù)倉庫中,理解它們已遠遠超出了人的能力。如何將這些堆積的“數(shù)據(jù)”轉(zhuǎn)變成人們理解的“知識”,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生o”。從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的、看似雜亂的實際數(shù)據(jù)中,提取隱含在其中的、人們不知道的,但又是潛在有用的信息和知識的過程。聚類分析是一項非常實用的數(shù)據(jù)挖掘技術(shù)。但面對龐大的數(shù)據(jù)集規(guī)模,計算的效率受限于單機處理能力。如何提高海量數(shù)據(jù)下的聚類分析能力是迫切需要解決的問題。Google實驗室提出的分布式并行編程模型或框架MapReducer3],它通過集群來處理海量數(shù)據(jù),是云計算平臺主流的并行數(shù)據(jù)處理模型。

  Apache推出的Hadoop平臺用Java實現(xiàn)了MapReduce模型。Mahout是Hadoop平臺的組件之一,是一個機器學(xué)習(xí)和數(shù)據(jù)挖掘庫,它利用MapReduce編程模型實現(xiàn)了數(shù)據(jù)挖掘中的眾多算法,且具有良好的可擴展性。本文在此基礎(chǔ)上,并基于Mahout進行了聚類實例研究。
?

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?