基于Hadoop平臺(tái)的LDA算法的并行化實(shí)現(xiàn)
推薦 + 挑錯(cuò) + 收藏(0) + 用戶(hù)評(píng)論(0)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,需要處理的數(shù)據(jù)量不斷增加,在互聯(lián)網(wǎng)數(shù)據(jù)挖掘領(lǐng)域中傳統(tǒng)的單機(jī)文本聚類(lèi)算法無(wú)法滿(mǎn)足海量數(shù)據(jù)處理的要求,針對(duì)在單機(jī)情況下,傳統(tǒng)LDA算法無(wú)法分析處理大規(guī)模語(yǔ)料集的問(wèn)題,提出基于MapReduce計(jì)算框架,采用Gibbs抽樣方法的并行化LDA主題模型的建立方法。利用分布式計(jì)算框架MapReduce研究了LDA主題模型的并行化實(shí)現(xiàn),并且考察了該并行計(jì)算程序的計(jì)算性能。通過(guò)對(duì)Hadoop并行計(jì)算與單機(jī)計(jì)算進(jìn)行實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)該方法在處理大規(guī)模語(yǔ)料時(shí),能夠較大地提升算法的運(yùn)行速度,并且隨著集群節(jié)點(diǎn)數(shù)的增加,在加速比方面也有較好的表現(xiàn)?;贖adoop平臺(tái)并行化地實(shí)現(xiàn)LDA算法具有可行性,解決了單機(jī)無(wú)法分析大規(guī)模語(yǔ)料集中潛藏主題信息的問(wèn)題。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于Hadoop平臺(tái)的LDA算法的并行化實(shí)現(xiàn)下載
相關(guān)電子資料下載
- QCC5181QCC3086QCC3084QCC3083 USB Audio 96K/24bit LDAC 738
- QCC5181藍(lán)牙音頻發(fā)射LDAC APTX 549
- 華為5G移動(dòng)核心網(wǎng)在GlobalData連續(xù)六年摘得桂冠 305
- 華為5G移動(dòng)核心網(wǎng)在GlobalData連續(xù)六年排名第一 363
- QCC5181QCC3083QCC3084支持LDAC APTX LOSSLESS 3429
- Hadoop是什么?其核心由兩大部分組成,分別是什么? 1188
- 帶分區(qū)的大規(guī)模LDAP介紹 312
- SLDA副會(huì)長(zhǎng)單位旭宇光電獲“國(guó)家知識(shí)產(chǎn)權(quán)示范企業(yè)” 786
- java 8的日期用法 285
- Java時(shí)間類(lèi)轉(zhuǎn)換方案 326