基于R-Grams文本相似度計(jì)算方法的文本聚類方法
大小:0.76 MB 人氣: 2017-12-29 需要積分:1
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
標(biāo)簽:聚類(14184)
針對(duì)傳統(tǒng)文本聚類中存在著聚類準(zhǔn)確率和召回率難以平衡等問(wèn)題,提出了一種基于R-Grams文本相似度計(jì)算方法的文本聚類方法。該方法首先通過(guò)將待聚類文檔降序排列,其次采用R-C rams文本相似度算法計(jì)算文本之間的相似度并根據(jù)相似度實(shí)現(xiàn)各聚類標(biāo)志文檔的確定并完成初始聚類,最后通過(guò)對(duì)初始聚類結(jié)果進(jìn)行聚類合并完成最終聚類。實(shí)驗(yàn)結(jié)果表明:聚類結(jié)果可以通過(guò)聚類閾值靈活調(diào)整以適應(yīng)不同的需求,最佳聚類閾值為15左右。隨著聚類閾值的增大,各聚類準(zhǔn)確率增大,召回率呈現(xiàn)先增后降的趨勢(shì)。此外,該聚類方法避免了大量的分詞、特征提取等繁瑣處理,實(shí)現(xiàn)簡(jiǎn)單。
?
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于R-Grams文本相似度計(jì)算方法的文本聚類方法下載
相關(guān)電子資料下載
- 對(duì)新輔助TCHP治療響應(yīng)的HER2+乳腺癌空間蛋白質(zhì)組特征 547
- 使用輪廓分?jǐn)?shù)提升時(shí)間序列聚類的表現(xiàn) 316
- 基于K-means聚類算法的圖像分割 1113
- 介紹一種基于最小化平方誤差的聚類算法 498
- 介紹一種基于分層聚類方法的木馬通信行為檢測(cè)模型 1060
- 深度學(xué)習(xí)聚類的綜述 780
- 聚類分析中的機(jī)器學(xué)習(xí)與統(tǒng)計(jì)方法綜述(二) 679
- 如何在 Python 中安裝和使用頂級(jí)聚類算法 415
- 聚類分析中的機(jī)器學(xué)習(xí)與統(tǒng)計(jì)方法綜述(一) 638
- 機(jī)器學(xué)習(xí)之分類分析與聚類分析 3550