TF-IDF算法的改進(jìn)及在語(yǔ)義檢索中應(yīng)用
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)傳統(tǒng)的TF-IDF算法、K-means算法、自適應(yīng)遺傳算法在網(wǎng)絡(luò)檢索結(jié)果中含有大量不相關(guān)數(shù)據(jù)、語(yǔ)義檢索準(zhǔn)確性不高的問(wèn)題,研究了TF-IDF算法的改進(jìn)及其在語(yǔ)義檢索中的應(yīng)用。將正則表達(dá)式和語(yǔ)義分析技術(shù)相結(jié)合,從而實(shí)現(xiàn)對(duì)TF-IDF算法的改進(jìn)。利用語(yǔ)義庫(kù)對(duì)搜索主題進(jìn)行描述,根據(jù)正則原予語(yǔ)義的重要性和在網(wǎng)頁(yè)標(biāo)簽中的不同位置進(jìn)行加權(quán)計(jì)算,得到正則原子在文檔中的相似度。通過(guò)空間向量模型對(duì)文檔相似度和主題模型進(jìn)行余弦運(yùn)算,從而獲取最終的搜索結(jié)果。最后,將改進(jìn)的TF-IDF算法、傳統(tǒng)的TF-IDF算法、K-means算法和自適應(yīng)遺傳算法運(yùn)用于聚焦主題網(wǎng)絡(luò)爬蟲中,對(duì)其檢索結(jié)果進(jìn)行了對(duì)比分析。計(jì)算結(jié)果表明,在聚焦主題網(wǎng)絡(luò)爬蟲語(yǔ)義分析的垂直搜索中,改進(jìn)TF-IDF算法的相似度準(zhǔn)確率比傳統(tǒng)的TF-IDF算法檢索準(zhǔn)確率提高了17.1個(gè)百分點(diǎn),遺漏率降低了7.76個(gè)百分點(diǎn);比K-means算法檢索準(zhǔn)確率提高6個(gè)百分點(diǎn);比自適應(yīng)遺傳算法檢索準(zhǔn)確率提高了8.1個(gè)百分點(diǎn)??傊?,改進(jìn)的TF-IDF算法可以有效地提高文檔相似度檢測(cè)的準(zhǔn)確率,很好地改善聚焦主題網(wǎng)絡(luò)爬蟲在語(yǔ)義分析中的缺陷。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%