基于詞句協(xié)同排序的單文檔自動摘要算法
隨著Web2.0的迅猛發(fā)展,各種用戶原創(chuàng)內(nèi)容爆炸式增長,造成了互聯(lián)網(wǎng)上嚴重的信息過載,使得有價值信息的獲取愈發(fā)困難。自動摘要技術(shù)能夠從海量文本中抽取出最為重要的語句,形成高度概括原文主旨的精煉短文,能夠有效地緩解信息過載。
總體而言,自動摘要分為基于抽象的自動摘要和基于抽取的自動摘要。基于抽象的自動摘要受制于自然語言處理的瓶頸,實現(xiàn)相對困難。目前主要的研究和應(yīng)用集中在基于抽取的自動摘要,又稱節(jié)錄式摘要,計算文檔中句子的權(quán)重并進行排序,從中抽取高權(quán)重語句生成摘要。現(xiàn)有工作中對句子權(quán)重的計算主要分為兩種思路:通過詞的權(quán)重推測句子的權(quán)重或通過句子特征計算權(quán)重。事實上,文檔中的詞與句是不可分割的整體,充分考慮詞句之間的協(xié)同關(guān)系有助于進一步提高自動摘要的質(zhì)量。本文面向單文檔自動摘要,將文檔建模為以句子為頂點、句子間的關(guān)聯(lián)為邊的句網(wǎng)絡(luò)圖,以圖排序算法為基礎(chǔ),重新設(shè)計迭代過程,在計算句子權(quán)重時融入詞對句子權(quán)重評分的影響,提出一種詞句協(xié)同排序( Word-Sentence-Rank,WSRank)的自動摘要算法。實驗表明,詞的融入有助于進一步提高句子權(quán)重計算的準確性,提升摘要的質(zhì)量。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%