基于詞頻信息的改進(jìn)的IG文本特征選擇算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
向量空間的高維性和文檔表示向量的稀疏性不但增加了分類的時(shí)間復(fù)雜度和空間復(fù)雜度,而且還大大影響到分類的精度,因此,特征選擇顯得特別重要。目前,文本分類研究中常用的特征選擇算法主要有:文檔頻度、互信息、信息增益、開方擬合檢驗(yàn)、期望交叉熵、特征權(quán)和文本證據(jù)權(quán)等。Ng等比較了文檔頻率( Document Frequency,DF)、信息增益(Information Cain,IG)、互信息(Mutual Information,MI)、開方擬合檢驗(yàn)(X2 -test,CHI)和特征權(quán)(Term Strength,TS)五種特征選擇算法,得出IC、DF和CHI比MI和TS效果好的結(jié)論。Yang等研究得出IC是最有效的特征選擇算法之一的結(jié)論。目前IC已成為文本分類研究中常用的特征選擇算法。因此,尋找該方法中的不足,并針對(duì)不足作出有效的改進(jìn),提高特征提取的效率具有非常重要的現(xiàn)實(shí)意義。
近年來(lái),一些學(xué)者針對(duì)IG算法的不足作了一些改進(jìn)工作。李文斌等提出了三種基于特征信息增益權(quán)重的分類算法,通過(guò)添加權(quán)重系數(shù)來(lái)平衡“正貢獻(xiàn)”和“負(fù)貢獻(xiàn)”的特征項(xiàng)對(duì)分類的影響,但是由于權(quán)重系數(shù)的設(shè)置是根據(jù)人為的經(jīng)驗(yàn)設(shè)定.所以存在很大的偶然性,且不適用于各種情形。黃秀麗等針對(duì)傳統(tǒng)IC算法過(guò)分看重高頻特征項(xiàng)的缺點(diǎn),提出一種強(qiáng)調(diào)中低頻特征項(xiàng)的改進(jìn)的算法SIC,此算法在一定程度上提高了特征選擇的效率,但算法中沒(méi)有考慮到特征項(xiàng)在不同類別的分布差異對(duì)分類能力的影響。郭頌等在以上改進(jìn)算法的基礎(chǔ)上,通過(guò)引入特征分布差異因子、類內(nèi)和類間加權(quán)因子,提出一種加權(quán)的IC改進(jìn)算法,該方法比較全面地考慮到了詞頻對(duì)特征提取的作用,但此算法沒(méi)有考慮到特征項(xiàng)在類內(nèi)位置上分布對(duì)算法的影響。本文針對(duì)上述改進(jìn)算法的不足之處,充分考慮特征項(xiàng)頻數(shù)對(duì)分類能力的作用,提出一種基于詞頻的改進(jìn)的IC特征選擇算法。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
基于詞頻信息的改進(jìn)的IG文本特征選擇算法下載
相關(guān)電子資料下載
- 浪潮信息攜全棧智算產(chǎn)品和方案亮相WAIC 2024 636
- 慧眼識(shí)安全之石油化工智能視頻監(jiān)控信息化解決方案 92
- 大華股份網(wǎng)絡(luò)攝像機(jī)獲得信息技術(shù)安全評(píng)估通用標(biāo)準(zhǔn)EAL 3+證書 388
- 邁存信息攜前沿方案閃耀2024世界人工智能大會(huì) 232
- 信息安全驅(qū)動(dòng)汽車行業(yè)快速向數(shù)字化轉(zhuǎn)型 271
- 浪潮信息亮相2024世界人工智能大會(huì) 195
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的主要區(qū)別 94
- 為什么技術(shù)合作伙伴必須獲得 ISO 27001 認(rèn)證 30
- 校源行Meetup系列活動(dòng)|全國(guó)高職高校OpenHarmony技術(shù)啟航計(jì)劃在長(zhǎng)沙順利開啟 102
- AI搜索挑戰(zhàn)百度谷歌,重塑信息檢索的市場(chǎng)? 35