電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>電子論文>網(wǎng)絡(luò)協(xié)議論文>一種無(wú)詞典快速抽詞算法的設(shè)計(jì)和實(shí)現(xiàn)

一種無(wú)詞典快速抽詞算法的設(shè)計(jì)和實(shí)現(xiàn)

2009-09-02 | rar | 140 | 次下載 | 3積分

資料介紹

中文抽詞在中文自然語(yǔ)言處理中是最基礎(chǔ)的工作。本文提出了一種無(wú)詞典的t-score 和二分相結(jié)合的抽詞算法。它首先對(duì)原始文本進(jìn)行預(yù)處理,利用噪音詞的輔助信息來(lái)做初始切分,經(jīng)過(guò)處理后一部分詞被抽取出來(lái),存入結(jié)果集。接著利用本文的抽詞算法來(lái)進(jìn)行二次抽詞,本算法應(yīng)用了N-Gram 的思想,經(jīng)過(guò)實(shí)驗(yàn)證明,該算法不但抽詞速度快,而且抽取出的詞相對(duì)長(zhǎng)度大,維護(hù)了中文語(yǔ)言的完整性,為進(jìn)一步進(jìn)行語(yǔ)義分析和索引構(gòu)建打下了良好的基礎(chǔ)。
關(guān)鍵字:無(wú)詞典;t-score;二分法;快速抽詞
文本信息在人類(lèi)的日常生活中起到舉足輕重的作用,它是人們傳遞和接收信息的一種最廣泛的形式。近年來(lái),隨著Internet技術(shù)與規(guī)模的不斷發(fā)展,網(wǎng)絡(luò)上的各種信息資源也隨之迅速膨脹,其中很大一部分是以文本形式表示的。中文文本信息處理如文本分類(lèi)[1]、機(jī)器翻譯、自動(dòng)文摘、信息檢索等絕大部分需要以詞為基本單位。
中文與西文最大的區(qū)別就是:西文詞與詞之間用空格分開(kāi),因而詞與詞的界限是非常明顯的;而中文詞與詞之間沒(méi)有明顯的劃分界限,并且詞的長(zhǎng)度也是不定的。這就大大增加了中文自然語(yǔ)言處理的難度,同時(shí)分詞研究是任何基于中文信息研究的第一步工作。
目前基于中文的分詞方法大致分為兩類(lèi):基于統(tǒng)計(jì)和基于規(guī)則[2]。其中大多數(shù)算法是基于一個(gè)提前構(gòu)造好的詞庫(kù)來(lái)進(jìn)行匹配,因此詞典的覆蓋率成為影響這類(lèi)算法效率的一個(gè)關(guān)鍵因素[3]。然而由于漢語(yǔ)本身的靈活性,以及各種新詞的不斷涌現(xiàn),要構(gòu)造出一個(gè)完整的覆蓋各個(gè)領(lǐng)域的通用詞庫(kù)是一件不容易的事情。
因此,本文將研究一種基于無(wú)詞典的抽詞方法,這種方法擴(kuò)展了分詞算法的應(yīng)用領(lǐng)域,同時(shí)與文獻(xiàn)[4]相比,該算法不是基于逐字掃描,所以大大提高了分詞的效率。通過(guò)實(shí)驗(yàn)證明該算法的抽詞效率、準(zhǔn)確率和可接收率更高,同時(shí)能減少分詞算法的復(fù)雜度。本文首先介紹如何對(duì)輸入文本進(jìn)行預(yù)處理,其次介紹如何利用t-score 和二分相結(jié)合算法來(lái)對(duì)預(yù)處理的字串進(jìn)行抽詞,最后給出實(shí)驗(yàn)結(jié)果,并對(duì)現(xiàn)在和未來(lái)的工作加以總結(jié)。
下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評(píng)論

查看更多

下載排行

本周

  1. 1電子電路原理第七版PDF電子教材免費(fèi)下載
  2. 0.00 MB  |  1490次下載  |  免費(fèi)
  3. 2單片機(jī)典型實(shí)例介紹
  4. 18.19 MB  |  93次下載  |  1 積分
  5. 3S7-200PLC編程實(shí)例詳細(xì)資料
  6. 1.17 MB  |  27次下載  |  1 積分
  7. 4筆記本電腦主板的元件識(shí)別和講解說(shuō)明
  8. 4.28 MB  |  18次下載  |  4 積分
  9. 5開(kāi)關(guān)電源原理及各功能電路詳解
  10. 0.38 MB  |  10次下載  |  免費(fèi)
  11. 6基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
  12. 0.11 MB  |  4次下載  |  免費(fèi)
  13. 7基于單片機(jī)和 SG3525的程控開(kāi)關(guān)電源設(shè)計(jì)
  14. 0.23 MB  |  3次下載  |  免費(fèi)
  15. 8基于單片機(jī)的紅外風(fēng)扇遙控
  16. 0.23 MB  |  3次下載  |  免費(fèi)

本月

  1. 1OrCAD10.5下載OrCAD10.5中文版軟件
  2. 0.00 MB  |  234313次下載  |  免費(fèi)
  3. 2PADS 9.0 2009最新版 -下載
  4. 0.00 MB  |  66304次下載  |  免費(fèi)
  5. 3protel99下載protel99軟件下載(中文版)
  6. 0.00 MB  |  51209次下載  |  免費(fèi)
  7. 4LabView 8.0 專(zhuān)業(yè)版下載 (3CD完整版)
  8. 0.00 MB  |  51043次下載  |  免費(fèi)
  9. 5555集成電路應(yīng)用800例(新編版)
  10. 0.00 MB  |  33562次下載  |  免費(fèi)
  11. 6接口電路圖大全
  12. 未知  |  30320次下載  |  免費(fèi)
  13. 7Multisim 10下載Multisim 10 中文版
  14. 0.00 MB  |  28588次下載  |  免費(fèi)
  15. 8開(kāi)關(guān)電源設(shè)計(jì)實(shí)例指南
  16. 未知  |  21539次下載  |  免費(fèi)

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935053次下載  |  免費(fèi)
  3. 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
  4. 78.1 MB  |  537791次下載  |  免費(fèi)
  5. 3MATLAB 7.1 下載 (含軟件介紹)
  6. 未知  |  420026次下載  |  免費(fèi)
  7. 4OrCAD10.5下載OrCAD10.5中文版軟件
  8. 0.00 MB  |  234313次下載  |  免費(fèi)
  9. 5Altium DXP2002下載入口
  10. 未知  |  233046次下載  |  免費(fèi)
  11. 6電路仿真軟件multisim 10.0免費(fèi)下載
  12. 340992  |  191183次下載  |  免費(fèi)
  13. 7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
  14. 158M  |  183277次下載  |  免費(fèi)
  15. 8proe5.0野火版下載(中文版免費(fèi)下載)
  16. 未知  |  138039次下載  |  免費(fèi)