亚洲视频高清无码,亚洲精品第一国产综合境外资源

最近在梳理中文文本糾錯任務，文本根據(jù)搜集到的文章整理成的任務簡介，在此先感謝大佬們分享的高質(zhì)量資料。

任務簡介

中文文本糾錯是針對中文文本拼寫錯誤進行檢測與糾正的一項工作，中文的文本糾錯，應用場景很多，諸如輸入法糾錯、輸入預測、ASR 后糾錯等等，例如：

寫作輔助：在內(nèi)容寫作平臺上內(nèi)嵌糾錯模塊，可在作者寫作時自動檢查并提示錯別字情況。從而降低因疏忽導致的錯誤表述，有效提升作者的文章寫作質(zhì)量，同時給用戶更好的閱讀體驗。
公文糾錯：針對公文寫作場景，提供字詞、標點、專名、數(shù)值內(nèi)容糾錯，包含領(lǐng)導人姓名、領(lǐng)導人職位、數(shù)值一致性等內(nèi)容的檢查與糾錯，輔助進行公文審閱校對。
搜索糾錯：用戶在搜索時經(jīng)常輸入錯誤，通過分析搜索query的形式和特征，可自動糾正搜索query并提示用戶，進而給出更符合用戶需求的搜索結(jié)果，有效屏蔽錯別字對用戶真實需求的影響。
語音識別對話糾錯將文本糾錯嵌入對話系統(tǒng)中，可自動修正語音識別轉(zhuǎn)文本過程中的錯別字，向?qū)υ捓斫庀到y(tǒng)傳遞糾錯后的正確query，能明顯提高語音識別準確率，使產(chǎn)品整體體驗更佳

圖片來源---百度大腦AI開放平臺-文本糾錯：https://ai.baidu.com/tech/nlp_apply/text_corrector

中文拼寫常見錯誤類型

錯誤類型	示例
同音字相似錯誤	強烈推薦-墻裂推薦、配副眼睛-配副眼鏡
近音字相似錯誤	牛郎織女-流浪織女
字形相似錯誤	頑強拼搏-頑強拼博
詞序混亂	兩戶人家-兩家人戶
缺字少字	浩瀚星海-浩瀚星
中文全拼拼寫	天下-tianxia
中文首字母縮寫	北京-bj
中文簡拼	明星大偵探-明偵
語法錯誤	無法言說-言說無法

我們把中文常見錯誤總結(jié)分為三類：1、用詞錯誤，由于輸入法等原因?qū)е碌倪x詞錯誤，其主要表現(xiàn)為音近，形近等；2、文法/句法錯誤，該類錯誤主要是由于對語言不熟悉導致的如多字、少字、亂序等錯誤，其錯誤片段相對較大；3、知識類錯誤，該類錯誤可能由于對某些知識不熟悉導致的錯誤，要解決該類問題，通常得引入外部知識、常識等。

當然，針對確定場景，這些問題并不一定全部存在，比如輸入法中需要處理1234，搜索引擎需要處理1234567，ASR 后文本糾錯只需要處理12，其中5主要針對五筆或者筆畫手寫輸入等。

主流技術(shù)

中文本糾錯的 paper 很多，整體來看，可以統(tǒng)一在一個框架下，即三大步：

錯誤識別

該階段主要目的在于，判斷文本是否存在錯誤需要糾正，如果存在則傳遞到后面兩層。這一階段可以提高整體流程的效率。

錯誤識別/檢測的目標是識別輸入句子可能存在的問題，采用序列表示(Transformer/LSTM)+CRF的序列預測模型，這個模型的創(chuàng)新點主要包括：1、詞法/句法分析等語言先驗知識的充分應用；2、特征設(shè)計方面，除了DNN相關(guān)這種泛化能力比較強的特征，還結(jié)合了大量hard統(tǒng)計特征，既充分利用DNN模型的泛化能力，又對低頻與OOV(Out of Vocabulary)有一定的區(qū)分；3、最后，根據(jù)字粒度和詞粒度各自的特點，在模型中對其進行融合，解決詞對齊的問題

候選召回

候選召回指的是，識別出具體的錯誤點之后，需要進行錯誤糾正，為了達到更好的效果以及性能，需要結(jié)合歷史錯誤行為，以及音形等特征召回糾錯候選。主要可分為兩部分工作：離線的候選挖掘，在線的候選預排序。離線候選挖掘利用大規(guī)模多來源的錯誤對齊語料，通過對其模型，得到不同粒度的錯誤混淆矩陣。在線候選預排序主要是針對當前的錯誤點，對離線召回的大量糾錯候選，結(jié)合語言模型以及錯誤混淆矩陣的特征，控制進入糾錯排序階段的候選集數(shù)量與質(zhì)量。

該階段主要目的在于，利用一種或多種策略（規(guī)則或模型），生成針對原句的糾正候選。這一階段是整體流程召回率的保證，同時也是一個模型的上限。

糾錯排序

該階段主要目的在于，在上一階段基礎(chǔ)上，利用某種評分函數(shù)或分類器，結(jié)合局部乃至全局的特征，針對糾正候選進行排序，最終排序最高（如沒有錯誤識別階段，則仍需比原句評分更高或評分比值高過閾值，否則認為不需糾錯）的糾正候選作為最終糾錯結(jié)果。

中文文本糾錯評測

數(shù)據(jù)集

SIGHANBake-off2013:[http://ir.itc.ntnu.edu.tw/lre/sighan7csc.html](http://ir.itc.ntnu.edu.tw/lre/sighan7csc.html)

SIGHANBake-off2014:[http://ir.itc.ntnu.edu.tw/lre/clp14csc.html](http://ir.itc.ntnu.edu.tw/lre/clp14csc.html)

SIGHANBake-off2015:[http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html](http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html)

中文輸入糾錯的評測數(shù)據(jù)主要包括SIGHAN Bake-off 2013/2014/2015這三個數(shù)據(jù)集，均是針對繁體字進行的糾錯。其中，只有SIGHAN Bake-off 2013是針對母語使用者的，而另外兩個是針對非母語使用者。

評價指標

這里主要羅列一下常用的評測指標。在錯誤識別子任務中，常用的評測指標有：

FAR（錯誤識別率）：沒有筆誤卻被識別為有筆誤的句子數(shù)/沒有筆誤的句子總數(shù)
DA（識別精準率）：正確識別是否有筆誤的句子數(shù)（不管有沒有筆誤）/句子總數(shù)
DP（識別準確率）：識別有筆誤的句子中正確的個數(shù)/識別有筆誤的句子總數(shù)
DR（識別找回率）：識別有筆誤的句子中正確的個數(shù)/有筆誤的句子總數(shù)
DF1（識別F1值）：2 * DP * DR/ (DP + DR)
ELA（錯誤位置精準率）：位置識別正確的句子（不管有沒有筆誤）/句子總數(shù)
ELP（錯誤位置準確率）：正確識別出筆誤所在位置的句子/識別有筆誤的句子總數(shù)
ELR（錯誤位置召回率）：正確識別出筆誤所在位置的句子/有筆誤的句子總數(shù)
ELF1（錯誤位置準確率）：2ELPELR / (ELP+ELR)在錯誤糾正任務中，常用的評測指標為：
LA位置精確率：識別出筆誤位置的句子／總的句子
CA修改精確率：修改正確的句子／句子總數(shù)
CP修改準確率：修改正確的句子／修改過的句子

雖然文本糾錯具體會分為錯誤識別和錯誤修正兩部分，并分別構(gòu)造評價指標。但考慮到端到端任務，我們評價完整的糾錯過程：

應該糾錯的，即有錯文本記為 P，不該糾錯的，即無錯文本記為 N
對于該糾錯的，糾錯對了，記為 TP，糾錯了或未糾，記為 FP
對于不該糾錯的，未糾錯，記為 TN，糾錯了，記為 FN。通常場景下，差準比查全更重要，F(xiàn)N 更難接受，本來對了改成錯的這個更離譜，可構(gòu)造下述評價指標：,其中

相關(guān)方法

pycorrector

https://github.com/shibing624/pycorrector

中文文本糾錯工具。支持中文音似、形似、語法錯誤糾正，python3開發(fā)。pycorrector實現(xiàn)了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多種模型的文本糾錯，并在SigHAN數(shù)據(jù)集評估各模型的效果。

correction

https://github.com/ccheng16/correction

大致思路：

使用語言模型計算句子或序列的合理性
bigram, trigram, 4-gram 結(jié)合，并對每個字的分數(shù)求平均以平滑每個字的得分
根據(jù)Median Absolute Deviation算出outlier分數(shù)，并結(jié)合jieba分詞結(jié)果確定需要修改的范圍
根據(jù)形近字、音近字構(gòu)成的混淆集合列出候選字，并對需要修改的范圍逐字改正
句子中的錯誤會使分詞結(jié)果更加細碎，結(jié)合替換字之后的分詞結(jié)果確定需要改正的字
探測句末語氣詞，如有錯誤直接改正

Cn_Speck_Checker

https://github.com/PengheLiu/Cn_Speck_Checker

使用了貝葉斯定理
初始化所有潛在中文詞的先驗概率，將文本集（50篇醫(yī)學文章）分詞后，統(tǒng)計各個中文詞的出現(xiàn)頻率即為其先驗概率
當給定一待糾錯單詞時，需要找出可能的正確單詞列表，這里根據(jù)字符距離來找出可能的正確單詞列表
對構(gòu)造出來的單詞做了一次驗證后再將其加入候選集合中，即判斷了下該詞是否為有效單詞，根據(jù)其是否在單詞模型中

程序原理：

chinese_correct_wsd

https://github.com/taozhijiang/chinese_correct_wsd

用于用戶輸入語句的同音自動糾錯
使用到了同義詞詞林

方法：

Autochecker4Chinese

https://github.com/beyondacm/Autochecker4Chinese

構(gòu)造一個詞典來檢測中文短語的拼寫錯誤，key是中文短語，值是在語料庫中的頻率
對于該字典中未出現(xiàn)的任何短語，檢測器會將其檢測為拼寫錯誤的短語
使用編輯距離為錯誤拼寫的短語制作正確的候選列表
對于給定的句子，使用jieba做分割
在分段完成后獲取分段列表，檢查其中是否存在保留短語，如果不存在，那么它是拼寫錯誤的短語

方法：

參考資料

中文糾錯（Chinese Spelling Correct）最新技術(shù)方案總結(jié)
中文文本糾錯算法--錯別字糾正的二三事
中文文本糾錯算法走到多遠了？
中文輸入糾錯任務整理
nlp 中文文本糾錯_百度中文糾錯技術(shù)
中文拼寫檢測（Chinese Spelling Checking）相關(guān)方法、評測任務、榜單
中文(語音結(jié)果)的文本糾錯綜述 Chinese Spelling Check
https://github.com/shibing624/pycorrector

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴