1、總述
近年來醫(yī)療數(shù)據(jù)挖掘發(fā)展迅速,然而目前醫(yī)療數(shù)據(jù)結(jié)構(gòu)化處于起步階段,更多的醫(yī)療數(shù)據(jù)仍然以自然語言文本形式出現(xiàn)。自然人的學(xué)習(xí)能力有限,因此學(xué)者們嘗試通過自然語言處理(Natural Language Processing,NLP)輔助完成匯總醫(yī)學(xué)領(lǐng)域知識的過程,將知識提煉出來,提取其中有用的診療信息,最終形成知識本體或者知識網(wǎng)絡(luò),從而為后續(xù)的各種文本挖掘任務(wù)提供標(biāo)準(zhǔn)和便利。
2、具體應(yīng)用
2.1 文本挖掘
1)研究背景:生物醫(yī)學(xué)文本挖掘可以幫助人們從爆炸式增長的生物醫(yī)學(xué)自然語言文本數(shù)據(jù)中抽取出特定的事實(shí)信息( 主要是生物實(shí)體如基因、蛋白質(zhì)、藥物、疾病之間的關(guān)系) ,對整個生物知識網(wǎng)絡(luò)的建立、生物體關(guān)系的預(yù)測、新藥的研制等均具有重要的意義。
2)典型應(yīng)用及應(yīng)用方法
2.1.1命名實(shí)體識別
1)研究背景
生物命名實(shí)體識別,就是從生物醫(yī)學(xué)文本中識別出指定類型的名稱,比如基因、蛋白質(zhì)、核糖核酸、脫氧核糖核酸、疾病、細(xì)胞、藥物的名稱等。由于生物醫(yī)學(xué)文獻(xiàn)的規(guī)模龐大,各種專有名詞不斷涌現(xiàn),一個專有名詞往往有很多同義詞,而且普遍存在大量的縮寫詞,人工識別費(fèi)時費(fèi)力,因此如何對命名實(shí)體進(jìn)行識別就變得尤為重要。命名實(shí)體識別是文本挖掘系統(tǒng)中的一個重要的基礎(chǔ)步驟,命名實(shí)體識別的準(zhǔn)確程度是其他文本挖掘技術(shù)如信息提取或文本分類等的先決條件。
2)典型應(yīng)用及應(yīng)用方法
目前,使用比較多的生物命名實(shí)體識別的研究方法主要有以下幾種:基于啟發(fā)式規(guī)則的方法、詞典匹配的方法以及機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)(SVM)、最大熵、條件隨機(jī)場 (CRF)以及隱馬爾科夫(HMM) 等。
(1)基于啟發(fā)式規(guī)則的方法
Fukuda等人 最早利用基于規(guī)則的系統(tǒng)判定文檔中的蛋白質(zhì)名稱;Tsuruoka等人 采用啟發(fā)式規(guī)則以最小化相關(guān)術(shù)語的歧義性和變化性,實(shí)現(xiàn)了術(shù)語名稱的標(biāo)準(zhǔn)化進(jìn)而提高了查找字典的效率。
優(yōu)點(diǎn):利用啟發(fā)式信息產(chǎn)生識別命名實(shí)體的規(guī)則可以靈活地定義和擴(kuò)展
缺點(diǎn):規(guī)則對領(lǐng)域知識的依賴性很強(qiáng),修改它們需要 該領(lǐng)域?qū)<覅⑴c并花費(fèi)大量時間。 另外,由于命名實(shí)體類型多樣,且新類型的命名實(shí)體還在不斷涌現(xiàn),這使得人們很難建立一套一致的規(guī)則。
目前,基于規(guī)則的方法一般被整合到基于機(jī)器學(xué)習(xí)的方法的后期處理過程中 。
(2)基于字典的方法
最早采用的方法是基于字典的方法,1998年,Proux等人[9]第一次應(yīng)用英語詞典來識別基因和蛋白質(zhì)。
優(yōu)點(diǎn):簡單且實(shí)用。
缺點(diǎn):新的命名實(shí)體不斷出現(xiàn),并且很多命名實(shí)體的長度較長甚至存在變體,難以建立一個完整的的生物醫(yī)學(xué)命名實(shí)體字典。
因此,基于字典的方法通常以字典特征的形式被整合到基于機(jī)器學(xué)習(xí)的方法中[10]。
(3)基于機(jī)器學(xué)習(xí)的方法
基于機(jī)器學(xué)習(xí)的方法是目前主流的方法,它們利用統(tǒng)計(jì)方法從大量數(shù)據(jù)中估算相關(guān)參數(shù)和特征進(jìn)而建立識別模型。
優(yōu)點(diǎn):客觀、移植性好。
缺點(diǎn):需要大量的訓(xùn)練數(shù)據(jù)且訓(xùn)練過程相當(dāng)耗時。
命名實(shí)體識別可以看做是詞的分類問題,因此可以采用基于分類的方法如貝葉斯模型和支持向量機(jī)[4]等;同時,它也可以看做是序列分析問題(每個詞語作為序列中的一個詞被打上標(biāo)簽),因此可采用條件隨機(jī)域[6]、隱馬爾可夫模型 等基于馬爾可夫的模型?;跈C(jī)器學(xué)習(xí)的方法包括特征選擇、分類方法和后期處理等幾個步驟。
2.1.2 關(guān)系抽取
1)研究背景
關(guān)系抽?。?Relationship extraction,RE) 的目標(biāo)是檢測一對特定類型的實(shí)體之間有無預(yù)先假設(shè)的關(guān)系[39]。生物醫(yī)學(xué)文本挖掘抽取的就是基因、蛋白質(zhì)、藥物、疾病、治療之間的關(guān)系。
2)典型應(yīng)用及應(yīng)用方法
主要有基于模版的方式( 手動、自動) 、基于統(tǒng)計(jì)的方式和基于自然語言處理的方式?;谧匀徽Z言的方法就是把自然語言分解為可從中提取出關(guān)系的結(jié)構(gòu) 。Friedman 等人通過提出了GENIES系統(tǒng),它從生物學(xué)文獻(xiàn)中提取和構(gòu)建關(guān)于細(xì)胞途徑的信息。
2.1.3 文本分類
1)研究背景
文本分類( Text classification) 就是將文本自動歸 入預(yù)先定義好的主題類別中,是有監(jiān)督的機(jī)器學(xué)習(xí) 方法,主 要應(yīng)用于自動索引、文本過濾、詞義消歧 ( WSD) 和 Web 文檔分類等。
2)典型應(yīng)用及應(yīng)用方法
目前,文本分類的方法有很多,典型且效果較好 的有樸素貝葉斯分類法( Na Bayes) 、K 最近鄰( K - NN) 、支持向量機(jī)( SVM) 、決策樹等,還有基于關(guān)聯(lián)的分類( CBA) 及基于關(guān)聯(lián)規(guī)則的分類( ARC) 。Eskin E[13]使用 SVM 算法和基因序列 kernel 預(yù)測蛋白質(zhì)在細(xì)胞質(zhì)中的位置,達(dá)到了 87 % 的查準(zhǔn)率和 71% 的 查全率。
2.1.4 文本聚類
1)研究背景
文本聚類( Text clustering) 是根據(jù)文本數(shù)據(jù)的特征將一組對象集合按照相似性歸納為不同類的過 程,與文本分類的區(qū)別是分類的對象有類別標(biāo)記。
2)典型應(yīng)用及應(yīng)用方法
常見的聚類算法可歸納為平面劃分法( 如 K - 均值算法、K - 中心點(diǎn)算法) ,層次聚類法( 可分為凝 聚層 次 聚 類 和 分 割 聚 類) ,基 于 密 度 的 方 法 ( 如 DBSCAN 算法) ,基于網(wǎng)格的方法( 如 STING 算法) ,基于 模 型 的 方 法。
Groth P 等 根據(jù)顯型的描述,利用文本聚類 將基因聚類成簇,利用這些簇預(yù)測基因功能,采用客觀標(biāo)準(zhǔn)選擇一個子類團(tuán),從生物過程次本體中預(yù)測GO-術(shù)語注釋,得到了 72. 6% 的查準(zhǔn)率和 16. 7% 的 查全率。
2.1.5 共現(xiàn)分析
1)研究背景
共現(xiàn)( Co-occurrence) 分析主要是對隱性知識的挖掘,在生物醫(yī)學(xué)領(lǐng)域主要用于諸如 DNA 序列的數(shù)據(jù)分析、基因功能相似聚類、基因和蛋白質(zhì)的功能信息提取、提高遠(yuǎn)程同源性搜索、基因與確定疾病關(guān)系預(yù)測等[15]。如果在大規(guī)模語料( 訓(xùn)練語料) 中,兩個詞經(jīng)常共同出現(xiàn)( 共現(xiàn)) 在同 一窗口單元( 如一定詞語間隔、一句話、一篇文檔等)中,則認(rèn)為這兩個詞在語義上是相互關(guān)聯(lián)的。而且, 共現(xiàn)的頻率越高,其相互間的關(guān)聯(lián)越緊密。
2)典型應(yīng)用及應(yīng)用方法
基于共現(xiàn)關(guān)系的假定,通過對訓(xùn)練語料的統(tǒng)計(jì),計(jì)算得到詞與詞之間的互信息( Mutual information) ,就可以對詞與詞之間的相關(guān)性進(jìn)行量化比較,獲得對文本詞匯 語義級別的關(guān)聯(lián)認(rèn)識。如Pub-Gene系統(tǒng)使用共現(xiàn)方法建立了一個包含基因和基因交互關(guān)系的數(shù)據(jù)庫 ,實(shí)驗(yàn)結(jié)果達(dá)到了60%的精確率和51%的召回率。當(dāng)僅考慮5篇或5篇以上文章中的基因?qū)﹃P(guān)系時,精確率上升到72%。
2.2 決策支持系統(tǒng)
1)研究背景
在醫(yī)學(xué)臨床實(shí)踐中,對于醫(yī)務(wù)人員來說,作為一個理智、情感共存的個體,在醫(yī)學(xué)實(shí)踐中難免會犯錯,這導(dǎo)致了醫(yī)患雙方關(guān)系的緊張、甚至生命健康的負(fù)面影響。為了降低出錯的概率以及提高工作效率,臨床決策支持系統(tǒng)應(yīng)運(yùn)而生,它可以對醫(yī)務(wù)人員進(jìn)行診療方面的指導(dǎo)。
2)典型應(yīng)用及應(yīng)用方法
醫(yī)療決策支持系統(tǒng)的建立主要分為以下三個步驟:
2.2.1知識庫的建立
詞庫是自然語言處理的基礎(chǔ),首先應(yīng)建立詞庫。使用醫(yī)學(xué)專業(yè)詞匯、頻率極高的謂詞、量詞等詞匯、醫(yī)療文書詞匯的常用組合及常用語句等,加上基本的語法庫,形成用于醫(yī)學(xué)語言處理的知識庫。
另外,作為臨床支持系統(tǒng),還需要建立作為比較條件的知識庫,使患者的各種診療要素形成一定傾向性的結(jié)果輸出。
2.2.2語言處理
按照中文自然語言處理的一般步驟,進(jìn)行分句、分詞、語義分析、形成文本摘要。
? 分句
分為基本單句的分割,和句群的分割。分句主要以基本的標(biāo)點(diǎn)符號作為分隔符對語言進(jìn)行計(jì)算機(jī)子句分割,完成分句處理。中文主要以句號、問號、省略號等為句群結(jié)束符,而醫(yī)療文書基本上都是陳述句,故多以句號為句群結(jié)束符。
? 分詞
目前主流的分詞算法主要有三種,分別為基于字符串匹配的分詞算法、基于理解的分詞算法和基于統(tǒng)計(jì)的分詞算法。從詞庫中詞條或習(xí)慣搭配短語的最大長度開始,逐漸縮短,對基本分句進(jìn)行匹配詞庫中的詞條。最后把醫(yī)療文書分割為一個個詞匯或短語。
? 語義分析、文本摘要
根據(jù)漢語基本語法,對詞匯進(jìn)行重組,剔除意義不大的部分,形成摘要。以上述病程記錄進(jìn)行分句、分詞為例:
第一步、分句:句群:今日查房,患者訴頭昏乏力減輕,腹瀉停止,進(jìn)軟食。 分句:今日查房 患者訴頭昏乏力減輕 腹瀉停止 進(jìn)軟食
第二步、 分詞: 今日 \ 查房 患者 \ 訴\ 頭昏\ 乏力\ 減輕 腹瀉\停止 進(jìn)\ 軟食
2.2.3 臨床決策支持系統(tǒng)
以臨床診療指南、操作規(guī)范為參考,在對醫(yī)療文書進(jìn)行語言處理后進(jìn)行推理、分析,找出其中存在的問題。分析模型是其中的關(guān)鍵。如圖1所示,以上述病程記錄為例:依次輸入詞匯、短語。
圖1 決策支持系統(tǒng)模型
在分析模型中,比照的是臨床診療指南、操作規(guī)范,所以在建立此知識庫時,所用的詞匯、短語應(yīng)該與語言處理所用的知識庫相對應(yīng),否則會增加建立分析模型的難度和復(fù)雜性。
2.3 信息提取
1)研究背景
信息抽?。↖nformation Extraction,IE)是指從文本中抽取指定的一類事實(shí)信息,形成結(jié)構(gòu)化的數(shù)據(jù)儲存在數(shù)據(jù)庫中,以供用戶對信息的查詢或進(jìn)一步分析利用的過程。 如一位生物醫(yī)學(xué)科學(xué)家要從海量的生物醫(yī)學(xué)文獻(xiàn)中尋求關(guān)于某種疾病的新的治療方案,借助于信息抽取系統(tǒng)抽取出的蛋白質(zhì)、基因或藥物等的交互關(guān)系信息,就有可能從中發(fā)現(xiàn)有價值的治療線索或方法。
2)典型應(yīng)用及應(yīng)用方法
? 信息抽取技術(shù)在電子病歷中的應(yīng)用
由哥倫比亞大學(xué)的Carol Friedman等人設(shè)計(jì)的MEDLEE系統(tǒng)也是一個很成功的醫(yī)學(xué)信息抽取系統(tǒng),作為臨床信息系統(tǒng)(CIS)的一個獨(dú)立模塊在紐約長老會醫(yī)院使用,它將文本形式的病歷報告轉(zhuǎn)換成編碼數(shù)據(jù)以促進(jìn)乳腺癌研究,有利于病人看護(hù)質(zhì)量的提高 。息抽取技術(shù)在電子病歷中的成功,將克服臨床決策支持、臨床路徑管理等前沿醫(yī)療信息發(fā)展所面臨的諸多瓶頸問題,提升我國醫(yī)療信息技術(shù)產(chǎn)業(yè)的核心競爭力。
? 信息抽取技術(shù)在醫(yī)學(xué)文獻(xiàn)中的應(yīng)用
國內(nèi)對生物醫(yī)學(xué)文獻(xiàn)信息抽取研究相對較多,極大地促進(jìn)了生物醫(yī)學(xué)的現(xiàn)代化進(jìn)程,如從中藥復(fù)方的臨床文獻(xiàn)進(jìn)行復(fù)方名稱的抽取 ;利用信息抽取技術(shù)從Web形式的中醫(yī)藥文獻(xiàn)資料中抽取結(jié)構(gòu)化中醫(yī)臨床診療信息的中醫(yī)臨床診療垂直搜索系統(tǒng)TCMVSE 。
? 信息抽取技術(shù)在生物醫(yī)學(xué)網(wǎng)絡(luò)資源中的應(yīng)用
針對網(wǎng)絡(luò)上分布散亂的生物醫(yī)學(xué)資源,可以用基于HTML結(jié)構(gòu)的信息抽取方法實(shí)現(xiàn)對生物醫(yī)學(xué)資源的抽取,將其轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)存儲到數(shù)據(jù)庫中。
北京中醫(yī)藥大學(xué)在1989年完成了“中醫(yī)方劑信息智能分析支援系統(tǒng)”,收集了對40余萬條方劑信息的解釋,可產(chǎn)生800余萬相關(guān)數(shù)據(jù),并于1997年得到國家教育部博士點(diǎn)學(xué)科專項(xiàng)基金的支持,用Wed_db技術(shù),將方劑數(shù)據(jù)庫移植到Oracle7for UNIX平臺,在Internet網(wǎng)上實(shí)驗(yàn)性地實(shí)現(xiàn)了方劑數(shù)據(jù)庫的查詢和分析處理 。
2.4 自動問答系統(tǒng)
1)研究背景
隨著大數(shù)據(jù)時代的到來,對于傳統(tǒng)的信息檢索來說,由于醫(yī)學(xué)專業(yè)的特殊性,面對網(wǎng)絡(luò)上質(zhì)量參差不齊的醫(yī)學(xué)信息,非醫(yī)學(xué)專業(yè)人員在查找、理解及獲取方面存在諸多困難和障礙。而基于自動問答的醫(yī)學(xué)信息搜尋模式作為更智能的醫(yī)學(xué)信息資源獲取工具,不僅對海量數(shù)據(jù)資源的有效利用具有重大意義,而且在一定程度上可緩解醫(yī)患之間信息不對稱、提高醫(yī)療資源利用效率,同時能更好地體現(xiàn)“以病人為中心”服務(wù)理念的轉(zhuǎn)變。
2)典型應(yīng)用及應(yīng)用方法
2.4.1 基于傳統(tǒng)搜索技術(shù)的問答系統(tǒng)
基于傳統(tǒng)搜索技術(shù)的問答系統(tǒng),在問題分析中將問題的關(guān)鍵詞和數(shù)據(jù)資源中的關(guān)鍵詞進(jìn)行匹配,進(jìn)而獲取可能相關(guān)的答案片段。典型的醫(yī)學(xué)領(lǐng)域自動問答應(yīng)用具體見表1。
表1 基于傳統(tǒng)檢索技術(shù)的自動問答系統(tǒng)相關(guān)研究
應(yīng)用方法如下:
基于傳統(tǒng)搜索技術(shù)的問答系統(tǒng)的核心技術(shù)包括三個主要組成模塊:問題處理、信息檢索和答案抽取。
2.4.1.1問題處理
(1)問題類型識別
主要有啟發(fā)式算法(基于規(guī)則的算法)、基于機(jī)器學(xué)習(xí)的算法等。
(2)提取問題關(guān)鍵詞
可根據(jù)詞語的詞性、tfidf值或?qū)Σ煌匾潭鹊脑~語賦予權(quán)重等方法篩選出關(guān)鍵詞。
(3)問題關(guān)鍵詞拓展?
主要有基于詞典的方法、基于統(tǒng)計(jì)的方法和相關(guān)反饋的方法。
- 基于詞典的方法可用Wordnet(用于英文問答系統(tǒng))、Hownet(用于中文問答系統(tǒng))或其他同義詞詞典來擴(kuò)展關(guān)鍵詞。
- 基于統(tǒng)計(jì)的方法需要大量的問題和預(yù)料來訓(xùn)練。每一類問題所對應(yīng)的答案一般有某種共同的特性,如對于詢問地點(diǎn)的問題,答案中經(jīng)常會出現(xiàn)“在、位于、地處”等關(guān)鍵詞。所以通過統(tǒng)計(jì),我們找到這些詞后就可以把它們加到問句中。
- 相關(guān)反饋的方法是用檢索返回的相關(guān)文檔對關(guān)鍵詞進(jìn)行擴(kuò)展。
2.4.1.2 信息檢索
問答系統(tǒng)中的信息檢索模塊利用問題處理模塊輸出的關(guān)鍵詞以及其拓展來搜索相關(guān)的段落。
主要有基于統(tǒng)計(jì)的方法和基于語義的方法。
基于統(tǒng)計(jì)的方法主要根據(jù)用戶查詢與數(shù)據(jù)全集中數(shù)據(jù)的統(tǒng)計(jì)量來計(jì)算相關(guān)性。目前較流行的有:布爾模型、概率模型和向量空間模型。
基于語義的方法是對用戶查詢和數(shù)據(jù)全集中的數(shù)據(jù)進(jìn)行一定程度的語法語義分析,也就是在對用戶查詢和數(shù)據(jù)全集中的內(nèi)容進(jìn)行理解的基礎(chǔ)上進(jìn)行兩者的相關(guān)計(jì)算。
2.4.1.3 答案抽取
主要有根據(jù)命名實(shí)體、推理、上下文的方法。
2.4.2 基于語義技術(shù)的問答系統(tǒng)
基于語義技術(shù)的問答系統(tǒng),對自然語言問題進(jìn)行語義處理,實(shí)現(xiàn)從語義層面理解用戶提出的問題。相關(guān)的應(yīng)用研究如表2,但目前相關(guān)的應(yīng)用研究較少。
表2 基于語義技術(shù)問答系統(tǒng)相關(guān)研究
應(yīng)用方法如下:
基于語義技術(shù)的問答系統(tǒng)在基于傳統(tǒng)搜索技術(shù)的問答系統(tǒng)的基礎(chǔ)上,可在問題處理模塊和答案抽取模塊加入對句子的結(jié)構(gòu)進(jìn)行分析(即句法分析)的方法。
在問題處理模塊里需要通過對問句結(jié)構(gòu)進(jìn)行分析,根據(jù)問句的結(jié)構(gòu)確定問句的類型,同時抽取句子關(guān)鍵詞。
在答案抽取階段,可對答案的候選句子進(jìn)行結(jié)構(gòu)分析,進(jìn)行句子相似度的計(jì)算,去除重復(fù)或相近的候選答案,最后根據(jù)問題類型抽取出答案實(shí)體。
2.5 醫(yī)學(xué)影像的信息提取和分析
1)研究背景
醫(yī)學(xué)影像報告是電子健康病歷 (electronic health record,EHR)中包含大量數(shù)字信息的重要組成部分。醫(yī)學(xué)影像中使用NLP的總體目標(biāo)是挖掘診斷報告中結(jié)構(gòu)化信息,并將其應(yīng)用于臨床診治過程。
2)典型應(yīng)用及應(yīng)用方法
根據(jù)信息提取的對象和目的不同,NLP可用于患者個體信息分析、患者群體信息分析和醫(yī)學(xué)影像流程信息分析等。
1. 患者個體影像診斷信息提取和分析,對患者個體疾病處理提供幫助
(1)提示“危急發(fā)現(xiàn)(critical findings)”:NLP檢出影像報告中描述的、可能導(dǎo)致嚴(yán)重后果的影像征象,提醒處理該患者的醫(yī)師注意。目前NLP可提示的危急情況有闌尾炎、急性肺損傷、肺炎、血栓栓塞性疾病及各類潛在惡性病變等 。
(2)提示隨訪建議:NLP檢出報告中應(yīng)提示臨床進(jìn)行后續(xù)操作的內(nèi)容,自動生成隨訪建議,提示后續(xù)檢查或治療 。
2. 患者群體影像診斷信息提取和分析,構(gòu)建患者隊(duì)列,用于流行病學(xué)研究、行政管理等
(1)流行病學(xué)研究隊(duì)列的構(gòu)建:使用NLP可高效率地分析大數(shù)量、患者群體的影像報告,得到群體的特征性數(shù)據(jù),從而提高流行病學(xué)研究效率,為循證影像醫(yī)學(xué)研究提供幫助。
3. 醫(yī)學(xué)影像流程信息的提取和分析,用于醫(yī)學(xué)影像報告質(zhì)量評價和改進(jìn)
(1)報告質(zhì)量評價和報告規(guī)范的建立:NLP可識別醫(yī)學(xué)影像學(xué)的流程和質(zhì)量指標(biāo),判斷影像報告是否符合相關(guān)指南或診斷規(guī)則 。同時可用于評價報告的完整性和規(guī)范,是否給出正確的建議,是否及時進(jìn)行危急情況的預(yù)警,報告信息是否用于疾病的診斷等方面 。
(2)影像檢查全流程的改進(jìn):NLP可對各類影像的綜合信息進(jìn)行分析,將報告中的檢查結(jié)果和建議等信息與全面的臨床信息相互關(guān)聯(lián),如檢查適應(yīng)證、疾病種類、患者年齡、性別、申請 科室、申請醫(yī)師及患者類型(住院或門診)等。這種大規(guī)模的數(shù)據(jù)分析在經(jīng)過驗(yàn)證后,可得到預(yù)測模型,形成適合本地情況的臨床決策支持系統(tǒng)(clinical decision support system,CDSS),應(yīng)可應(yīng)用到計(jì)算機(jī)醫(yī)囑系統(tǒng)(computerized physician order entry,CPOE)中去。
評論
查看更多