0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

近五年來(lái)中文電子病歷的命名實(shí)體識(shí)別研究進(jìn)展

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:python遇見(jiàn)NLP ? 2020-08-27 17:56 ? 次閱讀

閱讀綜述性論文是一種能夠快速了解某一領(lǐng)域的方法,接下來(lái)通過(guò)今年的一篇綜述性論文來(lái)了解一下近五年來(lái)中文電子病歷的命名實(shí)體識(shí)別研究進(jìn)展。

基本的,我們應(yīng)該先來(lái)了解一下兩個(gè)概念:電子病歷和命名實(shí)體識(shí)別。

電子病歷(Electronic Medical Record,EMR)是指醫(yī)務(wù)人員在醫(yī)療活動(dòng)過(guò)程中,使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的數(shù)字化信息, 并能實(shí)現(xiàn)存儲(chǔ)、管理、傳輸和重現(xiàn)的醫(yī)療記錄。電子病歷中的文本內(nèi)容是醫(yī)務(wù)人員按照《病歷書寫基本規(guī)范》和《電子病歷基本規(guī)范(試行)》中相關(guān)書寫規(guī)定,圍繞患者醫(yī)療需求與服務(wù)活動(dòng)而記錄的描述性文本內(nèi)容。

命名實(shí)體識(shí)別(Named Entity Recognition,NER)是指識(shí)別自由文本中具有特定意義的實(shí)體,如人名、地名、專有名詞等。與通用領(lǐng)域的命名實(shí)體不同,電子病歷中的命名實(shí)體通常有疾病、癥狀、治療等實(shí)體。

有了上述兩個(gè)概念的了解后,接下來(lái)我們就可以來(lái)了解中文電子病歷命名實(shí)體識(shí)別的任務(wù),它包括:

①電子病歷數(shù)據(jù)的獲取與匿名化處理;

②明確命名實(shí)體種類,進(jìn)行語(yǔ)料標(biāo)注;

③構(gòu)建模型進(jìn)行實(shí)體識(shí)別;

④結(jié)果評(píng)價(jià)及優(yōu)化。

以電子病歷中現(xiàn)病史章節(jié)為例,中文電子病歷命名實(shí)體識(shí)別研究任務(wù)流程如圖1所示:

從上述四個(gè)任務(wù)出發(fā),我們繼續(xù)進(jìn)行探討。

1

電子病歷數(shù)據(jù)集的獲取

中文電子病歷數(shù)據(jù)的獲取途徑通常包括:

①與醫(yī)院建立合作關(guān)系,如曲春燕等通過(guò)與某醫(yī)科大學(xué)附屬醫(yī)院建立合作關(guān)系獲取到該院35個(gè)大科室、87個(gè)小科室的992份電子病歷。同時(shí),相關(guān)醫(yī)務(wù)人員也全程參與數(shù)據(jù)標(biāo)注,為數(shù)據(jù)集的質(zhì)量提供了保障。

②開(kāi)放獲取的學(xué)術(shù)評(píng)測(cè)語(yǔ)料,如CCKS2020學(xué)術(shù)評(píng)測(cè)任務(wù)三開(kāi)放了用于命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)的已標(biāo)注匿名化電子病歷1500份和未標(biāo)注的電子病歷1000份,在電子病歷語(yǔ)料資源匱乏的現(xiàn)狀下,全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大 會(huì)無(wú)疑為行業(yè)發(fā)展作出了巨大貢獻(xiàn)。 ③網(wǎng)絡(luò)發(fā)布的電子病歷資源。 當(dāng)前,大多數(shù)研究采用第1種方式獲取電子病歷的研究數(shù)據(jù),并邀請(qǐng)醫(yī)務(wù)人員參與語(yǔ)料數(shù)據(jù)的標(biāo)注工作;而第2、3種獲取方式具有很大的不確定性,并且電子病歷的數(shù)據(jù)標(biāo)注工作過(guò)程控制和質(zhì)量控制均存在不確定性。

2

數(shù)據(jù)標(biāo)注的相關(guān)工作

曲春燕等參照i2b2 2010的標(biāo)注規(guī)范制定了中文電子病歷的標(biāo)注規(guī)范,進(jìn)而在兩名臨床醫(yī)生的全程參與下,對(duì)病歷文本分為前后共計(jì)4輪標(biāo)注,并進(jìn)行了一致性檢驗(yàn)。楊錦鋒等在曲春燕等人的工作基礎(chǔ)上,對(duì)相同的病歷文本資源,進(jìn)行了命名實(shí)體和實(shí)體關(guān)系的標(biāo)注語(yǔ)料構(gòu)建工作。He等在曲春燕、楊錦鋒等人的工作基礎(chǔ)上,新增了電子病歷文本的分詞、詞性標(biāo)注、斷言、關(guān)系抽取等自然語(yǔ)言處理常見(jiàn)任務(wù)的語(yǔ)料標(biāo)注工作,并對(duì)標(biāo)注結(jié)果進(jìn)行了一致性檢驗(yàn)。 上述學(xué)者的延續(xù)性標(biāo)注工作,對(duì)今后研究的語(yǔ)料標(biāo)注工作具有一定的指導(dǎo)意義。然而,與臨床醫(yī)生長(zhǎng)期從事語(yǔ)料建設(shè)和維護(hù)的難以實(shí)現(xiàn)。一方面,臨床醫(yī)生用于語(yǔ)料標(biāo)注的時(shí)間有限;另一方面,邀請(qǐng)臨床醫(yī)生標(biāo)注語(yǔ)料成本更高。因此,醫(yī)學(xué)數(shù)據(jù)標(biāo)注團(tuán)隊(duì)建設(shè)和專業(yè)人員培養(yǎng)的可行性值得探討。

3

主要的命名實(shí)體識(shí)別算法模型

中文命名實(shí)體識(shí)別的主要研究算法為條件隨機(jī)場(chǎng)(CRF)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型條件隨機(jī)場(chǎng)(Bi-LSTM-CRF)。 Liu等設(shè)計(jì)不同特征模板和上下文窗口進(jìn)行條件隨機(jī)場(chǎng)的學(xué)習(xí)訓(xùn)練,進(jìn)行模型實(shí)體識(shí)別效率的比對(duì)分析,以尋找最佳的電子病歷特征模板和上下文窗口。Liu等在i2b2 2010,2012和2014語(yǔ)料上實(shí)驗(yàn)對(duì)比了Bi-LSTM-CRF與傳統(tǒng)的CRF實(shí)體識(shí)別算法的性能,結(jié)果表明Bi-LSTM-CRF性能較好。CCKS 2017學(xué)術(shù)評(píng)測(cè)任務(wù)二:面向電子病歷的命名實(shí)體識(shí)別,共收錄了7篇論文,研究?jī)?nèi)容和測(cè)評(píng)結(jié)果等見(jiàn)表1??傮w上看,7篇論文均有對(duì)Bi-LSTM-CRF(或Bi-LSTM)算法模型的實(shí)現(xiàn);均采用“字粒度”模型使用word2vec工具將輸入文本特征向量化表示。Zhang等利用CCKS 2017開(kāi)放的電子病歷語(yǔ)料,分別采用CRFs和Bi-LSTM-CRF兩種統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法從電子病歷數(shù)據(jù)集中識(shí)別疾病、身體部位和治療等信息,并對(duì)兩種方法進(jìn)行了對(duì)比分析,發(fā)現(xiàn)后者性能較好。Qiu等為提高循環(huán)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度,提出了殘差卷積神經(jīng)網(wǎng)絡(luò)條件隨機(jī)場(chǎng)模型(RD-CNN-CRF)在CCKS 2017開(kāi)放測(cè)試語(yǔ)料上獲得了較Bi-LSTM-CRF更高的訓(xùn)練速度和F1值。CCKS 2018學(xué)術(shù)評(píng)測(cè)任務(wù)一:面向中文電子病歷的命名實(shí)體識(shí)別,共收錄論文2篇,分別是Yang等將詞嵌套、詞性、偏旁部首、拼音、詞典和規(guī)則特征作為條件隨機(jī)場(chǎng)(CRFs)的學(xué)習(xí)特征,實(shí)驗(yàn)F1值為89.26%;Luo等基于多特征(如標(biāo)點(diǎn)符號(hào)、分詞和詞典等特征)融合,整合CNN-CRF, Bi-LSTM-CRF, Bi-LSTM-CNN-CRF, Bi-LSTM+CNN-CRF和Lattice LSTM五種神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)F1值最高達(dá)到了88.63%(表1)。

4

結(jié)果評(píng)價(jià)及優(yōu)化

隨著中文電子病歷命名實(shí)體識(shí)別的研究逐步深入以及相關(guān)算法框架的逐漸成熟,基于中文電子病歷的命名實(shí)體識(shí)別算法構(gòu)成了臨床電子病歷系統(tǒng)、專病科研數(shù)據(jù)提取、臨床輔助決策系統(tǒng)的重要組成部分。 電子病歷命名實(shí)體識(shí)別結(jié)果評(píng)價(jià)指標(biāo)說(shuō)明如下圖:

袁冬生為解決出院小結(jié)文檔中普遍存在的信息不準(zhǔn)確、無(wú)效信息、信息缺失等問(wèn)題,設(shè)計(jì)開(kāi)發(fā)了一套基于命名實(shí)體識(shí)別的出院小結(jié)錯(cuò)誤檢測(cè)系統(tǒng)。李山為提高住院病歷錄入的交互性和可操作性,降低書寫的繁雜度,減輕醫(yī)生負(fù)荷,提高工作效率,使用條件隨機(jī)場(chǎng)算法,進(jìn)行電子病歷命名實(shí)體識(shí)別,提取病歷中重要的診療信息,并將其應(yīng)用在住院病歷錄入輔助中,以優(yōu)化和改善病歷錄入方式。Su等則基于中文電子病歷命名實(shí)體標(biāo)注規(guī)范構(gòu)建了一個(gè)可用于識(shí)別心血管疾病危險(xiǎn)因素的語(yǔ)料庫(kù)。

展望

.....

針對(duì)電子病歷的語(yǔ)義特征的量化分析與研究,對(duì)于提升算法特征工程質(zhì)量有積極意義;近兩年來(lái),針對(duì)電子病歷語(yǔ)料標(biāo)注的成本問(wèn)題,很多研究聚焦于半監(jiān)督和無(wú)監(jiān)督的算法來(lái)實(shí)現(xiàn)基于少量標(biāo)注語(yǔ)料或完全基于非標(biāo)注原始語(yǔ)料進(jìn)行實(shí)體識(shí)別,是一個(gè)重要的研究方向。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 電子病歷
    +關(guān)注

    關(guān)注

    1

    文章

    61

    瀏覽量

    20119
  • 數(shù)字化
    +關(guān)注

    關(guān)注

    8

    文章

    8538

    瀏覽量

    61581
  • 識(shí)別
    +關(guān)注

    關(guān)注

    3

    文章

    173

    瀏覽量

    31934

原文標(biāo)題:【NER綜述】近五年中文電子病歷命名實(shí)體識(shí)別研究進(jìn)展

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI大模型的最新研究進(jìn)展

    AI大模型的最新研究進(jìn)展體現(xiàn)在多個(gè)方面,以下是對(duì)其最新進(jìn)展的介紹: 一、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式AI技術(shù)正在迅速發(fā)展,其強(qiáng)大的生成能力使得AI大模型在多個(gè)領(lǐng)域得到廣泛應(yīng)用
    的頭像 發(fā)表于 10-23 15:19 ?245次閱讀

    開(kāi)爾文電阻測(cè)試方法有哪些

    (William Thomson, Lord Kelvin)在1861發(fā)明,主要用于測(cè)量低阻值電阻,以消除接觸電阻和引線電阻對(duì)測(cè)量結(jié)果的影響。以下是對(duì)開(kāi)爾文電阻測(cè)試方法的介紹: 一、基本原理 開(kāi)爾文電阻測(cè)試方法的基本原理是在未
    的頭像 發(fā)表于 08-27 11:35 ?536次閱讀

    導(dǎo)熱紙(膜)的研究進(jìn)展 | 晟鵬技術(shù)突破導(dǎo)熱芳綸紙

    問(wèn)題。紙張及薄膜具有良好的柔韌性、優(yōu)異的加工性和厚度可調(diào)整性,是良好的柔性導(dǎo)熱材料。本文概述了近年來(lái)導(dǎo)熱紙(膜)的研究進(jìn)展,對(duì)不同基材的導(dǎo)熱紙進(jìn)行了歸納分類和介紹,重點(diǎn)
    的頭像 發(fā)表于 07-12 08:10 ?528次閱讀
    導(dǎo)熱紙(膜)的<b class='flag-5'>研究進(jìn)展</b> | 晟鵬技術(shù)突破導(dǎo)熱芳綸紙

    量子計(jì)算+光伏!本源研究成果入選2023度“中國(guó)地理科學(xué)十大研究進(jìn)展

    近日中國(guó)地理學(xué)會(huì)公布了2023度“中國(guó)地理科學(xué)十大研究進(jìn)展”本源量子參與的“量子地理計(jì)算技術(shù)、軟件及應(yīng)用”研究成果獲選系量子計(jì)算領(lǐng)域唯一入選單位來(lái)源:中國(guó)地理學(xué)會(huì)此次入選的“量子地理計(jì)算技術(shù)、軟件
    的頭像 發(fā)表于 05-10 08:22 ?411次閱讀
    量子計(jì)算+光伏!本源<b class='flag-5'>研究</b>成果入選2023<b class='flag-5'>年</b>度“中國(guó)地理科學(xué)十大<b class='flag-5'>研究進(jìn)展</b>”

    銻化物超晶格紅外探測(cè)器研究進(jìn)展與發(fā)展趨勢(shì)綜述

    銻化物超晶格紅外探測(cè)器具有均勻性好、暗電流低和量子效率較高等優(yōu)點(diǎn),其探測(cè)波長(zhǎng)靈活可調(diào),可以覆蓋短波至甚長(zhǎng)波整個(gè)紅外譜段,是實(shí)現(xiàn)高均勻大面陣、長(zhǎng)波、甚長(zhǎng)波及雙色紅外探測(cè)器的優(yōu)選技術(shù),得到了國(guó)內(nèi)外相關(guān)研究機(jī)構(gòu)的關(guān)注和重視,近年來(lái)取得了突破性的
    的頭像 發(fā)表于 04-19 09:13 ?969次閱讀
    銻化物超晶格紅外探測(cè)器<b class='flag-5'>研究進(jìn)展</b>與發(fā)展趨勢(shì)綜述

    用于先進(jìn)電生理記錄的有源微納協(xié)同生物電子器件研究進(jìn)展綜述

    開(kāi)發(fā)精確靈敏的電生理記錄平臺(tái)對(duì)心臟病學(xué)和神經(jīng)科學(xué)領(lǐng)域的研究至關(guān)重要。近年來(lái),有源微納生物電子器件取得了重大進(jìn)展,從而促進(jìn)了電生理學(xué)的研究
    的頭像 發(fā)表于 04-16 10:55 ?590次閱讀
    用于先進(jìn)電生理記錄的有源微納協(xié)同生物<b class='flag-5'>電子</b>器件<b class='flag-5'>研究進(jìn)展</b>綜述

    綜述:高性能銻化物中紅外半導(dǎo)體激光器研究進(jìn)展

    據(jù)麥姆斯咨詢報(bào)道,近期,由中國(guó)科學(xué)院半導(dǎo)體研究所和中國(guó)科學(xué)院大學(xué)組成的科研團(tuán)隊(duì)受邀在《激光技術(shù)》期刊上發(fā)表了以“高性能銻化物中紅外半導(dǎo)體激光器研究進(jìn)展”為主題的文章。該文章第一作者為曹鈞天,通訊作者為楊成奧和牛智川研究員。
    的頭像 發(fā)表于 04-13 12:08 ?1858次閱讀
    綜述:高性能銻化物中紅外半導(dǎo)體激光器<b class='flag-5'>研究進(jìn)展</b>

    先進(jìn)封裝中銅-銅低溫鍵合技術(shù)研究進(jìn)展

    用于先進(jìn)封裝領(lǐng)域的 Cu-Cu 低溫鍵合技術(shù)進(jìn)行了綜述,首先從工藝流程、連接機(jī)理、性能表征等方面較系統(tǒng)地總結(jié)了熱壓工藝、混合鍵合工藝實(shí)現(xiàn) Cu-Cu 低溫鍵合的研究進(jìn)展與存在問(wèn)題,進(jìn)一步地闡述了新型納米材料燒結(jié)工藝在實(shí)現(xiàn)低溫連接、降低工藝要求方面的優(yōu)
    的頭像 發(fā)表于 03-25 08:39 ?633次閱讀
    先進(jìn)封裝中銅-銅低溫鍵合技術(shù)<b class='flag-5'>研究進(jìn)展</b>

    電子封裝用金屬基復(fù)合材料加工制造的研究進(jìn)展

    共讀好書 蓋曉晨 成都四威高科技產(chǎn)業(yè)園有限公司 摘要: 在航空航天領(lǐng)域中,金屬封裝材料被廣泛應(yīng)用,對(duì)其加工制造工藝的研究具有重要的意義。近年來(lái),金屬基復(fù)合材料逐漸代替?zhèn)鹘y(tǒng)金屬材料應(yīng)用于新一代
    的頭像 發(fā)表于 03-16 08:41 ?525次閱讀
    <b class='flag-5'>電子</b>封裝用金屬基復(fù)合材料加工制造的<b class='flag-5'>研究進(jìn)展</b>

    2023度中國(guó)半導(dǎo)體十大研究進(jìn)展出爐,一項(xiàng)傳感器技術(shù)入榜(附全名單)

    來(lái)源:《半導(dǎo)體學(xué)報(bào)》? ?2月5日,《半導(dǎo)體學(xué)報(bào)》發(fā)布2023度“中國(guó)半導(dǎo)體十大研究進(jìn)展”名單,其中,一項(xiàng)傳感技術(shù)入選。 ? 由中國(guó)科學(xué)院上海技術(shù)物理研究所紅外科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室胡偉達(dá)、苗金水
    的頭像 發(fā)表于 02-20 08:37 ?653次閱讀
    2023<b class='flag-5'>年</b>度中國(guó)半導(dǎo)體十大<b class='flag-5'>研究進(jìn)展</b>出爐,一項(xiàng)傳感器技術(shù)入榜(附全名單)

    增強(qiáng)光聲雙光梳光譜的研究進(jìn)展

    二十年來(lái),光學(xué)頻率梳(光頻梳)光譜已經(jīng)發(fā)展成為精密光譜和計(jì)量學(xué)、光譜激光雷達(dá)、環(huán)境監(jiān)測(cè)以及高光譜全息成像等眾多領(lǐng)域的強(qiáng)大工具。
    的頭像 發(fā)表于 01-15 10:12 ?898次閱讀
    增強(qiáng)光聲雙光梳光譜的<b class='flag-5'>研究進(jìn)展</b>

    電動(dòng)汽車功率電子封裝用耐高溫環(huán)氧塑封料的研究進(jìn)展

    ?摘要:本文綜述了近年來(lái)國(guó)內(nèi)外關(guān)于耐高溫環(huán)氧塑封料(EMC)的基礎(chǔ)研究與應(yīng)用進(jìn)展,從先進(jìn)功率電子器件發(fā)展對(duì)塑封材料的性能需求、傳統(tǒng)EMC的高溫降解機(jī)理、EMC結(jié)構(gòu)與耐熱穩(wěn)定性的關(guān)系以及
    的頭像 發(fā)表于 01-04 08:09 ?3056次閱讀
    電動(dòng)汽車功率<b class='flag-5'>電子</b>封裝用耐高溫環(huán)氧塑封料的<b class='flag-5'>研究進(jìn)展</b>

    大幅加薪40%,七年來(lái)首次!

    16000元人民幣),均高于 300,000 日元大關(guān)。這是東京電子年來(lái)首次為新員工加薪。 日本出現(xiàn)了一系列與芯片相關(guān)的重
    的頭像 發(fā)表于 01-03 09:13 ?854次閱讀

    綜述:基于二維材料的氣體傳感器研究進(jìn)展

    )、MXenes等。由于二維材料具有納米尺寸的層狀結(jié)構(gòu)、優(yōu)異的半導(dǎo)體性能、大比表面積,因此,在氣體傳感器領(lǐng)域具有其它材料不可比擬的優(yōu)勢(shì)。 據(jù)麥姆斯咨詢報(bào)道,針對(duì)二維氣敏材料及其復(fù)合材料在氣體傳感器領(lǐng)域的研究進(jìn)展,杭州電子科技大學(xué)和西安微
    的頭像 發(fā)表于 11-23 09:13 ?590次閱讀

    GaSb單晶研究進(jìn)展綜述

    年來(lái),銻化物紅外技術(shù)發(fā)展迅速,成為半導(dǎo)體技術(shù)的重要發(fā)展方向之一。
    的頭像 發(fā)表于 11-13 09:13 ?1981次閱讀
    GaSb單晶<b class='flag-5'>研究進(jìn)展</b>綜述