0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言處理技術(shù)基于文本型電子病歷(EMR)做臨床智能診斷的研究成果!

DPVg_AI_era ? 來源:lq ? 2019-02-14 08:56 ? 次閱讀

依圖科技等眾多專家共同研發(fā)了一個AI系統(tǒng),可以像醫(yī)生一樣準確地檢測出測試結(jié)果,診斷兒童疾病。準確率方面始終與初級保健兒科醫(yī)生相當(dāng),甚至有所超越。這是中國研究團隊首次在頂級醫(yī)學(xué)雜志發(fā)表有關(guān)NLP技術(shù)基于文本型電子病歷(EMR)做臨床智能診斷的研究成果!

我國研究人員再創(chuàng)佳績!

昨日,Nature子刊Medicine發(fā)布了一篇重磅文章——《使用人工智能評估和準確診斷兒科疾病》,在業(yè)界引發(fā)了不小的反響。

這是中國研究團隊首次在頂級醫(yī)學(xué)雜志發(fā)表有關(guān)自然語言處理(NLP)技術(shù)基于文本型電子病歷(EMR)做臨床智能診斷的研究成果!

這項人工智能程序,可以像醫(yī)生一樣準確地檢測出測試結(jié)果、健康記錄甚至手寫筆記,診斷兒童疾病。

從流感、哮喘到威脅生命的肺炎和腦膜炎,該系統(tǒng)的準確率始終與初級保健兒科醫(yī)生相當(dāng),甚至有所超越:

AI程序診斷出呼吸道感染和鼻竇炎準確率為95%;

不常見的疾病的確診率也很高:急性哮喘(97%)、細菌性腦膜炎和水痘(93%)以及單核細胞增多癥(90%)。

Nature雜志在一份新聞稿件中表示:

這項技術(shù)可能來的正是時候。近年來,由于疾病的范圍、診斷測試和治療方案都呈指數(shù)級增長,這就使得醫(yī)生的決策過程變得更加復(fù)雜。

但是伯明翰大學(xué)工程學(xué)Duc Pham教授表示:

從結(jié)果來看,該系統(tǒng)的表現(xiàn)確實優(yōu)于初級醫(yī)生,但它絕對不能完全取代臨床醫(yī)生。無論使用多少訓(xùn)練樣例,都無法保證100%正確的結(jié)果。

本文的作者之一,張康教授也表示:“醫(yī)生和AI的關(guān)系,可以類比于人類駕駛員和在其監(jiān)督下的自動駕駛汽車。它只會讓醫(yī)生在更短的時間內(nèi)以更低的成本做更好的事情。”

基于人工智能(AI)的方法已成改變醫(yī)療保健的有力工具

雖然機器學(xué)習(xí)分類器(MLCs)已經(jīng)在基于圖像的診斷中顯示出其強大的性能,但對各種大規(guī)模電子健康記錄(EHR)數(shù)據(jù)的分析仍然具有挑戰(zhàn)性。

在本文,作者表明MLC可以以類似于醫(yī)生使用的假設(shè) - 演繹推理的方式查詢EHR,并且發(fā)現(xiàn)以前的統(tǒng)計方法所沒有找到的關(guān)聯(lián)特性。作者的模型采用一種自動化的自然語言處理系統(tǒng),使用深度學(xué)習(xí)技術(shù)從EHR中提取臨床相關(guān)信息

本研究共分析了1362559名兒科患者就診于某大型轉(zhuǎn)診中心的10160萬個數(shù)據(jù)點,對該框架進行了訓(xùn)練和驗證。

兒科診斷框架的工作流程圖

首先提取數(shù)據(jù),基于深度學(xué)習(xí)構(gòu)建NLP模型,對數(shù)據(jù)進行語義分析,其次將數(shù)據(jù)進行結(jié)構(gòu)化,最后對這些完全結(jié)構(gòu)化的數(shù)據(jù)庫用疾病分類器處理,預(yù)測臨床診斷。

大型兒科隊列中診斷框架的層次結(jié)構(gòu):使用分層邏輯回歸分類器,來建立基于解剖學(xué)劃分的診斷系統(tǒng)

基于器官的方法,首先將器官系統(tǒng)按照大類可以劃分為5類,分別是呼吸系統(tǒng)疾病、系統(tǒng)性全身性疾病、神經(jīng)精神疾病、泌尿生殖系統(tǒng)疾病、胃腸道疾病。然后將每個大類再細分成器官子系統(tǒng),甚至更具體的診斷組。

下劃線為計算機預(yù)測的診斷結(jié)果,醫(yī)生診斷顯示在頂部的第一行

在診斷層級的第一級,分類器能準確地辨別出,大量兒科患者的器官系統(tǒng)之間,存在哪些廣泛解剖學(xué)分類。接下來診斷層級的第二級,我們拿呼吸系統(tǒng)疾病診斷舉例。

在呼吸系統(tǒng)疾病的診斷中,分類器可以辨別上呼吸狀況和下呼吸狀況。

在上呼吸道系統(tǒng)內(nèi),可以進一步區(qū)分最常見的急性上呼吸道感染:鼻竇炎和喉炎,二者診斷準確度均超過95%。

哮喘被歸類為呼吸系統(tǒng)中的一個獨立類別,診斷系統(tǒng)準確地區(qū)分了無并發(fā)癥的哮喘、咳嗽變異性哮喘和急性哮喘急性發(fā)作。

人類醫(yī)生確診的315661次主要呼吸道疾病中,AI夠正確預(yù)測其中的295403例,精確度達到92%。

使用F1score來評估不同組(行)的診斷性能(Root是診斷分類的第一級)

表中第二列是AI的診斷結(jié)果,后面的1組和2組都是初級醫(yī)師診斷結(jié)果,剩下的3組結(jié)果分別由三個高級醫(yī)師給出。

可以看出,機器學(xué)習(xí)模型比初級醫(yī)師組表現(xiàn)更好,但比三個經(jīng)驗豐富的醫(yī)師組略差。

AI診斷系統(tǒng)方法介紹

數(shù)據(jù)收集

我們的數(shù)據(jù)收集自廣州婦女兒童醫(yī)學(xué)中心,來自該機構(gòu)的567498名兒科患者中獲得了1362559次門診的電子病歷。時間范圍從2016年1月至2017年7月。患者年齡中位數(shù)為2.35歲,40.11%為女性。我們使用廣東省增城婦女兒童醫(yī)院的一組獨立兒科患者的11926例就診記錄,將我們的AI系統(tǒng)和人類醫(yī)生的表現(xiàn)進行對比。

NLP模型構(gòu)建

我們建立了原始信息提取模型,從電子病歷的原始數(shù)據(jù)中提取出關(guān)鍵概念和相關(guān)類別,并將其轉(zhuǎn)換為查詢-答案組合的新格式的臨床數(shù)據(jù)。這些數(shù)據(jù)將相關(guān)癥狀進行分組,通過表示模型依賴的確切特征來進行診斷,從而提高了可解釋性。三名醫(yī)生策劃并驗證了這些模式,其中包括患者主訴、現(xiàn)有病史,體檢和實驗室報告。

自然語言處理信息提取模型的設(shè)計

NLP框架有多個組成部分:詞典構(gòu)建、符號化、單詞嵌入、圖構(gòu)建,以及使用LSTM架構(gòu)的句子分類。

詞典構(gòu)建

我們通過閱讀訓(xùn)練數(shù)據(jù)中的句子,并選擇臨床相關(guān)單詞以用于查詢-答案模型構(gòu)建來生成詞典。詞典的關(guān)鍵詞由我們的醫(yī)生策劃,并使用中文醫(yī)學(xué)詞典生成。接下來,根據(jù)醫(yī)生的臨床知識和經(jīng)驗,以及專家共識修訂詞典中的錯誤。迭代運行程序,直到找不到現(xiàn)有疾病和體檢的新的概念為止。然后使用這些句子來訓(xùn)練單詞嵌入模型。

架構(gòu)設(shè)計

架構(gòu)由醫(yī)生策劃的問題列表組成,用于提取癥狀信息以進行診斷。比如問題有“患者是否發(fā)燒?”和“患者是否咳嗽?”。答案包括關(guān)鍵位置和數(shù)字函數(shù)。前者對解剖的位置進行編碼,如肺或胃腸道。因此,該值可以是分類變量,也可以是二進制數(shù),具體取決于要素類型。

然后,我們?yōu)槊糠N類型的病例數(shù)據(jù)構(gòu)建一個模式:由當(dāng)前疾病的病史和患者主訴,體檢與實驗室檢查構(gòu)成。然后將此架構(gòu)用于文本新格式的建模。架構(gòu)設(shè)計的基本原理是增強不同醫(yī)院之間的數(shù)據(jù)的互操作性,以便將來進行進一步研究。此外,與使用有可能被識別出的原始病例相比,以新格式提供病例也有助于保護患者的隱私。

符號化與詞嵌入

由于缺乏公開的標(biāo)記臨床中文數(shù)據(jù)資源,我們?yōu)榉衷~建立了標(biāo)準數(shù)據(jù)集。我們使用pythonTensorflow包中的word2vec來嵌入具有100個特征的4,363個令牌,以表示高維空間中單詞的語義和相似性。

LSTM模型訓(xùn)練集和測試集的構(gòu)建

我們創(chuàng)建了一個用于訓(xùn)練問答提取模型的小數(shù)據(jù)集,并在訓(xùn)練和驗證隊列中對問答信息進行了手動注釋。對于答案為是/否的問題,我們使用0或1來表示。

對自由文本協(xié)調(diào)過程使用之前描述的基于注意力的LSTM建模。我們使用Tensorflow實現(xiàn)并訓(xùn)練模型。我們將NLP模型應(yīng)用于所有電子病歷中。我們沒有調(diào)整超參數(shù),而是使用LSTM模型的默認或常用的超參數(shù)設(shè)置。

分層多標(biāo)簽診斷模型

診斷的層級結(jié)構(gòu)由專家醫(yī)生研究確定,采用基于解剖學(xué)的分類系統(tǒng)進行,因為這是在人類醫(yī)師評估患者時制定差異化診斷的常見做法。首先,將診斷范圍分至一般器官系統(tǒng)(比如呼吸系統(tǒng)、神經(jīng)精神病學(xué)或胃腸系統(tǒng))。在每個器官系統(tǒng)內(nèi),再進一步分為子系統(tǒng)(如上呼吸道和下呼吸道),并將“全身”專門標(biāo)記為一個系統(tǒng),適用于全身性多器官疾病的情況。

模型訓(xùn)練和驗證

來自問答模型的數(shù)據(jù)由混合分類變量和是/否形式的答案組成。因此,我們首先通過訪問矩陣將分類和答案轉(zhuǎn)換為統(tǒng)一的二進制特征。然后將數(shù)據(jù)隨機分成訓(xùn)練組(包括總訪問數(shù)據(jù)記錄的70%)和測試組(剩余的30%)。然后通過構(gòu)建問答矩陣,在訓(xùn)練和測試隊列中對每個訪問記錄進行注釋。對于每個中間節(jié)點,我們基于直接子項訓(xùn)練了多類線性邏輯回歸分類器。子項的所有子類都折疊到子項的級別。使用Sklearn類邏輯回歸來訓(xùn)練多類別分類器,使用默認的l1正則化懲罰(Lasso),模擬醫(yī)生基于有限數(shù)量的癥狀進行的診斷。

對疾病的層級聚類

為了評估聚類結(jié)果的穩(wěn)健性,我們首先將數(shù)據(jù)隨機分成兩半,一半用于訓(xùn)練,另一半用于測試,并獨立地重新生成訓(xùn)練和測試數(shù)據(jù)的兩個聚類圖。我們通過在相應(yīng)高度獨立地切割相關(guān)的樹形圖,將訓(xùn)練和測試聚類圖中的葉子分配給10個類別。使用調(diào)整的Rand指數(shù)(ARI)24評估訓(xùn)練和測試數(shù)據(jù)之間的類別分配一致性。結(jié)果表明我們的聚類圖是穩(wěn)健的。

無人監(jiān)督聚類NLP從兒科疾病中提取文本特征(灰色框內(nèi)是聚類塊)

在一些病例中,系統(tǒng)使用相關(guān)的ICD-10代碼進行聚類診斷,說明具備檢測與人類定義的分類系統(tǒng)一致的臨床特征的趨勢。但是,另一些時候,系統(tǒng)會將相關(guān)類型的診斷分為一類,但不包括該類別中的其他非常類似的診斷。比如將“哮喘”和“咳嗽變異性哮喘”分到同一組中,但該類中不包括“急性哮喘惡化”,該病與“急性鼻竇炎”組合在一起。在許多情況下,即使沒有任何定向標(biāo)記或分類系統(tǒng),系統(tǒng)也成功建立了相關(guān)診斷的廣泛分組,這表明我們開發(fā)的臨床特征成功學(xué)習(xí)了建模和診斷的條件之間的關(guān)鍵的相似性和差異。

AI系統(tǒng)與人類醫(yī)生的表現(xiàn)對比

我們選擇了20名兒科醫(yī)生,根據(jù)多年的臨床實踐經(jīng)驗對11926條病歷記錄進行手動標(biāo)記。這五個小組的醫(yī)生涵蓋住院醫(yī)師到主任醫(yī)師,臨床實踐從3年到25年不等。每組中的醫(yī)生從獨立驗證數(shù)據(jù)集中讀取2981個臨床記錄的隨機子集并分配診斷。每條患者記錄被隨機分配并由四名醫(yī)師(每組一名)評分。我們使用F1評分評估了每個醫(yī)師組在前15個診斷類別中的診斷表現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46652

    瀏覽量

    237087
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5463

    瀏覽量

    120890
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    596

    瀏覽量

    13483

原文標(biāo)題:Nature子刊:71位中外科學(xué)家聯(lián)手打造史上最強“AI兒科醫(yī)生”

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    自然語言處理包括哪些內(nèi)容 自然語言處理技術(shù)包括哪些

    自然語言處理(Natural Language Processing, NLP)一般包括以下內(nèi)容: 語音識別(Speech Recognition):將人類語言轉(zhuǎn)換為計算機可以理解的形式。 語音合成
    的頭像 發(fā)表于 08-03 16:22 ?6611次閱讀

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言。自然語言(Natural Language )廣納了眾多技術(shù),對自然或人類
    發(fā)表于 05-02 13:50

    NLPIR語義分析是對自然語言處理的完美理解

    ,融合了網(wǎng)絡(luò)精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。包括大數(shù)據(jù)完整的
    發(fā)表于 10-19 11:34

    hanlp漢語自然語言處理入門基礎(chǔ)知識介紹

    人工智能自然語言處理涉及的幾個層次:作為輸入一共有兩個來源,語音與文本。所以第一級是語音識別和OCR或分詞(事實上,跳過分詞雖然理所當(dāng)然地不能做句法分析,但字符級也可以直接
    發(fā)表于 01-02 14:43

    語義理解和研究資源是自然語言處理的兩大難題

    科技改變生活,智能化設(shè)備在我們生活中的應(yīng)用范圍增加,智能設(shè)備對于語言交互,人機交互的技術(shù)需求也在增加,這些需求也在促進現(xiàn)在的技術(shù)研究進步。從
    發(fā)表于 09-19 14:10

    【推薦體驗】騰訊云自然語言處理

    自然語言處理技術(shù)的功勞??梢哉f,只要有大量文本數(shù)據(jù)的應(yīng)用場景,幾乎都涉及到NLP技術(shù),也都可以使用相關(guān)
    發(fā)表于 10-09 15:28

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務(wù)有哪些?自然語言處理的方法是什么?
    發(fā)表于 09-08 06:51

    自然語言處理怎么最快入門_自然語言處理知識了解

    自然語言處理就是實現(xiàn)人機間自然語言通信,實現(xiàn)自然語言理解和自然語言生成是十分困難的,造成困難的根本原因是
    發(fā)表于 12-28 17:10 ?5277次閱讀

    文本數(shù)據(jù)分析:文本挖掘還是自然語言處理?

    自然語言處理(NLP)關(guān)注的是人類的自然語言與計算機設(shè)備之間的相互關(guān)系。NLP是計算機語言學(xué)的重要方面之一,它同樣也屬于計算機科學(xué)和人工智能
    的頭像 發(fā)表于 04-10 14:58 ?1.8w次閱讀
    <b class='flag-5'>文本</b>數(shù)據(jù)分析:<b class='flag-5'>文本</b>挖掘還是<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>?

    自然語言處理(NLP)的學(xué)習(xí)方向

    自然語言處理(Natural Language Processing,NLP)是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究人與計算機之間用
    的頭像 發(fā)表于 07-06 16:30 ?1.3w次閱讀

    自然語言處理的概念和應(yīng)用 自然語言處理屬于人工智能

      自然語言處理(Natural Language Processing)是一種人工智能技術(shù),它是研究自然語言與計算機之間的交互和通信的一門
    發(fā)表于 08-23 17:31 ?1256次閱讀

    自然語言處理和人工智能的區(qū)別

      自然語言處理(Natural Language Processing,NLP)是人工智能(AI)中的一個分支,它利用計算機技術(shù)自然語言
    發(fā)表于 08-28 17:32 ?1448次閱讀

    自然語言處理是什么技術(shù)的一種應(yīng)用

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能語言學(xué)領(lǐng)域的一個分支,它涉及到使用計算機技術(shù)
    的頭像 發(fā)表于 07-03 14:18 ?557次閱讀

    自然語言處理技術(shù)的核心是什么

    ,廣泛應(yīng)用于機器翻譯、情感分析、語音識別、智能問答、文本摘要等眾多領(lǐng)域。 自然語言處理技術(shù)的發(fā)展可以追溯到20世紀50年代。1950年,圖靈
    的頭像 發(fā)表于 07-03 14:20 ?493次閱讀

    自然語言處理技術(shù)有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的一個分支,它致力于使計算機能夠理解、解釋和生成人類語言。
    的頭像 發(fā)表于 07-03 14:30 ?896次閱讀