今天,吳恩達(dá)發(fā)推公布了斯坦福發(fā)布的兩個(gè)大型的醫(yī)療數(shù)據(jù)集公開(kāi):CheXpert和MIMIC-CXR。其中,CheXpert內(nèi)含224316X光胸部圖片,MIMIC-CXR內(nèi)含371,920張帶標(biāo)簽的圖片。兩個(gè)數(shù)據(jù)集的數(shù)據(jù)量級(jí)和標(biāo)注精準(zhǔn)度都非常高,可以說(shuō)是造福了一大批相關(guān)從業(yè)者了。
數(shù)據(jù)集下載方式
先給出數(shù)據(jù)集介紹的地址和下載方式。
https://stanfordmlgroup.github.io/competitions/chexpert/
因?yàn)槭轻t(yī)學(xué)數(shù)據(jù)集,斯坦福采取了相對(duì)謹(jǐn)慎的態(tài)度。根據(jù)說(shuō)明,用戶需要遵守下載規(guī)則,填寫資料然后通過(guò)電子郵件給出的鏈接進(jìn)行下載。為了保持?jǐn)?shù)據(jù)集的完整性以及有效性,嚴(yán)禁進(jìn)行“濫用”分享。
數(shù)據(jù)集概況
CheXpert數(shù)據(jù)集里面有224316張胸部X光圖片,共涉及65,240名患者。數(shù)據(jù)集的時(shí)間跨度為2002年10月到2017年7月,都是患者在斯坦福醫(yī)院進(jìn)行胸部X光檢查之后的留存。除此之外,數(shù)據(jù)集還附有相關(guān)的放射學(xué)報(bào)告。
如何為CheXpert數(shù)據(jù)集打標(biāo)簽
每份報(bào)告都對(duì)14項(xiàng)觀察進(jìn)行標(biāo)記,標(biāo)記可能是陽(yáng)性,陰性或不確定性。
14項(xiàng)觀察是根據(jù)報(bào)告中的流行程度和臨床相關(guān)性確定的,并在適用的情況下符合Fleischner Society推薦的術(shù)語(yǔ)表。
此外,還開(kāi)發(fā)了一種基于規(guī)則的自動(dòng)貼標(biāo)機(jī),用于從放射學(xué)報(bào)告中提取觀察結(jié)果,用作圖像的結(jié)構(gòu)化標(biāo)簽。貼標(biāo)機(jī)工作分為三個(gè)不同的階段:提及提取,提及分類和提及聚合。
自動(dòng)貼標(biāo)機(jī)github地址:
https://github.com/stanfordmlgroup/chexpert-labeler
在提及提取階段,貼標(biāo)機(jī)從放射學(xué)報(bào)告的“印象”部分的觀察列表中提取提及,這一部分總結(jié)了放射研究中的關(guān)鍵發(fā)現(xiàn)。在提及分類,則是用每一個(gè)提及來(lái)分類,把觀察到的歸類為陰性的,不確定的或陽(yáng)性的。在提到聚合階段,使用每次提及觀察的分類,就會(huì)得到14個(gè)觀察的最終標(biāo)簽。
基準(zhǔn)模型
基準(zhǔn)模型采用以單視角胸片作為輸入,并輸出14次觀測(cè)中每一次的概率。當(dāng)多個(gè)視圖可用的時(shí)候,模型給出最大概率。
利用不確定性標(biāo)簽
數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集的標(biāo)簽分別為0、1或u。其中,0表示負(fù),1表示正,u表示不確定。在模型訓(xùn)練中,使用了不確定性標(biāo)簽的不同方法。
U-Ignore:在訓(xùn)練期間忽略了不確定的標(biāo)簽。
U-Zeroes:將不確定標(biāo)簽的所有實(shí)例映射到0。
U-Ones:將不確定標(biāo)簽的所有實(shí)例映射到1。
U-SelfTrained:首先使用U-Ignore方法訓(xùn)練模型進(jìn)行收斂,然后使用該模型進(jìn)行預(yù)測(cè),利用模型輸出的概率預(yù)測(cè)重新標(biāo)記每個(gè)不確定性標(biāo)簽。
U-MultiClass:將不確定性標(biāo)簽視為自己的類別。
專注于評(píng)估5項(xiàng)觀察,進(jìn)行“競(jìng)爭(zhēng)任務(wù)”,根據(jù)臨床經(jīng)驗(yàn)和患病率分為:(a)肺不張,(b)心臟擴(kuò)大,(c)肺實(shí)變,(d)水腫(e)胸腔積液。通過(guò)比較了不同不確定性方法在200個(gè)研究的驗(yàn)證集上的表現(xiàn),其中三個(gè)放射科醫(yī)師的注釋作為基礎(chǔ)事實(shí)?;鶞?zhǔn)模型根據(jù)驗(yàn)證集上每個(gè)競(jìng)賽任務(wù)的最佳表現(xiàn)方法選擇的:U- Ones用于肺不張和水腫,U-MultiClass用于心臟擴(kuò)大和胸腔積液,U-SelfTrained用于肺實(shí)變。
測(cè)試集如何設(shè)計(jì)
CheXpert中的測(cè)試集由來(lái)自500“未知”患者的500張X光胸片組成。八名權(quán)威認(rèn)證的放射科醫(yī)師分別對(duì)測(cè)試集中的每張圖片進(jìn)行了注釋。他們將每張圖片標(biāo)記為:現(xiàn)存(present)、不確定(uncertain likely)、不可能(uncertain unlikely)和缺失(absent)。
然后將標(biāo)簽二值化,將現(xiàn)存和不確定病例視為陽(yáng)性,而缺失和不可能病例視為陰性。根據(jù)5位專家的投票確定圖片標(biāo)簽,然后用剩下的三位專家檢驗(yàn)五位專家的表現(xiàn)。
基準(zhǔn)模型在測(cè)試集上表現(xiàn)如何
該模型在胸腔積液(0.97)上達(dá)到最佳AUC,在肺不張(0.85)上達(dá)到最差。所有其他觀測(cè)的AUC至少為0.9。在心臟擴(kuò)大,水腫和胸腔積液上,該模型比所有3位放射科醫(yī)師獲得更高的表現(xiàn),但卻不是他們的多數(shù)投票。在肺實(shí)變方面,模型性能超過(guò)3位放射科醫(yī)師中的2位,而在Atelectasis上,所有3位放射科醫(yī)師的表現(xiàn)均優(yōu)于模型。
與麻省理工學(xué)院的聯(lián)合發(fā)布MIMIC-CXR數(shù)據(jù)集
此外還有和MIMIC-CXR共同發(fā)布包含371,920張胸部X射線圖片的大型數(shù)據(jù)集。該數(shù)據(jù)集的時(shí)間跨度為2011年~2016年。這些數(shù)據(jù)與Beth Israel Deaconess醫(yī)療中心的227,943個(gè)影像學(xué)研究相關(guān)。每個(gè)成像研究可能包含一個(gè)或多個(gè)圖像,但一般是兩個(gè)圖像:正面視圖和側(cè)視圖。
相關(guān)論文下載地址:https://arxiv.org/pdf/1901.07042.pdf
圖像提供有14個(gè)標(biāo)簽,這些標(biāo)簽來(lái)自放射學(xué)報(bào)告的自然語(yǔ)言處理工具。CheXpert數(shù)據(jù)集和MIMIC-CXR共享一個(gè)共同的貼標(biāo)機(jī),CheXpert貼標(biāo)機(jī),用于從放射學(xué)報(bào)告中獲取相同的標(biāo)簽集。
最后展望
阻礙胸部X光片解釋模型發(fā)展之一是,缺乏具有強(qiáng)放射學(xué)家注釋的地面真實(shí)性和專家評(píng)分的數(shù)據(jù)集。研究人員可以根據(jù)這些數(shù)據(jù)對(duì)其模型進(jìn)行比較。希望CheXpert將填平這一溝谷,以便在臨床重要任務(wù)中隨時(shí)跟蹤模型的進(jìn)展。
此外,吳恩達(dá)團(tuán)隊(duì)本次開(kāi)發(fā)并開(kāi)源了CheXpert貼標(biāo)機(jī),這是一種基于規(guī)則的自動(dòng)貼標(biāo)機(jī),用于從自由文本放射學(xué)報(bào)告中提取觀察結(jié)果,用作圖像的結(jié)構(gòu)化標(biāo)簽。我們希望這可以幫助其他機(jī)構(gòu)輕松地從報(bào)告中提取結(jié)構(gòu)化標(biāo)簽,并發(fā)布其他大型數(shù)據(jù)庫(kù),以便對(duì)醫(yī)學(xué)成像模型進(jìn)行跨機(jī)構(gòu)測(cè)試。
最后,斯坦福也作出展望,希望該數(shù)據(jù)集能夠幫助開(kāi)發(fā)和驗(yàn)證胸部X光片解釋模型,以改善全球醫(yī)療服務(wù)的獲取和交付。
-
MIT
+關(guān)注
關(guān)注
3文章
253瀏覽量
23347 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24621
原文標(biāo)題:斯坦福聯(lián)合MIT,發(fā)布兩類巨大量級(jí)X光胸片數(shù)據(jù)集
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論