站在新的一年回望過去,不管是在基礎(chǔ)設(shè)施、AI醫(yī)療場景成熟度、資本注入等環(huán)節(jié),以醫(yī)學(xué)影像AI產(chǎn)品為代表的醫(yī)療AI,終于迎來了一次集體綻放。
據(jù)雷鋒網(wǎng)《醫(yī)健AI掘金志》的統(tǒng)計,前后已經(jīng)有八款產(chǎn)品獲批。事實上,醫(yī)療AI的商業(yè)化從來不是靠一己之力就能完成的任務(wù):行業(yè)標(biāo)準(zhǔn)的形成、審批層面的規(guī)范、數(shù)據(jù)質(zhì)量的提升、產(chǎn)業(yè)資源的整合,每一個環(huán)節(jié)都至關(guān)重要。
醫(yī)療AI發(fā)展的過程中,最重要的是做好頂層設(shè)計。
此前,中國醫(yī)學(xué)影像AI產(chǎn)學(xué)研用創(chuàng)新聯(lián)盟理事長、大會主席劉士遠主任曾向《醫(yī)健AI掘金志》表示,“現(xiàn)在行業(yè)缺少的就是標(biāo)準(zhǔn),每個環(huán)節(jié)都是。雖然已經(jīng)有企業(yè)拿到三類證,但是這僅僅是一個開端。進入臨床以前,任何一個醫(yī)療產(chǎn)品都要有效果考核體系,要考核有效性、安全性、穩(wěn)定性。”
作為醫(yī)學(xué)影像人工智能建設(shè)的要素之一,我國數(shù)據(jù)庫建設(shè)仍然缺乏。目前可公開的數(shù)據(jù)庫不多,數(shù)據(jù)的標(biāo)注標(biāo)準(zhǔn)也不統(tǒng)一。
而在2020年第二屆醫(yī)學(xué)影像AI大會上,醫(yī)學(xué)圖像數(shù)據(jù)庫放射影像數(shù)據(jù)庫建設(shè)項目正式啟動,建成后也將成為國內(nèi)首個醫(yī)學(xué)影像的標(biāo)準(zhǔn)化數(shù)據(jù)庫。
醫(yī)療AI,每一步都走在持久但正確的道路上。
今天介紹的文章主題正是圍繞“醫(yī)學(xué)影像數(shù)據(jù)庫”,由浙江大學(xué)應(yīng)用數(shù)學(xué)研究所的孔德興教授在第二屆醫(yī)學(xué)影像AI大會上發(fā)表。
孔德興教授是浙江大學(xué)特聘教授,博士生導(dǎo)師,應(yīng)用數(shù)學(xué)研究所長,研究方向是醫(yī)學(xué)圖像處理與醫(yī)學(xué)人工智能。發(fā)表了將近70篇SCI文章,擁有已授權(quán)發(fā)明專利7項。作為AI技術(shù)的前沿觀察者與參與者,孔德興教授在醫(yī)療數(shù)據(jù)庫的建設(shè)方面具有許多獨到的心得。
以下為孔德興教授的演講內(nèi)容,雷鋒網(wǎng)《醫(yī)健AI掘金志》作了不改變原意的編輯:
孔德興:非常高興能在大會上介紹我們團隊在數(shù)據(jù)庫建設(shè)方面的一些工作和探索,今天主要匯報數(shù)據(jù)庫的建設(shè)情況。
大數(shù)據(jù)是必須要做的,有以下三點:
一是現(xiàn)在的發(fā)展階段面臨大數(shù)據(jù)的支持;
二是國家的重大戰(zhàn)略;
三是大數(shù)據(jù)對科學(xué)研究也提出了一些挑戰(zhàn)性的問題,在工業(yè)、農(nóng)業(yè)、商業(yè)、國防等等有重大的價值。
當(dāng)今時代是大數(shù)據(jù)的時代,在這里我用廣義相對論表述一下對大數(shù)據(jù)的理解,有以下幾點,
第一點:協(xié)變性,任何一個數(shù)據(jù)都是對客觀對象的描述,如同用不同的坐標(biāo)系描述物理規(guī)律,CT和超聲是對客觀對象不同模態(tài)的描述與刻畫。
第二點:從量變到質(zhì)變過程中,人工智能測試的數(shù)據(jù)樣本量沒有一個準(zhǔn)確的概念,然而這個對臨床的準(zhǔn)確性是重要的,這關(guān)系到醫(yī)療人工智能產(chǎn)品的準(zhǔn)確率。
第三點:醫(yī)學(xué)大數(shù)據(jù)有一個關(guān)聯(lián)聚合性原理。簡單來說,把每家醫(yī)院不共享的數(shù)據(jù)整合應(yīng)用,就會產(chǎn)生匯聚數(shù)據(jù)。各大醫(yī)院匯聚的是不同分布式的中心數(shù)據(jù),用一些分布式架構(gòu)匯聚起來。
通過技術(shù)手段可以破解數(shù)據(jù)庫帶來的挑戰(zhàn)。每家數(shù)據(jù)都是描述醫(yī)學(xué)規(guī)律的內(nèi)部本質(zhì)的規(guī)律,只是我們從不同的數(shù)據(jù)點反映側(cè)重點不一樣,匯聚起來產(chǎn)生一個整體的現(xiàn)象。
第四點:數(shù)據(jù)的重整化,我們可以復(fù)制、標(biāo)注、加工利用數(shù)據(jù),使其不停完善,量變產(chǎn)生質(zhì)變,匯聚產(chǎn)生價值。
數(shù)據(jù)是一種新型的資源,而處理數(shù)據(jù)的算法是一種資產(chǎn),有了這些資源就有了算法。
好的數(shù)據(jù)是一種資源,是人工智能發(fā)展的基石,需要真實性、準(zhǔn)確性、完整性、可溯性等等。
隨著研究和企業(yè)產(chǎn)業(yè)化的深入,當(dāng)務(wù)之急是建立一些高質(zhì)量高標(biāo)準(zhǔn)的數(shù)據(jù)庫。從量變到質(zhì)變,從臨床醫(yī)學(xué)模式到循證醫(yī)學(xué)模式,從靜態(tài)處理到動態(tài)處理,從單科影像到多模塊交叉,建立好的人工智能算法。所有的一切都是建立在好的數(shù)據(jù)基礎(chǔ)上。
從建立數(shù)據(jù)庫時間關(guān)系,我簡單按四點給大家分享一下。首先,醫(yī)學(xué)影像人工智能對數(shù)據(jù)的要求,建立數(shù)據(jù)庫的規(guī)范,數(shù)據(jù)庫標(biāo)準(zhǔn)的規(guī)范化,最后是建立數(shù)據(jù)庫面臨的問題。
首先,我們要提幾個概念,第一個是數(shù)據(jù)治理,一個好的數(shù)據(jù)庫離不開數(shù)據(jù)治理??偟膩碇v,數(shù)據(jù)治理是數(shù)據(jù)資產(chǎn)管理形成前的一個集成活動,包括建庫的計劃和監(jiān)督執(zhí)行的要求。
另外一點,數(shù)據(jù)治理有基本概念,是希望從零散的數(shù)據(jù)變成統(tǒng)一數(shù)據(jù),從很少沒有組織的流程到全方位的綜合治理,從零散的變成一個有計劃、有執(zhí)行、有治理的活動。
數(shù)據(jù)治理有以下幾個特征:第一,因為多模態(tài)多維度動態(tài)化的特點,數(shù)據(jù)采集難度大。第二,現(xiàn)階段方法手段較少。第三,數(shù)據(jù)關(guān)聯(lián)度高,關(guān)聯(lián)性復(fù)雜。
正如前面所說的,雖然超聲CT模態(tài)和表面形態(tài)不一樣,但是都是描述某一個人的肝癌信息。最后一點是,時間周期長。
我們希望,數(shù)據(jù)庫能做到這三個層面,第一是目前階段,數(shù)據(jù)庫把數(shù)據(jù)歸集起來變成一個有特殊結(jié)構(gòu)的數(shù)據(jù);
第二是把數(shù)據(jù)庫變成一個專家?guī)?,有?shù)據(jù)入駐要求和標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn),治療方法等;
第三,希望數(shù)據(jù)庫能做到動態(tài),比如肝癌,醫(yī)生通過隨訪肝癌高發(fā)原因,給政府提建議,共享疾病的現(xiàn)狀,從現(xiàn)在的被動治療到疾病預(yù)防,這是至關(guān)重要的。
所以,我們的數(shù)據(jù)庫是有三個:傳統(tǒng)數(shù)據(jù)庫,專家數(shù)據(jù)庫,然后到國家的數(shù)據(jù)庫。
數(shù)據(jù)管理和數(shù)據(jù)治理有不同之處。
數(shù)據(jù)治理是很大的框架,而數(shù)據(jù)管理是數(shù)據(jù)治理的一部分,同時數(shù)據(jù)治理對數(shù)據(jù)管理有指導(dǎo)和評估的作用。
數(shù)據(jù)治理的體系是需要從全局范圍描述大數(shù)據(jù)治理的主要內(nèi)容,包括保障機制,核心領(lǐng)域,實施評估等等。數(shù)據(jù)治理不是一個虛的東西,是一個系統(tǒng)的選擇,難度很大。
我希望,從不同模態(tài)數(shù)據(jù)整理出不同醫(yī)院的數(shù)據(jù),抽象出一個數(shù)據(jù)治理指導(dǎo)性原則,現(xiàn)在這個目標(biāo)對我們來說很有挑戰(zhàn)性,我們在數(shù)據(jù)治理做了大量的調(diào)研工作,今年年底能出來一個框架,可以進行參考。
我們有一個數(shù)據(jù)的管理體系,管理體系的落實和指導(dǎo)有相對應(yīng)的管理工作機制,還有一個支撐數(shù)據(jù)管理的系統(tǒng)。
數(shù)據(jù)治理是一個全生命周期的管理過程,首先有一個數(shù)據(jù)采集,形成原始數(shù)據(jù)庫,數(shù)據(jù)歸集成為數(shù)據(jù)集;再做數(shù)據(jù)預(yù)處理,清洗成基礎(chǔ)的數(shù)據(jù)庫;通過醫(yī)學(xué)專家制定的標(biāo)準(zhǔn)指南來定義標(biāo)注。
其中,我們對標(biāo)注做了大量研究,發(fā)現(xiàn)各個研究機構(gòu)包括不同的學(xué)會、不同的企業(yè)和醫(yī)院標(biāo)準(zhǔn)不一樣,同樣的數(shù)據(jù)讓不同的研究機構(gòu)標(biāo)注,結(jié)果都不相同。
我們一旦建成標(biāo)準(zhǔn)數(shù)據(jù)庫,就進行數(shù)據(jù)算法的訓(xùn)練和調(diào)用。算法的測試可以在醫(yī)院進行,這對于整個數(shù)據(jù)庫的建設(shè)非常重要。因為醫(yī)院數(shù)據(jù)的維度不同,包括來源地域不一樣,方法不一樣。
比如,用上海同濟醫(yī)院數(shù)據(jù)研發(fā)做出的人工智能產(chǎn)品,而沒有其他醫(yī)院的數(shù)據(jù),這個產(chǎn)品可能只適合同濟醫(yī)院。經(jīng)過藥監(jiān)局的批準(zhǔn)也只能適用同濟醫(yī)院。
在數(shù)據(jù)質(zhì)量管理體系中,對于數(shù)據(jù)的采集包括標(biāo)注的房間光線都有要求。在這樣的要求下,才能做到高質(zhì)量的數(shù)據(jù)結(jié)果。
隱私安全是建立數(shù)據(jù)庫的重中之重。國家衛(wèi)健委啟動國家數(shù)據(jù)庫的建立,首要就是隱私保護,包括在倫理方面都有很大的要求。
醫(yī)學(xué)影像人工智能發(fā)展對數(shù)據(jù)的要求,首先是符合建庫要求,具有科學(xué)性、權(quán)威性、先進性,而且是動態(tài)的,能根據(jù)發(fā)展去更新數(shù)據(jù),具體情況具體分析。
規(guī)范化構(gòu)建數(shù)據(jù)庫,目的是建立一個安全合規(guī)數(shù)據(jù)共享的數(shù)據(jù)庫。其組織形式是需要專家隊伍制定數(shù)據(jù)標(biāo)準(zhǔn)和質(zhì)量評估標(biāo)準(zhǔn),然后討論實施。
標(biāo)準(zhǔn)建立以后每一個環(huán)節(jié)都需要一個規(guī)范化的執(zhí)行操作過程。我們建庫的出發(fā)點是需求的驅(qū)動,以患者為中心建立一個長效全景的數(shù)據(jù)庫。
國家衛(wèi)生健康委牽頭和浙江求是數(shù)理醫(yī)學(xué)研究院、清華大學(xué)長庚醫(yī)院、中國醫(yī)學(xué)影像AI產(chǎn)學(xué)研用創(chuàng)新聯(lián)盟正建設(shè)超聲、CT肺、肝臟臨床數(shù)據(jù)庫;
還有糖網(wǎng)病眼底數(shù)據(jù)庫和檢測數(shù)據(jù)庫,其他的比如浙江數(shù)理醫(yī)學(xué)學(xué)會等機構(gòu)都在建立,但是需要統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范。
數(shù)據(jù)庫建立基本原則是臨床和科研的需求,需要把臨床、科研和企業(yè)產(chǎn)業(yè)化的標(biāo)準(zhǔn)統(tǒng)一起來,是在質(zhì)量控制體系下高效成本低的建庫標(biāo)準(zhǔn)。這是幾個基本原則。
數(shù)據(jù)的標(biāo)注也要規(guī)范化。標(biāo)準(zhǔn)和專家共識是至關(guān)重要的。我們要做一個標(biāo)準(zhǔn)流程讓醫(yī)生勾畫,人工做的和智能做的在標(biāo)準(zhǔn)的軟件中進行。
數(shù)據(jù)標(biāo)注有以下難點:首先,專家共識很難達成一致。比如如何合理組織專家隊伍,環(huán)境標(biāo)準(zhǔn),使用工具的可信度,不同人有不同的理解。
到現(xiàn)在為止,我們面臨的挑戰(zhàn)很多。
第一,社會資源投入不夠。建庫是一個規(guī)范的事情,是一個長城工程,需要大量的社會投入,需要我們政府、企業(yè)和研究機構(gòu)三方協(xié)同。
第二,數(shù)據(jù)庫建設(shè)滯后。
第三是數(shù)據(jù)類型比例不均,有的數(shù)據(jù)樣本量少,還有的數(shù)據(jù)更新比較快。
面對挑戰(zhàn),我們希望加快建設(shè),希望政府企業(yè)各方面一起投入,一起組建高質(zhì)量的專家組進行數(shù)據(jù)標(biāo)準(zhǔn)的制定。我們需要衛(wèi)健委統(tǒng)一國家數(shù)據(jù)資源,開放共享,不能讓勞動白白付出。
這是一個國家工程,需要各個方面的投入,是一個功蓋千秋的工程,需要大家關(guān)注的一件事情。謝謝大家。
原文標(biāo)題:浙大孔德興:醫(yī)學(xué)影像數(shù)據(jù)庫,做持久且正確的事情 | 經(jīng)典回顧
文章出處:【微信公眾號:IoT科技評論】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
智能醫(yī)療
+關(guān)注
關(guān)注
27文章
1380瀏覽量
74424
原文標(biāo)題:浙大孔德興:醫(yī)學(xué)影像數(shù)據(jù)庫,做持久且正確的事情 | 經(jīng)典回顧
文章出處:【微信號:IoT_talk,微信公眾號:醫(yī)健AI掘金志】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論