「Speech recognition for medical conversations」論文介紹了作者們開(kāi)發(fā)用于醫(yī)療轉(zhuǎn)寫(xiě)的語(yǔ)音識(shí)別系統(tǒng)的經(jīng)歷,這個(gè)系統(tǒng)的功能就是自動(dòng)把醫(yī)生和病人間的對(duì)話自動(dòng)轉(zhuǎn)錄為文字。為了達(dá)到這個(gè)目標(biāo),谷歌的研究人員們沿著兩個(gè)思路構(gòu)建了這個(gè)系統(tǒng):一個(gè)是基于音素的連接性時(shí)間分類(lèi)(Connectionist Temporal Classification)模型,另一個(gè)是基于字母“聆聽(tīng)、關(guān)注、拼寫(xiě)”(Listen Attend and Spell)的模型。
醫(yī)療AI已經(jīng)火熱了很有一陣子了,計(jì)算機(jī)視覺(jué)相關(guān)研究的進(jìn)步讓醫(yī)學(xué)圖像輔助診斷改頭換面,不僅準(zhǔn)確率日新月異,醫(yī)療影像創(chuàng)業(yè)公司也已經(jīng)遍地開(kāi)花。
那么除了醫(yī)療影像之外,深度學(xué)習(xí)還能以別的方式幫助醫(yī)生、服務(wù)病人嗎?答案當(dāng)然是肯定的,谷歌大腦就發(fā)出一篇博文,介紹了他們利用深度學(xué)習(xí)幫助醫(yī)生撰寫(xiě)醫(yī)療文檔的研究進(jìn)展。
理解醫(yī)療對(duì)話
如果醫(yī)生能更好地與整個(gè)團(tuán)隊(duì)溝通自己的想法、擔(dān)憂和未來(lái)計(jì)劃,相信肯定可以給病人帶來(lái)更高的醫(yī)療服務(wù)質(zhì)量,而高質(zhì)量的文檔記錄就能在這個(gè)過(guò)程中起到幫助。醫(yī)生們最想做的事情當(dāng)然是多花點(diǎn)時(shí)間在照顧病人上,然而實(shí)際上醫(yī)生們常常需要花一半的工作時(shí)間在電子醫(yī)療檔案(EHR)中寫(xiě)文檔記錄。與之相關(guān)的是,一份對(duì)醫(yī)生的調(diào)查報(bào)告中也顯示出,參與調(diào)查的醫(yī)生中超過(guò)一半都顯示出了工作超負(fù)荷、精疲力竭的某些癥狀。
為了減輕一些文本記錄的負(fù)擔(dān),有些醫(yī)生已經(jīng)開(kāi)始聘請(qǐng)醫(yī)療速記員參與到他們的日常工作中。這些速記員跟著醫(yī)生,記錄下醫(yī)生和患者之間的溝通對(duì)話,然后在EHR中建立記錄。近期也有一項(xiàng)研究顯示,速記員的引入不僅提高了醫(yī)生的滿意程度,同時(shí)也提高了醫(yī)學(xué)圖表的質(zhì)量和準(zhǔn)確度。不過(guò),醫(yī)生和患者之間對(duì)話的數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)了現(xiàn)有的醫(yī)療速記員的工作能力。
谷歌的研究人員們了解到這一狀況后就開(kāi)始考慮,谷歌的語(yǔ)音識(shí)別技術(shù)如今已經(jīng)有了長(zhǎng)足的發(fā)展、也已經(jīng)應(yīng)用在了GoogleAssistant、GoogleHome和GoogleTranslate中,那它是否也能用來(lái)記錄醫(yī)生和病人之間的對(duì)話、幫助醫(yī)生和速記員更快地總結(jié)整理筆記呢?
在近期發(fā)表的「Speech recognition for medical conversations」論文中,谷歌的研究人員們就表明了可以為醫(yī)學(xué)對(duì)話建立自動(dòng)語(yǔ)音識(shí)別的文本轉(zhuǎn)寫(xiě)系統(tǒng)。當(dāng)前多數(shù)用于醫(yī)學(xué)領(lǐng)域的自動(dòng)語(yǔ)言識(shí)別(ASR)解決方案關(guān)注的重點(diǎn)都是轉(zhuǎn)寫(xiě)醫(yī)生說(shuō)的話(也就是說(shuō),是帶有可預(yù)計(jì)的醫(yī)療詞匯的單說(shuō)話人語(yǔ)音識(shí)別);而谷歌這項(xiàng)研究就展示出構(gòu)建出一個(gè)能夠處理多說(shuō)話人的狀況的、能覆蓋從天氣到復(fù)雜醫(yī)療診斷等多種領(lǐng)域的自動(dòng)語(yǔ)音識(shí)別模型也是可行的。
斯坦福大學(xué)的醫(yī)生和研究者們已經(jīng)在如何提升醫(yī)生滿意度方面做了許許多多的研究,而通過(guò)這種技術(shù),谷歌大腦的研究人員們也將與他們一起合作,更多地研究自動(dòng)語(yǔ)音識(shí)別等深度學(xué)習(xí)的技術(shù)能夠如何幫助醫(yī)生更好地完成文檔記錄過(guò)程。在一項(xiàng)前瞻性研究中,谷歌的研究人員正在探究能從醫(yī)療對(duì)話中提取哪些類(lèi)型的醫(yī)療相關(guān)信息,以便幫醫(yī)生節(jié)省使用EHR系統(tǒng)的時(shí)間。這項(xiàng)研究是完全經(jīng)過(guò)病人同意的,并且為了保護(hù)病人的隱私,錄音的內(nèi)容也是無(wú)法追蹤到病人身份的。
谷歌希望這些技術(shù)不僅能夠幫助醫(yī)生在每天的工作中找回醫(yī)療實(shí)踐中原有的那些快樂(lè),更能夠幫助病人們獲得更專(zhuān)注、更完善的醫(yī)療關(guān)注,最終引向更好的醫(yī)療服務(wù)。
論文簡(jiǎn)介這篇論文中介紹了作者們開(kāi)發(fā)用于醫(yī)療轉(zhuǎn)寫(xiě)的語(yǔ)音識(shí)別系統(tǒng)的經(jīng)歷,這個(gè)系統(tǒng)的功能就是自動(dòng)把醫(yī)生和病人間的對(duì)話自動(dòng)轉(zhuǎn)錄為文字。為了達(dá)到這個(gè)目標(biāo),谷歌的研究人員們沿著兩個(gè)思路構(gòu)建了這個(gè)系統(tǒng):一個(gè)是基于音素的連接性時(shí)間分類(lèi)(Connectionist Temporal Classification)模型,另一個(gè)是基于字母“聆聽(tīng)、關(guān)注、拼寫(xiě)”(Listen Attend and Spell)的模型。為了訓(xùn)練這些模型,谷歌的研究人員們用了大約1萬(wàn)4千小時(shí)的匿名對(duì)話語(yǔ)音及轉(zhuǎn)寫(xiě)結(jié)果作為語(yǔ)料。由于轉(zhuǎn)寫(xiě)結(jié)果中有一些噪音以及對(duì)齊的問(wèn)題,谷歌的研究人員們花費(fèi)了相當(dāng)多的精力研究如何清洗這些數(shù)據(jù),并構(gòu)造了一個(gè)用于數(shù)據(jù)分割的兩步策略。
對(duì)于基于CTC的模型來(lái)說(shuō),數(shù)據(jù)清洗并構(gòu)建一個(gè)對(duì)應(yīng)的語(yǔ)言模型是成功的關(guān)鍵。而基于LAS的模型,谷歌的研究人員們發(fā)現(xiàn)它們對(duì)對(duì)齊、轉(zhuǎn)寫(xiě)噪聲都有很高的抵抗性,并且不需要使用語(yǔ)言模型。最終,CTC模型可以達(dá)到20.1%的單詞錯(cuò)誤率,LAS模型則可以達(dá)到18.3%。作者們的分析表明,兩個(gè)模型在關(guān)鍵的醫(yī)療用語(yǔ)上都有優(yōu)秀的表現(xiàn),確實(shí)可以用于實(shí)際的醫(yī)療對(duì)話轉(zhuǎn)寫(xiě)中。
-
谷歌
+關(guān)注
關(guān)注
27文章
6128瀏覽量
104948 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268105
原文標(biāo)題:除了醫(yī)療影像,醫(yī)學(xué)領(lǐng)域AI還能做什么?
文章出處:【微信號(hào):hc3i8068,微信公眾號(hào):HC3i中國(guó)數(shù)字醫(yī)療網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論