本文作者Albert Haque,Michelle Guo,Adam S Miner和Li Fei-Fei。文章主要介紹了李飛飛團(tuán)隊(duì)的最新研究成果:一種基于機(jī)器學(xué)習(xí)的抑郁癥癥狀嚴(yán)重程度測量方法,該方法使用了視頻、音頻和文本數(shù)據(jù)集,以及因果卷積神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確率超過80%。
抑郁癥現(xiàn)在是一個(gè)全球性問題:已經(jīng)有3億多人患有抑郁癥,嚴(yán)重時(shí)可導(dǎo)致自殺。
由于社會(huì)輿論、高昂成本和治療缺位,60%的精神性疾病患者沒有獲得任何精神健康服務(wù)。就抑郁癥來說,有效且高效的診斷服務(wù)依賴于臨床癥狀檢測,但是,抑郁癥癥狀的自動(dòng)檢測正在打破這一傳統(tǒng),無需臨床檢測也可以潛在地提高診斷準(zhǔn)確性和有效性,從而帶來更快速的干預(yù)治療。
在本文中,我們提出了一種機(jī)器學(xué)習(xí)方法來測量抑郁癥癥狀的嚴(yán)重程度。此多模態(tài)方法使用了3D面部表情和口語,這些數(shù)據(jù)在現(xiàn)在的手機(jī)上很常見。結(jié)果顯示,在經(jīng)過臨床驗(yàn)證過的病人健康問卷(PHQ, Patient Health Questionnaire)水平上,它的的平均誤差僅有3.67分(相對誤差為15.3%);對于檢測重度抑郁癥,模型則顯示出了83.3%的敏感性和82.6%的特異性。
總的來說,本文展示了如何將語音識別、計(jì)算機(jī)視覺和自然語言處理結(jié)合起來幫助精神健康患者,以及相關(guān)的從業(yè)人員。這項(xiàng)技術(shù)還可以應(yīng)用到手機(jī)上,并促進(jìn)低成本和普惠精神健康服務(wù)發(fā)展。
1 介紹
一般來說,精神障礙患者會(huì)由基礎(chǔ)醫(yī)療服務(wù)醫(yī)生等人員進(jìn)行檢查,包括基礎(chǔ)醫(yī)療服務(wù)醫(yī)生。然而,相比身體疾病,精神障礙更難被發(fā)現(xiàn)。而且,諸如社會(huì)輿論、經(jīng)濟(jì)成本和治療缺位等治療障礙又加劇了精神健康的負(fù)擔(dān)。為了解決醫(yī)療服務(wù)中這些根深蒂固的障礙,人們呼吁采取可推廣的方法來檢測精神健康癥狀。如果成功了,早期檢測可能影響到60%未接受治療的精神病成年人,并讓他們有機(jī)會(huì)獲得治療。
在臨床實(shí)踐中,醫(yī)生首先通過面對面臨床問診測量抑郁癥癥狀的嚴(yán)重程度,以此來甄別患者的抑郁癥癥狀。在這些問診中,臨床醫(yī)生同時(shí)評估抑郁癥癥狀的語言和非語言指標(biāo):包括音高單調(diào)、語速降低、音量降低、手勢較少和總向下看,如果這些癥狀持續(xù)了兩周,可以認(rèn)為患者重度抑郁癥發(fā)作。
在臨床人群中,結(jié)構(gòu)化問卷早已用來評估抑郁癥狀的嚴(yán)重程度。最常見的問卷就是病人健康問卷(PHQ)。這種已被臨床驗(yàn)證的工具會(huì)在多個(gè)個(gè)人維度上測量抑郁癥癥狀的嚴(yán)重程度。評估癥狀的嚴(yán)重性雖然需要很多時(shí)間,但這對于初步診斷和進(jìn)一步改善治療服務(wù)都至關(guān)重要。
而基于人工智能的解決方案可以解決這些獲得治療的重重障礙。
圖1:多模態(tài)數(shù)據(jù)。對于每個(gè)臨床問診,我們使用:(a)3D面部掃描的視頻,(b)音頻錄音,可轉(zhuǎn)化為可視化的log-mel聲譜圖,以及(c)患者講話的轉(zhuǎn)錄文本。我們的模型使用了這三種模式預(yù)測抑郁癥癥狀的嚴(yán)重程度。
我們設(shè)想了一種基于人工智能的解決方案:其中的抑郁個(gè)體們可以接受循證精神健康服務(wù),同時(shí)又避免了現(xiàn)有的治療獲取障礙。這種解決方案可以利用多模態(tài)傳感器或者文本消息(就是現(xiàn)代智能手機(jī)上常見的那些)來增多及時(shí)和效率高的癥狀篩查。對話式AI是另一種潛在的解決方案。我們的希望是自動(dòng)化反饋將(i)為可能抑郁的個(gè)體提供可操作的反饋,并(ii)通過包括視覺、音頻和語言信號來改進(jìn)臨床醫(yī)生的抑郁自動(dòng)化篩查工具。
貢獻(xiàn):我們提出了一種機(jī)器學(xué)習(xí)方法通過去識別化的多模態(tài)數(shù)據(jù)來測量抑郁癥癥狀的嚴(yán)重程度。我們模型的輸入是面部關(guān)鍵點(diǎn)的音頻、3D視頻以及患者在臨床問診中的說話轉(zhuǎn)錄文本。我們的模型的輸出要么是PHQ評分,要么是表明重度抑郁癥的分類標(biāo)簽。我們的方法利用了因果卷積網(wǎng)絡(luò)(C-CNN),將句子們“概括”為單個(gè)嵌入,然后使用這個(gè)嵌入來預(yù)測抑郁癥癥狀的嚴(yán)重程度。在我們的實(shí)驗(yàn)中,我們展示了我們基于句子的模型是如何與單詞級嵌入以及前人的工作發(fā)生相互關(guān)系的。
2 數(shù)據(jù)集
我們使用了DAIC-WOZ數(shù)據(jù)集,其中包含了抑郁癥和非抑郁癥患者的音頻和3D面部掃描。對于每一個(gè)患者,我們都提供了PHQ-8評分。這個(gè)語料庫是用半結(jié)構(gòu)化臨床問診數(shù)據(jù)創(chuàng)建的。在半結(jié)構(gòu)化臨床問診中,病人與遙控?cái)?shù)字助理對話,臨床醫(yī)生會(huì)通過數(shù)字助理詢問一系列專門針對抑郁癥癥狀的問題。數(shù)字助理用查詢的方式提問每一個(gè)病人(例如,“你多久去一次你的家鄉(xiāng)?”),并得到對話反饋(例如“酷”)。我們一共收集了來自142名患者的189次臨床問診的共50小時(shí)的數(shù)據(jù)。我們論文的結(jié)果來自驗(yàn)證集。更多的細(xì)節(jié)可以在附錄中找到。這項(xiàng)工作中使用的數(shù)據(jù)不包含受保護(hù)的健康信息(PHI)。數(shù)據(jù)集管理員從音頻錄音和轉(zhuǎn)錄中刪除了對個(gè)人姓名、具體日期和地點(diǎn)的信息。3D面部掃描是低分辨率的(68像素),并不包含足夠的信息來識別出個(gè)人,只包含足夠的信息來測量面部運(yùn)動(dòng),比如眼睛、嘴唇和頭部運(yùn)動(dòng)。雖然數(shù)據(jù)集是公開可用的,但是在未來,將此方法應(yīng)用于其他數(shù)據(jù)集的研究人員可能會(huì)遇到PHI,那時(shí)他們應(yīng)該合理的設(shè)計(jì)實(shí)驗(yàn)。
3 模型
我們的模型由兩個(gè)技術(shù)部分組成:(i)一個(gè)句子級的“概要”嵌入(嵌入的目的是“概括”一個(gè)可變長度的序列,將它變?yōu)楣潭ù笮〉臄?shù)字向量。)和(ii)一個(gè)因果卷積網(wǎng)絡(luò)(C-CNN)。概覽如圖2所示。
句子級嵌入:幾十年來,單詞和音素級嵌入一直是編碼文本和語音的必備因素。雖然這些嵌入在某些任務(wù)中表現(xiàn)不錯(cuò),但它們的句子級建模能力有限。這是因?yàn)閱卧~和音素級嵌入智能捕獲一個(gè)狹窄的時(shí)間范圍,通常最多有幾百毫秒。在這項(xiàng)工作中,我們提出了一種新的多模態(tài)句子級嵌入,這使得我們能夠捕獲更長期的聲音、視覺和語言元素。
圖2:我們的方法:學(xué)習(xí)一個(gè)多模態(tài)句子級嵌入??偟膩碚f,我們的模型是因果卷積神經(jīng)網(wǎng)絡(luò)。輸入到我們的模型是:音頻,3D面部掃描和文本。多模態(tài)句子級嵌入被裝到了抑郁癥分類器和PHQ回歸模型里(上面沒有顯示)。
表1:檢測抑郁癥的機(jī)器學(xué)習(xí)方法的比較。評估了兩項(xiàng)任務(wù):(i)重度抑郁癥的二元分類和(ii)PHQ評分回歸。模態(tài):A:音頻,V:視覺,L:語言(文本),AVL:三者組合。對于前人的工作,數(shù)字來源于原始出版物中的報(bào)告。破折號表示未被報(bào)告度量。
因果卷積網(wǎng)絡(luò):在臨床問診中,患者可能會(huì)結(jié)巴,并且經(jīng)常在說話時(shí)停頓。這導(dǎo)致了抑郁癥患者視聽錄像比非抑郁癥患者時(shí)間更長。近來,因果卷積網(wǎng)絡(luò)(C-CNN)在長序列上的表現(xiàn)優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)。有作者甚至表明,RNNs可以由完全前反饋網(wǎng)絡(luò)(即CNNs)來近似。結(jié)合擴(kuò)張性卷積,C-CNN已經(jīng)可以為抑郁癥篩查問診建立長序列模型。為了更全面地比較C-CNN和RNN,我們建議請讀者查閱Bai et al。
4 實(shí)驗(yàn)
我們的實(shí)驗(yàn)分為兩部分。首先,將我們的方法與現(xiàn)有測量抑郁癥癥狀嚴(yán)重程度的工作進(jìn)行了比較(表1)。我們預(yù)測PHQ評分,并輸出關(guān)于患者是否患有重度抑郁癥的二元分類,通常PHQ評分大于或等于10。其次,我們對我們的模型進(jìn)行消融研究,以更好地理解多模態(tài)和句子級嵌入的效果(表2)。數(shù)據(jù)格式、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)鍵超參數(shù)可以在附錄中找到。
4.1 抑郁癥癥狀嚴(yán)重程度的自動(dòng)測量
在表1中,我們將我們的方法與前人在測量抑郁癥癥狀嚴(yán)重程度方面的工作進(jìn)行了比較。我們的方法與前人工作的一個(gè)區(qū)別在于我們的方法不依賴于問診情景。前人的工作在很大程度上取決于問診情境,比如所問問題的類型,而我們的方法接受沒有這種元數(shù)據(jù)的句子。雖然額外的上下文通常對模型有幫助,但是它可能引入技術(shù)性挑戰(zhàn),比如每個(gè)上下文分類的訓(xùn)練樣本太少。我們方法的另一個(gè)區(qū)別是使用原始輸入模態(tài):音頻、視覺和文本。前人的工作使用的是工程化的特征,比如最小/最大音調(diào)和詞頻。
表2:消融研究。1-2行是手工制作的嵌入,3-6行是前期訓(xùn)練的嵌入,7-8行表示我們學(xué)習(xí)的句子級嵌入。模態(tài):A:音頻,V:視覺,L:語言(文本),AVL:三者組合。TPR和TNR分別表示真陽性率和真陰性率。輸入到7-8行的是log-mel聲譜圖、3D面部和Word2Vecs的序列。
4.2 消融研究
在表2中,1-6行表示手工制作的或前期訓(xùn)練的句子級嵌入。也就是說,整個(gè)輸入語句(音頻、3D面部掃描和轉(zhuǎn)錄)被概括為一個(gè)向量。然而,我們建議通過輸入學(xué)習(xí)一個(gè)句子級嵌入。這些顯示在7和8行里。要注意,我們的方法確實(shí)使用了手工制作和前期訓(xùn)練的單詞級嵌入作為輸入。然而,在內(nèi)部,我們的模型學(xué)習(xí)句子級嵌入。在前期的句子級嵌入工作之后,再簡單計(jì)算1-6行的平均值。為了學(xué)習(xí)句子級嵌入,我們評估了:(i)長短期記憶和(i i)因果卷積網(wǎng)絡(luò)。
5 討論
在我們的工作適用于未來的研究之前,有一些問題需要考慮。
首先,雖然一個(gè)人控制著數(shù)字助理,但是數(shù)據(jù)是從人與計(jì)算機(jī)的訪談中收集的,而不是人與人之間。研究顯示,與真人相比,患者與助理交談時(shí)對公開秘密的恐懼更小,并且表現(xiàn)出更高的情感強(qiáng)度。人們通過向聊天機(jī)器人表露情感還可以體驗(yàn)到心理上的安慰。
第二,雖然它通常用于治療方案設(shè)置和臨床試驗(yàn),但癥狀嚴(yán)重程度評分(PHQ)與抑郁癥的正式診斷不同。我們的工作旨在加強(qiáng)現(xiàn)有的臨床方法,而不是發(fā)布一個(gè)正式的診斷。
最后,雖然預(yù)先存在的嵌入方便使用,但是最近的研究表明這些向量可能包含由于基礎(chǔ)訓(xùn)練數(shù)據(jù)引起的誤差。減小誤差超出了我們的工作范圍,但對于提供敏感的診斷和治療至關(guān)重要。
未來的工作可以更好地利用縱向和時(shí)間信息,例如相隔數(shù)周或數(shù)月的問診中的抑郁癥評分。搞清楚為什么模型會(huì)做出某些預(yù)測也是很有價(jià)值的。諸如3D人臉上的置信度圖譜和音頻片段的“有用性”評分等可視化技術(shù)也可能會(huì)帶來新的見解。
總的來說,我們提出了一種結(jié)合語音識別、計(jì)算機(jī)視覺和自然語言處理技術(shù)的多模態(tài)機(jī)器學(xué)習(xí)方法。我們希望這項(xiàng)工作將激勵(lì)其他人建立基于人工智能并用來了解抑郁癥以外的心理健康障礙的工具。
致謝
這項(xiàng)研究得到了美國國立衛(wèi)生研究院、國家高級轉(zhuǎn)化科學(xué)中心、臨床和轉(zhuǎn)化科學(xué)促進(jìn)中心的支持。本文內(nèi)容僅由作者負(fù)責(zé),并不一定代表NIH的官方觀點(diǎn)。
A 附錄
A.1 數(shù)據(jù)格式
完整的數(shù)據(jù)細(xì)節(jié)可以在原始數(shù)據(jù)集網(wǎng)站找到。音頻是用16kHz的頭戴式麥克風(fēng)記錄。視頻被微軟Kinect以每秒30幀的速度記錄。使用OpenFace提取了總共68個(gè)三維面部關(guān)鍵點(diǎn)。音頻被數(shù)據(jù)集管理員轉(zhuǎn)錄并被分成具有毫秒級時(shí)間戳的句子和短語。我們使用數(shù)據(jù)集的train-val分割:訓(xùn)練(107名患者),驗(yàn)證(35名患者)。注意,當(dāng)一個(gè)測試集存在時(shí),標(biāo)簽不是公開的。我們規(guī)范了轉(zhuǎn)錄中的俚語。比如,bout被翻譯成about,till被翻譯成until,lookin被翻譯成looking。所有文本都被小寫,數(shù)字也規(guī)范化(例如,24代表二十四)。
A.2 實(shí)現(xiàn)細(xì)節(jié)
A.2.1 實(shí)驗(yàn)1:自動(dòng)測量抑郁癥癥狀的嚴(yán)重程度
輸入“我們的方法”,比如如下的因果卷積神經(jīng)網(wǎng)絡(luò):
? 音頻:帶有80個(gè)mel過濾器的log-mel聲譜圖。
? 視覺:68個(gè)三維面部特征點(diǎn)。
? 語言:Word2VEC嵌入。
網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)10層的因果卷積網(wǎng)絡(luò),內(nèi)核大小為5,每層有128個(gè)隱藏節(jié)點(diǎn)。對于所有非線性層,歸零概率為0.5。損失目標(biāo)是用于分類的二元交叉熵,以及用于回歸的平均方差。模型采用Adam優(yōu)化器進(jìn)行優(yōu)化,β1=0.9,β2=0.999,L2的權(quán)重衰減是1e-4。最初的學(xué)習(xí)率為1e-3和1e-5,分別用來分類和回歸。使用的批量大小為16。該模型在一塊NVIDIA V100 GPU上訓(xùn)練,它的最大訓(xùn)練次數(shù)為100。我們的模型用Pytorch實(shí)現(xiàn)。
A.2.2 實(shí)驗(yàn)2:消融研究
對于表2,每一行的詳細(xì)信息如下:
1.用80個(gè)mel過濾器計(jì)算log-mel聲譜圖。
2.用13個(gè)結(jié)果值計(jì)算mel-frequency倒譜系數(shù)。
3.數(shù)據(jù)集總共提供了68個(gè)三維面部關(guān)鍵點(diǎn),它們是用OpenFace提取的。
4.Word2VEC向量使用谷歌公開的Word2VEC模型和Gensim Python庫計(jì)算,每個(gè)向量的長度為300。
5.Doc2Vec向量也使用Gensim計(jì)算,每個(gè)向量的長度為300。
6.通用句子級嵌入使用公開發(fā)行版的Tensorflow計(jì)算,每個(gè)向量的長度為512。
7.LSTM由10層和128個(gè)隱藏單元組成,并且還用附錄A.2.1中所述的相同批量大小,優(yōu)化器等進(jìn)行優(yōu)化。
8.我們的因果卷積神經(jīng)網(wǎng)絡(luò)模型與附錄A.2.1中所概述的模型相同。公共代碼用于實(shí)現(xiàn)LSTM和因果CNN的核心網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建。
-
語音識別
+關(guān)注
關(guān)注
38文章
1710瀏覽量
112493 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901 -
自然語言處理
+關(guān)注
關(guān)注
1文章
596瀏覽量
13483
原文標(biāo)題:李飛飛團(tuán)隊(duì)最新成果:通過口語和3D面部表情評估抑郁癥嚴(yán)重程度
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論