利用深度學(xué)習(xí)“換臉”合成假視頻的技術(shù)發(fā)展之快令人驚嘆,也令人深感不安。但是,道高一尺魔高一丈,研究人員已經(jīng)研究出一種新方法來檢測這些被操縱的換臉視頻的“跡象”:這是普通人都會注意到的一個缺陷:缺少眨眼。
紐約州立大學(xué)奧爾巴尼分校計算機(jī)科學(xué)系的研究人員最近發(fā)表了一篇題為“In Ictu Oculi:通過檢測眨眼來揭露AI產(chǎn)生的換臉假視頻”。論文詳細(xì)介紹了他們?nèi)绾谓M合兩個神經(jīng)網(wǎng)絡(luò),從而更有效地揭露哪些視頻是AI合成的。這些視頻往往忽略了“自發(fā)的、無意識的生理活動,例如呼吸、脈搏和眼球運(yùn)動”。
研究人員指出,人類靜止時的眨眼頻率平均為每分鐘17次;當(dāng)一個人說話時,眨眼頻率增加到每分鐘26次,閱讀時則減少到每分鐘4.5次。研究人員補(bǔ)充說,這些區(qū)別值得注意,“因為視頻上正在說話的發(fā)言者,被拍攝時可能實際上正在閱讀?!币虼?,當(dāng)視頻中某個正在說話的人完全不眨眼,很容易就能看出這段錄像是假的。
深度學(xué)習(xí)技術(shù)產(chǎn)生的假視頻(deepfake videos)中的主體不會眨眼,原因之一是:大多數(shù)提供給神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集不包含閉眼的照片,因為人們在網(wǎng)上公開的照片通常都是睜眼的。這是必然的結(jié)果,因為創(chuàng)造deepfake視頻需要手機(jī)大量的個人照片,而這個過程可以通過開源的照片抓取工具從網(wǎng)絡(luò)上獲取公開照片。
之前的論文已經(jīng)指出,缺乏眨眼是檢測deepfakes的一種方法,但奧爾巴尼大學(xué)的研究人員表示,他們的系統(tǒng)比之前提出的檢測方法更準(zhǔn)確。之前的研究使用眼睛長寬比(EAR)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類器來檢測眼睛是睜開著還是閉著。新的研究里,研究人員將基于CNN的方法與遞歸神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)合起來,這種方法除了考慮單個視頻幀之外,還考慮以前的眼睛的狀態(tài)。
LRCN方法的概覽
與單純的CNN模型不同,研究人員表示,他們的長期遞歸卷積網(wǎng)絡(luò)( Long-term Recurrent Convolutional Network ,LRCN)方法可以“有效地預(yù)測眼睛狀態(tài),從而可以更加準(zhǔn)確?!备鶕?jù)論文,這種方法的準(zhǔn)確率為0.99,相比之下,CNN的準(zhǔn)確率為0.98,而EAR的準(zhǔn)確率為0.79。
LRCN和CNN、EAR方法的結(jié)果比較
至少,研究人員的發(fā)現(xiàn)表明,我們有辦法揭露機(jī)器學(xué)習(xí)技術(shù)創(chuàng)造出來的非常逼真假視頻。例如,一個叫做Deep Video Portraits的新系統(tǒng)能給視頻中的人物“換臉”,甚至可以再現(xiàn)臉部的動作、面部表情、說話口型和實現(xiàn)方向。
Deep Video Portraits
令人欣慰的是,研究人員正在尋找識別假視頻的方法,特別是因為這項技術(shù)可能被濫用,以及可能促進(jìn)假新聞的傳播。但這些檢測方法是否會超過deepfake技術(shù)的發(fā)展速度,還有待觀察。
“在我個人看來,最重要的是,公眾必須意識到現(xiàn)代技術(shù)在視頻生成和編輯方面的有很大的能力,”斯坦福大學(xué)訪問助理教授Michael Zollhofer在一篇博客文章中寫道:“這將使他們更批判性地思考自己每天消費(fèi)的視頻內(nèi)容,尤其是在視頻內(nèi)容沒有來源證明的情況下?!?/p>
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4717瀏覽量
99996 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131838 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5422瀏覽量
120587
原文標(biāo)題:反“換臉”魔高一丈:新方法識別假視頻正確率達(dá)99%
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論