眾所周知,利用 Deepfake 技術(shù)可以自動生成虛假圖像,輕松達(dá)到以假亂真的結(jié)果。但這還不夠,隨著該技術(shù)的不斷升級,它還有更多意想不到的應(yīng)用正在被挖掘?,F(xiàn)在,一個能更加方便快捷創(chuàng)建虛假視頻和錯誤信息的方法出現(xiàn)了。
在最新的深度技術(shù)突破中,研究人員展示了一種新方法,該方法使用機(jī)器學(xué)習(xí)技術(shù)讓用戶編輯視頻文本內(nèi)容,來添加、刪除或更改視頻人物中的話語。
也就是說,如果你想對一段人物特寫視頻進(jìn)行重新編輯,只需要對視頻所對應(yīng)的文本內(nèi)容進(jìn)行修改,隨后人臉會根據(jù)修改的文本內(nèi)容作出與之相配的動作表達(dá)。
研究人員在一段視頻講解中給出了一些例子,比如將電影《現(xiàn)代啟示錄》中的一段人物特寫鏡頭中的臺詞“我喜歡早晨的汽油彈的氣味”更改為“我喜歡早晨的法國土司的味道?!彪S著臺詞的變化,系統(tǒng)自動會重新合成人物的臉部發(fā)聲動作,給出編輯后的視頻。
這項研究由斯坦福大學(xué)、馬克斯普朗克信息學(xué)研究所、普林斯頓大學(xué)和 Adobe 研究所的科學(xué)家共同合作完成,它表明人們能夠更輕松地編輯視頻人物所說的內(nèi)容并制作逼真的虛假視頻。
研究人員認(rèn)為,他們的方法完全朝著基于文本編輯和合成一般視聽內(nèi)容的目標(biāo)邁出了重要一步。
不過,該方法目前正處于研究階段,普通用戶還不能使用,但市面上已經(jīng)有類似的軟件。Adobe 就發(fā)布了一個叫 VoCo 原型軟件,該方法允許用戶像編輯圖片一樣輕松編輯語音內(nèi)容。
但該系統(tǒng)給出的結(jié)果要更加精細(xì)。根據(jù)論文《基于文本的頭部特寫視頻編輯》(https://www.ohadf.com/projects/text-based-editing/data/text-based-editing.pdf)介紹,該系統(tǒng)的輸入包括講話的頭部特寫視頻、講話的文本和指定的編輯操作,他們的工具支持三種類型的編輯操作:
增加新單詞:編輯器在視頻中的某一點添加一個或多個連續(xù)的單詞。
重新排列現(xiàn)有的單詞:編輯移動一個或多個存在于視頻中的單詞。
刪除現(xiàn)有單詞:編輯從視頻中刪除一個或多個單詞。
為了做出虛假視頻,研究者們主要分為五個階段來處理視頻。在音位排列階段,他們將轉(zhuǎn)錄文本與視頻進(jìn)行比對,然后在跟蹤重建階段,用視頻生成了一個三維參數(shù)頭部模型。每個輸入視頻完成這樣的預(yù)處理步驟,然后執(zhí)行視位搜索(viseme search),在編輯器中找到音素的子序列和輸入視頻中音素的子序列之間的最佳視覺匹配。研究者們還提取了編輯位置周圍的區(qū)域作為背景序列,從中提取背景像素和姿態(tài)數(shù)據(jù)。對于每個子序列他們混合三維頭部模型的參數(shù),然后加上背景像素,最終呈現(xiàn)一個真實的全畫幅視頻(full-frame video)。
(注:視覺音素 / 視素(visual phoneme/viseme)是嘴唇和面部的姿勢或表達(dá),其對應(yīng)于特定的語音(音素),是具備可理解度的基本視覺單元。在計算機(jī)動畫中,我們可以使用視覺音素來制作虛擬角色的動作,令它們看起來像是在說話。)
當(dāng)有人編輯視頻的文本內(nèi)容時,系統(tǒng)會將所有這些收集的數(shù)據(jù)(音素、視位和 3D 臉部模型)組合在一起,以構(gòu)建與文本輸入相匹配的新素材,然后將其粘貼到源視頻上以創(chuàng)建最終的結(jié)果。
研究人員還將他們的方法與其他對講視頻合成技術(shù)進(jìn)行了比較。他們分別用 5% 、10%、50% 和 100% 的訓(xùn)練數(shù)據(jù)來測試結(jié)果。使用 100% 的數(shù)據(jù)量,每幅圖像的平均 RMSE(標(biāo)準(zhǔn)誤差) 為 0.018,使用 50% 的數(shù)據(jù)量為 0.019,只使用 5%的數(shù)據(jù)量為 0.021 。
他們還用各種合成短語進(jìn)行測試,發(fā)現(xiàn)短語長度與結(jié)果質(zhì)量沒有直接關(guān)系。而組成短語的視位和音素對齊質(zhì)量等其他因素會影響最終結(jié)果。
他們還嘗試將 MorphCut 應(yīng)用于單詞的加法問題。MorphCut 在兩幀圖像之間產(chǎn)生一個大的頭部跳躍。
將檢索到的viseme序列與MorphCut拼起來生成一個新單詞
同時,他們與 Face2Face[Thiesetal.2016]方法進(jìn)行了比較,他們的方法生成了高質(zhì)量結(jié)果,而基于檢索的 Face2Face 方法顯示出鬼影現(xiàn)象,并且不穩(wěn)定。
與 Face2Face 進(jìn)行比較
為了定量評估基于文本的編輯系統(tǒng)生成的視頻質(zhì)量,研究人員發(fā)起了一項基于 web 的用戶測試研究,參與者有 138 名。
在向 138 名志愿者進(jìn)行虛假視頻的測試時,大約 60% 的參與者認(rèn)為編輯過的視頻是真實的,雖然這個數(shù)據(jù)聽起來不怎么好,但另一數(shù)據(jù)顯示,同一組內(nèi)只有 80% 的參與者認(rèn)為原始未經(jīng)編輯的鏡頭才是合理的。(研究人員指出,這可能是因為一些人在測試前被告知他們的答案會用于視頻編輯研究,這意味著受試者已經(jīng)準(zhǔn)備好要找到虛假視頻。)
以上評估表明,他們的方法展示了令人信服的結(jié)果,但該研究也存在一定的局限性,還有進(jìn)一步優(yōu)化的空間。
例如,新的合成方法需要重新計時(re-timed)的背景視頻作為輸入,但重新計時會改變動作的速度,因此眨眼和手勢可能不再與講話動作完全一致,為了減少這種影響,他們使用了比實際編輯更長的重新計時區(qū)間以修改更多原始視頻片段。
這里的算法只能用于對特寫風(fēng)格的視頻施加影響,并且這需要 40 分鐘的輸入數(shù)據(jù)。編輯過的語音似乎與源材料的差別不大,并且在最優(yōu)質(zhì)的虛假視頻中,研究人員要求拍攝對象錄制新的音頻以匹配這種變化,然后用 AI 生成視頻。
研究人員還指出,他們還不能改變?nèi)宋镎f話聲音的情緒或語調(diào),因為這樣做會產(chǎn)生“不可思議的結(jié)果”,例如,如果人物在說話時揮手對臉部進(jìn)行遮擋會讓算法完全失效。
在未來,研究人員指出,端到端學(xué)習(xí)可以用來學(xué)習(xí)一種從文本到視聽內(nèi)容的直接映射。
這些局限性始終存在于早期研究中,不過研究人員可以保證它們能夠及時得到克服,這意味著任何人都可以在沒有技術(shù)培訓(xùn)的情況下使用系統(tǒng)來編輯人們在視頻中所說的內(nèi)容。
這項技術(shù)的潛在危害非常令人擔(dān)憂,該領(lǐng)域的研究人員經(jīng)常因未能考慮可能濫用其研究而受到批評。但參與這一特定項目的科學(xué)家表示,他們已經(jīng)考慮過這些問題。
在這篇論文附帶的博客文章中,他們寫道:“雖然圖像和視頻處理的方法與媒介本身一樣久遠(yuǎn),但當(dāng)其應(yīng)用于思想和意圖等權(quán)威證據(jù)的交流方式時,濫用的風(fēng)險會更高?!八麄円渤姓J(rèn),不法分子可能會使用此類技術(shù)偽造個人陳述并用于誹謗知名人士。
為了防止人們混淆原始視頻和虛假視頻,他們給出的解決方案是人工智能編輯的視頻應(yīng)該通過使用水印或通過上下文直接清楚地呈現(xiàn)(例如觀眾理解他們正在觀看的是虛構(gòu)電影)。
但顯然,The Verge 指出,水印很容易被消除,而且網(wǎng)絡(luò)媒體在傳播會去掉上下文場景描述,虛假事物并不需要完美無瑕。很多虛假的新聞文章很容易被揭穿,但這并不能阻止它們的傳播,尤其是對于那些想要相信這種符合他們先入之見的謊言的社區(qū)。
當(dāng)然,這樣的技術(shù)也有許多有益的用途,比如對電影和電視行業(yè)有很大的幫助,可以讓他們在不重新錄制鏡頭的情況下修復(fù)讀錯的臺詞,并幫助不同語言的演員進(jìn)行無縫配音。不過,與潛在的濫用等威脅相比,這些益處好像并不足以使人們信任這項技術(shù),反而,它在技術(shù)上的突破更大,人們會更加感到不安。
-
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268103
原文標(biāo)題:“篡改”視頻腳本,讓特朗普輕松“變臉”?AI Deepfake再升級
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論