華盛頓大學(xué)和臉譜網(wǎng)的研究人員使用深度學(xué)習(xí)將靜止圖像轉(zhuǎn)換成逼真的動(dòng)畫循環(huán)視頻。
他們的方法 將在即將召開的計(jì)算機(jī)視覺和模式識(shí)別會(huì)議( CVPR )上發(fā)布的這項(xiàng)技術(shù)模擬了連續(xù)的流體運(yùn)動(dòng),如流動(dòng)的水、煙和云,將靜止圖像轉(zhuǎn)換成無(wú)縫循環(huán)的短視頻。
“我們的方法的特別之處在于它不需要任何用戶輸入或額外的信息,” Aleksander Ho?yński ,華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程博士生,項(xiàng)目負(fù)責(zé)人說。你只需要一張照片。它可以輸出一個(gè)高分辨率的無(wú)縫循環(huán)視頻,通常看起來像一個(gè)真實(shí)的視頻。”
團(tuán)隊(duì)創(chuàng)建了一種稱為“對(duì)稱飛濺”的方法從靜止圖像預(yù)測(cè)過去和未來的運(yùn)動(dòng),結(jié)合這些數(shù)據(jù)創(chuàng)建無(wú)縫動(dòng)畫。
“當(dāng)我們看到瀑布時(shí),我們知道水應(yīng)該如何運(yùn)動(dòng)?;鸹驘熞彩侨绱?。這些類型的運(yùn)動(dòng)遵循同一套物理規(guī)律,圖像中通常有線索告訴我們物體應(yīng)該如何運(yùn)動(dòng)? y ń斯奇說我們很樂意將我們的工作擴(kuò)展到更廣泛的對(duì)象上,比如為一個(gè)人在風(fēng)中吹拂的頭發(fā)設(shè)置動(dòng)畫。我希望最終我們與朋友和家人分享的照片不會(huì)是靜態(tài)的。相反,它們都是動(dòng)態(tài)動(dòng)畫,就像我們的方法生成的動(dòng)畫一樣。”
為了教他們的神經(jīng)網(wǎng)絡(luò)估計(jì)運(yùn)動(dòng),研究小組在 1000 多個(gè)流體運(yùn)動(dòng)的視頻(如瀑布、河流和海洋)上訓(xùn)練了這個(gè)模型。如果只給出視頻的第一幀,系統(tǒng)將預(yù)測(cè)未來幀中應(yīng)該發(fā)生的事情,并將其預(yù)測(cè)結(jié)果與原始視頻進(jìn)行比較。這種比較有助于模型改進(jìn)對(duì)圖像中每個(gè)像素是否應(yīng)該移動(dòng)以及如何移動(dòng)的預(yù)測(cè)。
研究人員使用了 NVIDIA Pix2PixHD 用于運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)訓(xùn)練的 GAN 模型,以及 FlowNet2 和 PWC-Net 。模型進(jìn)行訓(xùn)練和推理都采用 NVIDIA GPU。培訓(xùn)數(shù)據(jù)包括 1196 個(gè)獨(dú)特的視頻, 1096 個(gè)用于培訓(xùn), 50 個(gè)用于驗(yàn)證, 50 個(gè)用于測(cè)試。
關(guān)于作者
Clarissa Garza 是 NVIDIA 在 2021 夏天的企業(yè)傳播實(shí)習(xí)生,她在波士頓大學(xué)新聞專業(yè)的第四年。在 NVIDIA ,她在 NVIDIA 的公司和開發(fā)者博客以及 AI 播客上工作。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102711 -
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128594
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論