和一鍵換妝、一鍵美顏一樣,我們可能離“一鍵健身”不遠(yuǎn)了。
怎么說?
近日,MIT(麻省理工學(xué)院)的研究人員發(fā)明了一項(xiàng)新技術(shù),單憑一張照片,就能把片中人,隨意擺成任何姿勢(shì)。AI的想象力和腦補(bǔ)力,竟然能達(dá)到窺一片而知全貌了?
沒錯(cuò),讓人驚喜的是,這項(xiàng)技術(shù)的合成效果還非常好,頗有以假亂真的氣勢(shì)——
穿著瑜伽服打棒球?
又穿著瑜伽服打高爾夫?
棒球比賽期間突然做起瑜伽?
可能你也猜到,后面這些圖都是假象,在MIT中了今年CVPR Oral的論文Synthesizing Images of Humans in Unseen Poses中,研究人員提出一種模塊化的生成神經(jīng)網(wǎng)絡(luò),用從人類運(yùn)動(dòng)視頻中提取的成對(duì)圖像和姿勢(shì)訓(xùn)練之后,它能夠?yàn)橐粋€(gè)人合成出沒做過的新姿勢(shì)。
更有趣的是,這個(gè)模型在沒有經(jīng)過刻意訓(xùn)練的情況下,還能生成一段連續(xù)的視頻。
只用一張照片,就能將照片中人像皮影戲一樣操控,并且在被遮擋的情況下,人物和背景合成都非常自然,這到底是如何做到的?
步驟拆解
單憑一張照片合成人物姿勢(shì)不是易事。姿勢(shì)變換帶來身體的移動(dòng),影響著人物周圍的陰影變化和背景露出,若人物肢體若被遮擋,還需自行想象腦補(bǔ)身體邊界……
總之兩個(gè)字:麻煩。
對(duì)人類來說這尚且還是個(gè)繁瑣復(fù)雜的工作,對(duì)AI來說更是如此。怎么辦?
MIT小伙伴們用260多段視頻中截取出來的成對(duì)圖片和姿勢(shì),訓(xùn)練了一個(gè)監(jiān)督學(xué)習(xí)模型。
將源圖像和它對(duì)應(yīng)的2D姿勢(shì)信息,以及目標(biāo)姿勢(shì)輸入到這個(gè)模型中,它就能合成出一張輸出圖像,把源圖像上的人物形象和目標(biāo)姿勢(shì)結(jié)合在一起。
這個(gè)方法的精髓,就在于把這個(gè)艱巨的大任務(wù)分成四塊簡(jiǎn)單的、模塊化的子任務(wù),大概如下圖所示:
制造新姿勢(shì)的流程分五步。
第一步得表示姿勢(shì),研究人員將2D的姿勢(shì)Ps和Pt表示成3D形式RH×W×J,其中H代表輸入圖像的高度,W代表寬度,每個(gè)J通道都包含一個(gè)以不同節(jié)點(diǎn)(x,y)為中心的高斯凸起。這種方法能快速利用姿態(tài)輸入的空間特性,而不僅僅是個(gè)扁平、密集的表示。
表示完動(dòng)作后,就需要對(duì)圖像整體大局進(jìn)行原圖分割,為合成動(dòng)作做準(zhǔn)備了。
運(yùn)動(dòng)時(shí)身體每個(gè)部分軌跡不同通常會(huì)分段仿射運(yùn)動(dòng)場(chǎng)出現(xiàn),通過將原圖Is分割成前景層和背景層,并將前景的身體部位分割成頭、上臂、下臂、大腿、小腿和軀干等部分,基于UNet-style架構(gòu)將原圖分割。
之后進(jìn)行前景空間變形,將這些被拆分的身體重新組合起來。
之后進(jìn)行前景合成,將轉(zhuǎn)換后的主體部分合并,進(jìn)一步細(xì)化外觀。下圖顯示了這個(gè)階段的Mask Mt(第3列)和yfg(第4列)的幾個(gè)輸出示例。
可以看出,即使一開始是很夸張的姿勢(shì),合成出效果看起來也很真實(shí)??上У氖?,高爾夫球桿、網(wǎng)球拍等持有物,在合成后不會(huì)被保留。
此時(shí),完事具備,就差背景了。背景合成也就是填補(bǔ)前景動(dòng)作中開始被遮擋的部分,如上圖第五列所示~
整個(gè)網(wǎng)絡(luò)的架構(gòu)就是這樣了,接下來我們?nèi)タ纯囱芯咳藛T具體是如何訓(xùn)練它的。
精挑細(xì)選的數(shù)據(jù)集
模型準(zhǔn)備就緒,還欠數(shù)據(jù)。
于是,他們從YouTube上尋找了一些視頻。其中包括136段打高爾夫的、60段練瑜伽或者健身的、70段打棒球的。
他們挑選的視頻有個(gè)共同特點(diǎn):背景基本靜止、只有人在動(dòng)。這樣,模型才能更好地完成任務(wù)。
把它們混在一起,再經(jīng)過一些縮放、旋轉(zhuǎn)、反轉(zhuǎn)之類的擴(kuò)增操作,就形成了要用的數(shù)據(jù)集,從中留出10%,用作測(cè)試集。
就是用這些數(shù)據(jù),幾位科學(xué)家檢驗(yàn)了他們模型的合成能力。
花式秀能力,開始
測(cè)試方法很簡(jiǎn)單,從視頻里選一幀提取出人物的動(dòng)作,找另一幀圖像,讓模型把里面的人扭成這個(gè)動(dòng)作,看看效果如何。
作者們?cè)谡撐睦镎f:顯然是我們的效果比較好嘛,有圖為證。
和同行前輩UNet相比,這種新方法合成出來的圖像更不容易出錯(cuò)。比如說上圖第一行,UNet合成出來的網(wǎng)球少年衣服已經(jīng)泛黃;第4行,健身小姐姐身后出現(xiàn)了重重重影。
從數(shù)據(jù)上看,這種新方法也取得了比UNet更低的錯(cuò)誤率、更好的SSIM得分。
但這顯然還不是這個(gè)模型的全部實(shí)力。
上圖展示的,都是從一個(gè)網(wǎng)球動(dòng)作到另一個(gè)網(wǎng)球動(dòng)作,從一個(gè)健身動(dòng)作到另一個(gè)健身動(dòng)作,而且,還都是,靜止的圖像。
你大概還記得文章開頭展示的那些。當(dāng)然沒騙你,給模型一張圖片和一系列目標(biāo)姿勢(shì),生成視頻當(dāng)然也沒問題啦~
視頻里的系列動(dòng)作拆解開來,就是上圖這樣。考驗(yàn)眼力的時(shí)刻到了:你能猜出哪兩行是真實(shí)的、哪兩行是合成的嗎?
答案是,1、3行是合成的動(dòng)作,2、4行是真實(shí)的。
連貫起來,就是這樣:
膩害~撒花!假裝運(yùn)動(dòng)這么輕松,有視頻都不一定有真相了~
Wait,這依然不是它的全部實(shí)力。
開頭展示的穿著瑜伽服打棒球,當(dāng)然也是它的杰作。
這個(gè)模型,可以為畫中人合成不同類別的姿勢(shì)。輸入分別來自不同類別的源圖像和目標(biāo)動(dòng)作,結(jié)果雖說充滿違和感,但還是那么令人信服。
網(wǎng)球場(chǎng)上做瑜伽,瑜伽墊上打高爾夫……
別忘了,他們訓(xùn)練這個(gè)模型只用了3類運(yùn)動(dòng)、260多段視頻,要是訓(xùn)練數(shù)據(jù)在充足一點(diǎn),怕是真能一鍵假裝去運(yùn)動(dòng)了。
傳送門
這篇Synthesizing Images of Humans in Unseen Poses,被CVPR 2018作為oral論文接收,論文一作,是MIT博士后Guha Balakrishnan,他的碩士和博士學(xué)位都來自MIT。
研究團(tuán)隊(duì)全體成員都來自MIT,包括研究生Amy Zha、博士后Adrian V. Dalca,以及Balakrishnan的碩士和博士導(dǎo)師:John Guttag和Fredo Durand。
團(tuán)隊(duì)的另外兩位成員也來自MIT,一位是研究生Amy Zhao,另一位是博士后Adrian V. Dalca。
-
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
MIT
+關(guān)注
關(guān)注
3文章
253瀏覽量
23347
原文標(biāo)題:只需一張照片,運(yùn)動(dòng)視頻分分鐘偽造出來 | MIT新算法
文章出處:【微信號(hào):cas-ciomp,微信公眾號(hào):中科院長(zhǎng)春光機(jī)所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論