我們都知道變色龍可以改變皮膚的顏色紋理,而如今深度學(xué)習(xí)技術(shù)甚至可以做到將一只貓的圖像同時(shí)轉(zhuǎn)變?yōu)楣贰⑸踔联{子和老虎的圖像。這種可以將一張圖片轉(zhuǎn)換為多種不同目標(biāo)的算法不僅為電影和游戲場(chǎng)景制作提供了豐富的素材,更能為自動(dòng)駕駛迅速和便捷地生成不同路況下豐富的訓(xùn)練數(shù)據(jù),以不斷提高面對(duì)不同路況的能力。
由一而多的圖像翻譯
早先研究人員發(fā)現(xiàn)可以利用非監(jiān)督的方法進(jìn)行圖像翻譯,將一幅圖像和視頻轉(zhuǎn)換為另一個(gè)。它通過(guò)利用來(lái)自獨(dú)立域中邊緣分布的圖像來(lái)學(xué)習(xí)處于不同域之中的聯(lián)合概率分布。研究人員通過(guò)建立共享隱含空間的假設(shè),提出了一個(gè)圖像對(duì)圖像的非監(jiān)督翻譯框架,并利用對(duì)偶GANs實(shí)現(xiàn)了高效的圖像翻譯。在實(shí)驗(yàn)中進(jìn)行了街道場(chǎng)景、動(dòng)物圖像以及人臉的圖像翻譯過(guò)程。
而隨著研究的深入,研究人員們研發(fā)出了新的網(wǎng)絡(luò)結(jié)構(gòu)。這種多模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)將可以同時(shí)將一張圖片轉(zhuǎn)換為多張不同的圖像輸出。類似于早先的圖像翻譯研究,多模態(tài)圖形翻譯使用了兩種深度學(xué)習(xí)技術(shù):非監(jiān)督學(xué)習(xí)和生成對(duì)抗網(wǎng)絡(luò)(GANs),其目的在于為機(jī)器賦予更強(qiáng)的想象力,可以讓機(jī)器將陽(yáng)光燦爛的街道照片變成狂風(fēng)暴雨或者茫茫冬日的不同景色。這種技術(shù)對(duì)于無(wú)人駕駛有著極大的促進(jìn)作用。與之前的技術(shù)不同,研究人員們通過(guò)轉(zhuǎn)換不止能得到一個(gè)冬天的實(shí)例,而可以同時(shí)得到一系列不同降雪量的的冬日?qǐng)鼍?。這意味著單一的數(shù)據(jù)可以生成一系列豐富的、覆蓋更廣泛情況的數(shù)據(jù)集。
為了實(shí)現(xiàn)這一非監(jiān)督圖像的翻譯任務(wù),研究人員們提出了多模態(tài)非監(jiān)督圖像翻譯架構(gòu)(Multimodal Unsupervised Image-to-image Translation ,MUNIT),首先假設(shè)圖像的表示可以被分解成與域無(wú)關(guān)的編碼,同時(shí)可以采集到與域相關(guān)的風(fēng)格編碼。為了實(shí)現(xiàn)不同域間的圖像翻譯,作者將內(nèi)容編碼與目標(biāo)域中采樣的風(fēng)格編碼結(jié)合在一起,實(shí)現(xiàn)了多個(gè)目標(biāo)樣本的輸出。這種多模態(tài)非監(jiān)督圖像翻譯技術(shù)將圖像內(nèi)容和風(fēng)格分離開(kāi)來(lái)。例如對(duì)于圖像中的一只貓來(lái)說(shuō),它的姿勢(shì)是圖像的內(nèi)容而貓的種類則是圖像的風(fēng)格。在實(shí)際翻譯過(guò)程中,姿勢(shì)是固定的,而風(fēng)格則隨著目標(biāo)的不同而不同??梢允枪饭坊蛘弑?。動(dòng)物的姿勢(shì)是保持不變的,而它的風(fēng)格則可以覆蓋從柯基到美洲豹各色不同的品種。
同樣的技術(shù)還能用于生成一天中不同時(shí)間的場(chǎng)景圖像、不同天氣條件下或者光照條件下的場(chǎng)景。這樣的技術(shù)對(duì)于需要大量數(shù)據(jù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)大有裨益。
除了自動(dòng)駕駛和深度學(xué)習(xí)領(lǐng)域外,多模態(tài)圖像翻譯技術(shù)還能為游戲公司提供一種迅速創(chuàng)造新角色和新世界的有力工具。同樣藝術(shù)家們也可以生成復(fù)雜或者豐富場(chǎng)景的工作交給機(jī)器去處理,將更多的精力投入到創(chuàng)作的核心上來(lái)。
沒(méi)數(shù)據(jù)?沒(méi)問(wèn)題!
這一研究主要建立在一種善于生成視覺(jué)數(shù)據(jù)的深度學(xué)習(xí)方法——GANs上。一個(gè)典型的GANs包含兩個(gè)互相競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò):一個(gè)用于生成圖像而另一個(gè)用于判斷生成的圖像是否看起來(lái)像真的,或者是假的。GANs在數(shù)據(jù)短缺的時(shí)候會(huì)顯示出更強(qiáng)大的能力。
一般的圖像翻譯需要兩個(gè)互相關(guān)聯(lián)的數(shù)據(jù)集:如果需要將貓轉(zhuǎn)換為狗或者其他動(dòng)物的話,需要收集同樣姿勢(shì)貓和狗的照片。而這樣的數(shù)據(jù)十分稀缺,有些時(shí)候甚至是不可能收集的。而本文中提出的MUNIT方法則突破了這個(gè)限制,使得圖像翻譯的使用范圍大大增加。它無(wú)需使用一一對(duì)應(yīng)的數(shù)據(jù)即可實(shí)現(xiàn)多模態(tài)的轉(zhuǎn)化。
MUNIT同時(shí)還可以在無(wú)需抓取同一視點(diǎn)記錄的情況下為自動(dòng)駕駛生成大量的訓(xùn)練數(shù)據(jù),可以再同一視角同一地點(diǎn)的精確位置下生成各種交通情況和細(xì)節(jié)的數(shù)據(jù)。除此之外、GANs還免去了對(duì)于圖像或者視頻冗長(zhǎng)的人工標(biāo)注,節(jié)約了大量的時(shí)間和金錢。
論文的作者表示希望給機(jī)器賦予人類一樣的想象力。就像人類在看風(fēng)景時(shí),無(wú)論庭前花開(kāi)花落,總能想象出春夏秋冬四季變遷的模樣。在眺望風(fēng)景時(shí)候,朝暉夕陰、氣象萬(wàn)千、四季輪回都了然于胸。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4734瀏覽量
100420 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
782文章
13624瀏覽量
165961 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5466瀏覽量
120891
原文標(biāo)題:因吹斯??!看深度學(xué)習(xí)如何將一只貓的圖像同時(shí)轉(zhuǎn)變?yōu)楣贰ⅹ{子和老虎
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論