0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)術(shù)可以由一而多的圖像翻譯

nlfO_thejiangme ? 來(lái)源:未知 ? 作者:李倩 ? 2018-04-24 16:35 ? 次閱讀

我們都知道變色龍可以改變皮膚的顏色紋理,而如今深度學(xué)習(xí)技術(shù)甚至可以做到將一只貓的圖像同時(shí)轉(zhuǎn)變?yōu)楣贰⑸踔联{子和老虎的圖像。這種可以將一張圖片轉(zhuǎn)換為多種不同目標(biāo)的算法不僅為電影和游戲場(chǎng)景制作提供了豐富的素材,更能為自動(dòng)駕駛迅速和便捷地生成不同路況下豐富的訓(xùn)練數(shù)據(jù),以不斷提高面對(duì)不同路況的能力。

由一而多的圖像翻譯

早先研究人員發(fā)現(xiàn)可以利用非監(jiān)督的方法進(jìn)行圖像翻譯,將一幅圖像和視頻轉(zhuǎn)換為另一個(gè)。它通過(guò)利用來(lái)自獨(dú)立域中邊緣分布的圖像來(lái)學(xué)習(xí)處于不同域之中的聯(lián)合概率分布。研究人員通過(guò)建立共享隱含空間的假設(shè),提出了一個(gè)圖像對(duì)圖像的非監(jiān)督翻譯框架,并利用對(duì)偶GANs實(shí)現(xiàn)了高效的圖像翻譯。在實(shí)驗(yàn)中進(jìn)行了街道場(chǎng)景、動(dòng)物圖像以及人臉的圖像翻譯過(guò)程。

而隨著研究的深入,研究人員們研發(fā)出了新的網(wǎng)絡(luò)結(jié)構(gòu)。這種多模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)將可以同時(shí)將一張圖片轉(zhuǎn)換為多張不同的圖像輸出。類似于早先的圖像翻譯研究,多模態(tài)圖形翻譯使用了兩種深度學(xué)習(xí)技術(shù):非監(jiān)督學(xué)習(xí)和生成對(duì)抗網(wǎng)絡(luò)(GANs),其目的在于為機(jī)器賦予更強(qiáng)的想象力,可以讓機(jī)器將陽(yáng)光燦爛的街道照片變成狂風(fēng)暴雨或者茫茫冬日的不同景色。這種技術(shù)對(duì)于無(wú)人駕駛有著極大的促進(jìn)作用。與之前的技術(shù)不同,研究人員們通過(guò)轉(zhuǎn)換不止能得到一個(gè)冬天的實(shí)例,而可以同時(shí)得到一系列不同降雪量的的冬日?qǐng)鼍?。這意味著單一的數(shù)據(jù)可以生成一系列豐富的、覆蓋更廣泛情況的數(shù)據(jù)集。

為了實(shí)現(xiàn)這一非監(jiān)督圖像的翻譯任務(wù),研究人員們提出了多模態(tài)非監(jiān)督圖像翻譯架構(gòu)(Multimodal Unsupervised Image-to-image Translation ,MUNIT),首先假設(shè)圖像的表示可以被分解成與域無(wú)關(guān)的編碼,同時(shí)可以采集到與域相關(guān)的風(fēng)格編碼。為了實(shí)現(xiàn)不同域間的圖像翻譯,作者將內(nèi)容編碼與目標(biāo)域中采樣的風(fēng)格編碼結(jié)合在一起,實(shí)現(xiàn)了多個(gè)目標(biāo)樣本的輸出。這種多模態(tài)非監(jiān)督圖像翻譯技術(shù)將圖像內(nèi)容和風(fēng)格分離開(kāi)來(lái)。例如對(duì)于圖像中的一只貓來(lái)說(shuō),它的姿勢(shì)是圖像的內(nèi)容而貓的種類則是圖像的風(fēng)格。在實(shí)際翻譯過(guò)程中,姿勢(shì)是固定的,而風(fēng)格則隨著目標(biāo)的不同而不同??梢允枪饭坊蛘弑?。動(dòng)物的姿勢(shì)是保持不變的,而它的風(fēng)格則可以覆蓋從柯基到美洲豹各色不同的品種。

同樣的技術(shù)還能用于生成一天中不同時(shí)間的場(chǎng)景圖像、不同天氣條件下或者光照條件下的場(chǎng)景。這樣的技術(shù)對(duì)于需要大量數(shù)據(jù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)大有裨益。

除了自動(dòng)駕駛和深度學(xué)習(xí)領(lǐng)域外,多模態(tài)圖像翻譯技術(shù)還能為游戲公司提供一種迅速創(chuàng)造新角色和新世界的有力工具。同樣藝術(shù)家們也可以生成復(fù)雜或者豐富場(chǎng)景的工作交給機(jī)器去處理,將更多的精力投入到創(chuàng)作的核心上來(lái)。

沒(méi)數(shù)據(jù)?沒(méi)問(wèn)題!

這一研究主要建立在一種善于生成視覺(jué)數(shù)據(jù)的深度學(xué)習(xí)方法——GANs上。一個(gè)典型的GANs包含兩個(gè)互相競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò):一個(gè)用于生成圖像而另一個(gè)用于判斷生成的圖像是否看起來(lái)像真的,或者是假的。GANs在數(shù)據(jù)短缺的時(shí)候會(huì)顯示出更強(qiáng)大的能力。

一般的圖像翻譯需要兩個(gè)互相關(guān)聯(lián)的數(shù)據(jù)集:如果需要將貓轉(zhuǎn)換為狗或者其他動(dòng)物的話,需要收集同樣姿勢(shì)貓和狗的照片。而這樣的數(shù)據(jù)十分稀缺,有些時(shí)候甚至是不可能收集的。而本文中提出的MUNIT方法則突破了這個(gè)限制,使得圖像翻譯的使用范圍大大增加。它無(wú)需使用一一對(duì)應(yīng)的數(shù)據(jù)即可實(shí)現(xiàn)多模態(tài)的轉(zhuǎn)化。

MUNIT同時(shí)還可以在無(wú)需抓取同一視點(diǎn)記錄的情況下為自動(dòng)駕駛生成大量的訓(xùn)練數(shù)據(jù),可以再同一視角同一地點(diǎn)的精確位置下生成各種交通情況和細(xì)節(jié)的數(shù)據(jù)。除此之外、GANs還免去了對(duì)于圖像或者視頻冗長(zhǎng)的人工標(biāo)注,節(jié)約了大量的時(shí)間和金錢。

論文的作者表示希望給機(jī)器賦予人類一樣的想象力。就像人類在看風(fēng)景時(shí),無(wú)論庭前花開(kāi)花落,總能想象出春夏秋冬四季變遷的模樣。在眺望風(fēng)景時(shí)候,朝暉夕陰、氣象萬(wàn)千、四季輪回都了然于胸。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:因吹斯??!看深度學(xué)習(xí)如何將一只貓的圖像同時(shí)轉(zhuǎn)變?yōu)楣贰ⅹ{子和老虎

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)

    測(cè)試)三、主講內(nèi)容1:課程、強(qiáng)化學(xué)習(xí)簡(jiǎn)介課程二、強(qiáng)化學(xué)習(xí)基礎(chǔ)課程三、深度強(qiáng)化學(xué)習(xí)基礎(chǔ)課程四、
    發(fā)表于 01-09 17:01

    什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?

    什么是深度學(xué)習(xí)為了解釋深度學(xué)習(xí),有必要了解神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是種模擬人腦的神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的計(jì)算模型。作為具體示例,讓我們考慮
    發(fā)表于 02-17 16:56

    專欄 | 深度學(xué)習(xí)在NLP中的運(yùn)用?從分詞、詞性到機(jī)器翻譯、對(duì)話系統(tǒng)

    從分詞、詞性等基礎(chǔ)模塊,到機(jī)器翻譯、知識(shí)問(wèn)答等領(lǐng)域,本文列舉并分析深度學(xué)習(xí)在 NLP 領(lǐng)域的具體運(yùn)用,希望對(duì)大家研究深度
    的頭像 發(fā)表于 08-18 17:06 ?7520次閱讀
    專欄 | <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>在NLP中的運(yùn)用?從分詞、詞性到機(jī)器<b class='flag-5'>翻譯</b>、對(duì)話系統(tǒng)

    深度學(xué)習(xí)圖像超清化的應(yīng)用

    深度學(xué)習(xí)的出現(xiàn)使得算法對(duì)圖像的語(yǔ)義級(jí)操作成為可能。本文即是介紹深度學(xué)習(xí)技術(shù)在圖像超清化問(wèn)題上的最
    發(fā)表于 09-30 11:15 ?1次下載
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>在<b class='flag-5'>圖像</b>超清化的應(yīng)用

    基于深度學(xué)習(xí)尺幅深度網(wǎng)絡(luò)監(jiān)督模型

    針對(duì)場(chǎng)景標(biāo)注中如何產(chǎn)生良好的內(nèi)部視覺(jué)信息表達(dá)和有效利用上下文語(yǔ)義信息兩個(gè)至關(guān)重要的問(wèn)題,提出種基于深度學(xué)習(xí)尺度深度網(wǎng)絡(luò)監(jiān)督模型。與傳統(tǒng)
    發(fā)表于 11-28 14:22 ?0次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>多</b>尺幅<b class='flag-5'>深度</b>網(wǎng)絡(luò)監(jiān)督模型

    當(dāng)機(jī)器翻譯遇見(jiàn)深度學(xué)習(xí)

    據(jù)VentureBeat報(bào)道,谷歌利用被稱為深度學(xué)習(xí)的人工智能改進(jìn)了多項(xiàng)產(chǎn)品,例如谷歌地圖、谷歌照片和Gmail。下個(gè)可能利用這種技術(shù)的服務(wù)將是谷歌翻譯。
    發(fā)表于 05-18 22:15 ?2700次閱讀

    圖像識(shí)別中的深度學(xué)習(xí)

    現(xiàn)階段比較受歡迎的圖像識(shí)別基礎(chǔ)算法為深度學(xué)習(xí)法,深度學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的歷史可追溯
    的頭像 發(fā)表于 05-25 15:59 ?4931次閱讀

    深度學(xué)習(xí)怎么實(shí)現(xiàn)圖像圖像翻譯

    圖像圖像翻譯類視覺(jué)和圖形問(wèn)題,其目標(biāo)是學(xué)習(xí)輸入圖像和輸出
    的頭像 發(fā)表于 05-04 18:12 ?4138次閱讀

    深度學(xué)習(xí)圖像分割的方法和應(yīng)用

    介紹使圖像分割的方法,包括傳統(tǒng)方法和深度學(xué)習(xí)方法,以及應(yīng)用場(chǎng)景。 基于人工智能和深度學(xué)習(xí)方法的現(xiàn)代計(jì)算機(jī)視覺(jué)技術(shù)在過(guò)去10年里取得了顯著進(jìn)展
    的頭像 發(fā)表于 11-27 10:29 ?3107次閱讀

    基于深度學(xué)習(xí)圖像修復(fù)模型及實(shí)驗(yàn)對(duì)比

    圖像修復(fù)是計(jì)算機(jī)視覺(jué)領(lǐng)域中極具挑戰(zhàn)性的硏究課題。近年來(lái),深度學(xué)習(xí)技術(shù)的發(fā)展推動(dòng)了圖像修復(fù)性能的顯著提升,使得圖像修復(fù)這
    發(fā)表于 04-08 09:38 ?20次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>圖像</b>修復(fù)模型及實(shí)驗(yàn)對(duì)比

    簡(jiǎn)述文本與圖像領(lǐng)域的模態(tài)學(xué)習(xí)有關(guān)問(wèn)題

    模型中的幾個(gè)分支角度,簡(jiǎn)述文本與圖像領(lǐng)域的模態(tài)學(xué)習(xí)有關(guān)問(wèn)題。 1. 引言 近年來(lái),計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理方向均取得了很大進(jìn)展。融合二者的
    的頭像 發(fā)表于 08-26 16:29 ?6739次閱讀

    什么是深度學(xué)習(xí)(Deep Learning)?深度學(xué)習(xí)的工作原理詳解

    ? 本文將帶您了解深度學(xué)習(xí)的工作原理與相關(guān)案例。 什么是深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器
    的頭像 發(fā)表于 04-01 10:34 ?1w次閱讀

    深度學(xué)習(xí)中的圖像分割

    深度學(xué)習(xí)可以學(xué)習(xí)視覺(jué)輸入的模式,以預(yù)測(cè)組成圖像的對(duì)象類。用于圖像處理的主要
    的頭像 發(fā)表于 05-05 11:35 ?1206次閱讀

    深度學(xué)習(xí)框架tensorflow介紹

    。TensorFlow可以用于各種不同的任務(wù),包括圖像和語(yǔ)音識(shí)別、自然語(yǔ)言處理和推薦系統(tǒng)等。 TensorFlow提供了個(gè)靈活和強(qiáng)大的平臺(tái),可以用于構(gòu)建和訓(xùn)練各種
    的頭像 發(fā)表于 08-17 16:11 ?2405次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    能力,可以顯著提高圖像識(shí)別模型的訓(xùn)練速度和準(zhǔn)確性。例如,在人臉識(shí)別、自動(dòng)駕駛等領(lǐng)域,GPU被廣泛應(yīng)用于加速深度學(xué)習(xí)模型的訓(xùn)練和推理過(guò)程。 二、自然語(yǔ)言處理 自然語(yǔ)言處理(NLP)是
    的頭像 發(fā)表于 10-27 11:13 ?292次閱讀