0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于少樣本目標(biāo)類別圖像的圖像翻譯模型

電子工程師 ? 來源:lq ? 2019-05-14 09:12 ? 次閱讀

【導(dǎo)讀】在已有的圖像翻譯研究中,模型需要使用大量的多類別圖像數(shù)據(jù),在一定程度上限制了模型的具體應(yīng)用。本文提出了一種基于少樣本目標(biāo)類別圖像的圖像翻譯模型,該模型在翻譯準(zhǔn)確度、內(nèi)容保留程度、圖像真實(shí)度和分布匹配度四個(gè)指標(biāo)上都超越了現(xiàn)有模型的效果。

摘要

無監(jiān)督的圖像翻譯方法通過在不同的非結(jié)構(gòu)化圖像數(shù)據(jù)集上進(jìn)行學(xué)習(xí),將指定類別的圖像轉(zhuǎn)換為另一類別的圖像?,F(xiàn)有方法雖然取得了一定進(jìn)展,但在模型訓(xùn)練期間需要大量的源類別和目標(biāo)類別的圖像,限制了這類方法的實(shí)際應(yīng)用。

本文通過將一個(gè)新的神經(jīng)網(wǎng)絡(luò)架構(gòu)和對抗學(xué)習(xí)相結(jié)合,提出了一種少樣本的無監(jiān)督圖像翻譯算法。該模型能夠使用少量樣本圖像,針對新出現(xiàn)的圖像類別進(jìn)行圖片生成。作者將該模型與幾種現(xiàn)有方法進(jìn)行了比較,結(jié)果表明,這種基于少樣本的無監(jiān)督圖像翻譯算法非常有效。該論文的代碼已開源,相關(guān)項(xiàng)目地址如下:

https://nvlabs.github.io/FUNIT

簡介

人類非常擅長通過學(xué)習(xí)、類比推理等方法,將現(xiàn)有的知識(shí)泛化推廣到一些未見過的問題上。例如,即使對于沒見過老虎的人來說,當(dāng)看到一只站立的老虎,他也能根據(jù)對其他動(dòng)物的觀察經(jīng)驗(yàn),聯(lián)想到老虎躺著的樣子。近來無監(jiān)督的圖像翻譯研究在不同圖像類別間的翻譯中取得了長足的進(jìn)步,但現(xiàn)有方法依然很難依據(jù)先驗(yàn)知識(shí)和少量新類別的樣本圖像,對圖像進(jìn)行泛化。

當(dāng)前的圖像翻譯方法需要大量各類別的圖像用于翻譯模型的訓(xùn)練。針對這些問題,本研究提出一種少樣本無監(jiān)督圖像翻譯框架(Few-shot UNsupervised Image-to-image Translation, FUNIT),旨在只利用少量的目標(biāo)類圖像,通過學(xué)習(xí)到的圖像翻譯模型,將源圖像類別圖像范圍為到目標(biāo)類別的圖像。

該模型的假設(shè)如下:人類基于少樣本的生成能力來源于過去的視覺知識(shí),且在之前看過的不同種類的物體越多,該泛化生成能力越強(qiáng)?;诖耍狙芯渴褂昧艘粋€(gè)包含多種類別圖像的數(shù)據(jù)集訓(xùn)練FUNIT模型,用來模擬過去所學(xué)習(xí)的多類別視覺知識(shí)。模型的目標(biāo)為,只利用目標(biāo)類別的少量樣本圖像,實(shí)現(xiàn)從源類別到目標(biāo)類別的圖像翻譯任務(wù)。

研究假設(shè),通過在訓(xùn)練中學(xué)習(xí)從少量新類別圖像中提取該圖像類別的外觀模式,模型能夠?qū)W習(xí)一個(gè)通用的外觀模式提取器,并將該模式應(yīng)用于未見過的類別圖像實(shí)現(xiàn)圖像翻譯。本文的實(shí)驗(yàn)數(shù)據(jù)證明,訓(xùn)練集類別數(shù)的增加對于少樣本圖像翻譯模型的性能提升是有幫助的。

本文模型結(jié)構(gòu)基于對抗生成網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)。作者將 GAN 和新的網(wǎng)絡(luò)架構(gòu)耦合,獲得了較好的實(shí)驗(yàn)效果。通過在不同數(shù)據(jù)集上的實(shí)驗(yàn)將模型與幾種基線方法進(jìn)行對比分析,作者對模型的效果進(jìn)行了驗(yàn)證,發(fā)現(xiàn)在各種性能指標(biāo)上FUNIT框架的表現(xiàn)都更好。

方法

本文所提出的FUNIT框架旨在基于少量的目標(biāo)類別圖像,將源類別圖像映射為一些模型未學(xué)習(xí)過的目標(biāo)類別的圖像。具體來說,在模型訓(xùn)練階段,本文所使用的圖像來自一組圖像類別的數(shù)據(jù)集合(如各種動(dòng)物類別的圖像集),稱之為源類別,用于訓(xùn)練多層級(jí)無監(jiān)督的圖像翻譯模型FUNIT。

這里,本文假設(shè)在不同類別間不存在處于同一姿態(tài)的動(dòng)物的圖像。在測試時(shí),本文使用少量取自類別的圖像樣本,稱之為目標(biāo)類別,這一類別在模型訓(xùn)練時(shí)未使用。模型利用這些少量的目標(biāo)類別圖像樣本,能夠?qū)崿F(xiàn)從源類別到目標(biāo)類別的圖像翻譯本文提出的模型主要包括兩部分:一個(gè)少樣本圖像翻譯器 G 和一個(gè)多任務(wù)對抗判別器 D 。

少樣本圖像翻譯器 G

少樣本圖像翻譯器 G 由一個(gè)內(nèi)容編碼器Ex,一個(gè)類編碼器Ey和一個(gè)解碼器Fx構(gòu)成。其中內(nèi)容編碼器由多個(gè) 2D 卷積層和多個(gè)殘差塊(residual blocks)組成,用于將輸入的內(nèi)容圖像x映射為內(nèi)容潛在編碼 zx ,其中 zx 是一個(gè)空間特征映射。類編碼器包含多個(gè)2D卷積層并對卷積結(jié)果取均值。

而解碼器是由多個(gè)采用自適應(yīng)實(shí)例正則化方法(AdaIN)的殘差塊和多個(gè)卷積層結(jié)構(gòu)組成。對于每個(gè)樣本,AdaIN方法對每個(gè)通道的樣本激活值進(jìn)行正則化,以獲得其零均值和單元方差,之后通過一個(gè)仿射變換來縮放激活值。

如下圖1所示,該仿射變換具有空間不變性,因此僅可以用于得到全局的外觀特征信息。內(nèi)容編碼器能夠提取到不隨類別改變的隱層表征信息,而類別編碼器學(xué)習(xí)特定類別的隱層表征。文本通過AdaIN層將類編碼饋送到解碼器,并使用類別圖像來控制所生成的圖像全局外觀,使用內(nèi)容圖像決定圖像的局部結(jié)構(gòu)。

圖1 訓(xùn)練:訓(xùn)練集數(shù)據(jù)由各種不同類別圖像構(gòu)成(源類別),用于訓(xùn)練一個(gè)圖像翻譯模型。部署:展示了所提出的模型基于少量目標(biāo)類別圖像進(jìn)行圖像翻譯的表現(xiàn)。FUNIT 中生成器的輸入由兩部分構(gòu)成:1)內(nèi)容圖像;2)目標(biāo)類別圖像集。旨在通過輸入與目標(biāo)類相似的圖像來實(shí)現(xiàn)少樣本圖像翻譯。

不同于現(xiàn)有的圖像翻譯研究中使用的條件圖像生成器,這里G同時(shí)采用一張內(nèi)容圖像x和K個(gè)目標(biāo)類別圖像作為輸入,并生成輸出圖像。假定內(nèi)容圖像屬于類別cx,而每個(gè)K類圖像屬于類別cy。另外,K是個(gè)很小的數(shù)字,且cx與cy屬于不同類別。如下圖2所示。

圖2 仿射變換表達(dá)式

G將一張輸入的內(nèi)容圖像映射到屬于類別cy的輸出圖像,二者在圖像結(jié)構(gòu)上有一定的相似度。以S和T分別代表源圖像和目標(biāo)圖像集,在訓(xùn)練期間從兩個(gè)集合中隨機(jī)抽取圖像供G學(xué)習(xí),在測試期間G從目標(biāo)集中抽取一些未見過的類別圖像,并將源圖像集數(shù)據(jù)類別映射到目標(biāo)類圖像上。

多任務(wù)對抗判別器 D

判別器D的訓(xùn)練是同時(shí)在幾種對抗二分類任務(wù)上進(jìn)行的,其用于判別輸入圖像是源類別的真實(shí)圖像還是生成的目標(biāo)類別圖像。由于這里存在S個(gè)源圖像類別,因此D將對應(yīng)生成S個(gè)輸出。當(dāng)更新D時(shí),根據(jù)輸出的結(jié)果,相應(yīng)地懲罰D。當(dāng)更新G時(shí),只有當(dāng)輸出結(jié)果為假時(shí)才選擇懲罰D。經(jīng)驗(yàn)上來說,通過這種方法處理后的判別器D能夠在S多分類任務(wù)上表現(xiàn)得更好。

此外,F(xiàn)UNIT框架所采用的損失函數(shù)如圖3所示:由GAN模型損失、內(nèi)容圖像重構(gòu)損失和特征匹配損失構(gòu)成。

圖3 FUNIT 框架的損失函數(shù)表達(dá)式

GAN模型損失的計(jì)算如圖4:

圖4 GAN 模型的損失表達(dá)式

重構(gòu)損失的數(shù)學(xué)表達(dá)式如圖5:

圖5 重構(gòu)損失表達(dá)式

而圖像特征匹配損失旨在最小化目標(biāo)類圖像特征與翻譯輸出結(jié)果圖像之間特征匹配度,如圖6:

圖6 特征匹配損失表達(dá)式

實(shí)驗(yàn)

實(shí)驗(yàn)部分使用如下四種數(shù)據(jù)集:

動(dòng)物面孔數(shù)據(jù)集:從ImageNet數(shù)據(jù)集中抽取149種卡通動(dòng)物類別,共含117574張圖像。

鳥類數(shù)據(jù)集數(shù)據(jù)集:包含48527張攻擊555種北美鳥類圖像數(shù)據(jù)。

花卉數(shù)據(jù)集:102類共8189張包含花的圖像。

事務(wù)數(shù)據(jù)集:來自256種共31395張食物圖像數(shù)據(jù)。

基準(zhǔn)方法分別使用的是StarGAN-Fair-K、 StarGAN-Fair-K 、CycleGAN-Unfair-K、UNIT-Unfair-K和MUNIT-Unfair-K 五種,分別通過翻譯準(zhǔn)確率(translation accuracy)、內(nèi)容保留程度(content preservation)、圖像真實(shí)度(photorealism)和 分布匹配度(Distribution matching)四種指標(biāo)來評估各種方法的性能。

總體結(jié)果FUNIT與基準(zhǔn)方法在不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如下圖7所示。

圖7各方法的性能對比

可以看到,F(xiàn)UNIT框架在少樣本無監(jiān)督圖像翻譯任務(wù)上所有的性能指標(biāo)都超過了所有基準(zhǔn)方法的表現(xiàn):在Animal Faces數(shù)據(jù)集的1-shot和5-shot設(shè)置上分別達(dá)到82.36和96.05的Top-5測試精度,在North American Birds數(shù)據(jù)集上分別達(dá)到60.19和75.75的Top-5測試精度。圖8對FUNIT-5模型在少樣本圖像翻譯任務(wù)上的結(jié)果進(jìn)行了可視化。

圖8 FUNIT-5模型的少樣本無監(jiān)督圖像翻譯結(jié)果的可視化展示。從上到下,分別采用是動(dòng)物面孔、鳥類、花卉和食物數(shù)據(jù)集樣本。

可以看到FUNIT模型能夠成功地實(shí)現(xiàn)從源圖像到新類別圖像的翻譯。此外,在圖9還提供了一些可視化的對比結(jié)果。

圖9少樣本圖像翻譯性能的結(jié)果對比

用戶研究本文在Amazon Mechanical Turk (AMT)平臺(tái)上通過人類評估法來進(jìn)一步驗(yàn)證了圖像翻譯結(jié)果的可信度和真實(shí)度,結(jié)果如圖10所示。

圖10用戶偏好得分結(jié)果

用戶偏好得分評估結(jié)果表明,相比于其他方法,F(xiàn)UNIT-5模型的翻譯結(jié)果與目標(biāo)類圖像的相似度更高,可靠性更強(qiáng)。

訓(xùn)練集源類別數(shù)量下圖11展示了在動(dòng)物數(shù)據(jù)集上,當(dāng)類別數(shù)量發(fā)生變化時(shí),F(xiàn)UNIT-5模型的性能表現(xiàn)變化。這里只展示了類別數(shù)從69到119以間隔10變化時(shí)模型的表現(xiàn)。

圖11少樣本圖像翻譯性能vs 動(dòng)物面孔數(shù)據(jù)集目標(biāo)類別數(shù)

可以看到,F(xiàn)UNIT模型的翻譯性能與目標(biāo)類別數(shù)呈正相關(guān)關(guān)系,即類別數(shù)越多,翻譯性能越好。此外,研究中還進(jìn)行了參數(shù)分析(parameter analysis)、消融實(shí)驗(yàn)(ablation study)、隱層插值(latent interpolation)、失敗樣本分析(failure cases)等評估,具體信息可以查閱原論文的說明。

總結(jié)

本文介紹了首個(gè)少樣本無監(jiān)督圖像翻譯框架FUNIT,該模型利用少量的目標(biāo)類別圖像,實(shí)現(xiàn)了從源類別圖像到目標(biāo)圖像的翻譯,并展示了該框架的性能與目標(biāo)類別數(shù)的關(guān)系。FUNIT由三部分構(gòu)成:1)內(nèi)容編碼器:用于學(xué)習(xí)類別不變編碼;2)類編碼器:用于學(xué)習(xí)特定類別編碼;以及3)解碼器。

總的來說,F(xiàn)UNIT框架能夠?qū)崿F(xiàn)非常出色的圖像翻譯,但當(dāng)目標(biāo)類別與源圖像有顯著差異時(shí),也會(huì)存在一些失敗的情況。在失敗樣本中,F(xiàn)UNIT方法僅對源圖像的顏色進(jìn)行了變更,而改變圖像的其他外觀特征,這也是未來研究的方向。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3574

    瀏覽量

    133982
  • 圖像數(shù)據(jù)
    +關(guān)注

    關(guān)注

    0

    文章

    52

    瀏覽量

    11268
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24619

原文標(biāo)題:四大指標(biāo)超現(xiàn)有模型!少樣本的無監(jiān)督圖像翻譯效果逆天| 技術(shù)頭條

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    一種改進(jìn)的矩不變自動(dòng)閾值算法

    摘要:提出了一種改進(jìn)的矩不變自動(dòng)閾值算法。該算法針對矩不變自動(dòng)閾值法忽略圖像細(xì)節(jié)的缺點(diǎn),在矩不變自動(dòng)閾值的基礎(chǔ)上增加了基于目標(biāo)邊緣像素的梯度調(diào)整,從而使分割效果兼顧圖像的整體和細(xì)節(jié)。該
    發(fā)表于 08-24 16:22

    計(jì)算機(jī)視覺必讀:區(qū)分目標(biāo)跟蹤、網(wǎng)絡(luò)壓縮、圖像分類、人臉識(shí)別

    ,細(xì)粒度圖像分類需要判斷的圖像類別更加精細(xì)。比如,我們需要判斷該目標(biāo)具體是哪一種鳥、哪款的車、
    發(fā)表于 06-08 08:00

    一種基于圖像平移的目標(biāo)檢測框架

    1、摘要近年來,在深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的幫助下,圖像和視頻監(jiān)控在智能交通系統(tǒng)(ITS)中取得了長足的進(jìn)展。作為一種先進(jìn)的感知方法,智能交通系統(tǒng)對視頻監(jiān)控中每幀感興趣的目標(biāo)進(jìn)行
    發(fā)表于 08-31 07:43

    序列圖像運(yùn)動(dòng)目標(biāo)檢測的一種快速算法

    序列圖像運(yùn)動(dòng)目標(biāo)檢測的一種快速算法:研究了序列視頻圖像中運(yùn)動(dòng)目標(biāo)的檢測與跟蹤快速算法.研究基于Kalman濾波理論的漸消記憶最小二乘法,用該
    發(fā)表于 10-26 11:23 ?37次下載

    一種圖像拼接的運(yùn)動(dòng)目標(biāo)檢測方法

    圖像拼接中出現(xiàn)的運(yùn)動(dòng)目標(biāo)可能使拼接出現(xiàn)不能正常拼接或者拼接出多重影像的現(xiàn)象。本文提出一種圖像拼接的運(yùn)動(dòng)目標(biāo)檢測方法,去除運(yùn)動(dòng)
    發(fā)表于 12-08 10:05 ?2次下載

    基于強(qiáng)監(jiān)督部件模型的遙感圖像目標(biāo)檢測

    針對遙感圖像中由于背景復(fù)雜、目標(biāo)外觀多樣和方向任意而導(dǎo)致的檢測精度不高的問題,提出一種基于強(qiáng)監(jiān)督的部件模型方法。該方法針對目標(biāo)的每個(gè)方向范圍
    發(fā)表于 12-18 15:35 ?1次下載
    基于強(qiáng)監(jiān)督部件<b class='flag-5'>模型</b>的遙感<b class='flag-5'>圖像</b><b class='flag-5'>目標(biāo)</b>檢測

    一種融合圖像紋理結(jié)構(gòu)信息的LDA扣件檢測模型

    針對潛在狄利克雷分布(LDA)模型忽略圖像結(jié)構(gòu)的問題,提出一種融合圖像紋理結(jié)構(gòu)信息的LDA扣件檢測模型TS_LDA。首先,設(shè)計(jì)
    發(fā)表于 12-25 13:55 ?0次下載
    <b class='flag-5'>一種</b>融合<b class='flag-5'>圖像</b>紋理結(jié)構(gòu)信息的LDA扣件檢測<b class='flag-5'>模型</b>

    一種圖像去霧新算法

    基于圖像復(fù)原的去霧算法中參數(shù)的估計(jì)容易造成去霧圖像場景信息的丟失,對此,提出一種圖像去霧新算法。在暗通道先驗(yàn)的基礎(chǔ)上,通過對大氣散射模型的分
    發(fā)表于 01-05 15:53 ?2次下載

    深度學(xué)習(xí)怎么實(shí)現(xiàn)圖像圖像翻譯

    圖像圖像翻譯類視覺和圖形問題,其目標(biāo)是學(xué)習(xí)輸入圖像和輸出
    的頭像 發(fā)表于 05-04 18:12 ?4138次閱讀

    一種改進(jìn)的基于LRC-SNN的圖像重建與識(shí)別算法

    圖像集分類算法種類較多,但多數(shù)存在運(yùn)算繁瑣、計(jì)算成本高和時(shí)效性差的問題。為此,提出一種改進(jìn)的圖像重建與識(shí)別算法,利用線性回歸分類和共享最近鄰子空間分類理論進(jìn)行圖像重建和分類,通過將
    發(fā)表于 04-01 10:28 ?4次下載
    <b class='flag-5'>一種</b>改進(jìn)的基于LRC-SNN的<b class='flag-5'>圖像</b>重建與識(shí)別算法

    一種基于改進(jìn)的DCGAN生成SAR圖像的方法

    針對SAR圖像識(shí)別軟件,通過改進(jìn) DCGAN模型單生成器與單判別器對抗的結(jié)構(gòu),采用多生成器與單判別器進(jìn)行對抗,設(shè)計(jì)了控制各生成器生成圖像平均質(zhì)量的算法,提出了一種基于改進(jìn)的 DCGAN
    發(fā)表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一種</b>基于改進(jìn)的DCGAN生成SAR<b class='flag-5'>圖像</b>的方法

    GAN圖像對抗樣本生成方法研究綜述

    為了提高生成對抗網(wǎng)絡(luò)模型對抗樣本的多樣性和攻擊成功率,提出了一種GAN圖像對抗樣本生成方法。首先,利用原始
    發(fā)表于 04-28 16:39 ?72次下載
    GAN<b class='flag-5'>圖像</b>對抗<b class='flag-5'>樣本</b>生成方法研究綜述

    如何制作個(gè)目標(biāo)檢測的樣本圖像

    下胸中的不快,在腦中給出下面這幾個(gè)問題的答案。然后對照下本文將要給出的答案,看看是否能夠心平氣和?!?像元值應(yīng)該如何進(jìn)行歸化? 樣本圖像的尺寸僅與內(nèi)存、顯存大小有關(guān)嗎? 網(wǎng)絡(luò)能檢測的目標(biāo)
    的頭像 發(fā)表于 09-14 09:32 ?1919次閱讀

    如何區(qū)分圖像分類和目標(biāo)檢測技術(shù)

    目標(biāo)檢測的問題定義是確定目標(biāo)在給定圖像中的位置,如目標(biāo)定位,以及每個(gè)目標(biāo)屬于哪個(gè)類別,即
    發(fā)表于 07-11 12:50 ?497次閱讀

    圖像語義分割的實(shí)用性是什么

    什么是圖像語義分割 圖像語義分割是一種圖像中的所有像素點(diǎn)按照其語義類別進(jìn)行分類的任務(wù)。與傳統(tǒng)的圖像
    的頭像 發(fā)表于 07-17 09:56 ?336次閱讀