0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

東京大學(xué)團(tuán)隊(duì)開(kāi)源了一款名為「neural collage」的圖像編輯工具

5RJg_mcuworld ? 來(lái)源:lq ? 2019-04-23 16:32 ? 次閱讀

教新手畫(huà)畫(huà)?字體風(fēng)格遷移?換明星“假臉”?毫無(wú)疑問(wèn),在圖像生成中 GAN 以其生成以假亂真的圖像“發(fā)揮”出了巨大的潛力。

日前,來(lái)自日本東京大學(xué)和 Preferred Networks 公司的團(tuán)隊(duì)開(kāi)源了一款名為「neural collage」的圖像編輯工具,允許用戶在圖像的制定位置更改圖像的語(yǔ)義信息,以達(dá)到圖像拼貼的效果。

例如,將一只面露兇光的哈士奇的圖片換臉成為可愛(ài)的博美。

而更值得一提的是,整個(gè)過(guò)程的中間操作非常簡(jiǎn)單。

如何使用和安裝?

首先保證 Python 3.6 以上的語(yǔ)言環(huán)境,并安裝所需的 Python 庫(kù):pip install -r requirements.txt

如果想要使用預(yù)訓(xùn)練模型生成圖像,項(xiàng)目作者該提供了鏈接以下載模型。需要注意的是,將 snapshot 參數(shù)設(shè)置為下載的預(yù)訓(xùn)練模型文件(.npz)的路徑。

相關(guān)鏈接:

https://drive.google.com/drive/u/0/folders/1SFmq9LjEkIXXAKo6p-Wdlfu0BUFSyLJi

https://drive.google.com/drive/folders/1qPP2RxMNnPSbacotnG7_H5dZrQpOmI3D

作者表示,基于 GAN 模型采用了兩種新策略:sCBN 和 特征混合,并在“Spatially Controllable Image Synthesis with Internal Representation Collaging”論文中詳述了該方法原理及實(shí)現(xiàn)效果。

鏈接:

https://arxiv.org/abs/1811.10153

以下為論文解讀:

摘要

本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的圖像編輯策略,這種新穎的方法通過(guò)對(duì) GAN模型生成的圖像進(jìn)行特征空間表征,從而改變圖像任意區(qū)域的語(yǔ)義信息。

該策略能夠與任何帶條件正則化層 (conditional normalization layers) 的 GAN模型相結(jié)合,用于圖像對(duì)人工圖像和真實(shí)圖像的編輯任務(wù),它有如下兩種變體:

(1) sCBN (spatial conditional batch normalization),這是一種基于用戶指定空間權(quán)重映射的條件批正則化方法;

(2) 特征混合(feature-blending),即一種直接修改中間特征圖的方法。此外,通過(guò)在不同數(shù)據(jù)集上、與不同 GAN 模型結(jié)合實(shí)驗(yàn),進(jìn)一步驗(yàn)證了本文所提出方法的有效性及強(qiáng)大性能。

簡(jiǎn)介

深度生成模型,如生成對(duì)抗網(wǎng)絡(luò)(GANs)和變分自編碼器(VAE)是很有潛力的無(wú)監(jiān)督學(xué)習(xí)技術(shù),具有強(qiáng)大的語(yǔ)義信息表征能力。

其中以 GAN 在圖像任務(wù)方面尤為成功,如圖像著色、圖像修復(fù)、領(lǐng)域轉(zhuǎn)換、風(fēng)格遷移、目標(biāo)形變等應(yīng)用。

隨著穩(wěn)定 GAN 模型訓(xùn)練的方法的相繼提出,這類(lèi)模型在圖像生成方面也得到廣泛的應(yīng)用。

然而,如何根據(jù)用戶的意愿正則化 GAN 模型,得到想要的輸出,這仍是當(dāng)前相關(guān)領(lǐng)域的一大問(wèn)題。

先前的研究,諸如條件生成對(duì)抗網(wǎng)絡(luò)(CGAN)、InfoGAN、風(fēng)格生成對(duì)抗網(wǎng)絡(luò)(StyleGAN)等都在探索如何讓生成對(duì)抗網(wǎng)絡(luò)有指向性地生成所需要的圖像。

而最近提出的 GAN dissection 研究深入探索了模型輸出與中間特征語(yǔ)義信息之間的關(guān)系,并通過(guò)推理關(guān)系 (relation) 成功實(shí)現(xiàn)逼真圖像的生成。

受此啟發(fā),本文提出一種新穎的圖像變換方法,即 sCBN 和特征混合策略,通過(guò)處理生成網(wǎng)絡(luò)圖像的中間特征來(lái)編輯圖像,并允許用戶對(duì)圖像語(yǔ)義信息進(jìn)行復(fù)制、粘貼等編輯操作。

其中, sCBN 基于用戶所指定的混合系數(shù) (標(biāo)簽拼貼(label collaging)) 的空間映射圖,允許用戶融合多標(biāo)簽的語(yǔ)義信息。

如此,不僅可以從一個(gè)標(biāo)簽映射圖中生成圖像,還能夠通過(guò)局部的圖像語(yǔ)義改變圖像。

如下圖1a,該方法能夠?qū)⒁恢还科娴难劬ψ優(yōu)椴┟廊难劬Α?/p>

特征混合能夠在中間特征空間直接融合多張圖像,還能將復(fù)雜特征進(jìn)行局部混合;圖 1b 中,通過(guò)特征混合將一只動(dòng)物的姿態(tài)變?yōu)槟P退x的姿勢(shì)。

圖1 通過(guò) sCBN 方法 (a) 和特征混合方法 (b) 得到的特征拼貼樣本。

總的來(lái)說(shuō),該方法的一大優(yōu)勢(shì)在于只需要訓(xùn)練 AdaIN 或 CBN 結(jié)構(gòu)的 GAN 模型就能實(shí)現(xiàn),無(wú)需額外訓(xùn)練其他模型。

它能夠用于 GAN 模型所生成的任意圖像,適用于廣泛的圖像語(yǔ)義操作。此外,通過(guò)與流形投射 (Manifold projection) 結(jié)合,該方法能夠?qū)φ鎸?shí)圖像的局部語(yǔ)義信息進(jìn)行編輯處理,并大量實(shí)驗(yàn)中展現(xiàn)了強(qiáng)大的性能。

方法

sCBN

sCBN 是一種特殊形式的條件批正則化方法 (CBN),作為批正則化方法 (BN) 的變體,它能夠?qū)?BN 中的參數(shù)按類(lèi)語(yǔ)義信息進(jìn)行編碼。對(duì)于圖像的局部類(lèi)標(biāo)簽,它通過(guò)空間變換來(lái)改變條件批正則化參數(shù),如下圖2所示。

圖2 CBN 方法和 sCBN 方法中層結(jié)構(gòu)對(duì)比圖。左邊是 CBN 方法,它通過(guò)空間一致長(zhǎng)度,逐層向生成的圖像添加類(lèi)別特征。

右圖是 sCBN 方法,該方法的每一層將用戶指定的混合密度與類(lèi)特征混合到生成的圖像中。

基于單一類(lèi)別的圖像樣本,CBN 方法通過(guò)特定類(lèi)的放縮比例 (class-specific scale) 和偏差參數(shù) (bias parameters) 來(lái)正則化中間特征集合。

而 sCBN 則是將 CBN 方法中的放縮比例項(xiàng)替換為一種加權(quán)和的形式,該權(quán)重系數(shù)是由混合系數(shù)的非負(fù)張量映射組成,這是由用戶所決定的。

如此,用戶可以通過(guò)所選取的權(quán)重系數(shù)來(lái)決定某個(gè)類(lèi)別 c 在任意區(qū)域的特征密度,達(dá)到控制生成輸出的目的。

此外,通過(guò)所選用的權(quán)重值控制圖像不同區(qū)域不同類(lèi)別的特征密度,用戶可以將圖像多個(gè)不相交部分進(jìn)行分類(lèi)。

空間特征混合

空間特征混合 (spatial feature blending)是一種可以提取圖像特定區(qū)域特征并將其與其他特征混合的方法。

與 sCBN 方法中的權(quán)重系數(shù)類(lèi)似,用戶同樣可以通過(guò)選擇特征混合參數(shù) M 來(lái)控制所混合的效果。

此外,通過(guò)流形投射變換,該方法還能用于真實(shí)圖像的編輯處理,如下圖3所示,通過(guò)特征混合處理,將圖像 G(z2) 和 G(z1) 的嘴巴特征混合。用戶只需要通過(guò)選擇選擇嘴巴特定區(qū)域的混合系數(shù) M,就能夠?qū)崿F(xiàn)這種效果。

圖3 空間特征混合方法,通過(guò)不斷地迭代過(guò)程,在生成網(wǎng)絡(luò)的特征空間,將不同隱變量生成的圖像混合到目標(biāo)圖像中去。

真實(shí)圖像應(yīng)用

通過(guò)尋找一個(gè)流形投射方法,使得隱變量 z 滿足 G(z) 與 x 大致相等,實(shí)現(xiàn)真實(shí)圖像的語(yǔ)義信息進(jìn)行編輯。

在獲得 x 的倒數(shù)后,可以通過(guò)應(yīng)用相同的流程來(lái)更改 x 的部分標(biāo)簽信息或?qū)⑵渌麍D像特征混合到 x 中。

實(shí)際的圖像編輯流程如下圖4所示,在圖像變換的最后一步,這里采用一個(gè)泊松混合(Poisson blending)的后處理步驟。

這主要是因?yàn)?GAN 模型沒(méi)有解耦圖像背景信息的能力,而通過(guò)泊松混合操作能夠去除感興趣區(qū)域的一些偽像。

圖4 將特征空間拼貼算法應(yīng)用于真實(shí)圖像的流程:用戶需要指定混合映射圖,選擇特征空間拼貼方法,并在后處理時(shí)將掩碼用于泊松混合過(guò)程。

下圖5展示的是不同類(lèi)別條件的圖像重構(gòu)例子。

圖5 通過(guò)流形投射對(duì)多種類(lèi)別標(biāo)簽進(jìn)行圖像重構(gòu)的例子。其中紅色幀圖像是通過(guò)原始類(lèi)別標(biāo)簽進(jìn)行重構(gòu)的圖像。

下圖6展示兩種方法在真實(shí)圖像上的應(yīng)用例子。左側(cè)是 sCBN 方法在真實(shí)圖像上的結(jié)果,而右圖是特征混合方法所得到的結(jié)果。

圖6 sCBN 和特征混合方法在圖像上的應(yīng)用。

實(shí)驗(yàn)

結(jié)果分析

這里,將所提出的方法與 DCGAN 模型相結(jié)合,并在多個(gè)不同圖像數(shù)據(jù)集來(lái)驗(yàn)證方法的有效性。

此外,為了驗(yàn)證流形投射和 DCGAN 模型的表征能力,這里還進(jìn)行一系列的非空間變換的消融實(shí)驗(yàn) (ablation experiments)。

下圖7展示的是使用 sCBN 方法所得到的標(biāo)簽拼貼示例??梢钥吹剑摲椒軌蛘{(diào)整圖像的全局信息 (如面部、形狀) 和局部信息 (如顏色、紋理),而不會(huì)破壞圖像的語(yǔ)義一致性。

圖7 sCBN 方法的標(biāo)簽拼貼結(jié)果。其中,紅線包圍的區(qū)域被翻譯為目標(biāo)標(biāo)簽。

圖8顯示的是使用特征混合所得到的標(biāo)簽拼貼結(jié)果??梢钥吹?,該方法成功地修改了圖像的語(yǔ)義分割,而不會(huì)破壞原始圖像的質(zhì)量。

這種方法對(duì)于轉(zhuǎn)換區(qū)域的語(yǔ)義排列信息有很強(qiáng)的魯棒性。

圖8 特征混合方法的標(biāo)簽拼貼結(jié)果。其中,紅色幀區(qū)域內(nèi)的特征被混合到基礎(chǔ)圖像中。

每層的拼貼效果

通過(guò)一系列的消融研究來(lái)探究模型中每層修改的影響。下圖9是 sCBN 方法分別應(yīng)用于 (1) 所有層,(2) 最靠近輸入層,(3) 除了第一層的所有層,所得到的結(jié)果。

可以看到,越靠近 z 層,該方法對(duì)于全局特征的影響越明顯;而越靠近 x 層,sCBN 方法對(duì)就局部特征的影響越顯著。

圖9 在不同層的拼貼效果。從上到下分別是 sCBN 方法作用于不同層所得到的結(jié)果。

同樣,下圖10展示的特征混合方法,則是以不同的混合權(quán)重,應(yīng)用于不同層 (l=1,2,3,4) 所得到的結(jié)果。

可以看到,當(dāng)用于第一層時(shí),全局特征將受到影響,而局部特征將會(huì)被保留。而當(dāng)該方法應(yīng)用于靠近 x 層時(shí),所得到的結(jié)果則相反。

因此,用戶可以根據(jù)需要,更精細(xì)地選取混合權(quán)重系數(shù)來(lái)控制局部特征轉(zhuǎn)換及其密度。

圖10 特征混合方法作用于不同層所得到的結(jié)果

真實(shí)圖像的轉(zhuǎn)換

為了通過(guò)分類(lèi)精度和人類(lèi)感知測(cè)試來(lái)定量評(píng)估方法在真實(shí)圖像轉(zhuǎn)換方面的表現(xiàn),將 sCBN 方法應(yīng)用于 ImageNet 數(shù)據(jù)集中的圖像,并進(jìn)行 (1) cat→big cat,(2) cat→dog 以及 (3) dog→dog 的變換。

隨后,以 UNIT 和 MUNIT 為基準(zhǔn),將本文所提出的方法與其進(jìn)行對(duì)比分析,結(jié)果如下圖11。

可以看到,在 top-5 錯(cuò)誤率方面,該方法的表現(xiàn)更優(yōu)于其他兩種基準(zhǔn),這也驗(yàn)證了它在真實(shí)圖像變換方面的有效性。

圖11 top-5 分類(lèi)錯(cuò)誤率結(jié)果

結(jié)論

本文提出一種新穎有效的圖像編輯策略,通過(guò) sCBN 和特征混合方法,對(duì)圖像中間特征表征進(jìn)行處理,從而達(dá)到修改語(yǔ)義信息、編輯圖像的目的。

其中條件正則化方法不僅能夠處理類(lèi)別條件,還能處理其他的信息,在未來(lái)的研究中可以將該方法應(yīng)用于更廣泛的非圖像數(shù)據(jù)集。

然而,在研究中仍發(fā)現(xiàn)一些不足之處:表達(dá)能力受限的生成網(wǎng)絡(luò),尤其是在與流形投射結(jié)合用于處理真實(shí)圖像變換,未來(lái)的研究中相關(guān)問(wèn)題仍值得深入探究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1076

    瀏覽量

    40295
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1888

    瀏覽量

    71232
  • python
    +關(guān)注

    關(guān)注

    53

    文章

    4753

    瀏覽量

    84111

原文標(biāo)題:惡犬秒變萌汪:東京大學(xué)開(kāi)源“治愈系” GAN 圖片拼貼工具 | 技術(shù)頭條

文章出處:【微信號(hào):mcuworld,微信公眾號(hào):嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    東京大學(xué)——C進(jìn)階教程

    東京大學(xué)——C進(jìn)階教程,很好的東東。
    發(fā)表于 02-16 09:22

    日本東京大學(xué)的兩篇關(guān)于無(wú)線充電的文章,需要的拿去,...

    日本東京大學(xué)的兩篇關(guān)于無(wú)線充電的文章
    發(fā)表于 03-08 15:08

    東京大學(xué)研究出柔性有機(jī)閃存

    東京大學(xué)研究出柔性有機(jī)閃存 科技的發(fā)展帶給人們的驚喜之就是,你永遠(yuǎn)不知道接下來(lái)會(huì)發(fā)生什么。比如,如果有人告訴你,以后從U盤(pán)到MP3到手機(jī),都能做成大白兔
    發(fā)表于 12-24 09:04 ?507次閱讀
    <b class='flag-5'>東京大學(xué)</b>研究出柔性有機(jī)閃存

    東京大學(xué)的研究人員:新開(kāi)發(fā)的電子皮膚有個(gè)LED顯示屏

    過(guò)去的幾年出現(xiàn)很多柔性電子皮膚貼片概念,可以管理藥物或監(jiān)測(cè)健康狀況,但是東京大學(xué)的研究人員最新開(kāi)發(fā)的版本增加了個(gè)LED顯示屏。
    發(fā)表于 05-15 08:46 ?1422次閱讀

    日本東京大學(xué)研發(fā)出了智能皮膚,可實(shí)時(shí)顯示健康數(shù)據(jù)

    日本東京大學(xué)研發(fā)出了智能皮膚(smart skin),可以直接貼在皮膚上,實(shí)時(shí)顯示健康數(shù)據(jù)。
    發(fā)表于 05-01 14:23 ?1797次閱讀

    日本東京大學(xué)團(tuán)隊(duì)發(fā)現(xiàn)人類(lèi)磁感應(yīng)能力

    據(jù)日本《產(chǎn)經(jīng)新聞》3月19日?qǐng)?bào)道,日本東京大學(xué)與美國(guó)加利福尼亞理工大學(xué)的聯(lián)合研究團(tuán)隊(duì)發(fā)現(xiàn),人類(lèi)也擁有類(lèi)似鳥(niǎo)類(lèi)的電磁感應(yīng)能力。這研究成果已于19日在美國(guó)相關(guān)專(zhuān)業(yè)期刊雜志上發(fā)表。這
    發(fā)表于 03-20 11:19 ?941次閱讀

    IBM和東京大學(xué)合作共同推進(jìn)量子計(jì)算應(yīng)用

    據(jù)helpnetsecurity報(bào)道,IBM和東京大學(xué)宣布達(dá)成項(xiàng)合作協(xié)議,共同推進(jìn)量子計(jì)算,使其為工業(yè)、科學(xué)和社會(huì)發(fā)展作出貢獻(xiàn)。
    的頭像 發(fā)表于 12-23 16:30 ?3631次閱讀

    東京大學(xué)AI新創(chuàng)推出一款學(xué)習(xí)型的搬運(yùn)機(jī)器人

    由日本東京大學(xué)(University of Tokyo)設(shè)立的人工智能(AI)新創(chuàng)企業(yè),Trust Smith,在開(kāi)發(fā)無(wú)人機(jī)(UAV)的自動(dòng)控制與影像檢測(cè)、工業(yè)設(shè)備自動(dòng)監(jiān)測(cè)、與行人自動(dòng)計(jì)測(cè)系統(tǒng)后,又對(duì)外宣布新的產(chǎn)品。
    的頭像 發(fā)表于 01-09 16:43 ?2861次閱讀

    東京大學(xué)研究員通過(guò)新TFEP電解液來(lái)提高鋰電安全性

    東京大學(xué)研究人員首次探索電能存儲(chǔ)的物理和化學(xué)特性,并發(fā)現(xiàn)改進(jìn)鋰離子電池的新方法。
    的頭像 發(fā)表于 03-31 15:06 ?2648次閱讀

    東京大學(xué)內(nèi)部芯片項(xiàng)目的名稱譯名是什么?

    挑戰(zhàn)硬件的物理極限總是件有趣的事,Preferred Networks公司正在做的事著實(shí)震驚很多人。Preferred Networks公司是從東京大學(xué)(Tokyo University)衍生
    的頭像 發(fā)表于 06-08 17:11 ?2393次閱讀

    東京大學(xué)研究出種人工智能技術(shù),快速篩查癌變

    據(jù)《日本經(jīng)濟(jì)新聞》1月18日?qǐng)?bào)道,日本東京大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)出種人工智能技術(shù),能根據(jù)膠囊內(nèi)窺鏡拍攝的圖像,迅速找到結(jié)腸癌或息肉等病變,其分辨準(zhǔn)確率達(dá)到96%。
    的頭像 發(fā)表于 01-20 09:22 ?1496次閱讀

    東京大學(xué)教授如何用藍(lán)牙技術(shù)來(lái)監(jiān)測(cè)房間使用情況

    復(fù)工復(fù)學(xué)。 我最近有幸采訪東京大學(xué)教授——Yoshihiro Kawahara(川原圭博)博士。他負(fù)責(zé)開(kāi)發(fā)了種智能手機(jī)接觸者追蹤解決方案——MOCHA。在新冠疫情迫使許多其他大學(xué)關(guān)
    的頭像 發(fā)表于 05-24 11:08 ?1642次閱讀

    日本東京大學(xué):研制納米級(jí)量子傳感器實(shí)現(xiàn)高清成像

    傳感新品 【日本東京大學(xué):研制納米級(jí)量子傳感器實(shí)現(xiàn)高清成像?】 科技日?qǐng)?bào)北京6月15日電 (記者張佳欣)日本東京大學(xué)科學(xué)家利用六方氮化硼二維層中的硼空位,首次完成了在納米級(jí)排列量子傳感器的精細(xì)任務(wù)
    的頭像 發(fā)表于 06-19 10:02 ?645次閱讀
    日本<b class='flag-5'>東京大學(xué)</b>:研制納米級(jí)量子傳感器實(shí)現(xiàn)高清成像

    AI圖像編輯技術(shù)DragGAN開(kāi)源,拖動(dòng)鼠標(biāo)即可改變?nèi)宋镄θ?/a>

    DragGAN是個(gè)直觀的圖像編輯工具PM系統(tǒng)(www.multiable.com.cn),用戶只需要控制圖像中的像素點(diǎn)和方向,就可以快速調(diào)整照片主體的位置、姿態(tài)、表情、大小和角度等。
    的頭像 發(fā)表于 06-29 10:34 ?807次閱讀

    伯克利AI實(shí)驗(yàn)室開(kāi)源圖像編輯模型InstructPix2Pix,簡(jiǎn)化生成圖像編輯并提供致結(jié)果

    具有挑戰(zhàn)性。最近,InfoQ 報(bào)道微軟的 Visual ChatGPT,它可以調(diào)用外部工具來(lái)編輯圖像,前提是提供編輯操作的文本描述。
    的頭像 發(fā)表于 08-28 15:45 ?737次閱讀
    伯克利AI實(shí)驗(yàn)室<b class='flag-5'>開(kāi)源</b><b class='flag-5'>圖像編輯</b>模型InstructPix2Pix,簡(jiǎn)化生成<b class='flag-5'>圖像編輯</b>并提供<b class='flag-5'>一</b>致結(jié)果