0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用語義分割概率圖作為語義先驗來約束超分辨率的解空間

商湯科技SenseTime ? 來源:未知 ? 作者:李倩 ? 2018-05-28 16:28 ? 次閱讀

商湯科技在CVPR 2018發(fā)表論文44篇,錄取論文在以下領(lǐng)域?qū)崿F(xiàn)突破:大規(guī)模分布式訓(xùn)練、人體理解與行人再識別、自動駕駛場景理解與分析、底層視覺算法、視覺與自然語言的綜合理解、物體檢測、識別與跟蹤、深度生成式模型、視頻與行為理解等。

以下是在底層視覺算法領(lǐng)域,商湯科技提出的面向生成更自然真實紋理圖像的超分辨率算法。本文為商湯科技CVPR 2018論文解讀第3期。

簡介

單幀圖像超分辨率旨在基于單張低分辨率圖像恢復(fù)對應(yīng)的高分辨率圖像。卷積神經(jīng)網(wǎng)絡(luò)近年在圖像超分辨率任務(wù)中表現(xiàn)出了優(yōu)異的重建效果,但是恢復(fù)出自然而真實的紋理依然是超分辨率任務(wù)中的一大挑戰(zhàn)。

如何恢復(fù)出自然而真實的紋理呢?一個有效的方式是考慮語義類別先驗,即使用圖像中不同區(qū)域所屬的語義類別作為圖像超分辨率的先驗條件,比如天空、草地、水、建筑、森林、山、植物等。不同類別下的紋理擁有各自獨特的特性,換句話說,語義類別能夠更好的約束超分辨中同一低分辨率圖存在多個可能解的情況。如圖1中展示的建筑和植物的例子,它們的低分辨率圖像塊非常類似。雖然結(jié)合生成對抗式網(wǎng)絡(luò)(GAN)進行超分復(fù)原,若未考慮圖像區(qū)域的類別先驗信息,獲得的結(jié)果雖然增加了紋理細(xì)節(jié),但是并不符合圖像區(qū)域本身應(yīng)該具有的紋理特點。

圖1:

不同的語義先驗對

建筑和植物區(qū)域圖像超分辨率的影響

在結(jié)合語義類別先驗的過程中會遇到兩個問題。第一個問題是,如何表達語義類別先驗,特別是當(dāng)一個圖像中存在多種語義類別時。本文選擇了語義分割概率圖作為先驗條件,其能提供像素級的圖像區(qū)域信息,每個像素點的概率向量能夠更精細(xì)地調(diào)控紋理結(jié)果。第二個問題是,如何有效地將語義先驗結(jié)合到網(wǎng)絡(luò)中去。本文提出了一種新的空間特征調(diào)制層(SFT),它能將額外的圖像先驗(比如語義分割概率圖)有效地結(jié)合到網(wǎng)絡(luò)中去,恢復(fù)出與所屬語義類別特征一致的紋理。

最終結(jié)果顯示(如圖2所示)和現(xiàn)有的SRGAN模型以及EnhanceNet模型相比,使用空間特征調(diào)制層的超分辨率網(wǎng)絡(luò)能夠生成更加自然的紋理,恢復(fù)出的高分辨率圖像視覺效果更為真實。

圖2:

在4倍超分辨率下,

SRCNN、SRGAN、EnhanceNet

和本文提出SFT-GAN算法最終結(jié)果的比較

空間特征調(diào)制

本文提出的空間特征調(diào)制層受到條件BN層的啟發(fā),但是條件BN層以及其他的特征調(diào)制層(比如FiLM),往往忽略了網(wǎng)絡(luò)提取特征的空間信息,即對于同一個特征圖的不同位置,調(diào)制的參數(shù)保持一致。但是超分辨率等底層視覺任務(wù)往往需要考慮更多的圖像空間信息,并在不同的位置進行不同的處理?;谶@個觀點,本文提出了空間特征調(diào)制層,其結(jié)構(gòu)如圖3所示。

圖3:

空間特征調(diào)制層的結(jié)構(gòu)

空間特征調(diào)制層對網(wǎng)絡(luò)的中間特征進行仿射變換,變換的參數(shù)由額外的先驗條件(如本文中考慮的語義分割概率圖)經(jīng)過若干層神經(jīng)網(wǎng)絡(luò)變換得到。若以F表示網(wǎng)絡(luò)的特征,γ和β分別表示得到的仿射變換的尺度和平移參數(shù),那么經(jīng)過空間特征調(diào)制層得到的輸出特征為:

空間特征調(diào)制層可以方便地被集成至現(xiàn)有的超分辨率網(wǎng)絡(luò),如SRResNet等。圖4是本文中使用的網(wǎng)絡(luò)結(jié)構(gòu)。為了提升算法效率,先將語義分割概率圖經(jīng)過一個Condition Network得到共享的中間條件,然后把這些條件“廣播”至所有的SFT層。本文算法模型在網(wǎng)絡(luò)的訓(xùn)練中,同時使用了perceptual loss和adversarial loss,被簡稱為SFT-GAN。

圖4:

網(wǎng)絡(luò)框架示意圖

實驗結(jié)果

語義分割結(jié)果

如圖5所示,當(dāng)前基于深度學(xué)習(xí)的語義分割網(wǎng)絡(luò)在低分辨率數(shù)據(jù)集上進行fine-tune后,對于大多數(shù)場景能夠生成較為滿意的分割效果。

圖5:

語義分割結(jié)果

SFT-GAN和其他模型的結(jié)果比較

圖6展示了SFT-GAN模型和其他模型結(jié)果的比較,可以看到基于GAN的算法模型SRGAN、EnhanceNet以及本文的SFT-GAN在視覺效果上超過了以優(yōu)化PSNR為目標(biāo)的模型。SFT-GAN在紋理的恢復(fù)上能夠生成比SRGAN和EnhanceNet更自然真實的結(jié)果(圖中的動物毛發(fā)、建筑物的磚塊、以及水的波紋)。

圖6:

本文SFT-GAN模型

和現(xiàn)有超分辨率模型的結(jié)果對比

在進行的人類用戶評價中,SFT-GAN模型在各個語義類別上也比之前的基于GAN的方法有著顯著的提升(如圖7所示)。

圖7:

人類用戶評價不同算法效果

其他實驗探究

本文還可視化了語義分割概率圖和特征調(diào)制層參數(shù)的關(guān)系。圖8中展示了建筑和草地類別的概率圖以及網(wǎng)絡(luò)中某一層的調(diào)制參數(shù)的聯(lián)系??梢钥吹剑{(diào)制參數(shù)和語義分割概率圖有著緊密的聯(lián)系,同時在調(diào)制參數(shù)中不同類別的界限依舊比較清晰。

圖8:

語義分割概率圖和特征調(diào)制層參數(shù)的聯(lián)系

實際場景中,物體類別的分隔界限通常并不十分明顯,比如圖9中的植物和草的區(qū)域,它們之間的過渡是“無縫”且連續(xù)的,而本文中使用的語義分割概率圖以及調(diào)制層的參數(shù)也是連續(xù)變化的。因此,SFT-GAN可以更為精細(xì)地調(diào)制紋理的生成。

圖9:

SFT層能夠更為精細(xì)地調(diào)制參數(shù)

本文還比較了其他結(jié)合先驗條件的方式:

將圖像和得到的語義分割概率圖級聯(lián)起來共同輸入;

通過不同的分支處理不同的場景類別,然后利用語義分割概率圖融合起來;

不考慮空間關(guān)系的特征調(diào)制方法FiLM。

從圖10中可以看到:

方法1)的結(jié)果沒有SFT層有效(SFT-GAN模型中有多個SFT層能將先驗條件更為緊密地結(jié)合);

方法2)的效率不夠高(SFT-GAN只需要進行一次前向運算);

方法3)由于沒有空間位置的關(guān)系,導(dǎo)致不同類別之間的紋理相互干擾。

圖10:

不同先驗條件結(jié)合方式的結(jié)果比較

結(jié)論

本文深入探討了如何使用語義分割概率圖作為語義先驗來約束超分辨率的解空間,使生成的圖像紋理更符合真實而自然的紋理特性。還提出了一種新穎的空間特征調(diào)制層(SFT)來有效地將先驗條件結(jié)合到現(xiàn)有網(wǎng)絡(luò)中??臻g特征調(diào)制層可以和現(xiàn)有的超分辨率網(wǎng)絡(luò)使用同樣的損失函數(shù),端到端地進行訓(xùn)練。測試時,整個網(wǎng)絡(luò)可以接受任意大小尺寸的圖像作為輸入,只需要一次前向傳播,就能夠輸出結(jié)合語義類別先驗的高分辨率圖像。實驗結(jié)果顯示,相較于現(xiàn)有超分辨率算法,本文SFT-GAN模型生成的圖像具有更加真實自然的紋理。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40375
  • 分辨率
    +關(guān)注

    關(guān)注

    2

    文章

    1031

    瀏覽量

    41866

原文標(biāo)題:CVPR 2018 | 商湯科技論文詳解:基于空間特征調(diào)制的圖像超分辨率

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    目標(biāo)檢測和圖像語義分割領(lǐng)域性能評價指標(biāo)

    目標(biāo)檢測和圖像語義分割領(lǐng)域的性能評價指標(biāo)
    發(fā)表于 05-13 09:57

    van-自然和醫(yī)學(xué)圖像的深度語義分割:網(wǎng)絡(luò)結(jié)構(gòu)

    概率值最大的分割結(jié)果,作為最后的分割。U-Net中常常會問為什么適用于醫(yī)學(xué)圖像這個問題.。首先分析醫(yī)學(xué)影像數(shù)據(jù)特點:圖像
    發(fā)表于 12-28 11:03

    van-自然和醫(yī)學(xué)圖像的深度語義分割:網(wǎng)絡(luò)結(jié)構(gòu)

    概率值最大的分割結(jié)果,作為最后的分割。U-Net中常常會問為什么適用于醫(yī)學(xué)圖像這個問題.。首先分析醫(yī)學(xué)影像數(shù)據(jù)特點:圖像
    發(fā)表于 12-28 11:06

    基于混合先驗模型的分辨率重建

    在L1范數(shù)圖像分辨率重建算法框架下,引入?yún)?shù)自適應(yīng)估計,結(jié)合差分圖像統(tǒng)計特性和概率分布模型提出一種基于混合先驗模型的
    發(fā)表于 04-11 08:42 ?24次下載

    一種語義相似度學(xué)習(xí)的人臉圖像分辨率算法_謝滿軍

    一種語義相似度學(xué)習(xí)的人臉圖像分辨率算法_謝滿軍
    發(fā)表于 03-19 11:45 ?1次下載

    李飛飛等人提出Auto-DeepLab:自動搜索圖像語義分割架構(gòu)

    簡單地移植圖像分類的方法不足以進行語義分割。在圖像分類中,NAS 通常使用從低分辨率圖像到高分辨率圖像的遷移學(xué)習(xí) [92],而語義
    的頭像 發(fā)表于 01-15 13:51 ?3702次閱讀

    語義分割算法系統(tǒng)介紹

    圖像語義分割是圖像處理和是機器視覺技術(shù)中關(guān)于圖像理解的重要任務(wù)。語義分割即是對圖像中每一個像素點進行分類,確定每個點的類別,從而進行區(qū)域劃分,為了能夠幫助大家更好的了解
    的頭像 發(fā)表于 11-05 10:34 ?6572次閱讀

    RGPNET:復(fù)雜環(huán)境下實時通用語義分割網(wǎng)絡(luò)

    本文介紹的論文提出了一種新的實時通用語義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境下取得了顯著的性能提升。作者: Tom Hardy首發(fā):3D視覺工坊...
    的頭像 發(fā)表于 12-10 19:15 ?618次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語義分割領(lǐng)域的廣泛應(yīng)用,語義分割效果得到顯著提升。對基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>方法

    CVPR2020 | 即插即用!將雙邊分辨率用于語義分割網(wǎng)絡(luò),提升圖像分辨率的有效策略

    本文是收錄于CVPR2020的工作,文章利用低分辨率的輸入圖像通過分辨率網(wǎng)絡(luò)生成高分辨率的圖像,從而給語義
    發(fā)表于 01-26 19:51 ?1次下載
    CVPR2020 | 即插即用!將雙邊<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>用于<b class='flag-5'>語義</b><b class='flag-5'>分割</b>網(wǎng)絡(luò),提升圖像<b class='flag-5'>分辨率</b>的有效策略

    PyTorch教程-14.9. 語義分割和數(shù)據(jù)集

    劃分為屬于不同語義類的區(qū)域。與目標(biāo)檢測不同,語義分割在像素級別識別和理解圖像中的內(nèi)容:它對語義區(qū)域的標(biāo)記和預(yù)測是在像素級別。 14.9
    的頭像 發(fā)表于 06-05 15:44 ?601次閱讀
    PyTorch教程-14.9. <b class='flag-5'>語義</b><b class='flag-5'>分割</b>和數(shù)據(jù)集

    靈活且高增益的分布式光纖傳感卷積(空間分辨率)技術(shù)

    空間分辨率是分布式光纖傳感系統(tǒng)的關(guān)鍵指標(biāo),卷積可以突破脈沖光寬度對空間分辨率的限制,實現(xiàn)
    發(fā)表于 06-16 14:06 ?1199次閱讀
    靈活且高增益的分布式光纖傳感<b class='flag-5'>解</b>卷積(<b class='flag-5'>超</b><b class='flag-5'>空間</b><b class='flag-5'>分辨率</b>)技術(shù)

    實時語義與潛在先驗網(wǎng)絡(luò)和準(zhǔn)平面分割

    論文在III-B部分描述了論文方法背后的SLAM管道。論文的2D潛在先驗網(wǎng)絡(luò)(LPN)在III-C中描述。LPN輸出融合到論文在III-D中描述的論文新穎的準(zhǔn)平面分段(QPOS)方法分割的地圖
    的頭像 發(fā)表于 07-19 15:55 ?495次閱讀
    實時<b class='flag-5'>語義</b>建<b class='flag-5'>圖</b>與潛在<b class='flag-5'>先驗</b>網(wǎng)絡(luò)和準(zhǔn)平面<b class='flag-5'>分割</b>

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計算機視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?599次閱讀

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學(xué)圖像分析、機器人導(dǎo)航等。 一、圖像語義
    的頭像 發(fā)表于 07-17 09:56 ?336次閱讀