0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新穎的基于強(qiáng)化學(xué)習(xí)的圖像復(fù)原算法—RL-Restore

商湯科技SenseTime ? 來源:未知 ? 作者:李倩 ? 2018-05-26 11:07 ? 次閱讀

簡(jiǎn)介

在底層視覺算法領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)近年取得了巨大的進(jìn)展,在諸如去模糊、去噪、去JPEG失真、超分辨率等圖像復(fù)原任務(wù)上已經(jīng)達(dá)到了優(yōu)異的性能。但是現(xiàn)實(shí)圖像中的失真往往更加復(fù)雜,例如,經(jīng)過多個(gè)圖像降質(zhì)過程后,圖像可能包含模糊、噪聲、JPEG壓縮的混合失真。這類混合失真圖像對(duì)目前的圖像復(fù)原算法仍然充滿挑戰(zhàn)性。

近期的一些圖像復(fù)原工作(如VDSR、DnCNN等)證實(shí)了一個(gè)CNN網(wǎng)絡(luò)可以處理多種失真類型或不同失真程度的降質(zhì)圖像,這為解決混合失真問題提供了新的思路。但是,這類算法均選用了復(fù)雜度較高的網(wǎng)絡(luò)模型,帶來了較大的計(jì)算開銷。另外,這些算法的網(wǎng)絡(luò)均使用同一結(jié)構(gòu)處理所有圖像,未考慮一些降質(zhì)程度較低的圖像可以使用更小的網(wǎng)絡(luò)進(jìn)行復(fù)原。

針對(duì)現(xiàn)有圖像復(fù)原CNN算法模型復(fù)雜,計(jì)算復(fù)雜度高的問題,本文提出的RL-Restore算法彌補(bǔ)了這些不足,以更加高效靈活的方式解決了復(fù)雜的圖像復(fù)原問題。

RL-Restore算法的設(shè)計(jì)思想與挑戰(zhàn)

當(dāng)前流行的圖像復(fù)原理念認(rèn)為解決復(fù)雜的圖像復(fù)原問題需要一個(gè)大型的CNN,而本文提出了一種全新的解決方案,即使用多個(gè)小型CNN專家以協(xié)作的方式解決困難的真實(shí)圖像復(fù)原任務(wù)。RL-Restore算法的主要思路是設(shè)計(jì)一系列基于小型CNN的復(fù)原工具,并根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)如何恰當(dāng)?shù)亟M合使用它們。這是因?yàn)楝F(xiàn)實(shí)圖像或多或少受到多種失真的影響,針對(duì)復(fù)雜失真的圖像學(xué)習(xí)混合使用不同的小型CNN能夠有效的解決現(xiàn)實(shí)圖像的復(fù)原問題。不僅如此,因?yàn)樵撍惴梢愿鶕?jù)不同的失真程度選取不同大小的工具,相較于現(xiàn)有CNN模型,這一新方法使用的參數(shù)更少,計(jì)算復(fù)雜度更低。

RL-Restore算法的目標(biāo)是對(duì)一張失真圖像有針對(duì)性地選擇一個(gè)工具鏈(即一系列小型CNN工具)進(jìn)行復(fù)原,因而其該算法包含了兩個(gè)基本組件:

一個(gè)包含多種圖像復(fù)原小型CNN的工具箱;

一個(gè)可以在每一步?jīng)Q定使用何種復(fù)原工具的強(qiáng)化學(xué)習(xí)算法。

本文提出的工具箱中包含了12個(gè)針對(duì)不同降質(zhì)類型的CNN(如表1所示)。每一種工具解決一種特定程度的高斯模糊、高斯噪聲、JPEG失真,這些失真在圖像復(fù)原領(lǐng)域中最為常見。針對(duì)輕微程度失真的復(fù)原工具CNN僅有3層,而針對(duì)嚴(yán)重程度失真的工具達(dá)到8層。為了增強(qiáng)復(fù)原工具的魯棒性,本文在所有工具的訓(xùn)練數(shù)據(jù)中均加入了輕微的高斯噪聲及JPEG失真。

表1:

工具箱中的圖像復(fù)原工具

圖1:

不同圖像復(fù)原的工具鏈對(duì)最終結(jié)果產(chǎn)生不同影響

(c, d) 適用于這兩張失真圖像的CNN工具鏈

(b, e) 改變工具使用順序的圖像復(fù)原結(jié)果

(a, f) 改變工具強(qiáng)度的圖像復(fù)原結(jié)果

有了工具箱,如何選擇工具成為本文解決的主要挑戰(zhàn)之一。圖1展示了不同工具鏈的圖像復(fù)原結(jié)果,可以看到對(duì)工具鏈的微小調(diào)整可能導(dǎo)致復(fù)原結(jié)果的劇烈變化。本文解決的第二個(gè)挑戰(zhàn)在于,沒有一個(gè)已有的工具可以恰當(dāng)?shù)奶幚怼爸虚g結(jié)果”。例如,去模糊的工具可能也會(huì)放大噪聲,導(dǎo)致后面已有的去噪工具無法有效處理新引入的未知失真。針對(duì)這些挑戰(zhàn),本文使用強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到有效的工具選擇策略,同時(shí)還提出聯(lián)合訓(xùn)練算法對(duì)所有工具進(jìn)行端到端的訓(xùn)練以解決有效復(fù)原“中間結(jié)果”的挑戰(zhàn)。

基于強(qiáng)化學(xué)習(xí)的普適圖像復(fù)原

RL-Restore算法的框架(如圖2所示)。對(duì)于一張輸入圖像,agent首先從工具箱中選擇一個(gè)工具對(duì)它進(jìn)行恢復(fù)。然后agent根據(jù)當(dāng)前的狀態(tài)(包括復(fù)原中間結(jié)果和之前工具的選擇)來選取下一個(gè)動(dòng)作(使用復(fù)原工具或停止),直到算法決定終止復(fù)原過程。

圖2:

RL-Restore算法框架,虛線框內(nèi)為Agent結(jié)構(gòu)

動(dòng)作(action):在每一個(gè)復(fù)原步驟 t,算法會(huì)輸出一個(gè)估值向量vt選擇一個(gè)動(dòng)作at。除了停止動(dòng)作以外,其余每一個(gè)動(dòng)作均代表使用某個(gè)復(fù)原工具。在本文中,工具箱內(nèi)共包含12個(gè)工具,因而算法總共包含13個(gè)動(dòng)作。

狀態(tài)(state):狀態(tài)是算法可以觀測(cè)到的信息,在步驟t的狀態(tài)記為St={It,v ?t},其中It是當(dāng)前步驟的輸入圖像,v ?t=vt-1是前一步驟的動(dòng)作估值向量,包含了前一步驟的決策信息。

回報(bào)(reward):在強(qiáng)化學(xué)習(xí)中,算法的學(xué)習(xí)目標(biāo)是最大化所有步驟的累積回報(bào),因而回報(bào)是驅(qū)動(dòng)算法學(xué)習(xí)的關(guān)鍵。本文希望確保圖像質(zhì)量在每一步驟都得到提升,因此設(shè)計(jì)了一個(gè)逐步的回報(bào)函數(shù)rt=Pt+1-Pt,其中Pt+1和Pt分別代表步驟t的輸入圖像和輸出圖像的PSNR,度量每個(gè)步驟中圖像PSNR的變化。

結(jié)構(gòu):虛線框內(nèi)的agent包含了三個(gè)模塊(如圖2所示):

特征提取器(Feature Extractor),包含了4個(gè)卷積層和1個(gè)全連接層,將輸入圖像轉(zhuǎn)化為32維特征向量;

One-hot編碼器(One-hot Encoder),其輸入是前一步驟的動(dòng)作估值向量,輸出將其轉(zhuǎn)換為對(duì)應(yīng)的特征向量;

LSTM,其以前兩個(gè)模塊輸出作為輸入,這個(gè)模塊不僅觀測(cè)當(dāng)前步驟的狀態(tài)特征,還存儲(chǔ)了歷史狀態(tài)的信息,該模塊最后輸出當(dāng)前步驟的估值向量,用于復(fù)原工具的選取。

訓(xùn)練:每一個(gè)復(fù)原工具的訓(xùn)練均使用MSE損失函數(shù),而agent的訓(xùn)練則使用deep Q-learning算法。由于LSTM具有記憶性,每一個(gè)訓(xùn)練樣本均包含一條完整的工具鏈。

聯(lián)合訓(xùn)練算法

至此,RL-Restore算法已經(jīng)擁有了較好的工具選取策略,還需要解決對(duì)“中間結(jié)果”進(jìn)行復(fù)原的挑戰(zhàn)。前文已經(jīng)提到,由于前面的復(fù)原步驟可能引入新的未知失真,沒有一個(gè)已有工具能對(duì)這類復(fù)雜的“中間結(jié)果”進(jìn)行有效處理。因此,本文提出了聯(lián)合訓(xùn)練算法,將所有的工具以及工具的選擇進(jìn)行端到端地訓(xùn)練,從而解決“中間結(jié)果”的復(fù)原問題。具體而言,對(duì)于每一張輸入圖像,先通過所選取的工具鏈前向傳播得到最后的復(fù)原圖像,通過與清晰參考圖像對(duì)比得到MSE損失,然后通過工具鏈對(duì)誤差進(jìn)行反向傳播,根據(jù)平均的梯度值更新工具網(wǎng)絡(luò)的參數(shù)。

算法1:

聯(lián)合訓(xùn)練算法

實(shí)驗(yàn)結(jié)果

本文使用DIV2K訓(xùn)練集的前750張圖像用于訓(xùn)練,后50張圖像用于測(cè)試。通過摳取分辨率為63x63的子圖像,共得到25萬張訓(xùn)練圖像和3,584張測(cè)試圖像。本文在每一張圖像上隨機(jī)加上不同程度的高斯模糊、高斯噪聲和JPEG壓縮。算法在訓(xùn)練樣本中排除一些極度輕微或嚴(yán)重的失真,使用中度失真的圖像進(jìn)行訓(xùn)練(如圖3所示),而在輕度、中度和重度失真的圖像上進(jìn)行測(cè)試。

圖3:

不同程度的失真圖像

本文與現(xiàn)有的VDSR和DnCNN圖像復(fù)原算法相比,模型復(fù)雜度更低而復(fù)原性能更加優(yōu)異(如表2、3所示)。其中VDSR-s是與VDSR結(jié)構(gòu)相似的小參數(shù)模型,其參數(shù)量與RL-Restore算法相當(dāng)。表2展示了RL-Restore算法具有最小的參數(shù)量和計(jì)算復(fù)雜度,表3展示了RL-Restore算法與VDSR和DnCNN等大模型在輕度和中度失真測(cè)試集上具有類似的性能,而在重度失真測(cè)試集上則表現(xiàn)得更加優(yōu)異。在參數(shù)量相當(dāng)?shù)那闆r下,RL-Restore算法在各個(gè)測(cè)試集上均比VDSR-s算法擁有更加優(yōu)異的復(fù)原性能。圖4展示了不同算法和本文算法在不同步驟復(fù)原結(jié)果的對(duì)比。

表2:

模型復(fù)雜度對(duì)比

表3:

復(fù)原結(jié)果對(duì)比

圖4:

可視化復(fù)原結(jié)果對(duì)比

本文也使用實(shí)際場(chǎng)景圖像對(duì)RL-Restore算法進(jìn)行了進(jìn)一步測(cè)試。如圖5所示,測(cè)試圖像由智能手機(jī)采集,其中包含了模糊、噪聲和壓縮等失真,直接使用訓(xùn)練好的RL-Restore和VDSR模型在這些真實(shí)場(chǎng)景圖像進(jìn)行測(cè)試。由結(jié)果可以看到,RL-Restore算法取得了明顯更加優(yōu)異的復(fù)原結(jié)果,圖5(a, c) 展示了RL-Restore算法成功修復(fù)由曝光噪聲和壓縮帶來的嚴(yán)重失真;圖5(b, d, e) 展示了本文方法可以有效地處理混合的模糊與噪聲。

圖5:

RL-Restore算法對(duì)實(shí)際場(chǎng)景圖像的復(fù)原結(jié)果

結(jié)論

本文提出了一種新穎的基于強(qiáng)化學(xué)習(xí)的圖像復(fù)原算法—RL-Restore。與現(xiàn)有的深度學(xué)習(xí)方法不同,RL-Restore算法通過學(xué)習(xí)動(dòng)態(tài)地選取工具鏈從而對(duì)帶有復(fù)雜混合失真的圖像進(jìn)行高效的逐步復(fù)原。基于合成數(shù)據(jù)與現(xiàn)實(shí)數(shù)據(jù)的大量實(shí)驗(yàn)結(jié)果證實(shí)了該算法的有效性和魯棒性。由于算法框架的靈活性,通過設(shè)計(jì)不同的工具箱和回報(bào)函數(shù),RL-Restore算法為解決其他富有挑戰(zhàn)性的底層視覺問題也提供了新穎的解決思路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100010
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1075

    瀏覽量

    40270
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    349

    瀏覽量

    21965

原文標(biāo)題:CVPR 2018 | 商湯科技Spotlight論文詳解:RL-Restore普適圖像復(fù)原算法

文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    內(nèi)容2:課程: TensoRFlow入門到熟練:課程二:圖像分類:課程三:物體檢測(cè):課程四:人臉識(shí)別:課程五:算法實(shí)現(xiàn):1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強(qiáng)化學(xué)習(xí)DRL
    發(fā)表于 01-10 13:42

    一種基于參考高分辨率圖像的視頻序列超分辨率復(fù)原算法

    一種基于參考高分辨率圖像的視頻序列超分辨率復(fù)原算法
    發(fā)表于 10-26 10:49 ?5次下載
    <b class='flag-5'>一種</b>基于參考高分辨率<b class='flag-5'>圖像</b>的視頻序列超分辨率<b class='flag-5'>復(fù)原</b><b class='flag-5'>算法</b>

    一種張量總變分的模糊圖像復(fù)原算法

    想。針對(duì)上述問題,在新的張量框架下,把彩色模糊圖像作為個(gè)三階張量,提出了一種基于張量總變分的模糊圖像復(fù)原
    發(fā)表于 12-09 09:52 ?0次下載
    <b class='flag-5'>一種</b>張量總變分的模糊<b class='flag-5'>圖像</b>盲<b class='flag-5'>復(fù)原</b><b class='flag-5'>算法</b>

    一種新型的強(qiáng)化學(xué)習(xí)算法,能夠教導(dǎo)算法如何在沒有人類協(xié)助的情況下解開魔方

    McAleer和他的團(tuán)隊(duì)稱這個(gè)過程為“一種新型的強(qiáng)化學(xué)習(xí)算法,能夠教導(dǎo)算法如何在沒有人類協(xié)助的情況下解開魔方。” 他們聲稱,這種學(xué)習(xí)
    的頭像 發(fā)表于 06-22 16:49 ?3754次閱讀
    <b class='flag-5'>一種</b>新型的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>算法</b>,能夠教導(dǎo)<b class='flag-5'>算法</b>如何在沒有人類協(xié)助的情況下解開魔方

    基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

    之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    深度強(qiáng)化學(xué)習(xí)的概念和工作原理的詳細(xì)資料說明

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)得到廣泛的研究和應(yīng)用。
    的頭像 發(fā)表于 05-16 09:20 ?3361次閱讀

    深度強(qiáng)化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)得到廣泛的研究和應(yīng)用。
    的頭像 發(fā)表于 06-13 11:39 ?5876次閱讀

    機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>算法</b>及研究綜述

    一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

    一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法
    發(fā)表于 06-23 10:42 ?36次下載

    強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6基本算法解釋

    定標(biāo)記訓(xùn)練數(shù)據(jù)的情況下獲得正確的輸出 無監(jiān)督學(xué)習(xí)(UL):關(guān)注在沒有預(yù)先存在的標(biāo)簽的情況下發(fā)現(xiàn)數(shù)據(jù)中的模式 強(qiáng)化學(xué)習(xí)(RL) : 關(guān)注智能體在環(huán)境中如何采取行動(dòng)以最大化累積獎(jiǎng)勵(lì) 通俗地說,強(qiáng)化
    的頭像 發(fā)表于 12-20 14:00 ?1024次閱讀

    7個(gè)流行的強(qiáng)化學(xué)習(xí)算法及代碼實(shí)現(xiàn)

    作者:Siddhartha Pramanik 來源:DeepHub IMBA 目前流行的強(qiáng)化學(xué)習(xí)算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。這些算法
    的頭像 發(fā)表于 02-03 20:15 ?1000次閱讀

    徹底改變算法交易:強(qiáng)化學(xué)習(xí)的力量

    強(qiáng)化學(xué)習(xí)RL)是人工智能的個(gè)子領(lǐng)域,專注于決策過程。與其他形式的機(jī)器學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)模型通過與環(huán)境交互并以獎(jiǎng)勵(lì)或懲罰的形式接收反饋來
    發(fā)表于 06-09 09:23 ?456次閱讀

    強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6基本算法解釋

    的情況下獲得正確的輸出無監(jiān)督學(xué)習(xí)(UL):關(guān)注在沒有預(yù)先存在的標(biāo)簽的情況下發(fā)現(xiàn)數(shù)據(jù)中的模式強(qiáng)化學(xué)習(xí)(RL):關(guān)注智能體在環(huán)境中如何采取行動(dòng)以最大化累積獎(jiǎng)勵(lì)通俗地說,強(qiáng)
    的頭像 發(fā)表于 01-05 14:54 ?811次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的基礎(chǔ)知識(shí)和6<b class='flag-5'>種</b>基本<b class='flag-5'>算法</b>解釋

    基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測(cè)算法案例

    摘要:基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測(cè)算法在檢測(cè)過程中通常采用預(yù)定義搜索行為,其產(chǎn)生的候選區(qū)域形狀和尺寸變化單,導(dǎo)致目標(biāo)檢測(cè)精確度較低。為此,在基于深度強(qiáng)化學(xué)習(xí)的視覺目標(biāo)檢測(cè)
    發(fā)表于 07-19 14:35 ?0次下載