0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

單張圖像超分辨率和立體圖像超分辨率的相關(guān)工作

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-06-27 11:07 ? 次閱讀

多階段策略在圖像修復(fù)任務(wù)中被廣泛應(yīng)用,雖然基于Transformer的方法在單圖像超分辨率任務(wù)中表現(xiàn)出高效率,但在立體超分辨率任務(wù)中尚未展現(xiàn)出CNN-based方法的顯著優(yōu)勢。這可以歸因于兩個關(guān)鍵因素:首先,當(dāng)前單圖像超分辨率Transformer在該過程中無法利用互補的立體信息;其次,Transformer的性能通常依賴于足夠的數(shù)據(jù),在常見的立體圖像超分辨率算法中缺乏這些數(shù)據(jù)。為了解決這些問題,作者提出了一種混合Transformer和CNN注意力網(wǎng)絡(luò)(HTCAN),它利用基于Transformer的網(wǎng)絡(luò)進行單圖像增強和基于CNN的網(wǎng)絡(luò)進行立體信息融合。此外,作者采用了多塊訓(xùn)練策略和更大的窗口尺寸,以激活更多的輸入像素進行超分辨率。作者還重新審視了其他高級技術(shù),如數(shù)據(jù)增強、數(shù)據(jù)集成和模型集成,以減少過擬合和數(shù)據(jù)偏差。最后,作者的方法在NTIRE 2023立體圖像超分辨率挑戰(zhàn)的Track 1中獲得了23.90dB的分數(shù),并成為優(yōu)勝者。

1 前言

立體圖像超分辨的最終性能取決于每個視圖的特征提取能力和立體信息交換能力。相比于卷積神經(jīng)網(wǎng)絡(luò),變換器擁有更大的感受野和自我關(guān)注機制,可以更好地模擬長期依賴。但是,其內(nèi)存和計算成本通常要高得多。因此,作者提出了一種混合架構(gòu),利用了變換器的強大長期依賴建模能力和卷積神經(jīng)網(wǎng)絡(luò)的信息交換的有效性。在作者的方法中,作者首先使用變換器來保留重要特征,然后使用CNN方法進行信息交換。實驗結(jié)果表明,該混合架構(gòu)具有較好的性能。

本文有以下三個貢獻:

一種混合立體圖像超分辨網(wǎng)絡(luò)。作者提出了一個統(tǒng)一的立體圖像超分辨算法,它集成了變換器和CNN架構(gòu),其中變換器用于提取單視圖圖像的特征,而CNN模塊用于交換來自兩個視圖的信息并生成最終的超分辨圖像。

全面的數(shù)據(jù)增強。作者對多補丁訓(xùn)練策略和其他技術(shù)進行了全面研究,并將它們應(yīng)用于立體圖像超分辨。

新的最先進性能。作者提出的方法實現(xiàn)了新的最先進性能,并在立體圖像超分辨挑戰(zhàn)賽的第一軌中獲得了第一名。

2 相關(guān)背景

本文這一節(jié)介紹了單張圖像超分辨率和立體圖像超分辨率的相關(guān)工作。針對單張圖像超分辨率,研究人員一開始使用外部圖像或樣本數(shù)據(jù)庫來生成超分辨圖像,手工制作的特征依賴于先驗知識/假設(shè),并存在很多局限性。后來引入了基于CNN的方法,CNN網(wǎng)絡(luò)通過學(xué)習(xí)局部結(jié)構(gòu)模式降低了計算成本。最近,基于Transformer的方法也受到越來越多的關(guān)注,因為它刪除了先前卷積模塊使用的局部性先知,并允許更大的接收場。對于立體圖像超分辨率,在以前的工作中,大多是從單張圖像超分辨率骨干出發(fā)的,并提出了通信分支來允許左右視圖之間的信息交換。然而,左右視圖之間的視差通常沿著基線而大于傳統(tǒng)卷積核的接收場。近年來,采用了與單張超分辨率類似的方法,引入了基于CNN和Transformer的方法,以修復(fù)立體圖像的超分辨率。

3 方法

本節(jié)中,作者詳細介紹所提出的混合Transformer和CNN Attention網(wǎng)絡(luò)(HTCAN)。所提出的HTCAN是一個多階段的恢復(fù)網(wǎng)絡(luò)。具體而言,給定低分辨率的立體圖像Llr和Rlr,作者首先使用基于Transformer的單圖像超分辨率網(wǎng)絡(luò)將其超分辨到Ls1和Rs1。在第二階段,作者采用基于CNN的網(wǎng)絡(luò)來增強Ls1和Rs1的立體效果,并得到增強的圖像Lsr和Rsr。在第三階段,作者使用與第2階段相同的基于CNN的網(wǎng)絡(luò)進行進一步的立體增強和模型集成。

8d416682-1476-11ee-962d-dac502259ad0.png

3.1 階段1: 基于Transformer的單圖像超分辨率網(wǎng)絡(luò)結(jié)構(gòu)

作者提出了一個基于Transformer和CNN Attention網(wǎng)絡(luò)的立體圖像增強網(wǎng)絡(luò),可以提高圖像分辨率和立體效果。首先采用HAT-L作為單圖像超分辨率的骨干,使用多塊訓(xùn)練策略和級聯(lián)殘差混合注意力組(RHAG)進行自注意和信息聚合,最終生成高分辨率圖像。同時,通過轉(zhuǎn)動和翻轉(zhuǎn)輸入圖像來實現(xiàn)自集成,使用SiLU激活函數(shù)替換GeLU激活函數(shù)進一步增強性能。

4.2 階段2:基于卷積神經(jīng)網(wǎng)絡(luò)的立體增強網(wǎng)絡(luò)架構(gòu)

作者介紹了基于卷積神經(jīng)網(wǎng)絡(luò)的立體增強的第二階段流程。該流程使用了由NAFSSR-L作為骨干網(wǎng)絡(luò),在提取淺層特征后,通過K2個NAF塊和SCAM模塊對左右圖像進行跨視圖信息聚合,最終輸出立體增強后的圖像。為了提高性能,通過自組合策略對模型進行了改進。

4.3 階段3: 基于卷積神經(jīng)網(wǎng)絡(luò)的立體影像融合

作者介紹了一個基于卷積神經(jīng)網(wǎng)絡(luò)的立體影像融合的三階段流程。在第三階段中,使用第二階段自組合的輸出作為輸入,提高了模型的整體性能。雖然第三階段模型表現(xiàn)與第二階段類似,但是作為一個集成模型,可以對第二階段模型進行進一步的改進。

5 實驗

5.1 實驗細節(jié)

本文的實驗部分訓(xùn)練了一個 HTCAN 網(wǎng)絡(luò),并對該網(wǎng)絡(luò)進行了三個階段的訓(xùn)練。在第一階段的訓(xùn)練中,使用了 Charbonnier 損失和 MSE 損失,同時還使用了各種數(shù)據(jù)增強技術(shù)。在第二階段中,我們采用 NAFSSR-L 的原始代碼在 Flickr1024 圖像上進行了訓(xùn)練,并在第二階段訓(xùn)練中使用 UnshuffleNAFSSR 模型的預(yù)訓(xùn)練模型。最后,在第三階段的訓(xùn)練中,采用與第二階段相同的設(shè)置,將網(wǎng)絡(luò)進行了微調(diào)。我們的方法在 Flickr1024 測試集上進行了評估,并通過與其他單幅圖像和立體圖像超分辨率方法的比較來證明其有效性。

5.2 實驗結(jié)果

本文的實驗結(jié)果顯示,與其他狀態(tài)-藝術(shù)單幅圖像超分辨率方法和立體圖像超分辨率方法相比,作者的方法在多數(shù)測試數(shù)據(jù)集上表現(xiàn)更好。此外,作者的方法在視覺效果上也表現(xiàn)出眾,能夠顯著地恢復(fù)圖像的細節(jié)和紋理。

8d65d6b6-1476-11ee-962d-dac502259ad0.png8dc57512-1476-11ee-962d-dac502259ad0.png

5.3 實驗分析

本文介紹了一種基于多塊訓(xùn)練、數(shù)據(jù)增強和自我集成的立體圖像超分辨率方法,并引入了基于CNN的立體增強模塊來進一步提高性能。實驗表明這種方法可以有效地恢復(fù)圖像紋理和細節(jié)。其中,采用較大的接受域和窗口大小,以及自我集成策略可以進一步提高性能。本文提出的多階段方法將基于Transformer的SISR方法和基于CNN的立體增強方法相結(jié)合,進一步恢復(fù)了細節(jié)。

8df6426e-1476-11ee-962d-dac502259ad0.png8e973b92-1476-11ee-962d-dac502259ad0.png

7 總結(jié)

本文介紹了混合Transformers和CNN注意力網(wǎng)絡(luò)(HTCAN),采用兩階段方法使用基于Transformers的SISR模塊和基于CNN的立體增強模塊來超分辨低分辨率立體圖像。作者提出的多補丁訓(xùn)練策略和大窗口大小增加了SISR階段激活的輸入像素數(shù)量,使結(jié)果相較于原始的HAT-L架構(gòu)有0.05dB的收益。此外,作者的方法采用先進的技術(shù),包括數(shù)據(jù)增強,數(shù)據(jù)集成和模型集成,以在測試集上實現(xiàn)23.90dB的PSNR并贏得立體圖像超分辨率挑戰(zhàn)賽第一名。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6713

    瀏覽量

    88306
  • 變換器
    +關(guān)注

    關(guān)注

    17

    文章

    2071

    瀏覽量

    108931
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    135

    瀏覽量

    5943

原文標題:CVPR2023 I 混合Transformers和CNN的注意力網(wǎng)絡(luò)用于立體圖像超分辨率

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    分辨率圖像重建方法研究

    分辨率圖像重建方法研究分辨率圖像重建就是由低分辨率
    發(fā)表于 03-14 17:08

    新手關(guān)于圖像分辨率的問題~

    各位大神好,我是一個新手,求教各位!用matlab新三步法實現(xiàn)圖像分辨率,已經(jīng)有定義為 motionEstNTSS的新三步法代碼。然后在命令窗口輸入imgP=imread('D:\5.jpg
    發(fā)表于 05-19 16:14

    分辨率圖像重建方法研究

    分辨率圖像重建就是由低分辨率圖像序列來估計高分辨率圖像
    發(fā)表于 03-14 08:33 ?47次下載

    基于POCS算法的圖像分辨率重建

    分辨率技術(shù)是指通過融合多幅模糊、變形、頻譜混疊的低分辨率圖像來重建一幅高分辨率圖像.本文提出一
    發(fā)表于 11-08 17:03 ?40次下載

    序列圖像分辨率重建算法研究

    分辨率重建(Super-resolution Reconstruction,SR)技術(shù)是提高圖像和視頻分辨率的有效途徑。所謂
    發(fā)表于 03-08 14:56 ?32次下載
    序列<b class='flag-5'>圖像</b><b class='flag-5'>超</b><b class='flag-5'>分辨率</b>重建算法研究

    使用改進的POCS算法的分辨率圖像復(fù)原

    使用改進的POCS算法的分辨率圖像復(fù)原.
    發(fā)表于 01-04 15:26 ?0次下載

    一種基于參考高分辨率圖像的視頻序列分辨率復(fù)原算法

    一種基于參考高分辨率圖像的視頻序列分辨率復(fù)原算法
    發(fā)表于 10-26 10:49 ?5次下載
    一種基于參考高<b class='flag-5'>分辨率</b><b class='flag-5'>圖像</b>的視頻序列<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>復(fù)原算法

    基于稀疏編碼和隨機森林的分辨率算法

    分辨率( Super -resolution,SR)圖像重建是一種根據(jù)低分辨率圖像創(chuàng)建
    發(fā)表于 11-01 17:52 ?1次下載
    基于稀疏編碼和隨機森林的<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>算法

    單幅模糊圖像分辨率盲重建

    ,針對分辨率降低的圖像恢復(fù)技術(shù)被稱為圖像分辨率重建。當(dāng)降質(zhì)條件中同時存在兩種以上的降質(zhì)因素時,圖像
    發(fā)表于 11-29 16:43 ?1次下載

    數(shù)據(jù)外補償?shù)纳疃染W(wǎng)絡(luò)分辨率重建

    單張圖像分辨率重建受到多對一映射的困擾,對于給定的低分辨率圖像塊,存在若干高
    發(fā)表于 12-15 14:34 ?0次下載

    序列圖像分辨率重建

    針對分辨率重建時需要同時濾除高斯噪聲和脈沖噪聲的問題,提出一種基于L1和L2混合范式并結(jié)合雙邊全變分(BTV)正則化的序列圖像分辨率重建
    發(fā)表于 01-15 15:42 ?0次下載

    使用深度學(xué)習(xí)來實現(xiàn)圖像分辨率

    今天給大家介紹一篇圖像分辨率鄰域的綜述,這篇綜述總結(jié)了圖像分辨率領(lǐng)域的幾方面:problem
    的頭像 發(fā)表于 12-14 23:42 ?1177次閱讀

    CVPR2020 | 即插即用!將雙邊分辨率用于語義分割網(wǎng)絡(luò),提升圖像分辨率的有效策略

    本文是收錄于CVPR2020的工作,文章利用低分辨率的輸入圖像通過分辨率網(wǎng)絡(luò)生成高分辨率
    發(fā)表于 01-26 19:51 ?1次下載
    CVPR2020 | 即插即用!將雙邊<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>用于語義分割網(wǎng)絡(luò),提升<b class='flag-5'>圖像</b><b class='flag-5'>分辨率</b>的有效策略

    基于目標檢測的海上艦船圖像分辨率研究

    摘要: 針對海上艦船圖像有效像素在整體像素中占比小的問題,提出一種基于目標檢測網(wǎng)絡(luò)的分辨率方法。該方法包含兩個階段,結(jié)合bicubic變換,逐步地將圖像的清晰度從粗到細地進行恢復(fù)。首
    發(fā)表于 03-16 09:50 ?609次閱讀

    基于CNN的圖像分辨率示例

    考慮單個低分辨率圖像,首先使用雙三次插值將其放大到所需的大小,這是執(zhí)行的唯一預(yù)處理。將插值圖像表示為Y。我們的目標是從Y中恢復(fù)與真實高分辨率圖像
    的頭像 發(fā)表于 03-11 11:40 ?561次閱讀
    基于CNN的<b class='flag-5'>圖像</b><b class='flag-5'>超</b><b class='flag-5'>分辨率</b>示例