0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI驅(qū)動(dòng)的超分辨技術(shù)應(yīng)用現(xiàn)狀

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-11-25 15:41 ? 次閱讀

基于AI的超分辨技術(shù)在圖像恢復(fù)和圖像增強(qiáng)等領(lǐng)域的應(yīng)用前景,受到了學(xué)術(shù)界的關(guān)注,但在RTC領(lǐng)域中很多算法并不能滿足實(shí)際場(chǎng)景下的應(yīng)用需求。本次分享我們邀請(qǐng)到了網(wǎng)易云信音視頻算法工程師袁振老師探討超分辨技術(shù)在RTC領(lǐng)域大規(guī)模落地應(yīng)用所面臨的機(jī)遇與挑戰(zhàn)。

文 /袁振 整理 /LiveVideoStack 大家好,我是袁振,現(xiàn)在就職于網(wǎng)易云信,主要負(fù)責(zé)視頻后處理算法的開發(fā)和研究。今天我將和大家分享AI驅(qū)動(dòng)的超分辨技術(shù)應(yīng)用現(xiàn)狀,主要是結(jié)合我之前的研究方向,以及當(dāng)前的業(yè)務(wù)需求,來向大家分享一下基于深度學(xué)習(xí)的超分技術(shù)在RTC領(lǐng)域落地應(yīng)用所面臨的一些機(jī)遇和挑戰(zhàn)。 我的分享主要包括以下四部分內(nèi)容。

1. 圖像超分辨技術(shù)的簡(jiǎn)要概述

1.1 超分辨技術(shù)的提出

有的同學(xué)可能會(huì)問,什么是超分辨?比較直觀的理解,超分辨就是將一張低分辨率圖像,通過某種算法、模型生成一張高分辨圖像的過程,并且在這個(gè)過程中盡可能地恢復(fù)出更多的細(xì)節(jié)信息。比較通俗的理解,超分辨就是從小圖生成大圖的計(jì)算機(jī)視覺任務(wù)。 超分辨這一概念最早是在20世紀(jì)60年代由Harris和Goodman提出的,一開始也被稱為頻譜外推法。但是在研究初期,頻譜外推法只是在一些比較理想的條件下,進(jìn)行的一些仿真,所以一開始并沒有得到廣泛的認(rèn)可。直到后來,單張圖像超分辨方法提出之后,超分辨重建技術(shù)才開始得到廣泛的研究和應(yīng)用。目前,它已經(jīng)成為圖像增強(qiáng)、乃至整個(gè)計(jì)算機(jī)視覺領(lǐng)域重要的研究方向。 1.2 超分辨技術(shù)的分類

根據(jù)超分辨對(duì)象,超分辨技術(shù)可以分成單張圖像的超分辨以及多張圖像的超分辨兩種類型。其中,單張圖像的超分辨方法只根據(jù)低分辨率圖像自身的信息就可以完成到高分辨圖像的重建,是目前學(xué)術(shù)界研究的重點(diǎn)。單張圖像的超分辨方法根據(jù)原理的不同,也可以分為基于插值、重構(gòu)、學(xué)習(xí)的方法。 其中基于插值的方法是最簡(jiǎn)單、也是應(yīng)用最為廣泛的方法,像我們平時(shí)應(yīng)用最多的用于圖像縮放的算法,基本上都是基于插值的方法。它的優(yōu)點(diǎn)是算法比較簡(jiǎn)單,實(shí)時(shí)性比較好,所以目前應(yīng)用最廣泛,但缺點(diǎn)是,在插值的時(shí)候沒有充分利用圖像的像素信息,效果比較平滑,不能恢復(fù)出更多細(xì)節(jié)信息。

它的主要思想是選擇合適的插值窗口和插值函數(shù)來對(duì)低分辨率圖像中一定范圍內(nèi)的像素信息進(jìn)行加權(quán)計(jì)算,來得到一個(gè)新的像素值,插入到圖像中,從而實(shí)現(xiàn)圖像的放大。根據(jù)插值窗口和插值函數(shù)不同,基于插值的方法也有很多類型:像最簡(jiǎn)單的最近鄰插值方法,它是直接將待插值像素點(diǎn)最近的像素值,賦值給新的像素值,它的插值窗口大小是1×1;其他的插值方法比如雙線性和雙三次插值,使用了更大的插值窗口以及一些更高階的插值函數(shù),超分辨的效果也更好??傮w來說,插值窗口越大,基于插值的超分辨方法的效果也會(huì)越好。 基于重構(gòu)的方法,它主要是利用了圖像的降質(zhì)退化模型,假定圖像是經(jīng)過了一定的退化過程,才得到了低分辨率的圖像,然后根據(jù)這一信息,完成高分辨圖像的逆向重建。

這種方法在一些特定的領(lǐng)域具有比較好的效果,但是由于在實(shí)際的場(chǎng)景中,圖像退化的因素多種多樣,假設(shè)的先驗(yàn)信息并不準(zhǔn)確,因此重構(gòu)的方法在實(shí)際應(yīng)用中,并不是很廣泛。 然后就是基于學(xué)習(xí)的方法,也是目前效果最好也是學(xué)術(shù)界研究最多的一種方法。它的核心包括兩個(gè)部分:一個(gè)是算法模型的建立,另一個(gè)就是訓(xùn)練集的選取。根據(jù)算法模型和訓(xùn)練集,基于學(xué)習(xí)的方法也可以分為傳統(tǒng)學(xué)習(xí)方法和深度學(xué)習(xí)方法。一般來說,傳統(tǒng)學(xué)習(xí)方法的算法模型比較簡(jiǎn)單,訓(xùn)練集也往往比較小。深度學(xué)習(xí)方法一般是指采用大量數(shù)據(jù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)的方法,也是目前效果最好的超分辨方法。因此接下來我將重點(diǎn)介紹基于深度學(xué)習(xí)的超分辨方法的發(fā)展過程。 1.3 DL-based SR

首先SRCNN是深度學(xué)習(xí)方法在超分辨問題的首次嘗試,它是一個(gè)比較簡(jiǎn)單的卷積網(wǎng)絡(luò),由3個(gè)卷積層構(gòu)成,每個(gè)卷積層所負(fù)責(zé)的職能也各不相同,其中第一個(gè)卷積層的作用主要是負(fù)責(zé)提取出抽象的高頻信息,第二個(gè)卷積層則負(fù)責(zé)完成從低清特征到高清特征的非線性映射,最后一個(gè)卷積層的作用是重建出高分辨率的圖像。SRCNN的網(wǎng)絡(luò)結(jié)構(gòu)比較簡(jiǎn)單,超分辨效果也有待改善,不過它確立了深度學(xué)習(xí)方法在處理超分辨這類問題時(shí)的三個(gè)基本過程。

后來的一些深度學(xué)習(xí)方法不管網(wǎng)絡(luò)有多復(fù)雜,卷積層有多深,基本也是遵循著這一思想去進(jìn)行超分辨的重建。后來的 ESPCN、FSRCNN也都基于SRCNN進(jìn)行了一些改進(jìn),總的來說它們的網(wǎng)絡(luò)層數(shù)仍然比較淺,卷積層數(shù)一般不會(huì)超過10,超分辨的效果也不是特別理想。因?yàn)樵诋?dāng)時(shí),深度卷積網(wǎng)絡(luò)的訓(xùn)練是存在一些問題的。一般對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來說,當(dāng)網(wǎng)絡(luò)層數(shù)增加的時(shí)候,它的性能也會(huì)增加,但在實(shí)際應(yīng)用中,人們發(fā)現(xiàn)當(dāng)網(wǎng)絡(luò)層數(shù)增加到了一定程度的時(shí)候,由于反向傳播的原理,就會(huì)出現(xiàn)梯度消失的問題,導(dǎo)致網(wǎng)絡(luò)的收斂性變差,使得模型性能降低。這個(gè)問題直到ResNet提出了殘差網(wǎng)絡(luò)結(jié)構(gòu)之后,才得到了比較好的解決。

VDSR網(wǎng)絡(luò)是殘差網(wǎng)絡(luò)以及殘差學(xué)習(xí)思想在超分辨問題上的首次應(yīng)用,將超分辨網(wǎng)絡(luò)的層數(shù)首次增加到了20層,它的優(yōu)點(diǎn)是可以利用殘差學(xué)習(xí)的方式,直接學(xué)習(xí)殘差特征,這樣的話網(wǎng)絡(luò)的收斂會(huì)比較快,超分辨效果也更好。后來的一些卷積神經(jīng)網(wǎng)絡(luò)也提出了更復(fù)雜的結(jié)構(gòu), 比如SRGAN提出使用生成式對(duì)抗網(wǎng)絡(luò)來生成高分辨的圖像,SRGAN由2部分組成,一個(gè)是生成網(wǎng)絡(luò),另一個(gè)是判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)的作用是根據(jù)一張低分辨率的圖像來生成一張高分辨的圖像,而判別網(wǎng)絡(luò)的作用是將生成網(wǎng)絡(luò)生成的高分辨圖像盡量判定為假,這樣網(wǎng)絡(luò)在訓(xùn)練的時(shí)候,生成網(wǎng)絡(luò)和判定網(wǎng)絡(luò)兩者之間不斷博弈,最終達(dá)到平衡,從而可以生成細(xì)節(jié)紋理比較逼真的高分辨圖像,具有更好的主觀視覺效果。其他的深度卷積網(wǎng)絡(luò)方法比如SRDenseNet、EDSR、RDN,它們使用了一些更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)的卷積層也越來越深,在單張圖像上的超分辨效果也是越來越好。

以上是我對(duì)超分辨技術(shù)發(fā)展的總體趨勢(shì)的簡(jiǎn)單總結(jié),基本上可以概括為從傳統(tǒng)方法,到深度學(xué)習(xí)方法,從簡(jiǎn)單的卷積網(wǎng)絡(luò)方法到深度殘差網(wǎng)絡(luò)方法。在這個(gè)過程中,超分辨模型結(jié)構(gòu)越來越復(fù)雜,網(wǎng)絡(luò)層次越來越深,單張圖像的超分辨效果也越來越好,不過這也會(huì)有一定的問題,在后面我會(huì)具體介紹到。

2. 超分辨技術(shù)應(yīng)用現(xiàn)狀

根據(jù)我的調(diào)研,目前在業(yè)界已經(jīng)落地的超分辨項(xiàng)目,應(yīng)用場(chǎng)景可以概括為視頻和圖像兩個(gè)領(lǐng)域,具體包括低質(zhì)視頻的修復(fù),比如一些老舊電影、電視劇或者質(zhì)量比較差的視頻,這在一些視頻網(wǎng)站上比較常用;還有電視和直播分辨率的提升,比如一些網(wǎng)絡(luò)TV或者直播平臺(tái);此外在移動(dòng)端,主要應(yīng)用于圖像畫質(zhì)的優(yōu)化,比如手機(jī)相機(jī)分辨率的提升。下面我會(huì)介紹幾個(gè)具體的例子分別介紹這三類應(yīng)用場(chǎng)景。 2.1 愛奇藝ZoomAI

第一個(gè)是愛奇藝推出的ZoomAI,它是一個(gè)比較成熟的深度學(xué)習(xí)工具包,主要針對(duì)目前網(wǎng)絡(luò)視頻所存在的一些低質(zhì)退化問題,是各種視頻處理和增強(qiáng)方法的集合,它主要應(yīng)用的場(chǎng)景包括用戶在上傳網(wǎng)絡(luò)視頻的時(shí)候,由于拍攝手段不專業(yè)導(dǎo)致的噪點(diǎn)和模糊問題,還有一些老舊電影、電視劇由于在拍攝時(shí)分辨率比較低,以及后來數(shù)字化過程中引入的噪點(diǎn)和劃痕問題,導(dǎo)致網(wǎng)絡(luò)視頻畫質(zhì)低下。ZoomAI針對(duì)這些低質(zhì)視頻存在的問題,提出了一系列不同的視頻處理算法,像超分辨、去噪、銳化等等。這些算法模塊都是由一個(gè)或若干個(gè)深度學(xué)習(xí)模型組成,并且相互獨(dú)立,可以根據(jù)用戶的不同需要,實(shí)現(xiàn)不同場(chǎng)景視頻的增強(qiáng)和修復(fù)。

我們比較關(guān)注其中的超分模塊,ZoomAI的超分模塊提出了兩種策略。學(xué)術(shù)界在探究超分辨問題時(shí),一般經(jīng)典的做法是采用均方誤差作為損失函數(shù)去約束整個(gè)網(wǎng)絡(luò)的訓(xùn)練,均方誤差是一種L2型的損失函數(shù),好處是可以重建得到具有更大峰值信噪比的超分辨圖像,不過峰值信噪比并不能代表人眼的主觀感受。當(dāng)使用L2損失作為損失函數(shù)時(shí),需要對(duì)異常值進(jìn)行平方處理,所以當(dāng)異常值比較大的時(shí)候,損失也會(huì)比較大。這樣導(dǎo)致對(duì)噪聲特別敏感,在宏觀上,表現(xiàn)為生成圖像會(huì)出現(xiàn)模糊預(yù)測(cè)的問題。

ZoomAI針對(duì)學(xué)術(shù)界這種常用的訓(xùn)練模式所存在的問題,提出了兩種策略上的改進(jìn),首先它在訓(xùn)練集中加入了一些模糊操作。這樣網(wǎng)絡(luò)在訓(xùn)練時(shí),數(shù)據(jù)和標(biāo)簽之間,不僅有從低分辨特征到高分辨特征的映射關(guān)系,也存在從模糊到清晰的映射關(guān)系,生成的圖像會(huì)具有更好的細(xì)節(jié)。針對(duì)MSE損失函數(shù)所存在的模糊預(yù)測(cè)問題,ZoomAI則是引入了另外一種損失函數(shù),來改善之前均方誤差所產(chǎn)生的模糊預(yù)測(cè)問題。

右邊這張圖像是傳統(tǒng)的插值方法和ZoomAI中基于深度學(xué)習(xí)的超分辨方法的對(duì)比,可以看到雙三次插值后的圖像細(xì)節(jié)是比較差的,發(fā)絲的紋理和細(xì)節(jié)基本上是看不太清?;谏疃葘W(xué)習(xí)的方法,生成的圖像具有更豐富的細(xì)節(jié)和邊緣。不過ZoomAI也存在一些局限,因?yàn)樗怯扇舾蓚€(gè)模塊組成的,每個(gè)模塊都包含了一個(gè)或者若干個(gè)深度學(xué)習(xí)模型,導(dǎo)致它的計(jì)算量比較大,只是在自己服務(wù)端進(jìn)行視頻處理,沒有辦法在接收端做到視頻的實(shí)時(shí)處理。另外,由于計(jì)算量的限制,在手機(jī)端也沒有用到深度學(xué)習(xí)的方法。 2.2 虎牙直播AI超分

下面是一個(gè)直播超分辨的例子,上圖是去年的一篇報(bào)道,虎牙的技術(shù)團(tuán)隊(duì)利用他們基于深度學(xué)習(xí)的超分技術(shù)實(shí)現(xiàn)了S9賽事視頻從1080P到4K的兩倍超分,并且可以達(dá)到60幀,畫面延時(shí)僅僅增加了100毫秒。 我當(dāng)時(shí)看到這個(gè)新聞時(shí)是比較震驚的,對(duì)于從1080P到4K的兩倍超分,計(jì)算量是特別大的,而且關(guān)鍵是還要達(dá)到60幀,延遲的增加也在可接受范圍之內(nèi)。后來仔細(xì)看完文章之后,發(fā)現(xiàn)他們的超分也是在自己的服務(wù)端進(jìn)行的,先是在服務(wù)端的GPU轉(zhuǎn)碼集群內(nèi)做了超分處理,然后再通過虎牙比較強(qiáng)大的分發(fā)平臺(tái)去分發(fā)給用戶。這樣其實(shí)與我們目前的業(yè)務(wù)場(chǎng)景是相悖的,因?yàn)镽TC領(lǐng)域更多是希望窄帶高清的應(yīng)用場(chǎng)景,在不犧牲用戶畫質(zhì)的前提下,盡可能減少網(wǎng)絡(luò)帶寬。這種方法由于是在分發(fā)之前做了超分,所以傳輸?shù)囊曨l比較大,所需要占用的帶寬也比較大,沒有辦法在接收端實(shí)時(shí)實(shí)現(xiàn)。 2.3 移動(dòng)端畫質(zhì)增強(qiáng)

這兩個(gè)是應(yīng)用在移動(dòng)設(shè)備上圖像超分的落地項(xiàng)目,其中一個(gè)是vivo和商湯合作的,基于深度學(xué)習(xí)的手機(jī)相機(jī)分辨率增強(qiáng)的項(xiàng)目;另一個(gè)是谷歌和騰訊在他們各自社交平臺(tái)上所推出的圖像省流的項(xiàng)目,據(jù)說可以在不犧牲圖像質(zhì)量的前提下,來盡量減少用戶流量,可以降低高達(dá)75%的帶寬。

3. 視頻任務(wù)的需求與SR的挑戰(zhàn)

上面三個(gè)例子是幾個(gè)比較有代表性的已經(jīng)落地的比較成熟的超分辨項(xiàng)目,總體來說,這些項(xiàng)目依然沒有辦法在客戶端尤其是移動(dòng)端做到實(shí)時(shí)處理。接下來我將介紹一下,RTC領(lǐng)域?qū)τ谝曨l任務(wù)提出的一些需求,以及目前基于深度學(xué)習(xí)的超分辨方法在這種情況下所面臨的挑戰(zhàn)。

在RTC領(lǐng)域中,對(duì)于視頻處理任務(wù)來說,由于我們所面對(duì)的大多數(shù)場(chǎng)景都是像直播和會(huì)議這種即時(shí)通信場(chǎng)景,對(duì)算法的實(shí)時(shí)性要求是特別高的,所以視頻處理算法的實(shí)時(shí)性是優(yōu)先考慮的,然后是算法的實(shí)用性。這里怎么理解呢?用戶在使用直播或會(huì)議時(shí),攝像頭所采集到的視頻質(zhì)量一般都不是比較高的,可能包含了很多噪點(diǎn);另外視頻在編碼傳輸?shù)倪^程中會(huì)先進(jìn)行壓縮,在壓縮的過程中也會(huì)導(dǎo)致圖像畫質(zhì)的退化,所以RTC領(lǐng)域的實(shí)際應(yīng)用場(chǎng)景比較復(fù)雜,而很多視頻處理方法,比如超分辨算法在研究的是比較理想的場(chǎng)景。所以我們需要考慮如何提高這些方法在實(shí)際場(chǎng)景中的實(shí)用性。另外,如何去提升用戶尤其是移動(dòng)端用戶的體驗(yàn),減少算法的計(jì)算資源占用,適用更多的終端和設(shè)備,也是視頻任務(wù)所必須考慮的。

針對(duì)上面這些需求,目前的超分辨方法尤其是基于深度學(xué)習(xí)的超分辨方法是存在很多問題的。目前學(xué)術(shù)界關(guān)于超分辨的研究大多還是局限在理論階段,圖像超分,尤其是視頻超分如果要大規(guī)模落地的話,必須要去面對(duì)一些實(shí)際問題。 首先是網(wǎng)絡(luò)模型的問題,因?yàn)槟壳昂芏嗌疃葘W(xué)習(xí)方法為了追求更好的超分辨效果,所采用的網(wǎng)絡(luò)規(guī)模比較大,這些卷積神經(jīng)網(wǎng)絡(luò)規(guī)模動(dòng)不動(dòng)就幾十、上百層,并且參數(shù)量也越來越多,需要耗費(fèi)大量的計(jì)算資源。

這在很多實(shí)際場(chǎng)景中沒有辦法實(shí)時(shí)處理。 第二點(diǎn)是關(guān)于深度學(xué)習(xí)模型的泛化能力問題,對(duì)于各種深度學(xué)習(xí)模型來說,都會(huì)存在訓(xùn)練集適配的問題,在訓(xùn)練的時(shí)候所使用的訓(xùn)練集不同,在不同場(chǎng)景上的表現(xiàn)也不同。用公開數(shù)據(jù)集訓(xùn)練的模型,在實(shí)際的應(yīng)用場(chǎng)景中是否也會(huì)具有同樣良好的表現(xiàn),也是我們需要重點(diǎn)關(guān)注的問題。 第三點(diǎn)是真實(shí)場(chǎng)景下超分效果的問題,目前學(xué)術(shù)界的一些超分方法,都是針對(duì)一些比較理想的問題,比如通常都是針對(duì)從下采樣圖像到高分辨圖像的重建。但在真實(shí)的場(chǎng)景中,圖像的退化不僅僅包括下采樣因素,可能會(huì)有很多其他的因素,比如之前提到的圖像壓縮、噪點(diǎn)、模糊等。怎么樣在這些真實(shí)的場(chǎng)景下提高超分的效果,也是目前超分辨方法需要思考的問題。

總的來說,目前基于深度學(xué)習(xí)的超分辨方法在視頻任務(wù)中,所面臨的主要挑戰(zhàn)可以概括為,如何憑借規(guī)模比較小的網(wǎng)絡(luò)來實(shí)現(xiàn)具有良好真實(shí)效果的視頻質(zhì)量增強(qiáng),也就是說怎么樣“既叫馬兒跑得快,又讓馬兒少吃草”。

4. 視頻超分辨技術(shù)的發(fā)展方向

目前在RTC視頻領(lǐng)域,超分辨基本上可以概括為三個(gè)發(fā)展方向。 首先,深度學(xué)習(xí)方法依然會(huì)是超分辨算法的主流,因?yàn)閭鹘y(tǒng)的方法在超分辨任務(wù)上的效果還是不太理想,細(xì)節(jié)會(huì)比較差。深度學(xué)習(xí)方法為超分辨提供了一條新的思路。近年來基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨方法,也逐漸成為主流方法,效果也是在不斷改善,雖然還存在一些問題,但相信在不久的將來,這些問題也將會(huì)得以解決,深度學(xué)習(xí)方法依然會(huì)是超分辨的主流研究方向。

第二點(diǎn),一些參數(shù)比較小的輕量級(jí)網(wǎng)絡(luò),在推動(dòng)超分算法落地方面,可能會(huì)發(fā)揮出更大的作用。因?yàn)槟壳案鞣N的深度卷積網(wǎng)絡(luò)方法,像EDSR、RDN這些過于龐大的深度殘差網(wǎng)絡(luò)是難以滿足視頻實(shí)時(shí)傳輸需要的,一些比較小的輕量級(jí)網(wǎng)絡(luò)對(duì)于實(shí)時(shí)任務(wù)會(huì)有更好的效果。 第三點(diǎn)是將來的超分辨方法會(huì)更加聚焦在一些真實(shí)場(chǎng)景的任務(wù),因?yàn)閷W(xué)術(shù)領(lǐng)域的SR方法多是針對(duì)下采樣問題進(jìn)行超分,在真實(shí)場(chǎng)景下的表現(xiàn)并不是很好,在真實(shí)場(chǎng)景中,圖像退化因素是各種各樣的,一些比較有針對(duì)性的方法,比如包含壓縮損失、編碼損失以及各種噪聲的超分辨任務(wù),可能會(huì)更加實(shí)用。 下面我將對(duì)這三點(diǎn)做具體的介紹。 4.1 深度學(xué)習(xí)方法依然是主流

我總結(jié)了一下,近年來一些頂級(jí)CV會(huì)議上所發(fā)表的超分辨論文的總結(jié)??梢钥吹浇鼛啄陙恚谏疃葘W(xué)習(xí)的超分辨方法相對(duì)于傳統(tǒng)方法的論文數(shù)量呈現(xiàn)出一邊倒的局面,并且這種局面在未來幾年還會(huì)進(jìn)一步擴(kuò)大。因?yàn)殡S著一些輕量級(jí)網(wǎng)絡(luò)的出現(xiàn),深度學(xué)習(xí)方法將來在落地應(yīng)用方面可能會(huì)有更大的突破。 4.2輕量級(jí)網(wǎng)絡(luò)推動(dòng)算法落地 下面介紹輕量級(jí)網(wǎng)絡(luò)在推動(dòng)超分算法落地時(shí)所發(fā)揮的作用。在這之前,先向大家介紹卷積神經(jīng)網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò)參數(shù)計(jì)算相關(guān)的一些基本概念。

左圖是一個(gè)經(jīng)典的3×3的卷積過程, 3×3大小的卷積核會(huì)對(duì)輸入特征圖上的3×3范圍內(nèi)的像素值進(jìn)行加權(quán)計(jì)算,得到一個(gè)新的特征值,最終通過步長為1的逐次掃描得到一張輸出特征圖。在輸入特征圖中,邊界這一圈空白像素代表的是padding為1的填充,目的是保證特征圖的對(duì)齊,也就是讓輸出特征圖和輸入特征圖的尺寸保持一致。因?yàn)樵诔直娴倪^程中,特征圖的尺寸比較重要,一般不會(huì)輕易發(fā)生改變,所以我們需要采用合適的填充,來保證特征圖的對(duì)齊。

右邊是沒有加padding的情況,可以看到一個(gè)5×5的特征圖經(jīng)過3×3的卷積后,它的尺寸會(huì)縮小為3。 右邊是一個(gè)比較簡(jiǎn)單的卷積層的示意圖,它的輸入是一個(gè)三通道的RGB圖像,經(jīng)過5個(gè)通道的卷積之后,每個(gè)卷積核都會(huì)和輸入的三個(gè)通道進(jìn)行卷積計(jì)算,得到一個(gè)新的特征圖,經(jīng)過5個(gè)卷積核之后就會(huì)輸出5通道的6×6特征圖。在這個(gè)過程中,卷積層的參數(shù)主要是跟輸入輸出的特征維度以及特征圖、卷積核的尺寸是相關(guān)的。

現(xiàn)在的輕量級(jí)網(wǎng)絡(luò)通常也是從以上方面對(duì)網(wǎng)絡(luò)的模型和參數(shù)進(jìn)行壓縮。具體包括特征壓縮、特征降維、減少卷積層尺寸、利用分組思想的卷積策略。其中比較好理解的是特征壓縮和特征降維的方式,在進(jìn)行比較大尺寸的卷積計(jì)算之前,先用1×1的卷積核降低特征的維度,然后再進(jìn)行比較大尺寸的卷積核進(jìn)行計(jì)算。另外卷積核尺寸減少對(duì)于縮減網(wǎng)絡(luò)規(guī)模也是一種比較有效的方法。

在介紹之前,先向大家介紹一下感受野的概念。感受野是指卷積神經(jīng)網(wǎng)絡(luò)輸出特征圖的特征值在輸入圖片上映射的區(qū)域范圍的大小。比較通俗的理解就是,輸出特征圖的一個(gè)特征值所對(duì)應(yīng)輸入特征圖的區(qū)域范圍。 比如右邊的例子是一個(gè)5×5的卷積過程,左邊的是輸入特征圖,在進(jìn)行卷積時(shí),5×5范圍內(nèi)的像素會(huì)和卷積核進(jìn)行卷積計(jì)算得到一個(gè)新的特征值。那么新的特征值所對(duì)應(yīng)的輸入特征圖上的范圍就是5×5,所以它的感受也就是5×5。

那么我們是不是可以在保持感受野不變的情況下使用更小尺寸的卷積核去減少網(wǎng)絡(luò)的參數(shù),比如一個(gè)5×5的卷積核可以用兩個(gè)3×3的卷積核代替,并且它的參數(shù)量可以減少到原來18/25,感受野保持不變;一個(gè)7×7的卷積核可以用3個(gè)3×3的卷積核來代替,參數(shù)量可以減少為原來的27/49;一個(gè)9×9的卷積核也可以用4個(gè)3×3的卷積核來代替。這樣的好處是使用多個(gè)較小尺寸的卷積層可以比一個(gè)更大的卷積層進(jìn)行更多次的非線性變化,這樣的話對(duì)抽象特征的學(xué)習(xí)能力會(huì)更強(qiáng)。而且VGGNet提出,對(duì)于卷積神經(jīng)網(wǎng)絡(luò),卷積核的尺寸并不是越大越好,當(dāng)卷積核尺寸增加到一定程度后,網(wǎng)絡(luò)的精確度反而會(huì)下降,所以當(dāng)我們使用比較小的多個(gè)卷積層去代替大的卷積層時(shí),不僅可以減少網(wǎng)絡(luò)的尺寸,而且可以使網(wǎng)絡(luò)具有更好的非線性能力。

上圖是兩個(gè)利用分組思想的模型壓縮策略,一個(gè)是分組卷積,在左邊的經(jīng)典卷積計(jì)算過程中,它的輸入是一個(gè)12通道的特征圖,經(jīng)過6通道的卷積后,會(huì)得到6個(gè)輸出特征圖,在進(jìn)行卷積計(jì)算時(shí),每個(gè)卷積核都會(huì)和12個(gè)輸入特征圖進(jìn)行卷積計(jì)算,這種情況下需要進(jìn)行72次的卷積計(jì)算。但是如果我們把不同的卷積核和輸入特征進(jìn)行分組,比如我們將其分為3組,其中每3個(gè)輸入特征只分別和對(duì)應(yīng)的兩個(gè)卷積層進(jìn)行卷積,這樣的話,可以把卷積計(jì)算的次數(shù)縮減到原來的三分之一,只進(jìn)行24次的卷積計(jì)算。

所以分組卷積可以大幅度壓縮網(wǎng)絡(luò)的規(guī)模。另外一種深度可分離卷積是一種比較特殊的分組卷積,它也是把傳統(tǒng)的卷積計(jì)算分為了兩個(gè)過程,同樣可以對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行多倍的壓縮。 目前基于深度學(xué)習(xí)的超分辨方法,網(wǎng)絡(luò)規(guī)模還是比較大的,如果要想在移動(dòng)端落地應(yīng)用,依舊存在不小的難度。所以使用這些輕量級(jí)網(wǎng)絡(luò)所提出的一些思想對(duì)模型進(jìn)行壓縮,對(duì)于深度學(xué)習(xí)方法的落地是極為重要的。 4.3 更加聚焦真實(shí)場(chǎng)景任務(wù)

最后是關(guān)于真實(shí)場(chǎng)景任務(wù)的一些思考,這是目前學(xué)術(shù)界比較通用的超分辨模型的訓(xùn)練模式,一般是將高分辨圖像經(jīng)過下采樣得到低分辨率圖像,以此作為配對(duì)的數(shù)據(jù)集輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。但是這種情況只考慮到了下采樣退化的因素,而在實(shí)際場(chǎng)景中圖像會(huì)有像圖像壓縮、視頻編碼以及圖像采集噪聲等多種退化因素,如果直接用公開訓(xùn)練集訓(xùn)練好的模型套用在實(shí)際的場(chǎng)景中,效果是比較差的。

這里舉一個(gè)我們業(yè)務(wù)中遇到的例子,在RTC領(lǐng)域中我們需要對(duì)視頻進(jìn)行編碼,然后再去傳輸給接收端解碼,但是當(dāng)網(wǎng)絡(luò)比較差的時(shí)候,視頻編碼所采用的量化參數(shù)會(huì)比較大,會(huì)對(duì)圖像造成比較嚴(yán)重的壓縮,從而導(dǎo)致輸出圖像會(huì)帶有一些塊效應(yīng)和其他失真,畫質(zhì)比較模糊。這種情況下,如果直接將解碼后的視頻進(jìn)行超分,這些視頻的損失也會(huì)被進(jìn)一步放大,超分效果就會(huì)不夠理想。針對(duì)這種問題,我們提出了一些改進(jìn)思路,一種方法是在數(shù)據(jù)集中加入編碼損失,先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,在預(yù)處理時(shí)把編碼損失也加入到訓(xùn)練集中,網(wǎng)絡(luò)在訓(xùn)練時(shí)可以同時(shí)學(xué)習(xí)到下采樣損失和編碼壓縮損失;另外則是結(jié)合去模糊和去噪等算法增強(qiáng)超分效果?;谶@些思路,我們目前提出了基于編碼損失復(fù)原的視頻超分辨方法。

這是我們所提出的視頻超分方法的基本思想,目前還在探究階段,所以這里提出兩條思路,一種直接將原始尺寸的視頻使用比較大的QP進(jìn)行編碼、傳輸。這樣解碼后視頻會(huì)產(chǎn)生比較大的失真,這時(shí)候可以用去模糊的方法,并且把QP損失考慮進(jìn)去,得到去模糊的重建視頻。對(duì)于這種方法,視頻的損失是比較單一的,只包含了視頻編碼的壓縮損失,但缺點(diǎn)是在原始尺寸的視頻上進(jìn)行的,所以計(jì)算量會(huì)比較大。 另外一種思路是在進(jìn)行編碼傳輸之前先對(duì)視頻進(jìn)行下采樣,然后將解碼后的低分辨率視頻進(jìn)行超分,并且在超分模型中加入特定QP損失,重建得到超分辨圖像。這種方法是在下采樣后的小尺寸視頻上進(jìn)行計(jì)算的,計(jì)算量相對(duì)第一種方法會(huì)小一些,但是解碼后視頻中既包含了下采樣損失,也包含編碼壓縮損失,所以如何恢復(fù)出更好的細(xì)節(jié)也是對(duì)于超分辨算法的嚴(yán)峻挑戰(zhàn)。

責(zé)任編輯:xj

原文標(biāo)題:基于AI的超分辨技術(shù)在RTC領(lǐng)域的技術(shù)難點(diǎn)與挑戰(zhàn)

文章出處:【微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28875

    瀏覽量

    266209
  • RTC
    RTC
    +關(guān)注

    關(guān)注

    2

    文章

    511

    瀏覽量

    65897
  • 超分辨
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6559

原文標(biāo)題:基于AI的超分辨技術(shù)在RTC領(lǐng)域的技術(shù)難點(diǎn)與挑戰(zhàn)

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【書籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    ,對(duì)于每個(gè)交叉領(lǐng)域,本書通過案例進(jìn)行了詳盡的介紹,梳理了產(chǎn)業(yè)地圖,并給出了相關(guān)政策啟示。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》適合所有關(guān)注人工智能技術(shù)和產(chǎn)業(yè)發(fā)展的讀者閱讀,特別適合
    發(fā)表于 09-09 13:54

    視頻技術(shù)是指什么?

    ??分辨技術(shù)(SuperResolution),是通過硬件或軟件的方法提高圖像或視頻幀的分辨率,通過一系列低分辨率圖像獲取到高
    的頭像 發(fā)表于 09-04 08:05 ?136次閱讀
    視頻<b class='flag-5'>超</b>分<b class='flag-5'>技術(shù)</b>是指什么?

    Arm精銳超級(jí)分辨技術(shù)解析

    近日,Arm 推出了 Arm 精銳超級(jí)分辨技術(shù) (Arm Accuracy Super Resolution, Arm ASR),這是一款面向移動(dòng)設(shè)備進(jìn)行優(yōu)化升級(jí)的出色開源超級(jí)分辨率(下文簡(jiǎn)稱“
    的頭像 發(fā)表于 09-03 11:28 ?602次閱讀
    Arm精銳超級(jí)<b class='flag-5'>分辨</b>率<b class='flag-5'>技術(shù)</b>解析

    科學(xué)計(jì)算的下一輪創(chuàng)新,AI算與數(shù)字孿生

    應(yīng)用的行列中來。 ? AI 算與數(shù)字孿生 ? 在過去通用計(jì)算負(fù)載的時(shí)代,我們難以采用更大規(guī)模的計(jì)算集群來打造數(shù)字孿生??呻S著AI技術(shù),尤其是生成式
    的頭像 發(fā)表于 05-07 00:16 ?1880次閱讀
    科學(xué)計(jì)算的下一輪創(chuàng)新,<b class='flag-5'>AI</b><b class='flag-5'>超</b>算與數(shù)字孿生

    從端側(cè)到云測(cè),給硬件減負(fù)的AI技術(shù)

    處理上。 ? 前幾年隨著高刷屏的普及,越來越多的廠商開發(fā)了對(duì)應(yīng)的智能插幀補(bǔ)償技術(shù)。而隨著4K視頻內(nèi)容和屏幕的爆發(fā),桌面端游戲4K的普及以及移動(dòng)端游戲720P以上渲染分辨率的普及,AI
    的頭像 發(fā)表于 04-11 09:16 ?2096次閱讀

    從端側(cè)到云側(cè),給硬件減負(fù)的AI技術(shù)

    處理上。 ? 前幾年隨著高刷屏的普及,越來越多的廠商開發(fā)了對(duì)應(yīng)的智能插幀補(bǔ)償技術(shù)。而隨著4K視頻內(nèi)容和屏幕的爆發(fā),桌面端游戲4K的普及以及移動(dòng)端游戲720P以上渲染分辨率的普及,AI
    的頭像 發(fā)表于 04-11 00:20 ?1438次閱讀
    從端側(cè)到云側(cè),給硬件減負(fù)的<b class='flag-5'>AI</b><b class='flag-5'>超</b>分<b class='flag-5'>技術(shù)</b>

    NVIDIA數(shù)字人技術(shù)加速部署生成式AI驅(qū)動(dòng)的游戲角色

    NVIDIA 在 GDC 2024 大會(huì)上宣布,Inworld AI 等領(lǐng)先的 AI 應(yīng)用程序開發(fā)者,正在使用 NVIDIA 數(shù)字人技術(shù)加速部署生成式 AI
    的頭像 發(fā)表于 04-09 10:08 ?502次閱讀
    NVIDIA數(shù)字人<b class='flag-5'>技術(shù)</b>加速部署生成式<b class='flag-5'>AI</b><b class='flag-5'>驅(qū)動(dòng)</b>的游戲角色

    淺談分辨光學(xué)成像

    分辨光學(xué)定義及應(yīng)用 分辨光學(xué)成像特指分辨率打破了光學(xué)顯微鏡分辨率極限(200nm)的顯微鏡,技術(shù)原理主要有受激發(fā)射損耗顯微鏡
    的頭像 發(fā)表于 03-15 06:35 ?382次閱讀
    淺談<b class='flag-5'>超</b><b class='flag-5'>分辨</b>光學(xué)成像

    NanoEdge AI技術(shù)原理、應(yīng)用場(chǎng)景及優(yōu)勢(shì)

    NanoEdge AI 是一種基于邊緣計(jì)算的人工智能技術(shù),旨在將人工智能算法應(yīng)用于物聯(lián)網(wǎng)(IoT)設(shè)備和傳感器。這種技術(shù)的核心思想是將數(shù)據(jù)處理和分析從云端轉(zhuǎn)移到設(shè)備本身,從而減少數(shù)據(jù)傳輸延遲、降低
    發(fā)表于 03-12 08:09

    山河光電品牌升級(jí)為山河元景,表面光AI技術(shù)推動(dòng)光學(xué)產(chǎn)業(yè)變革

    隨著科技的不斷進(jìn)步和創(chuàng)新,人類社會(huì)正邁入一個(gè)更加美好、智能化的時(shí)代。AI技術(shù)帶來了全球格局的歷史性巨變,繼文本模型和圖片模型后,文生視頻模型的出現(xiàn),再次引起廣泛關(guān)注和多方震動(dòng);而同樣作為前沿科技的
    的頭像 發(fā)表于 03-11 16:42 ?464次閱讀
    山河光電品牌升級(jí)為山河元景,<b class='flag-5'>超</b>表面光<b class='flag-5'>AI</b><b class='flag-5'>技術(shù)</b>推動(dòng)光學(xué)產(chǎn)業(yè)變革

    基于CNN的圖像分辨率示例

    考慮單個(gè)低分辨率圖像,首先使用雙三次插值將其放大到所需的大小,這是執(zhí)行的唯一預(yù)處理。將插值圖像表示為Y。我們的目標(biāo)是從Y中恢復(fù)與真實(shí)高分辨率圖像X盡可能相似的圖像F (Y) 。
    的頭像 發(fā)表于 03-11 11:40 ?561次閱讀
    基于CNN的圖像<b class='flag-5'>超</b><b class='flag-5'>分辨</b>率示例

    AI芯片短缺已影響微電腦

    AI芯片行業(yè)芯事
    深圳市浮思特科技有限公司
    發(fā)布于 :2024年02月21日 10:18:59

    《新能源車維修技術(shù)自學(xué),鏈接匯總AI智能分類》4000案例

    收藏欄鏈接共享-新能源車維修自學(xué)-4000案例 -html文件 詳細(xì)見附件 [*附件:收藏欄鏈接共享-新能源車維修自學(xué)-4000案例.zip] (注:可導(dǎo)入瀏覽器,在瀏覽器的收藏欄里方便查看)
    發(fā)表于 02-18 03:30

    快激光技術(shù)及其應(yīng)用

    快激光技術(shù)及其應(yīng)用? 快激光技術(shù)是一種非常先進(jìn)的光學(xué)技術(shù),它利用快激光脈沖進(jìn)行高精度的物質(zhì)
    的頭像 發(fā)表于 12-20 15:35 ?644次閱讀

    語音識(shí)別技術(shù)現(xiàn)狀、挑戰(zhàn)與未來發(fā)展

    一、引言 語音識(shí)別技術(shù)是一種將人類語音轉(zhuǎn)化為計(jì)算機(jī)可讀文本的技術(shù),它在許多領(lǐng)域都有廣泛的應(yīng)用,如智能助手、智能家居、醫(yī)療診斷等。本文將探討語音識(shí)別技術(shù)現(xiàn)狀、挑戰(zhàn)和未來發(fā)展。 二、語音
    的頭像 發(fā)表于 10-12 16:57 ?1964次閱讀