本文的12篇文章總結(jié)了當(dāng)前主流的分割網(wǎng)絡(luò)及其結(jié)構(gòu),涵蓋從編解碼結(jié)構(gòu)到解碼器設(shè)計(jì);從感受野到多尺度融合;從CNN到RNN與CRF;從2D分割到3D分割;從語義分割到實(shí)例分割和全景分割網(wǎng)絡(luò),感興趣的朋友可以仔細(xì)研讀每一篇文章。
1 FCN
Fully Convolutional Network(FCN)是神經(jīng)網(wǎng)絡(luò)用于圖像分割任務(wù)的鼻祖,后續(xù)提出的大部分基于編解碼結(jié)構(gòu)的圖像分割網(wǎng)絡(luò)都是從FCN上發(fā)展、改進(jìn)而來的。
FCN用卷積層替換了分類網(wǎng)絡(luò)結(jié)構(gòu)中的全連接層,從而得到稠密的分割結(jié)果,實(shí)現(xiàn)端到端訓(xùn)練。
同時(shí),網(wǎng)絡(luò)還將不同尺度下的特征信息進(jìn)行融合,實(shí)現(xiàn)更細(xì)節(jié)的圖像分割。
【圖像分割模型】從FCN說起
2 SegNet
SegNet在FCN的基礎(chǔ)上增加了解碼器,形成目前分割任務(wù)中最流行的編解碼結(jié)構(gòu),并給出了不同解碼器對效果的影響和原因。
此外,由于應(yīng)用了基于位置信息的加碼過程,相比較FCN而言,SegNet中的對應(yīng)結(jié)構(gòu)的體量要小得多。
【圖像分割模型】編解碼結(jié)構(gòu)SegNet
3 空洞卷積
編解碼結(jié)構(gòu)中,為了平衡空間尺寸與計(jì)算量,同時(shí)增大網(wǎng)絡(luò)結(jié)構(gòu)的感受野,通常會(huì)對輸入圖像進(jìn)行一定的下采樣。為了恢復(fù)分割結(jié)果的空間分辨率,解碼器往往需要應(yīng)用上采樣或反卷積。
但是,基于插值的上采樣效果通常不理想,而反卷積操作則增加了計(jì)算量?;诖?,DeepLab中就提出了“空洞卷積”的概念,在不增加參數(shù)個(gè)數(shù)的基礎(chǔ)上,實(shí)現(xiàn)感受野與分辨率的控制。
【分割模型解讀】感受野與分辨率的控制術(shù)—空洞卷積
4 ENet
圖像分割的任務(wù)最終還是要落腳于實(shí)際應(yīng)用,而此前的網(wǎng)絡(luò)結(jié)構(gòu)最快也只能達(dá)到1fps,遠(yuǎn)不及實(shí)時(shí)所需要的10fps。
ENet基于空洞卷積,實(shí)現(xiàn)了NVIDIA TX1上分辨率480x320下的21.1fps。
此外,文中還介紹了設(shè)計(jì)實(shí)時(shí)網(wǎng)絡(luò)結(jié)構(gòu)所需要考慮的6個(gè)重要內(nèi)容。
【圖像分割模型】快速道路場景分割—ENet
5 CRFasRNN
在許多計(jì)算機(jī)視覺任務(wù)中,后處理操作能夠有效提升算法的質(zhì)量。而在眾多后處理方法中,條件隨機(jī)場(CRF)的效果名列前茅。
然而,CRF的理論性強(qiáng),應(yīng)用起來不方便。因此,CRFasRNN中提出以RNN的形式實(shí)現(xiàn)CRF的解決方案,從而讓基于CRF的后處理變得簡單。
【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN
6 PSPNet
不同感受野下所帶來的上下文信息對圖像分割而言十分重要,往往感受野選擇的恰當(dāng)性會(huì)直接影響最終的分割效果,這種影響對極端尺寸(極大和極?。┠繕?biāo)表現(xiàn)地尤為明顯。
為了在同一級(jí)別下融合多尺度下的上下文信息,PSPNet提出了池化金字塔結(jié)構(gòu),從而實(shí)現(xiàn)了可以理解目標(biāo)所處環(huán)境的圖像分割。
【圖像分割模型】多感受野的金字塔結(jié)構(gòu)—PSPNet
7 ParseNet
盡管從網(wǎng)絡(luò)結(jié)構(gòu)看,有些網(wǎng)絡(luò)的理論感受野能夠達(dá)到非常大,但實(shí)際上,理論感受野并不能等同于實(shí)際感受野,其覆蓋和利用的信息也不夠完整。
基于這個(gè)發(fā)現(xiàn),ParseNet提出了基于池化的全局特征利用,從而實(shí)現(xiàn)全局特征與局部特征融合下的圖像分割。
文中也介紹了如何有效融合兩種特征,并利用好融合特征。
【圖像分割模型】全局特征與局部特征的交響曲—ParseNet
8 RefineNet
盡管前面的特征融合方法能夠恢復(fù)在計(jì)算過程中被下降的空間分辨率,但是這種恢復(fù)往往沒有利用完整的原始空間信息,從而導(dǎo)致最終結(jié)果中的信息丟失。
基于此,RefineNet設(shè)計(jì)了空間分辨率的恢復(fù)結(jié)構(gòu),實(shí)現(xiàn)了基于殘差卷積模塊(RCU)、多分辨率融合模塊(MRF)和串聯(lián)殘差池化模塊(CRP)下的高精度圖像分割。
【圖像分割模型】多分辨率特征融合—RefineNet
9 ReSeg
盡管CNN的效果不錯(cuò),但是其需要依賴人工指定的核函數(shù)實(shí)現(xiàn)計(jì)算,從而限制了上下文的處理能力。因此,ReSeg提出基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)實(shí)現(xiàn)分割,來克服這種不足。
在ReNet的基礎(chǔ)上,ReSeg通過依次掃描互相垂直的兩個(gè)方向,實(shí)現(xiàn)不同時(shí)序下的特征提取。
【圖像分割模型】用BRNN做分割—ReSeg
10 LSTM-CF
除了單純基于2D的RGB圖像的分割外,圖像分割任務(wù)的完成還可以利用深度信息進(jìn)行輔助,從而實(shí)現(xiàn)紋理信息下無法判斷的分割。
LSTM-CF基于ReNet和空洞卷積,實(shí)現(xiàn)結(jié)合了深度信息的圖像分割。為精度提升和深度信息利用提供了一種思路。
【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF
11 DeepMask
除了語義分割,圖像分割中還有另外兩種類別的任務(wù):實(shí)例分割和全景分割。
我們通過DeepMask,給出了實(shí)例分割下的網(wǎng)絡(luò)的設(shè)計(jì)思路。DeepMask可以同時(shí)實(shí)現(xiàn)前背景分割、前景語義分割和前景實(shí)例分割。
【圖像分割模型】實(shí)例分割模型—DeepMask
12 全景分割
語義分割與實(shí)例分割任務(wù)雖然相似,但是由于度量不同,二者無法直接結(jié)合。為了實(shí)現(xiàn)整圖內(nèi)things類別和stuff類別的同時(shí)分割,全景分割任務(wù)提出了新的度量。
全景分割任務(wù)下,圖像內(nèi)的每個(gè)像素點(diǎn)都有其對應(yīng)的語義標(biāo)簽和實(shí)例標(biāo)簽(things類別),從而能夠最大程度上地理解整幅圖像。
-
解碼器
+關(guān)注
關(guān)注
9文章
1129瀏覽量
40636 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7485瀏覽量
88541
原文標(biāo)題:當(dāng)今主流分割網(wǎng)絡(luò)有哪些?12篇文章一次帶你看完
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論