導(dǎo)讀本文圍繞非完全監(jiān)督下的圖像分割方法最新綜述,講述用于解決“如何縮小弱監(jiān)督信號(hào)與密集預(yù)測(cè)之間的差距”的四種通用的啟發(fā)式先驗(yàn)。
前言
論文鏈接:https://arxiv.org/abs/2207.01223團(tuán)隊(duì)介紹:https://shenwei1231.github.io/上海交通大學(xué)人工智能研究院楊小康、沈?yàn)閳F(tuán)隊(duì)聯(lián)合華為田奇團(tuán)隊(duì)共同發(fā)布了非完全監(jiān)督(即標(biāo)簽有限)下的圖像分割方法最新綜述 “A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction”。該工作由人工智能研究院沈?yàn)楦苯淌谥鞒?,全文包?70余篇文獻(xiàn),全面總結(jié)了不同類型的監(jiān)督標(biāo)簽在不同分割任務(wù)上的進(jìn)展情況:包括無監(jiān)督、弱監(jiān)督、半監(jiān)督、部分監(jiān)督、域遷移等多種設(shè)置下的語義、實(shí)例、全景分割問題,并以統(tǒng)一視角--“如何縮小弱監(jiān)督信號(hào)與密集預(yù)測(cè)之間的差距”進(jìn)行分析,總結(jié)出用于解決這個(gè)問題的四種通用的啟發(fā)式先驗(yàn):① cross-label constraint (跨標(biāo)簽約束);② cross-pixel similarity(跨像素相似性);③ cross-view consistency(跨視圖一致性);④ cross-image relation(跨圖像關(guān)系)。
▲不同模態(tài)的數(shù)據(jù)會(huì)被分別經(jīng)過“連續(xù)向量路徑”和“離散詞路徑”,分別為連續(xù)向量和離散詞向量作為其的特征;最終的特征為二者的向量和。
背景與問題
圖像分割是計(jì)算機(jī)視覺領(lǐng)域最古老最廣泛的研究任務(wù)之一。它的目標(biāo)是對(duì)給定的圖像來生成密集的預(yù)測(cè),根據(jù)預(yù)測(cè)的類型決定具體的分割方向,例如:給每個(gè)像素分配一個(gè)預(yù)定義的類別標(biāo)簽為語義分割;為每個(gè)像素預(yù)測(cè)一個(gè)對(duì)象實(shí)例標(biāo)簽為實(shí)例分割;或前兩者的預(yù)測(cè)結(jié)果的組合為全景分割。無論哪種具體分割方向,其都能使語義相似的像素組成有意義的概念,如動(dòng)態(tài)對(duì)象(人、貓、球等)和靜態(tài)物體(道路、天空、水等)。在過去的近十年里,深度學(xué)習(xí)的出現(xiàn)極大地帶動(dòng)了圖像分割領(lǐng)域的研究進(jìn)展,特別是隨著全卷積網(wǎng)絡(luò)(FCN)的發(fā)展,諸如DeepLab系列,Mask RCNN系列等方法憑借卷積網(wǎng)絡(luò)強(qiáng)大的密集特征表征能力以及獨(dú)特的設(shè)計(jì)在圖像分割領(lǐng)域大放異彩,取得了非常好的分割效果。然而這些方法也存在著一個(gè)共同的缺點(diǎn),即往往分割效果與具有可用的密集標(biāo)注的圖像的數(shù)量是成正比的,對(duì)像素級(jí)的標(biāo)簽的需求量非常大。但是人為地給每一張圖像做像素級(jí)的標(biāo)注卻非常地耗費(fèi)時(shí)間與精力,這不僅限制了深度學(xué)習(xí)的進(jìn)一步發(fā)展,而且限制了圖像分割在真實(shí)工業(yè)場(chǎng)景中的應(yīng)用。近年來,設(shè)計(jì)基于非完全監(jiān)督信號(hào)來減少對(duì)密集標(biāo)簽依賴的分割方法越來越受到關(guān)注,非完全監(jiān)督下的圖像分割方法的數(shù)量呈爆發(fā)式增長(zhǎng),由于缺少對(duì)這些方法進(jìn)行系統(tǒng)地歸納總結(jié),這給研究者學(xué)習(xí)跟進(jìn)最新研究進(jìn)展帶來不小的挑戰(zhàn)。 然而,目前僅有個(gè)別幾篇相關(guān)的調(diào)研論文,且它們僅僅關(guān)注于一個(gè)特定的分割任務(wù),并僅包含個(gè)別類型的弱標(biāo)簽,無法做到全面的總結(jié)。
本文工作
本文研究人員旨在提供一個(gè)面向于非完全監(jiān)督下圖像分割領(lǐng)域的全面的綜述,分析語義分割、實(shí)例分割、全景分割三類使用弱監(jiān)督信號(hào)(標(biāo)簽)來解決分割問題的方法之間的統(tǒng)一性與關(guān)聯(lián)性。為了達(dá)到該目的,研究人員需要想好兩個(gè)問題:
如何對(duì)這些方法建立合適分類與關(guān)聯(lián)?
如何從統(tǒng)一的角度總結(jié)這些方法所使用的策略?
研究人員注意到,弱標(biāo)簽的類型是設(shè)計(jì)非完全監(jiān)督圖像分割方法的關(guān)鍵,決定了可用信息的多少,因此試圖從弱標(biāo)簽信號(hào)差異的角度來回答上述兩個(gè)問題。針對(duì)第一個(gè)問題,本綜述首先總結(jié)出層次化的非完全監(jiān)督信號(hào)的分類,具體類型包括如下所示:
無監(jiān)督信號(hào):即訓(xùn)練集中的圖像沒有任何標(biāo)注信號(hào)(圖 2a)。
粗粒度監(jiān)督信號(hào):即訓(xùn)練集中的圖像有標(biāo)注信號(hào),但這些信號(hào)不是像素級(jí)的,無法為每一個(gè)像素提供類別信息或者實(shí)例信息。(圖2b)在該類型下主要包括:
圖像級(jí)別的標(biāo)注
檢測(cè)框級(jí)別的標(biāo)注
涂鴉級(jí)別的標(biāo)注
不完全監(jiān)督信號(hào):即訓(xùn)練集中的一部分圖像有像素級(jí)的標(biāo)注信號(hào)(圖2c)。在該類型下主要包括:
半監(jiān)督標(biāo)簽,即屬于同域的另一部分圖像沒有任何標(biāo)簽
特定域的標(biāo)簽,即另一部分圖像屬于另一個(gè)域,其沒有任何標(biāo)注
部分密集標(biāo)簽,即屬于同域的另一部分圖像有檢測(cè)框級(jí)別的弱標(biāo)注
帶噪監(jiān)督信號(hào):即有像素級(jí)別的標(biāo)注,但是這些標(biāo)注并不一定全部準(zhǔn)確(圖 2d)。
根據(jù)這些分類,再結(jié)合不同的任務(wù)類型,整理出來了如圖 1 所示的分類表,也標(biāo)注了不同任務(wù)不同標(biāo)簽類型下已有的代表性工作和待開發(fā)的領(lǐng)域。
▲圖2. 每一種弱監(jiān)督信號(hào)的示意圖。第一列為完全密集監(jiān)督信號(hào)的例子。針對(duì)第二個(gè)問題,本綜述結(jié)合不同弱監(jiān)督信號(hào)之間的關(guān)聯(lián)以及對(duì) 170 余篇論文進(jìn)行歸納提煉后,總結(jié)出了四種通用的啟發(fā)式先驗(yàn):
cross-label constraint,即跨標(biāo)簽約束:弱標(biāo)簽與密集標(biāo)簽之間具有一些約束關(guān)系,如給定圖像的類別標(biāo)簽,我們可以知道圖中必有至少一個(gè)像素屬于該類別。
cross-pixel similarity,即跨像素相似性:具有諸如顏色,紋理,高層次特征相似性的像素點(diǎn)很可能是同類像素或者同對(duì)象像素。
cross-view consistency,即跨視圖一致性:同一張圖的不同的視角具有強(qiáng)關(guān)聯(lián)性/預(yù)測(cè)一致性。
cross-image relation,即跨圖像關(guān)系:不同圖像中屬于同一類別的實(shí)例具有相同的語義關(guān)系。
通過下列表1的代表性方法的核心做法歸納中可以看到,在各種監(jiān)督信號(hào)/各種任務(wù)下,這四種先驗(yàn)貫穿每一種任務(wù)設(shè)定,證明了本綜述總結(jié)的啟發(fā)式先驗(yàn)具有通用性。
▲表1. 多種弱監(jiān)督信號(hào)下的圖像分割代表性工作。
▲表2. 統(tǒng)一的數(shù)學(xué)描述。本綜述幾乎對(duì)各章節(jié)部分(即某種監(jiān)督信號(hào)下的某個(gè)任務(wù))都總結(jié)了一個(gè)具有概括性的流程圖,便于研究人員明確當(dāng)前已有工作的入手點(diǎn)與研究路線,如圖 3 所示。
▲圖3. 部分論文圖示預(yù)覽
總結(jié)
本綜述對(duì)現(xiàn)有不完全監(jiān)督下的圖像分割方法進(jìn)行了歸納總結(jié),同時(shí)也分析了未來的潛在研究方向,包括:
結(jié)合文本監(jiān)督的零樣本圖像分割。 多模態(tài)技術(shù)是未來的主流方向,也更貼近人的認(rèn)知系統(tǒng)。從文本中獲得一定的語義信息可以更好的幫助新類別的識(shí)別與分割,利于零樣本任務(wù)的發(fā)展。
利用 Transformer 特性的不完全監(jiān)督圖像分割方法。 當(dāng)前大部分方法還是基于卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)的,爆火的 Transformer 在不完全監(jiān)督下的圖像分割領(lǐng)域目前還沒有被探索,許多 Transformer 特性可能對(duì)該任務(wù)具有更有力的優(yōu)勢(shì)。
還未開拓的利用其他不完全監(jiān)督信號(hào)的方案。 如圖 1 所示,這里依然有很多方向還沒有被探索,如帶噪監(jiān)督信號(hào)下的實(shí)例分割等,研究者可以發(fā)掘更多合理的任務(wù)設(shè)置,充分利用現(xiàn)有的具有多種標(biāo)注類型的數(shù)據(jù)集。
原文標(biāo)題:綜述|上海交大&華為:非完全監(jiān)督下基于深度學(xué)習(xí)的圖像分割方法
文章出處:【微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
像素
+關(guān)注
關(guān)注
1文章
202瀏覽量
18547 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237073 -
圖像分割算法
+關(guān)注
關(guān)注
0文章
3瀏覽量
6305
原文標(biāo)題:綜述|上海交大&華為:非完全監(jiān)督下基于深度學(xué)習(xí)的圖像分割方法
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論