“天街小雨潤如酥,草色遙看近卻無?!睆捻n愈的這兩句詩可以看出,人對(duì)圖像內(nèi)容的語義理解,并不依賴于細(xì)粒度監(jiān)督信息做輔助。與之相比,在機(jī)器學(xué)習(xí)領(lǐng)域,現(xiàn)階段的語義分割任務(wù),則依賴于大量的精細(xì)標(biāo)注數(shù)據(jù)。互聯(lián)網(wǎng),作為最為豐富的數(shù)據(jù)源,吸引著相關(guān)從業(yè)人員的目光,然而要想利用這些數(shù)據(jù),則面臨著巨大的標(biāo)注壓力。
因此,引發(fā)了兩點(diǎn)思考:第一,能否結(jié)合關(guān)鍵詞信息作輔助,從web中直接學(xué)習(xí)知識(shí),而不需要精細(xì)的人工標(biāo)注呢?第二,能否利用類別無關(guān)的線索,在標(biāo)注少量類別的數(shù)據(jù)集上訓(xùn)練好后,將其泛化到其他所有類別物體呢?
本文中,來自南開大學(xué)的程明明教授,將從這兩點(diǎn)展開介紹目前的研究進(jìn)展。
傳統(tǒng)像素級(jí)語義理解方法,通常需要大量精細(xì)標(biāo)注的圖像訓(xùn)練。上圖所示的是ADE20K數(shù)據(jù)集中的一個(gè)例子,該數(shù)據(jù)集包含21萬個(gè)精細(xì)標(biāo)注的物體的圖像,是由Antonio教授的母親花了很長時(shí)間標(biāo)注的。
Antonio教授曾在CVML2012上開玩笑的說:“我的母親標(biāo)注了這樣一個(gè)優(yōu)質(zhì)的數(shù)據(jù)集,真希望我有更多的母親”。這是一句玩笑話,但也說明了構(gòu)建數(shù)據(jù)集的重要性,以及構(gòu)建它所需時(shí)間和精力之大。
回顧我們的成長過程,從小到大,我們的父母從未給我們做過如此精細(xì)的標(biāo)注,去幫助我們識(shí)別和認(rèn)知周圍的世界。通常的學(xué)習(xí)方式是,父母給我們看一朵花并告訴我們這是朵花,然后我們就能很輕易的知道哪些區(qū)域、哪些像素對(duì)應(yīng)著這朵花。那么我們是怎樣利用這些信息,學(xué)習(xí)到每個(gè)像素所代表的語義內(nèi)容呢?同時(shí),這樣一種信息能否幫我們更好的去理解圖像的內(nèi)容,對(duì)圖像進(jìn)行精細(xì)的語義理解?
我們的研究內(nèi)容就是怎樣去利用類似機(jī)制移除對(duì)精細(xì)標(biāo)注信息的依賴。在生活中,當(dāng)我們想要了解一種我們不熟悉的物體時(shí),比如一種水果,通常我們只需要在網(wǎng)上搜索一下,觀察幾張圖片,就能對(duì)這種水果有充分的認(rèn)識(shí),并能輕松識(shí)別對(duì)應(yīng)目標(biāo)及目標(biāo)區(qū)域。能不能讓計(jì)算機(jī)擁有從web中直接學(xué)習(xí)知識(shí)的能力,而不需要精細(xì)的人工標(biāo)注呢?
可以幫助像素級(jí)語義理解的相關(guān)的工作有很多,比如說顯著性物體檢測:給定一張圖像,發(fā)現(xiàn)并找到圖像中的顯著性物體,這些信息是很關(guān)鍵的。舉個(gè)例子,當(dāng)我們使用關(guān)鍵詞在網(wǎng)上檢索圖像的時(shí)候,通常檢索的圖像和關(guān)鍵詞之間有很強(qiáng)的相關(guān)性,通過顯著性目標(biāo)檢測,我們可以假設(shè)檢測結(jié)果對(duì)應(yīng)的顯著性區(qū)域語義信息就是其關(guān)鍵詞,當(dāng)然這種假設(shè)是存在噪聲或者說錯(cuò)誤的。
除了顯著性目標(biāo)(saliency)檢測以外,還有圖像的邊緣檢測,圖像的過分割(over segmentation)等信息。這些信息都是類別無關(guān)的,可以從很少的數(shù)據(jù)集中訓(xùn)練出一個(gè)很好的通用模型。如邊緣檢測,我們可以從只有500個(gè)數(shù)據(jù)的BSD數(shù)據(jù)集中訓(xùn)練出一個(gè)很好的邊緣檢測模型。邊緣能夠很好描述物體的邊界,從而能夠減少對(duì)精細(xì)標(biāo)注的依賴。同樣的,過分割以及顯著性檢測也有同樣的效果。一個(gè)直接的想法就是能否利用這些類別無關(guān)的線索(cues),在標(biāo)注少量類別的數(shù)據(jù)集上訓(xùn)練好后,將其泛化到其他所有類別物體呢?哪怕是我們沒有見過的物體,在不知道該物體類別的情況下,我們也能找到該物體所對(duì)應(yīng)的區(qū)域。
沿著這個(gè)想法,有了我們的第一個(gè)工作:顯著性物體檢測,該工作發(fā)表在2017 CVPR以及2018 TPAMI上。下面我們介紹下該工作。
該工作的核心思想是以多尺度Deeply Supervised的方式,把不同尺度的信息融合起來,從多個(gè)尺度去檢測顯著性物體的區(qū)域。由于CNN中底層的特征和高層特征分別更擅長做細(xì)節(jié)描述和全局定位,而不夠全面,因而難以獲得高質(zhì)量的分割結(jié)果。我們通過將頂層信息往下傳遞的方式去豐富底層的信息,這樣既能夠很好的定位又能保持細(xì)節(jié)。
這里是一些示例結(jié)果。我們的重點(diǎn)不是想說明怎樣去做顯著性物體檢測,而是想傳達(dá)一個(gè)重要的信息,即通過顯著性物體檢測,我們能夠?qū)D像中的顯著性物體分割得很好。這個(gè)發(fā)現(xiàn)能幫助機(jī)器直接從web學(xué)習(xí)像素級(jí)語義分割。
上圖展示了我們的方法在不同場景下的檢測結(jié)果,可以看到,即使在對(duì)比度很低、物體很復(fù)雜的情況下,我們的顯著性物體檢測方法仍能很好地找到物體的區(qū)域。
同時(shí),在常見的數(shù)據(jù)集里面,我們算法的Fβ性能指標(biāo)都超過了90%。為了驗(yàn)證算法的泛化能力,我們?cè)诓煌瑪?shù)據(jù)集之間進(jìn)行交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,我們的顯著性目標(biāo)檢測方法,能夠從少量類別標(biāo)注(如1000類)的數(shù)據(jù)中學(xué)到類別無關(guān)的工具,而這種工具在不知道物體的類別的情況下,也能很好的將其從圖像中分割出來。
該方法也存在一些不足,例如,在場景特別復(fù)雜(如摩托車)或者顯著性物體特別含糊(如貓的右半邊)的情況下,我們的方法也會(huì)失敗。
前文提到,我們的方法在多個(gè)數(shù)據(jù)集上的Fβ性能均能超過90%,能夠很好的定位出顯著性物體。上圖是我們這個(gè)工作的一個(gè)應(yīng)用,它被應(yīng)用于華為手機(jī)的智能拍照:在拍照的過程中自動(dòng)找到前景目標(biāo),使得相機(jī)能夠?qū)崿F(xiàn)大光圈拍照。而傳統(tǒng)大光圈拍照需要用到單反相機(jī)(額外物理負(fù)擔(dān))來得到前清后虛、虛實(shí)結(jié)合的藝術(shù)效果。
另外一個(gè)很重要的類別無關(guān)信息是邊緣檢測。邊緣有助于定位物體的位置。如上圖所示,在不知道動(dòng)物具體類別的情況下,只需知道圖像中有動(dòng)物(關(guān)鍵詞級(jí)別的label),我們就能找到動(dòng)物所對(duì)應(yīng)的區(qū)域。下面我們介紹發(fā)表在CVPR 2017上的工作(RCF)。
RCF的核心思想是利用豐富的多尺度的特征去檢測自然圖像中的邊緣。在早期分類任務(wù)中,中間層往往被忽略掉了,后來人們通過1x1卷積層對(duì)中間層加以利用。但這些工作只使用了每個(gè)stage的最后一個(gè)卷積層,實(shí)際上每個(gè)卷積層對(duì)于最終結(jié)果都是有用的。RCF將所有卷積層通過1x1卷積層進(jìn)行融合。這種融合有效的提升了邊緣檢測的效果。
舉個(gè)例子,在圖像中的稻草區(qū)域,傳統(tǒng)的方法如canny算子等在這些區(qū)域都會(huì)有非常高的響應(yīng),但RCF能夠很好的抑制掉這些響應(yīng)。還有如沙發(fā),茶幾等人都很難觀測到邊緣的區(qū)域,RCF都能魯棒的檢測到邊緣,其結(jié)果甚至比原圖結(jié)構(gòu)看的更清晰。這給我們實(shí)現(xiàn)直接從Web中學(xué)習(xí)提供了一個(gè)基礎(chǔ)。
作為計(jì)算機(jī)視覺最早開始研究的問題之一,邊緣檢測經(jīng)歷了50多年的發(fā)展,但RCF是第一個(gè)能夠做到實(shí)時(shí)檢測,同時(shí)性能超過伯克利數(shù)據(jù)集上的人工標(biāo)注的工作。當(dāng)然這并不意味著RCF超過了人類,只要給人足夠的時(shí)間仔細(xì)思考,人能標(biāo)注的更好,但RCF無疑算是取得了重大突破。而且訓(xùn)練如此強(qiáng)大的邊緣檢測模型,僅僅使用了一個(gè)含有500張圖像的數(shù)據(jù)集,這對(duì)于我們直接從Web學(xué)習(xí)是非常有啟發(fā)的。
好的過分割結(jié)果,能夠有效的輔助像素級(jí)語義理解(特別是在人工標(biāo)注數(shù)據(jù)少的情況下)。過分割(over segmentation)也是一種重要的類別無關(guān)的信息,上圖的過分割結(jié)果雖然形似語義分割(semantic segmentation),但又有本質(zhì)的區(qū)域。在語義分割中,每一個(gè)像素都有明確的語義標(biāo)簽,因此我們可以通過神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)每個(gè)像素具體的語義信息。而過分割只是將圖像劃分成很多不同的區(qū)域,每個(gè)區(qū)域?qū)?yīng)一個(gè)標(biāo)簽。這些標(biāo)簽沒有確定的語義信息,因此給定一幅圖像,我們無法確定每個(gè)圖像能產(chǎn)生多少的區(qū)域,也不能確定每個(gè)圖像能產(chǎn)生多少標(biāo)簽(100, 1000 或1000?),這個(gè)問題給學(xué)習(xí)帶來了很多大的困難。下面介紹我們發(fā)表在IJCAI2018上的工作。
我們的方法并不直接把像素和標(biāo)注對(duì)應(yīng)起來,而是先將圖像進(jìn)行超像素化,以提高計(jì)算速度,然后提取超像素的卷積特征,再將每個(gè)超像素的特征pooling為固定長度的向量,最后學(xué)習(xí)每兩個(gè)超像素之間的距離。當(dāng)超像素之間的距離小于一個(gè)閾值的時(shí)候?qū)⑵浜喜ⅲ╩erge)。相比傳統(tǒng)方法,我們的方法簡單、有效,取得了很好的結(jié)果,且能實(shí)時(shí)處理(50fps/s)。這也給直接從互聯(lián)網(wǎng)學(xué)習(xí)像素級(jí)語義理解提供了支撐。
有了上述提到的類別無關(guān)的底層視覺知識(shí)后,我們可以對(duì)圖像做很多有意思的分析。例如,我們使用關(guān)鍵詞在互聯(lián)網(wǎng)上檢索圖像,通過顯著性目標(biāo)檢測,可以檢測出物體在圖像中大概的位置,然后通過邊緣、過分割等信息可以進(jìn)一步精確物體的區(qū)域信息。最終可以生成proxy groundtruth(GT),這種GT不是人工標(biāo)注的,是我們用自動(dòng)化的方法對(duì)互聯(lián)網(wǎng)圖像GT的一種猜測。這種猜測很可能覆蓋了關(guān)鍵詞在圖像中對(duì)應(yīng)的區(qū)域,當(dāng)然這些區(qū)域中會(huì)存在很多誤差。例如對(duì)上圖中的自行車進(jìn)行分割時(shí),我們的方法往往把人也標(biāo)記出來了,因?yàn)橥ǔW孕熊囀呛腿艘黄鸪霈F(xiàn)的。
那么怎么去剔除掉這些誤差呢?
整個(gè)方法的流程如下:1利用關(guān)鍵詞檢索得到大量圖像;2利用底層視覺知識(shí),得到圖像對(duì)應(yīng)proxy GT;3利用NFM去除proxy GT中的噪聲區(qū)域?qū)τ?xùn)練過程的影響;4最終通過SSM部分得到語義分割結(jié)果。
NFM(Noise Filtering Module):噪聲濾波模塊,給定輸入圖像,利用圖像級(jí)的標(biāo)注以及相應(yīng)的heuristic map,過濾圖像Proxy GT中的噪聲區(qū)域。
上圖中紅色區(qū)域?yàn)樽R(shí)別出來的噪聲區(qū)域。
NFM作為一種輔助訓(xùn)練的方法,只在測試階段使用。
我們通過實(shí)驗(yàn),分別驗(yàn)證了底層視覺知識(shí)的重要性。實(shí)驗(yàn)分為兩類,Weak表示圖像只有一個(gè)關(guān)鍵詞級(jí)別的標(biāo)注,WebSeg則表示圖像沒有任何人工標(biāo)注。實(shí)際上,底層視覺知識(shí)有很多類,我們這里只展示了3類,分別是Saliency object Detection(sal),Edge,Attention(att)。Attention是一種自頂向下的信息,需要有關(guān)鍵詞級(jí)別的標(biāo)注信息,由于WebSeg沒有使用任何人工標(biāo)注,所以在WebSeg的實(shí)驗(yàn)中沒有attention。
同樣,我們還驗(yàn)證了NFM的有效性??梢钥闯?,NMF能夠提升IoU準(zhǔn)確度。
在訓(xùn)練過程中,訓(xùn)練的數(shù)據(jù)可以分為三類,D(S):圖像內(nèi)容簡單,每個(gè)圖像有一個(gè)人工審核過的圖像級(jí)標(biāo)注;D(C):圖像內(nèi)容復(fù)雜,每個(gè)圖像有多個(gè)審核過的圖像級(jí)標(biāo)注;D(W):圖像內(nèi)容不定,每個(gè)圖像有一個(gè)未經(jīng)審核的標(biāo)注。
上表中列出了不同訓(xùn)練集組合對(duì)應(yīng)的不同性能。
使用CRF能進(jìn)一步提高結(jié)果的精度。
上圖是我們的實(shí)驗(yàn)結(jié)果,從左至右,分別可以看出NFM以及CRF的重要性??傮w而言,我們的方法能直接從Web圖像中學(xué)習(xí)并得到很好的語義分割的結(jié)果。
上表是在PASCAL 2012上的實(shí)驗(yàn)結(jié)果,在使用了大量的底層視覺知識(shí)后,我們方法平均IOU能達(dá)到63%,相比于去年CVPR上最好結(jié)果的58%有著很大的提升。
另一很有意義的結(jié)果是,在不使用顯式人工標(biāo)注的情況下,我們?nèi)匀荒苋〉?7%的結(jié)果。這一結(jié)果實(shí)際上超過了CVPR 2017中很多弱監(jiān)督的方法。事實(shí)上,弱監(jiān)督信息的標(biāo)注也是很花費(fèi)時(shí)間和精力的,相比而言,我們的方法則無需要任何人工標(biāo)注。在直接讓機(jī)器從Web學(xué)習(xí)像素級(jí)語義分割這個(gè)方向上,我們只是進(jìn)行了初步的嘗試,但它能在PASCAL VOC這個(gè)量級(jí)的數(shù)據(jù)集上能超過CVPR 2017大部分弱監(jiān)督的結(jié)果,是很令人興奮的。長遠(yuǎn)來看,這是一個(gè)很有意義的研究方向。
總結(jié)整個(gè)報(bào)告,我們提出了一個(gè)很有意義且很有挑戰(zhàn)性的視覺問題:即在沒有人工標(biāo)注的情況下,怎樣直接從Web中學(xué)習(xí)語義分割。同時(shí)我們還提出了一種在線的噪聲濾波機(jī)制,讓CNN學(xué)習(xí)如何剔除Web學(xué)習(xí)結(jié)果中的噪聲區(qū)域。整個(gè)工作的目的在于:降低或移除像素級(jí)語義理解任務(wù)對(duì)精細(xì)標(biāo)注數(shù)據(jù)的依賴性。
我們目前只是觸及了純web式監(jiān)督學(xué)習(xí)領(lǐng)域的皮毛,后續(xù)還有很多值得研究的工作,例如:
1. 怎樣把圖像有效利用起來,目前的工作,對(duì)Web圖像不分好壞直接處理,沒有做更多的學(xué)習(xí),我們要思考是否能夠通過學(xué)習(xí)的方式提升web圖像的使用效率;
2. 又或者是否可以把底層視覺知識(shí)和其對(duì)應(yīng)的關(guān)鍵詞關(guān)聯(lián)起來,如Salient Object Detection,之前是沒有與其對(duì)應(yīng)的標(biāo)注聯(lián)系起來的,這種相關(guān)性能否進(jìn)一步提升結(jié)果?
3. 以及,提升類別無關(guān)的底層視覺知識(shí)本身的性能,如邊緣檢測、過分割等;
4. 此外還有其他一些純粹的Web監(jiān)督的任務(wù)。
我們還做了許多與底層視覺知識(shí)相關(guān)的工作,如Over-segmentation。
Salient-Instance Segmentation,也是一種類別無關(guān)的信息,雖不知道物體類別,但它能把顯著的instance分割出來。
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11015瀏覽量
102085 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131841
原文標(biāo)題:互聯(lián)網(wǎng)圖像中的像素級(jí)語義識(shí)別
文章出處:【微信號(hào):deeplearningclass,微信公眾號(hào):深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論