南開大學(xué)媒體計(jì)算實(shí)驗(yàn)室等研究團(tuán)隊(duì)從人類視覺系統(tǒng)對(duì)場(chǎng)景結(jié)構(gòu)非常敏感的角度出發(fā),提出一種新穎、高效且易于計(jì)算的結(jié)構(gòu)性度量(S-measure) 來評(píng)估非二進(jìn)制前景圖,進(jìn)而使得評(píng)估不需要像傳統(tǒng)AUC曲線那樣通過繁瑣且不可靠的多閾值化來計(jì)算精度、召回率,僅通過簡(jiǎn)單的計(jì)算(5.3ms)就可以得到非??煽康脑u(píng)價(jià)結(jié)果,成為該領(lǐng)域第一個(gè)簡(jiǎn)單的專用評(píng)價(jià)指標(biāo)。相關(guān)研究已被ICCV 2017錄用為spotlight paper,第一作者南開大學(xué)博士生范登平帶來詳細(xì)解讀。
前景圖的度量對(duì)于物體分割算法的發(fā)展有著重要的作用,特別是在物體檢測(cè)領(lǐng)域,其目的是在場(chǎng)景中精確地檢測(cè)和分割出物體。但是,當(dāng)前廣泛應(yīng)用的評(píng)估指標(biāo) (AP, AUC) 都是基于像素級(jí)別的誤差度量,缺少結(jié)構(gòu)相似性度量,從而導(dǎo)致評(píng)估不準(zhǔn)確(優(yōu)秀算法排名比拙劣算法靠后)進(jìn)而影響了領(lǐng)域的發(fā)展。
天津南開大學(xué)媒體計(jì)算實(shí)驗(yàn)室、美國中佛羅里達(dá)大學(xué)機(jī)構(gòu)的聯(lián)合研究團(tuán)隊(duì)從人類視覺系統(tǒng)對(duì)場(chǎng)景結(jié)構(gòu)非常敏感的角度出發(fā),提出基于區(qū)域(Region-aware)和基于對(duì)象(Object-aware)的結(jié)構(gòu)性度量(S-measure)方法來評(píng)估非二進(jìn)制前景圖,進(jìn)而使得評(píng)估更加可靠。該方法在5個(gè)基準(zhǔn)數(shù)據(jù)集上采用5個(gè)元度量證明了新度量方法遠(yuǎn)遠(yuǎn)優(yōu)于已有的度量方法,并且和人的主觀評(píng)價(jià)具有高度一致性(77%Ours VS. 23%AUC)。
問題引出:專門評(píng)價(jià)指標(biāo)缺陷
評(píng)價(jià)指標(biāo)的合理與否對(duì)一個(gè)領(lǐng)域中模型的發(fā)展起到?jīng)Q定性的作用,現(xiàn)有的前景圖檢測(cè)中應(yīng)用最廣泛的評(píng)價(jià)指標(biāo)為:平均精度AP(average precision)和曲線下的面積AUC(area under the curve)。在評(píng)價(jià)非二進(jìn)制前景圖時(shí),需要將輸入圖像進(jìn)行閾值化得到多個(gè)閾值,再計(jì)算精度(precision)和召回率(recall)。
圖1
然而,該方法已經(jīng)被證明[1]存在天然的缺陷。例如圖1中(a)和(b)是兩個(gè)完全不同的前景圖,但是經(jīng)過閾值化計(jì)算AP和AUC后,最后的評(píng)價(jià)結(jié)果是AP=1, AUC=1。這表示兩個(gè)前景圖的檢測(cè)效果相當(dāng),這顯然不合理。
圖2
再來看另外一個(gè)實(shí)際的例子,圖2中,根據(jù)應(yīng)用排序(Application Ranking)以及人為排序(Human Ranking)認(rèn)為藍(lán)色框的檢測(cè)結(jié)果由于紅色框。然而,如圖3所示,采用閾值化、再進(jìn)行插值的方法(AUC)會(huì)評(píng)判紅色框檢測(cè)結(jié)果由于藍(lán)色框。
圖3
因此,AUC評(píng)價(jià)方法完全依賴于插值的結(jié)果,忽略了錯(cuò)誤發(fā)生的位置,也沒有考慮到對(duì)象的結(jié)構(gòu)性度量。原因在于,AUC曲線是多個(gè)領(lǐng)域通用的評(píng)價(jià)指標(biāo),前景圖檢測(cè)領(lǐng)域還沒有一個(gè)簡(jiǎn)單高效的專有指標(biāo)。為此,有必要為該領(lǐng)域設(shè)計(jì)一個(gè)專門的簡(jiǎn)單可靠的評(píng)價(jià)指標(biāo)。
解決方案:面向區(qū)域和面向?qū)ο蟮慕Y(jié)構(gòu)度量
由于當(dāng)前的評(píng)價(jià)指標(biāo)都是考慮單個(gè)像素點(diǎn)的誤差,缺少結(jié)構(gòu)相似性度量,從而導(dǎo)致評(píng)估不準(zhǔn)確。為此,研究團(tuán)隊(duì)根據(jù)人類視覺系統(tǒng)對(duì)場(chǎng)景結(jié)構(gòu)非常敏感的角度出發(fā),分別從2個(gè)角度去解決結(jié)構(gòu)度量的問題。
如圖4所示:(a)面向區(qū)域(Region-aware)結(jié)構(gòu)度量和(b)面向?qū)ο?Object-aware)結(jié)構(gòu)度量。
圖4
面向區(qū)域的結(jié)構(gòu)度量將區(qū)域的前背景整體度量,作為面向?qū)ο螅ㄇ氨尘胺蛛x度量)的補(bǔ)充,進(jìn)而為可靠的整體結(jié)構(gòu)度量提供支撐。
在計(jì)算面向區(qū)域部分,首先延著Ground-truth的重心部分采取2*2分塊法切割開,相應(yīng)地為檢測(cè)結(jié)果圖切割,這樣得到4局部塊,后每塊相似性度量方法采用著名的結(jié)構(gòu)性評(píng)價(jià)指標(biāo)SSIM來度量。最后,根據(jù)每個(gè)分塊占整個(gè)前景圖的比例進(jìn)行自適應(yīng)加權(quán)求和得到面向區(qū)域的結(jié)構(gòu)相似度。
b.面向?qū)ο蟮慕Y(jié)構(gòu)度量從物體角度出發(fā),將前背景分離度量,與面向區(qū)域(前背景聚合成區(qū)域)互為補(bǔ)充,為度量對(duì)象級(jí)別的結(jié)構(gòu)提供保障。
通過大量的研究發(fā)現(xiàn),高質(zhì)量的前景圖檢測(cè)結(jié)果具有如下特性:
前景與背景形成強(qiáng)烈的亮度對(duì)比。
前景與背景部分都近似均勻分布。
如圖5所示,result1檢測(cè)結(jié)果中對(duì)象內(nèi)部和背景部分相對(duì)均勻,唯獨(dú)亮度對(duì)比不夠強(qiáng)烈,result2檢測(cè)結(jié)果中內(nèi)部對(duì)象分布不均勻,背景部分大體均勻。
圖5
研究團(tuán)隊(duì)通過設(shè)計(jì)一個(gè)簡(jiǎn)單的亮度差異和均勻性項(xiàng)來度量結(jié)構(gòu)相似性。
元度量實(shí)驗(yàn)證明有效性
為了證明指標(biāo)的有效性和可靠性,研究人員采用元度量的方法來進(jìn)行實(shí)驗(yàn)。通過提出一系列合理的假設(shè),然后驗(yàn)證指標(biāo)符合這些假設(shè)的程度就可以得到指標(biāo)的性能。簡(jiǎn)而言之,元度量就是一種評(píng)測(cè)指標(biāo)的指標(biāo)。實(shí)驗(yàn)采用了5個(gè)元度量:
元度量1:應(yīng)用排序
推動(dòng)模型發(fā)展的一個(gè)重要原因就是應(yīng)用需求,因此一個(gè)指標(biāo)的排序結(jié)果應(yīng)該和應(yīng)用的排序結(jié)果具有高度的一致性。即,將一系列前景圖輸入到應(yīng)用程序中,由應(yīng)用程序得到其標(biāo)準(zhǔn)前景圖的排序結(jié)果,一個(gè)優(yōu)秀的評(píng)價(jià)指標(biāo)得到的評(píng)價(jià)結(jié)果應(yīng)該與其應(yīng)用程序標(biāo)準(zhǔn)前景圖的排序結(jié)果具有高度一致性。如下圖6所示。
圖6
元度量2:最新水平 vs.隨機(jī)結(jié)果
一個(gè)指標(biāo)的評(píng)價(jià)原則應(yīng)該傾向于選擇那些采用最先進(jìn)算法得到的檢測(cè)結(jié)果而不是那些沒有考慮圖像內(nèi)容的隨機(jī)結(jié)果(例如中心高斯圖)。如下圖7所示。
圖7
元度量3:參考GT隨機(jī)替換
原來指標(biāo)認(rèn)定為檢測(cè)結(jié)果較好的模型,在參考的Ground-truth替換為錯(cuò)誤的Ground-truth時(shí),分?jǐn)?shù)應(yīng)該降低。如圖8所示。
圖8
元度量4:輕微標(biāo)注錯(cuò)誤
評(píng)價(jià)指標(biāo)應(yīng)該具有魯棒性,一個(gè)好的評(píng)價(jià)指標(biāo)不應(yīng)對(duì)GT邊界輕微的手工標(biāo)注誤差敏感。如圖9所示
圖9
元度量5:人工排序
人作為高級(jí)靈長(zhǎng)類動(dòng)物,擅長(zhǎng)捕捉對(duì)象的結(jié)構(gòu),因此前景圖檢測(cè)的評(píng)價(jià)指標(biāo)的排序結(jié)果,應(yīng)該和人的主觀排序具有高度一致性。我們通過收集45個(gè)不同年齡,學(xué)歷,性別,專業(yè)背景的受試者的排序結(jié)果進(jìn)一步證明了提出的評(píng)價(jià)指標(biāo)與人的評(píng)價(jià)具有高度的一致性(最高可達(dá)77%)。下圖10所示為用戶調(diào)研的手機(jī)平臺(tái)。
圖10
實(shí)驗(yàn)結(jié)果
為了公平的比較,指標(biāo)首先在公開的一個(gè)前景圖檢測(cè)數(shù)據(jù)集ASD[3]上對(duì)4個(gè)元度量進(jìn)行評(píng)測(cè)。評(píng)測(cè)結(jié)果顯示我們的結(jié)果取得了最佳性能:
除了在基準(zhǔn)數(shù)據(jù)集上進(jìn)行評(píng)測(cè)外,還在另外4個(gè)具有不同特點(diǎn)的、更具挑戰(zhàn)性數(shù)據(jù)集上進(jìn)行了廣泛的測(cè)試,以驗(yàn)證指標(biāo)的穩(wěn)定性、魯棒性。
實(shí)驗(yàn)結(jié)果表明:我們的指標(biāo)分別在PASCAL, ECSSD, SOD和HKU-IS數(shù)據(jù)集上比排名第二的指標(biāo)錯(cuò)誤率降低了67.62%,44.05%,17.81%,69.23%。這清楚地表明新的指標(biāo)具有更強(qiáng)的魯棒性和穩(wěn)定性。
總結(jié)
該評(píng)測(cè)指標(biāo)將很快出現(xiàn)在標(biāo)準(zhǔn)的Opencv庫以及Matlab中,屆時(shí)可以直接調(diào)用。
評(píng)測(cè)指標(biāo)的代碼計(jì)算簡(jiǎn)單,僅需對(duì)均值、方差進(jìn)行加減乘除即可,無需閾值256次得到多個(gè)精度和召回率,再畫進(jìn)行繁瑣的插值計(jì)算得到AUC曲線。因此,S-measure計(jì)算量非常小,在單線程CUP(4GHz)上度量一張圖像僅需要5.3ms.
-
二進(jìn)制
+關(guān)注
關(guān)注
2文章
786瀏覽量
41564 -
圖像
+關(guān)注
關(guān)注
2文章
1078瀏覽量
40375
原文標(biāo)題:南開大學(xué)提出新物體分割評(píng)價(jià)指標(biāo),相比經(jīng)典指標(biāo)錯(cuò)誤率降低 69.23%
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論