圖像標(biāo)注速度提升10倍!
這是多倫多大學(xué)與英偉達(dá)聯(lián)合公布的一項(xiàng)最新研究:Curve-GCN的應(yīng)用結(jié)果。
Curve-GCN是一種高效交互式圖像標(biāo)注方法,其性能優(yōu)于Polygon-RNN++。在自動(dòng)模式下運(yùn)行時(shí)間為29.3ms,在交互模式下運(yùn)行時(shí)間為2.6ms,比Polygon-RNN ++分別快10倍和100倍。
數(shù)據(jù)標(biāo)注是人工智能產(chǎn)業(yè)的基礎(chǔ),在機(jī)器的世界里,圖像與語音、視頻等一樣,是數(shù)據(jù)的一個(gè)種類。
對(duì)象實(shí)例分割是在圖像中概括給定類的所有對(duì)象的問題,這一任務(wù)在過去幾年受到了越來越多的關(guān)注,傳統(tǒng)標(biāo)記工具通常需要人工先在圖片上點(diǎn)擊光標(biāo)描記物體邊緣來進(jìn)行標(biāo)記。
然而,手動(dòng)跟蹤對(duì)象邊界是一個(gè)費(fèi)力的過程,每個(gè)對(duì)象大概需要30-60秒的時(shí)間。
為了緩解這個(gè)問題,已經(jīng)提出了許多交互式圖像分割技術(shù),其通過重要因素加速注釋。但是交互式分割方法大多是逐像素的(比如DEXTR),在顏色均勻的區(qū)域很難控制,所以最壞的情況下仍然需要很多點(diǎn)擊。
Polygon-RNN將humans-in-the-loop(人機(jī)回圈)過程進(jìn)行構(gòu)架,在此過程中模型按順序預(yù)測(cè)多邊形的頂點(diǎn)。通過糾正錯(cuò)誤的頂點(diǎn),注釋器可以在發(fā)生錯(cuò)誤時(shí)進(jìn)行干預(yù)。該模型通過調(diào)整校正來繼續(xù)其預(yù)測(cè)。 Polygon-RNN顯示在人類協(xié)議水平上產(chǎn)生注釋,每個(gè)對(duì)象實(shí)例只需點(diǎn)擊幾下。這里最糟糕的情況是多邊形頂點(diǎn)的數(shù)量,大多數(shù)對(duì)象的范圍最多為30-40個(gè)點(diǎn)。
然而,模型的重復(fù)性將可擴(kuò)展性限制為更復(fù)雜的形狀,導(dǎo)致更難的訓(xùn)練和更長(zhǎng)的推理。此外,期望注釋器按順序糾正錯(cuò)誤,這在實(shí)踐中通常是具有挑戰(zhàn)性的。
最新研究成果中,研究人員將對(duì)象注釋框架化為回歸問題,其中所有頂點(diǎn)的位置被同時(shí)預(yù)測(cè)。
在Curve-GCN中,注釋器會(huì)選擇一個(gè)對(duì)象,然后選擇多邊形或樣條輪廓。
Curve-GCN自動(dòng)地勾勒出對(duì)象的輪廓
Curve-GCN允許交互式更正,并且可以自動(dòng)重新預(yù)測(cè)多邊形/樣條
與Polygon-RNN + +相比:
Curve-GCN具有多邊形或樣條曲線參數(shù)
Curve-GCN可同時(shí)預(yù)測(cè)控制點(diǎn)(更快)
初始化預(yù)測(cè)
人工校正
模型校正
模型是在CityScapes數(shù)據(jù)集上訓(xùn)練的
自動(dòng)模式下的比較。從左到右:ground-truth, Polygon-GCN, Spline-GCN, ps - deeplab
跨域自動(dòng)模式。(上)cityscaps訓(xùn)練模型的開箱即用輸出,(下)使用來自新領(lǐng)域的10%的數(shù)據(jù)進(jìn)行微調(diào)。
將Polygon和Spline-GCN與Polygon-RNN ++和PSP-DeepLab進(jìn)行比較
模型在最先進(jìn)的基礎(chǔ)上進(jìn)行了改進(jìn),速度顯著加快,允許只具有局部效果的交互式更正,從而為注釋器提供了更多的控制。這將導(dǎo)致更好的整體注釋策略。
論文摘要
通過邊界跟蹤來手動(dòng)標(biāo)記對(duì)象是一個(gè)繁重的過程。在Polygon-RNN ++中,作者提出了Polygon-RNN,它使用CNN-RNN架構(gòu)以循環(huán)方式產(chǎn)生多邊形注釋,允許通過humans-in-the-loop(人機(jī)回圈)的方式進(jìn)行交互式校正。
我們提出了一個(gè)新的框架,通過使用圖形卷積網(wǎng)絡(luò)(GCN)同時(shí)預(yù)測(cè)所有頂點(diǎn),減輕了Polygon-RNN的時(shí)序性。我們的模型是端到端訓(xùn)練的。它支持多邊形或樣條對(duì)對(duì)象進(jìn)行標(biāo)注,從而提高了基于線和曲線對(duì)象的標(biāo)注效率。結(jié)果表明,在自動(dòng)模式下,Curve-GCN的性能優(yōu)于現(xiàn)有的所有方法,包括功能強(qiáng)大的PSP-DeepLab,并且在交互模式下,Curve-GCN的效率明顯高于Polygon-RNN++。我們的模型在自動(dòng)模式下運(yùn)行29.3ms,在交互模式下運(yùn)行2.6ms,比Polygon-RNN ++分別快10倍和100倍。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6837瀏覽量
88754 -
人工智能
+關(guān)注
關(guān)注
1791文章
46697瀏覽量
237182 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3723瀏覽量
90709
原文標(biāo)題:多倫多大學(xué)&NVIDIA最新成果:圖像標(biāo)注速度提升10倍!
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論