本文介紹復(fù)旦大學(xué)提出的面向真實場景的長時視頻目標(biāo)分割數(shù)據(jù)集LVOS,論文被ICCV2023收錄
現(xiàn)有的視頻目標(biāo)分割(VOS)數(shù)據(jù)集主要關(guān)注于短時視頻,平均時長在3-5秒左右,并且視頻中的物體大部分時間都是可見的。然而在實際應(yīng)用過程中,用戶所需要分割的視頻往往時長更長,并且目標(biāo)物體常常會消失?,F(xiàn)有的VOS數(shù)據(jù)集和真實場景存在一定的差異,真實場景中的視頻更加困難。
雖然現(xiàn)在的SOTA的視頻目標(biāo)分割方法在短時的VOS數(shù)據(jù)集上已經(jīng)取得了90%的分割準(zhǔn)確率,但是這些算法在真實場景中的表現(xiàn)如何卻由于缺少相關(guān)的數(shù)據(jù)集不得而知。
因此,為了探究VOS模型在真實場景下的表現(xiàn),彌補(bǔ)現(xiàn)有數(shù)據(jù)集的缺失,我們提出了第一個面向真實場景的長時視頻目標(biāo)分割數(shù)據(jù)集Long-term Video Object Segmentation (LVOS)。
背景介紹:
視頻目標(biāo)分割(VOS)旨在根據(jù)視頻中第一幀的物體的掩膜,在視頻之后每一幀中準(zhǔn)確地跟蹤并分割目標(biāo)物體。視頻目標(biāo)分割有著十分廣泛的應(yīng)用,比如:視頻編輯、現(xiàn)實增強(qiáng)等。在實際應(yīng)用場景中,待分割的視頻長度常常大于一分鐘,且視頻中的目標(biāo)物體會頻繁地消失和重新出現(xiàn)。對于VOS模型來說,在任意長的視頻中準(zhǔn)確地重檢測和分割目標(biāo)物體是一個十分重要的能力。
但是,現(xiàn)有的VOS模型主要是針對于短時視頻設(shè)計的,并不能很好的處理長時的物體消失和錯誤累計。并且部分VOS算法依賴于不斷增長的記憶模塊,當(dāng)視頻長度較長時,存在著低效率甚至顯存不夠的問題。
目前的視頻目標(biāo)分割數(shù)據(jù)集主要關(guān)注于短時視頻,平均視頻長度為六秒左右,和真實場景存在著較大差異。與現(xiàn)有的數(shù)據(jù)集相比,LVOS的視頻長度更長,對于VOS算法的要求更高,能夠更高地評估VOS模型在真實場景下的性能。
LVOS數(shù)據(jù)集介紹:
LVOS包含220個視頻,總時長達(dá)421分鐘,平均每個視頻時長為1.59分鐘,遠(yuǎn)遠(yuǎn)大于現(xiàn)有的VOS數(shù)據(jù)集。LVOS中的視頻更加復(fù)雜,且有著在短時視頻中不存在的挑戰(zhàn),比如長時消失重現(xiàn)和跨時序混淆。這些挑戰(zhàn)更難,且對VOS模型的性能影響更大。LVOS中涉及27個類別的物體,其中包含了7種只有測試集中存在的未見類別,能夠很好地衡量VOS模型的泛化性。
LVOS分為120個訓(xùn)練視頻,50個驗證視頻和50個測試視頻,其中測試視頻和驗證視頻已經(jīng)全部開源,而測試視頻目前只開源了視頻圖像和第一幀中目標(biāo)物體的掩膜,需要將預(yù)測結(jié)果上傳到測試服務(wù)器中進(jìn)行在線評測。
方法介紹:
針對于長時視頻,我們提出了一個新穎的VOS算法,Diverse Dynamic Memory (DDMemory)。DDMemory包含三個固定大小的記憶模塊,分別是參考記憶,全局記憶和局部記憶。通過記憶模塊,DDMemory將全局的時序信息壓縮到三個固定大小的記憶特征中,在保持高準(zhǔn)確率的同時實現(xiàn)了低GPU顯存占用和高效率。在分割當(dāng)前幀時,當(dāng)前幀圖像特征會與三個記憶模塊特征進(jìn)行匹配,并根據(jù)匹配結(jié)果輸出掩膜預(yù)測。參考記憶存儲第一幀的圖像和掩膜信息,參考記憶負(fù)責(zé)物體消失或者遮擋之后的找回。局部記憶會隨著視頻不斷更新,存儲前一幀的圖像和掩膜,為當(dāng)前幀的分割提供位置和形狀的先驗。而全局記憶利用了全局記憶編碼器,通過循環(huán)網(wǎng)絡(luò)的形式,有效地將全局歷史信息存儲在一個固定大小的特征中,實現(xiàn)對于時序信息的高效壓縮和對冗余噪聲干擾的排除。
實驗:
在驗證集和測試集上,我們對現(xiàn)有的VOS模型和DDMemory進(jìn)行了分別評測。從表中可以看到,現(xiàn)有僅在短時視頻上訓(xùn)練的VOS模型在長時視頻上表現(xiàn)不如人意,而在長時視頻上進(jìn)行了微調(diào)之后,性能均有一定的提升。我們提出的DDMemory能夠使用最小的GPU顯存,在實現(xiàn)最好性能的同時,實現(xiàn)實時的速度(30.3FPS)。實驗結(jié)果表明,現(xiàn)有的VOS模型對于真實場景表現(xiàn)較差,且由于缺少面向真實場景的數(shù)據(jù)集,在一定程度上限制了現(xiàn)有VOS模型的發(fā)展,也證明了LVOS數(shù)據(jù)集的價值。
我們也進(jìn)行了oracle實驗,給定真實的位置和掩膜,模型的性能都會有所提升。在分割當(dāng)前幀時,給定目標(biāo)物體的真實位置,性能能夠提升8.3%。而在記憶模塊更新時,使用真實掩膜來代替預(yù)測掩膜進(jìn)行更新,預(yù)測性能能夠提升20.8%。但是即使給定目標(biāo)物體的真實位置和掩膜,模型預(yù)測結(jié)果仍然和真實結(jié)果存在較大差距。實驗表明,錯誤累計以及真實場景視頻中復(fù)雜的物體運(yùn)動對VOS模型仍然是尚未解決的挑戰(zhàn),且這些挑戰(zhàn)在現(xiàn)有短時視頻數(shù)據(jù)集中并不明顯,卻在真實場景下對VOS算法性能有著巨大的影響。
總結(jié)
針對于真實場景,我們構(gòu)建了一個新的長時視頻目標(biāo)分割數(shù)據(jù)集LVOS,LVOS中的視頻物體運(yùn)動更加復(fù)雜,對于VOS模型的能力有著更高的要求,且比現(xiàn)有的短時數(shù)據(jù)集更加貼近實際應(yīng)用。我們對現(xiàn)有的VOS算法進(jìn)行了測試和比較,發(fā)現(xiàn)現(xiàn)有的VOS模型并不能很好地解決長時視頻中的挑戰(zhàn)?;贚VOS,我們也分析了現(xiàn)有方法的缺陷以及一些可能的改進(jìn)方向。希望LVOS能夠為面向真實場景的視頻理解研究提供一個平臺。
-
算法
+關(guān)注
關(guān)注
23文章
4551瀏覽量
92017 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1197瀏覽量
24535 -
VOS
+關(guān)注
關(guān)注
0文章
21瀏覽量
8055
原文標(biāo)題:?ICCV 2023 | 復(fù)旦開源LVOS:面向真實場景的長時視頻目標(biāo)分割數(shù)據(jù)集
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論