国产精品网站亚洲发布,国产学生情侣偷吃禁果在线,国产丝袜一二三四区乱码

本文介紹復(fù)旦大學(xué)提出的面向真實場景的長時視頻目標(biāo)分割數(shù)據(jù)集LVOS，論文被ICCV2023收錄

現(xiàn)有的視頻目標(biāo)分割（VOS）數(shù)據(jù)集主要關(guān)注于短時視頻，平均時長在3-5秒左右，并且視頻中的物體大部分時間都是可見的。然而在實際應(yīng)用過程中，用戶所需要分割的視頻往往時長更長，并且目標(biāo)物體常常會消失?，F(xiàn)有的VOS數(shù)據(jù)集和真實場景存在一定的差異，真實場景中的視頻更加困難。

雖然現(xiàn)在的SOTA的視頻目標(biāo)分割方法在短時的VOS數(shù)據(jù)集上已經(jīng)取得了90%的分割準(zhǔn)確率，但是這些算法在真實場景中的表現(xiàn)如何卻由于缺少相關(guān)的數(shù)據(jù)集不得而知。

因此，為了探究VOS模型在真實場景下的表現(xiàn)，彌補(bǔ)現(xiàn)有數(shù)據(jù)集的缺失，我們提出了第一個面向真實場景的長時視頻目標(biāo)分割數(shù)據(jù)集Long-term Video Object Segmentation （LVOS）。

背景介紹：

視頻目標(biāo)分割（VOS）旨在根據(jù)視頻中第一幀的物體的掩膜，在視頻之后每一幀中準(zhǔn)確地跟蹤并分割目標(biāo)物體。視頻目標(biāo)分割有著十分廣泛的應(yīng)用，比如：視頻編輯、現(xiàn)實增強(qiáng)等。在實際應(yīng)用場景中，待分割的視頻長度常常大于一分鐘，且視頻中的目標(biāo)物體會頻繁地消失和重新出現(xiàn)。對于VOS模型來說，在任意長的視頻中準(zhǔn)確地重檢測和分割目標(biāo)物體是一個十分重要的能力。

但是，現(xiàn)有的VOS模型主要是針對于短時視頻設(shè)計的，并不能很好的處理長時的物體消失和錯誤累計。并且部分VOS算法依賴于不斷增長的記憶模塊，當(dāng)視頻長度較長時，存在著低效率甚至顯存不夠的問題。

目前的視頻目標(biāo)分割數(shù)據(jù)集主要關(guān)注于短時視頻，平均視頻長度為六秒左右，和真實場景存在著較大差異。與現(xiàn)有的數(shù)據(jù)集相比，LVOS的視頻長度更長，對于VOS算法的要求更高，能夠更高地評估VOS模型在真實場景下的性能。

LVOS數(shù)據(jù)集介紹：

LVOS包含220個視頻，總時長達(dá)421分鐘，平均每個視頻時長為1.59分鐘，遠(yuǎn)遠(yuǎn)大于現(xiàn)有的VOS數(shù)據(jù)集。LVOS中的視頻更加復(fù)雜，且有著在短時視頻中不存在的挑戰(zhàn)，比如長時消失重現(xiàn)和跨時序混淆。這些挑戰(zhàn)更難，且對VOS模型的性能影響更大。LVOS中涉及27個類別的物體，其中包含了7種只有測試集中存在的未見類別，能夠很好地衡量VOS模型的泛化性。

LVOS分為120個訓(xùn)練視頻，50個驗證視頻和50個測試視頻，其中測試視頻和驗證視頻已經(jīng)全部開源，而測試視頻目前只開源了視頻圖像和第一幀中目標(biāo)物體的掩膜，需要將預(yù)測結(jié)果上傳到測試服務(wù)器中進(jìn)行在線評測。

方法介紹：

針對于長時視頻，我們提出了一個新穎的VOS算法，Diverse Dynamic Memory (DDMemory)。DDMemory包含三個固定大小的記憶模塊，分別是參考記憶，全局記憶和局部記憶。通過記憶模塊，DDMemory將全局的時序信息壓縮到三個固定大小的記憶特征中，在保持高準(zhǔn)確率的同時實現(xiàn)了低GPU顯存占用和高效率。在分割當(dāng)前幀時，當(dāng)前幀圖像特征會與三個記憶模塊特征進(jìn)行匹配，并根據(jù)匹配結(jié)果輸出掩膜預(yù)測。參考記憶存儲第一幀的圖像和掩膜信息，參考記憶負(fù)責(zé)物體消失或者遮擋之后的找回。局部記憶會隨著視頻不斷更新，存儲前一幀的圖像和掩膜，為當(dāng)前幀的分割提供位置和形狀的先驗。而全局記憶利用了全局記憶編碼器，通過循環(huán)網(wǎng)絡(luò)的形式，有效地將全局歷史信息存儲在一個固定大小的特征中，實現(xiàn)對于時序信息的高效壓縮和對冗余噪聲干擾的排除。

實驗：

在驗證集和測試集上，我們對現(xiàn)有的VOS模型和DDMemory進(jìn)行了分別評測。從表中可以看到，現(xiàn)有僅在短時視頻上訓(xùn)練的VOS模型在長時視頻上表現(xiàn)不如人意，而在長時視頻上進(jìn)行了微調(diào)之后，性能均有一定的提升。我們提出的DDMemory能夠使用最小的GPU顯存，在實現(xiàn)最好性能的同時，實現(xiàn)實時的速度（30.3FPS）。實驗結(jié)果表明，現(xiàn)有的VOS模型對于真實場景表現(xiàn)較差，且由于缺少面向真實場景的數(shù)據(jù)集，在一定程度上限制了現(xiàn)有VOS模型的發(fā)展，也證明了LVOS數(shù)據(jù)集的價值。

我們也進(jìn)行了oracle實驗，給定真實的位置和掩膜，模型的性能都會有所提升。在分割當(dāng)前幀時，給定目標(biāo)物體的真實位置，性能能夠提升8.3%。而在記憶模塊更新時，使用真實掩膜來代替預(yù)測掩膜進(jìn)行更新，預(yù)測性能能夠提升20.8%。但是即使給定目標(biāo)物體的真實位置和掩膜，模型預(yù)測結(jié)果仍然和真實結(jié)果存在較大差距。實驗表明，錯誤累計以及真實場景視頻中復(fù)雜的物體運(yùn)動對VOS模型仍然是尚未解決的挑戰(zhàn)，且這些挑戰(zhàn)在現(xiàn)有短時視頻數(shù)據(jù)集中并不明顯，卻在真實場景下對VOS算法性能有著巨大的影響。

總結(jié)

針對于真實場景，我們構(gòu)建了一個新的長時視頻目標(biāo)分割數(shù)據(jù)集LVOS，LVOS中的視頻物體運(yùn)動更加復(fù)雜，對于VOS模型的能力有著更高的要求，且比現(xiàn)有的短時數(shù)據(jù)集更加貼近實際應(yīng)用。我們對現(xiàn)有的VOS算法進(jìn)行了測試和比較，發(fā)現(xiàn)現(xiàn)有的VOS模型并不能很好地解決長時視頻中的挑戰(zhàn)?；贚VOS，我們也分析了現(xiàn)有方法的缺陷以及一些可能的改進(jìn)方向。希望LVOS能夠為面向真實場景的視頻理解研究提供一個平臺。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4551

瀏覽量
92017
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24535
VOS

VOS

+關(guān)注

關(guān)注
0

文章
21

瀏覽量
8055

原文標(biāo)題：?ICCV 2023 | 復(fù)旦開源LVOS：面向真實場景的長時視頻目標(biāo)分割數(shù)據(jù)集

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

鴻蒙開源全場景應(yīng)用開發(fā)資料匯總

1、鴻蒙開源全場景應(yīng)用開發(fā)——視頻編解碼面對鴻蒙這一全新的生態(tài)，廣大消費(fèi)者在積極嘗鮮的同時，家中不可避免會出現(xiàn)安卓設(shè)備和鴻蒙設(shè)備并存的現(xiàn)象，短期內(nèi)可能不會形成全鴻蒙的生態(tài)環(huán)境。因此，在未來的一段時間

發(fā)表于 03-23 10:09

復(fù)旦微電子學(xué)院楊帆：介紹openDACS物理設(shè)計&建模驗證SIG，發(fā)布開源Verilog Parser

物理設(shè)計&建模驗證SIG組長，介紹了SIG總體情況，包括四個方面內(nèi)容：SIG研究方向介紹技術(shù)趨勢和相關(guān)業(yè)界產(chǎn)品開源目標(biāo)與計劃開源版本發(fā)布最后代表復(fù)旦微電子學(xué)院，發(fā)布了openD

發(fā)表于 07-01 14:35

3D視頻目標(biāo)分割與快速跟蹤

3D視頻目標(biāo)分割與快速跟蹤_朱仲杰

發(fā)表于 01-07 16:00 ?0次下載

廣泛應(yīng)用的城市語義分割的數(shù)據(jù)集整理

這是最早用于自動駕駛領(lǐng)域的語義分割數(shù)據(jù)集，發(fā)布于2007年末。他們應(yīng)用自己的圖像標(biāo)注軟件在一段10分鐘的視頻中連續(xù)標(biāo)注了700張圖片，這些視頻

發(fā)表于 05-29 09:42 ?8195次閱讀

如何在信息熵約束下進(jìn)行視頻的目標(biāo)分割資料詳細(xì)概述

大部分基于圖論的視頻分割方法往往先通過分析運(yùn)動和外觀信息獲得先驗顯著性區(qū)域，然后用最小化能量模型來進(jìn)一步分割，這些方法常常忽略對外觀信息精細(xì)化分析，建立的目標(biāo)模型對復(fù)雜

發(fā)表于 12-06 11:53 ?4次下載

深度學(xué)習(xí)在視頻對象分割中的應(yīng)用及相關(guān)研究

了視頻對象分割的主要任務(wù)，并總結(jié)了該任務(wù)所面臨的挑戰(zhàn)。其次，對開放的視頻對象分割常用數(shù)據(jù)集進(jìn)行了

發(fā)表于 03-24 15:47 ?9次下載

動態(tài)外觀模型和高階能量的雙邊視頻目標(biāo)分割方法

針對復(fù)雜場景下視頻日標(biāo)分割質(zhì)量不佳和時間效率低下的問題，提岀了一種動態(tài)外觀模型和高階能量的雙邊視頻目標(biāo)分

發(fā)表于 04-07 15:44 ?8次下載

基于深度學(xué)習(xí)的場景分割算法研究

場景分割的目標(biāo)是判斷場景圖像中每個像素的類別.場景分割是計算機(jī)視覺領(lǐng)域重要的基本問題之一，對

發(fā)表于 02-12 11:28 ?531次閱讀

港中大IDEA開源首個大規(guī)模全場景人體數(shù)據(jù)集Human-Art

然而，現(xiàn)有的計算機(jī)視覺任務(wù)、訓(xùn)練的數(shù)據(jù)集等大多只關(guān)注到了真實世界的照片，這導(dǎo)致相關(guān)模型在更豐富的場景下，常常出現(xiàn)性能下降甚至完全失效的問題。即使是SOTA性能的人體檢測模型，面對虛擬

發(fā)表于 04-11 14:13 ?809次閱讀

語義分割數(shù)據(jù)集：從理論到實踐

語義分割是計算機(jī)視覺領(lǐng)域中的一個重要問題，它的目標(biāo)是將圖像或視頻中的語義信息（如人、物、場景等）從背景中分離出來，以便于進(jìn)行目標(biāo)檢測、識別和

發(fā)表于 04-23 16:45 ?820次閱讀

PyTorch教程14.9之語義分割和數(shù)據(jù)集

電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.9之語義分割和數(shù)據(jù)集.pdf》資料免費(fèi)下載

發(fā)表于 06-05 11:10 ?0次下載

PyTorch教程-14.9. 語義分割和數(shù)據(jù)集

14.9. 語義分割和數(shù)據(jù)集? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

發(fā)表于 06-05 15:44 ?548次閱讀

最全自動駕駛數(shù)據(jù)集分享系列一:目標(biāo)檢測數(shù)據(jù)集

自動駕駛數(shù)據(jù)集分享是整數(shù)智能推出的一個全新分享系列，在這個系列中，我們將介紹目前為止各大科研機(jī)構(gòu)和企業(yè)推出的所有公開自動駕駛數(shù)據(jù)集。數(shù)據(jù)

發(fā)表于 06-06 11:15 ?2次下載

SAM-PT：點(diǎn)幾下鼠標(biāo)，視頻目標(biāo)就分割出來了！

這些視頻中包含訓(xùn)練之外的物體。而表現(xiàn)一般的原因就是沒有特定的視頻分割數(shù)據(jù)進(jìn)行微調(diào)，這些模型就很難在各種場景中保持一致的性能。

發(fā)表于 07-10 15:28 ?579次閱讀

圖像分割與目標(biāo)檢測的區(qū)別是什么

圖像分割與目標(biāo)檢測是計算機(jī)視覺領(lǐng)域的兩個重要任務(wù)，它們在許多應(yīng)用場景中都發(fā)揮著關(guān)鍵作用。然而，盡管它們在某些方面有相似之處，但它們的目標(biāo)、方法和應(yīng)用

發(fā)表于 07-17 09:53 ?543次閱讀