沿著從大規(guī)模圖文多模態(tài)預(yù)訓(xùn)練遷移適配到視頻多模態(tài)任務(wù)的思路,我們提出了模型LiteVL,它利用圖文預(yù)訓(xùn)練模型BLIP來(lái)初始化參數(shù),可以直接在下游任務(wù)上微調(diào)而不需要進(jìn)行額外的昂貴的視頻文本預(yù)訓(xùn)練。并且為了增強(qiáng)圖像語(yǔ)言模型中缺乏的時(shí)間建模,我們提出在BLIP的Image encoder中增加具有動(dòng)態(tài)時(shí)間縮放(dynamic temporal scaling)的時(shí)間注意力模塊。除了模型方面的這一適配之外,我們還提出了一種非參數(shù)池化text-dependent pooling,以自適應(yīng)地重新加權(quán)以文本為條件的細(xì)粒度視頻嵌入。我們選取了兩個(gè)具有代表性的下游任務(wù),即文本-視頻檢索和視頻問(wèn)答,來(lái)驗(yàn)證所提出方法的有效性。實(shí)驗(yàn)結(jié)果表明,所提出的LiteVL在沒(méi)有任何視頻文本預(yù)訓(xùn)練的情況下,甚至明顯優(yōu)于以前的視頻文本預(yù)訓(xùn)練模型。
1. Motivation
近期許多Video-language modeling的工作往往基于大規(guī)模video-text數(shù)據(jù)集 (WebVid2M,CC-3M,HowTo100M) 上進(jìn)行預(yù)訓(xùn)練,然后在下游任務(wù)的數(shù)據(jù)集上微調(diào),而預(yù)訓(xùn)練的成本往往十分昂貴。另一方面,學(xué)習(xí)細(xì)粒度的visual-language對(duì)齊往往需要利用離線的目標(biāo)檢測(cè)器 (e.g., ActBERT) 來(lái)捕捉物體信息,但卻受限于檢測(cè)器有限的類(lèi)別數(shù)量 (e.g., 在MSCOCO數(shù)據(jù)集上訓(xùn)練的目標(biāo)檢測(cè)器只能檢測(cè)出不到100個(gè)類(lèi)別) 和昂貴的計(jì)算開(kāi)銷(xiāo)。而且沒(méi)有充分利用來(lái)自文本數(shù)據(jù)的監(jiān)督信息。此外,以往的稀疏幀采樣的video-text模型是利用image encoder在大規(guī)模圖文對(duì)上預(yù)訓(xùn)練的,它忽略了視頻理解所需要的時(shí)序信息建模 (e.g., CLIPBERT)。最近,在單一視頻模態(tài)領(lǐng)域的研究上,基于預(yù)訓(xùn)練的圖像編碼器ViT初始化而來(lái)的TimeSformer在許多下游的視頻任務(wù)上性能表現(xiàn)很好,它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來(lái)的時(shí)間注意力層。
2. Solution
我們提出了一種簡(jiǎn)單且高效的視頻語(yǔ)言模型LiteVL,它是從近期的預(yù)訓(xùn)練圖像語(yǔ)言模型BLIP初始化而來(lái)的,并且分別從模型層面和特征層面做了時(shí)域信息增強(qiáng)。
對(duì)于模型層面,我們提出用一組具有可學(xué)習(xí)scaling factor的時(shí)間注意層明確插入原始image backbone中,可以針對(duì)每個(gè)下游任務(wù)進(jìn)行訓(xùn)練調(diào)整(Dynamic Temporal Scaling):
對(duì)于特征層面,我們?cè)O(shè)計(jì)了一種無(wú)參的特征池化方法(Text-dependent Pooling),以學(xué)習(xí)基于文本描述的細(xì)粒度時(shí)間-空間視頻特征:
模型框架和動(dòng)態(tài)時(shí)序scaling
Text-dependent Pooling
3. Experiments
在三個(gè)視頻文本檢索數(shù)據(jù)集上和BLIP的性能比較:
我們提出的LiteVL由于在模型和特征方面的顯式時(shí)間建模,最終性能優(yōu)于原始BLIP。
關(guān)于Dynamic Temporal Scaling和Text-dependent Pooling的消融實(shí)驗(yàn)
通過(guò)提出的輕巧的動(dòng)態(tài)時(shí)間縮放自適應(yīng)地根據(jù)每個(gè)特定任務(wù)調(diào)整框架級(jí)別的重要性,使性能得到進(jìn)一步提高。此外,與僅使用原始特征相比,使用其他空間或時(shí)間池化后的特征會(huì)更好。
逐層的平均temporal scaling可視化分析
折線圖的變化趨勢(shì)顯示了video encoder的淺層更多地集中在理解每個(gè)幀的空間內(nèi)容上,并更少注意不同幀之間的時(shí)間依賴(lài)性。當(dāng)層的深度增加時(shí),每個(gè)幀的空間特征變得更加全局,并且該模型逐漸尋求學(xué)習(xí)它們之間的時(shí)間依賴(lài)性。
Grad-CAM可視化分析
上圖展示了Grad-CAM可視化,提出的LiteVL有效地捕捉了不同幀之間的細(xì)微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。
4. Conslusion
我們提出了LiteVL,這是一種視頻語(yǔ)言模型,它無(wú)需大量的視頻語(yǔ)言預(yù)訓(xùn)練或目標(biāo)檢測(cè)器。LiteVL從預(yù)先訓(xùn)練的圖像語(yǔ)言模型BLIP中繼承了空間視覺(jué)信息和文本信息之間已經(jīng)學(xué)習(xí)的對(duì)齊。然后,我們提出了具有動(dòng)態(tài)時(shí)間縮放的額外時(shí)間注意力塊,以學(xué)習(xí)視頻幀中的時(shí)間動(dòng)態(tài)。我們還引入了一種無(wú)參的text-denpendent pooling,該方法基于文本描述來(lái)對(duì)不同幀或者空間位置進(jìn)行加權(quán),從而實(shí)現(xiàn)了細(xì)粒度的視頻語(yǔ)言對(duì)齊。實(shí)驗(yàn)結(jié)果表明,我們的LiteVL優(yōu)于利用了視頻文本預(yù)訓(xùn)練的最先進(jìn)方法。
審核編輯:郭婷
-
檢測(cè)器
+關(guān)注
關(guān)注
1文章
857瀏覽量
47625 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24621
原文標(biāo)題:EMNLP 2022 | LiteVL:具有增強(qiáng)時(shí)空建模的高效視頻-語(yǔ)言學(xué)習(xí)
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論