0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于視頻語(yǔ)言模型LiteVL的無(wú)參的特征池化方法

CVer ? 來(lái)源:CVer ? 作者:CVer ? 2022-12-05 10:54 ? 次閱讀

沿著從大規(guī)模圖文多模態(tài)預(yù)訓(xùn)練遷移適配到視頻多模態(tài)任務(wù)的思路,我們提出了模型LiteVL,它利用圖文預(yù)訓(xùn)練模型BLIP來(lái)初始化參數(shù),可以直接在下游任務(wù)上微調(diào)而不需要進(jìn)行額外的昂貴的視頻文本預(yù)訓(xùn)練。并且為了增強(qiáng)圖像語(yǔ)言模型中缺乏的時(shí)間建模,我們提出在BLIP的Image encoder中增加具有動(dòng)態(tài)時(shí)間縮放(dynamic temporal scaling)的時(shí)間注意力模塊。除了模型方面的這一適配之外,我們還提出了一種非參數(shù)池化text-dependent pooling,以自適應(yīng)地重新加權(quán)以文本為條件的細(xì)粒度視頻嵌入。我們選取了兩個(gè)具有代表性的下游任務(wù),即文本-視頻檢索和視頻問(wèn)答,來(lái)驗(yàn)證所提出方法的有效性。實(shí)驗(yàn)結(jié)果表明,所提出的LiteVL在沒(méi)有任何視頻文本預(yù)訓(xùn)練的情況下,甚至明顯優(yōu)于以前的視頻文本預(yù)訓(xùn)練模型。

1. Motivation

近期許多Video-language modeling的工作往往基于大規(guī)模video-text數(shù)據(jù)集 (WebVid2M,CC-3M,HowTo100M) 上進(jìn)行預(yù)訓(xùn)練,然后在下游任務(wù)的數(shù)據(jù)集上微調(diào),而預(yù)訓(xùn)練的成本往往十分昂貴。另一方面,學(xué)習(xí)細(xì)粒度的visual-language對(duì)齊往往需要利用離線的目標(biāo)檢測(cè)器 (e.g., ActBERT) 來(lái)捕捉物體信息,但卻受限于檢測(cè)器有限的類(lèi)別數(shù)量 (e.g., 在MSCOCO數(shù)據(jù)集上訓(xùn)練的目標(biāo)檢測(cè)器只能檢測(cè)出不到100個(gè)類(lèi)別) 和昂貴的計(jì)算開(kāi)銷(xiāo)。而且沒(méi)有充分利用來(lái)自文本數(shù)據(jù)的監(jiān)督信息。此外,以往的稀疏幀采樣的video-text模型是利用image encoder在大規(guī)模圖文對(duì)上預(yù)訓(xùn)練的,它忽略了視頻理解所需要的時(shí)序信息建模 (e.g., CLIPBERT)。最近,在單一視頻模態(tài)領(lǐng)域的研究上,基于預(yù)訓(xùn)練的圖像編碼器ViT初始化而來(lái)的TimeSformer在許多下游的視頻任務(wù)上性能表現(xiàn)很好,它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來(lái)的時(shí)間注意力層。

2. Solution

我們提出了一種簡(jiǎn)單且高效的視頻語(yǔ)言模型LiteVL,它是從近期的預(yù)訓(xùn)練圖像語(yǔ)言模型BLIP初始化而來(lái)的,并且分別從模型層面和特征層面做了時(shí)域信息增強(qiáng)。

對(duì)于模型層面,我們提出用一組具有可學(xué)習(xí)scaling factor的時(shí)間注意層明確插入原始image backbone中,可以針對(duì)每個(gè)下游任務(wù)進(jìn)行訓(xùn)練調(diào)整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

對(duì)于特征層面,我們?cè)O(shè)計(jì)了一種無(wú)參的特征池化方法(Text-dependent Pooling),以學(xué)習(xí)基于文本描述的細(xì)粒度時(shí)間-空間視頻特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和動(dòng)態(tài)時(shí)序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三個(gè)視頻文本檢索數(shù)據(jù)集上和BLIP的性能比較:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我們提出的LiteVL由于在模型和特征方面的顯式時(shí)間建模,最終性能優(yōu)于原始BLIP。

關(guān)于Dynamic Temporal Scaling和Text-dependent Pooling的消融實(shí)驗(yàn)

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通過(guò)提出的輕巧的動(dòng)態(tài)時(shí)間縮放自適應(yīng)地根據(jù)每個(gè)特定任務(wù)調(diào)整框架級(jí)別的重要性,使性能得到進(jìn)一步提高。此外,與僅使用原始特征相比,使用其他空間或時(shí)間池化后的特征會(huì)更好。

逐層的平均temporal scaling可視化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折線圖的變化趨勢(shì)顯示了video encoder的淺層更多地集中在理解每個(gè)幀的空間內(nèi)容上,并更少注意不同幀之間的時(shí)間依賴(lài)性。當(dāng)層的深度增加時(shí),每個(gè)幀的空間特征變得更加全局,并且該模型逐漸尋求學(xué)習(xí)它們之間的時(shí)間依賴(lài)性。

Grad-CAM可視化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上圖展示了Grad-CAM可視化,提出的LiteVL有效地捕捉了不同幀之間的細(xì)微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。

4. Conslusion

我們提出了LiteVL,這是一種視頻語(yǔ)言模型,它無(wú)需大量的視頻語(yǔ)言預(yù)訓(xùn)練或目標(biāo)檢測(cè)器。LiteVL從預(yù)先訓(xùn)練的圖像語(yǔ)言模型BLIP中繼承了空間視覺(jué)信息和文本信息之間已經(jīng)學(xué)習(xí)的對(duì)齊。然后,我們提出了具有動(dòng)態(tài)時(shí)間縮放的額外時(shí)間注意力塊,以學(xué)習(xí)視頻幀中的時(shí)間動(dòng)態(tài)。我們還引入了一種無(wú)參的text-denpendent pooling,該方法基于文本描述來(lái)對(duì)不同幀或者空間位置進(jìn)行加權(quán),從而實(shí)現(xiàn)了細(xì)粒度的視頻語(yǔ)言對(duì)齊。實(shí)驗(yàn)結(jié)果表明,我們的LiteVL優(yōu)于利用了視頻文本預(yù)訓(xùn)練的最先進(jìn)方法。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測(cè)器
    +關(guān)注

    關(guān)注

    1

    文章

    857

    瀏覽量

    47625
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24621

原文標(biāo)題:EMNLP 2022 | LiteVL:具有增強(qiáng)時(shí)空建模的高效視頻-語(yǔ)言學(xué)習(xí)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    搭建開(kāi)源大語(yǔ)言模型服務(wù)的方法

    本文我們將總結(jié)5種搭建開(kāi)源大語(yǔ)言模型服務(wù)的方法,每種都附帶詳細(xì)的操作步驟,以及各自的優(yōu)缺點(diǎn)。
    的頭像 發(fā)表于 10-29 09:17 ?111次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí),還包括對(duì)語(yǔ)言的深層次理解,如文化背景、語(yǔ)境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量無(wú)標(biāo)簽文本數(shù)據(jù)上學(xué)習(xí)語(yǔ)
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    的章節(jié)包括統(tǒng)一自然語(yǔ)言任務(wù)、大語(yǔ)言模型的訓(xùn)練過(guò)程和局限性分析,閱讀還算順利。 至此,基礎(chǔ)篇只能算是瀏覽完成,因?yàn)椴糠衷?b class='flag-5'>方法并沒(méi)有吃透,但盡管如此也是收獲頗豐,因?yàn)槲伊私饬舜?/div>
    發(fā)表于 07-25 14:33

    語(yǔ)言模型的預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語(yǔ)言的通用知識(shí)
    的頭像 發(fā)表于 07-11 10:11 ?365次閱讀

    CNN模型的基本原理、結(jié)構(gòu)、訓(xùn)練過(guò)程及應(yīng)用領(lǐng)域

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱(chēng)CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識(shí)別、視頻分析、自然語(yǔ)言處理等領(lǐng)域。CNN模型的核心是卷積層
    的頭像 發(fā)表于 07-02 15:26 ?2837次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)cnn中層的主要作用

    (Pooling Layer)是一個(gè)關(guān)鍵的組成部分,它對(duì)卷積層的輸出進(jìn)行下采樣,降低特征圖(Feature Map)的空間維度,從而減少計(jì)算量和參數(shù)數(shù)量,提高模型的泛能力。
    的頭像 發(fā)表于 07-02 14:50 ?724次閱讀

    一種利用光電容積描記(PPG)信號(hào)和深度學(xué)習(xí)模型對(duì)高血壓分類(lèi)的新方法

    。 AvgPool_VGG-16 平均是卷積神經(jīng)網(wǎng)絡(luò)中廣泛使用的操作,它計(jì)算特征圖塊的平均值并用于減小特征圖的大小。該方法旨在減少
    發(fā)表于 05-11 20:01

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    “幻覺(jué)”。此外,大語(yǔ)言模型僅限于生成文字,無(wú)法獨(dú)立調(diào)用API以滿(mǎn)足多樣需求。例如,當(dāng)詢(xún)問(wèn)“查詢(xún)今天的天氣”時(shí),它會(huì)拒絕請(qǐng)求,缺乏根據(jù)環(huán)境反饋調(diào)整行為的能力。動(dòng)態(tài)調(diào)整行為及克服“幻覺(jué)”現(xiàn)象是大
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    和產(chǎn)品提供了有力的數(shù)據(jù)支持。 對(duì)于生活閑聊類(lèi)評(píng)測(cè)任務(wù),模型的回答主要從人性程度、內(nèi)容質(zhì)量和社交適應(yīng)性三個(gè)方面進(jìn)行考察。這些方面共同反映了模型在日常對(duì)話(huà)中的自然度、流暢度和應(yīng)變能力
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    訓(xùn)練數(shù)據(jù)時(shí),數(shù)量、質(zhì)量和多樣性三者缺一不可。 數(shù)據(jù)的多樣性對(duì)于大語(yǔ)言模型至關(guān)重要,這主要體現(xiàn)在數(shù)據(jù)的類(lèi)別和來(lái)源兩個(gè)方面。豐富的數(shù)據(jù)類(lèi)別能夠提供多樣的語(yǔ)言表達(dá)特征,如官方知識(shí)型數(shù)據(jù)、口
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    特征,并且這些特征融合了這些詞在當(dāng)前序列的上下文語(yǔ)義,因此能夠解決一詞多義的問(wèn)題。憑借這種優(yōu)勢(shì),基于動(dòng)態(tài)詞向量語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練的方法被廣
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    獲得良好效果。 語(yǔ)言模型作為自然語(yǔ)言處理的核心,不斷進(jìn)化以捕捉人類(lèi)語(yǔ)言的精髓。起初,這些模型依賴(lài)于統(tǒng)計(jì)
    發(fā)表于 05-04 23:55

    Meta發(fā)布新型無(wú)監(jiān)督視頻預(yù)測(cè)模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無(wú)監(jiān)督視頻預(yù)測(cè)模型,名為“V-JEPA”。這一模型視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)?/div>
    的頭像 發(fā)表于 02-19 11:19 ?908次閱讀

    線程的運(yùn)轉(zhuǎn)流程圖 技術(shù)實(shí)踐案例解析

    作為一名Java開(kāi)發(fā)人員,技術(shù)或多或少在業(yè)務(wù)代碼中使用。常見(jiàn)的包括線程、連接等。也是因?yàn)镴ava語(yǔ)言超級(jí)豐富的基建,基本上這些
    的頭像 發(fā)表于 11-24 10:22 ?428次閱讀
    線程<b class='flag-5'>池</b>的運(yùn)轉(zhuǎn)流程圖 <b class='flag-5'>池</b><b class='flag-5'>化</b>技術(shù)實(shí)踐案例解析

    技術(shù)的應(yīng)用實(shí)踐

    作為一名Java開(kāi)發(fā)人員,技術(shù)或多或少在業(yè)務(wù)代碼中使用。常見(jiàn)的包括線程、連接等。也是因?yàn)镴ava語(yǔ)言超級(jí)豐富的基建,基本上這些
    的頭像 發(fā)表于 11-24 10:22 ?472次閱讀
    <b class='flag-5'>池</b><b class='flag-5'>化</b>技術(shù)的應(yīng)用實(shí)踐