0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

復(fù)旦和Meta提出Open-VCLIP:兼顧時(shí)序建模與開集識別的視頻理解模型

CVer ? 來源:CVer ? 2023-06-25 15:04 ? 次閱讀

導(dǎo)讀:

CLIP[1]是一個(gè)強(qiáng)大的開放詞匯模型,在圖像領(lǐng)域表現(xiàn)出強(qiáng)大的零樣本識別能力,但如何將該能力遷移到視頻領(lǐng)域是一個(gè)較難的問題,主要存在兩大挑戰(zhàn):一是如何為圖像CLIP模型注入時(shí)序建模能力;二是在視頻領(lǐng)域遷移的過程中如何保持其對開放詞匯理解能力。

許多工作通過在視頻數(shù)據(jù)集上進(jìn)行微調(diào)以實(shí)現(xiàn)CLIP向視頻領(lǐng)域的遷移,然而由于微調(diào)時(shí)使用的數(shù)據(jù)集規(guī)模相對較小,導(dǎo)致模型發(fā)生過擬合,使得CLIP模型原有的零樣本識別能力有所丟失。

本文提出了一種新的CLIP向視頻領(lǐng)域的遷移方法,找到模型泛化和專用化之間的平衡,讓模型既能識別微調(diào)時(shí)已經(jīng)見過的動作和事件,又能夠借助CLIP的零樣本識別能力泛化到新的視頻動作和事件。

e7a78f9a-12a8-11ee-962d-dac502259ad0.png

問題歸納:將開放詞匯視頻模型構(gòu)建問題近似于持續(xù)學(xué)習(xí)問題

假設(shè)存在一個(gè)包含所有的“視頻-文本”對的數(shù)據(jù)集,那么可以通過在上最小化”視頻-文本“對比損失來獲得最佳開放視頻詞匯模型:

然而,現(xiàn)實(shí)中如此理想的數(shù)據(jù)集不可能存在,人們只能通過盡可能大規(guī)模、多樣化的視頻文本數(shù)據(jù)集來近似。視頻動作識別是視頻內(nèi)容理解中一類重要任務(wù),本文選取了視頻動作識別數(shù)據(jù)集作為近似。此時(shí),由于動作類別數(shù)量的限制(例如Kinetics-400只包含了400個(gè)類別),模型在微調(diào)過程中容易發(fā)生過擬合。

另一方面,本文發(fā)現(xiàn)CLIP的訓(xùn)練數(shù)據(jù)包含大規(guī)?!皥D像-文本”對,且圖像可以容易地?cái)U(kuò)展為靜態(tài)視頻,因此可以認(rèn)為原始CLIP的權(quán)重在大規(guī)?!办o態(tài)視頻-文本”(記作上已經(jīng)達(dá)到最優(yōu)。如果將數(shù)據(jù)集結(jié)合作為的近似,那么優(yōu)化目標(biāo)將轉(zhuǎn)化為:

此處數(shù)據(jù)集是私有數(shù)據(jù)集,在CLIP遷移學(xué)習(xí)的過程中完全無法觸碰,而已知CLIP權(quán)重是數(shù)據(jù)集上的最優(yōu)解,因此本文目標(biāo)是利用和構(gòu)建開放詞匯視頻模型。自然地,開放詞匯視頻模型構(gòu)建問題轉(zhuǎn)變?yōu)橐粋€(gè)持續(xù)學(xué)習(xí)的過程:在保持對歷史任務(wù)()性能的同時(shí),不斷地在新的視頻-文本數(shù)據(jù)集()上訓(xùn)練模型,提升模型的泛化能力。

Open-VCLIP方法介紹:

為了解決上述問題,本文提出Open-VCLIP方法,包括模型架構(gòu)和算法改進(jìn)兩部分。在架構(gòu)設(shè)計(jì)方面,通過修改自注意層將時(shí)序建模能力注入到CLIP模型中;在算法改進(jìn)方面,提出了插值權(quán)重優(yōu)化的新方法,取得更好的閉集性能與零樣本識別性能的權(quán)衡。

(1)注入CLIP時(shí)序建模能力

本文參考了Space-Time Mixing[2],通過修改自注意層的信息關(guān)注范圍,讓自注意力操作過程中的每個(gè)塊關(guān)注到所屬視頻幀以及相鄰視頻幀中的圖像塊信息來實(shí)現(xiàn)局部時(shí)序信息聚合,并隨著自注意力層的堆疊完成全局時(shí)間信息聚合,從而實(shí)現(xiàn)時(shí)序建模能力的注入。該過程不需要增加額外參數(shù),適配于后文引入的權(quán)重插值優(yōu)化方法。

(2)權(quán)重插值優(yōu)化算法

本文解決的是一個(gè)零歷史信息的持續(xù)學(xué)習(xí)問題,即以為模型初始化參數(shù),通過優(yōu)化將模型遷移到數(shù)據(jù)集上,同時(shí)需要盡可能保持最小。然而,標(biāo)準(zhǔn)的微調(diào)訓(xùn)練方式往往容易使模型過擬合到,導(dǎo)致CLIP原始的開放詞匯能力流失嚴(yán)重,進(jìn)而影響模型的泛化能力,這將是本文著重想要解決的問題。

受到[3]的啟發(fā),本文首先引入了一個(gè)無需優(yōu)化的權(quán)重插值策略:通過加權(quán)系數(shù)對CLIP原始參數(shù)和在數(shù)據(jù)集上完成微調(diào)后的參數(shù)進(jìn)行加權(quán)平均操作,防止遷移學(xué)習(xí)后的模型在原始數(shù)據(jù)集上的過度遺忘。具體形式如下:

但這種做法由于不存在顯示的優(yōu)化約束,導(dǎo)致插值得到的模型可能會在上有較為嚴(yán)重的欠擬合。針對此問題,本文提出在訓(xùn)練過程中對于插值模型在數(shù)據(jù)集上添加正則化約束,從而緩解插值得到的模型在新數(shù)據(jù)上欠擬合嚴(yán)重的問題。具體來說,本文提出在訓(xùn)練過程中對插值權(quán)重系數(shù)進(jìn)行隨機(jī)采樣,針對一系列取值下的插值模型在上進(jìn)行優(yōu)化約束,最終的優(yōu)化目標(biāo)如下:

其中,插值系數(shù)在區(qū)間區(qū)間均勻采樣,該范圍對應(yīng)了期望構(gòu)建的低損失區(qū)域。是正則化損失的權(quán)重系數(shù),本篇文章實(shí)現(xiàn)時(shí)將其取值為。對應(yīng)的梯度計(jì)算如下:

最后,本文在訓(xùn)練過程中對插值權(quán)重應(yīng)用隨機(jī)權(quán)重平均(SWA)[4]來進(jìn)一步提高方法穩(wěn)定性和泛化性。在實(shí)踐中,只需要維護(hù)模型權(quán)重的移動平均值,并在最后進(jìn)行權(quán)重插值即可,形式化描述如下。

實(shí)驗(yàn)

本文實(shí)驗(yàn)采用Kinetics-400視頻動作識別數(shù)據(jù)集作為微調(diào)CLIP的訓(xùn)練數(shù)據(jù),并將UCF、HMDB以及Kinetics-600子集作為測試視頻模型的零樣本識別能力的數(shù)據(jù)集。

(1)零樣本識別性能

與CLIP基線和標(biāo)準(zhǔn)微調(diào)模型進(jìn)行對比,可以看出,相比于標(biāo)準(zhǔn)微調(diào)方法容易出現(xiàn)較為嚴(yán)重的遺忘現(xiàn)象,本文所提的Open-VCLIP方法能夠顯著提升模型的零樣本識別能力,在不同主干網(wǎng)絡(luò)、不同數(shù)據(jù)集上都取得了最佳的零樣本識別準(zhǔn)確率。

e7ee614a-12a8-11ee-962d-dac502259ad0.png

此外,本文同當(dāng)前先進(jìn)零樣本識別性能的方法進(jìn)行了對比??梢钥吹?,Open-VCLIP方法在不同數(shù)據(jù)集上均取得最佳零樣本準(zhǔn)確率。除此之外,文章還對比了凍結(jié)原始CLIP模型參數(shù)下微調(diào)Adapter模塊的高效參數(shù)微調(diào)方法,結(jié)果表明,高效參數(shù)微調(diào)方法無法有效提升零樣本識別準(zhǔn)確率。

e80b57be-12a8-11ee-962d-dac502259ad0.png

(2)零樣本識別性能與閉集性能的權(quán)衡

e8331a60-12a8-11ee-962d-dac502259ad0.png

文章對不同方法應(yīng)用權(quán)重插值修復(fù)算法[3]進(jìn)行探究,并將不同的加權(quán)系數(shù)下的性能用折線圖的方式展現(xiàn),橫坐標(biāo)表示閉集性能,縱坐標(biāo)為零樣本識別性能。結(jié)果表明:(i)具有時(shí)序建模能力的模型具備更強(qiáng)的零樣本識別性能,顯示出時(shí)序建模能力對于CLIP模型向視頻領(lǐng)域的遷移是必要的;(ii)Open-VCLIP曲線高于標(biāo)準(zhǔn)微調(diào)方法,反映出本文所提出的優(yōu)化策略不僅能提升模型的零樣本視頻識別能力,而且能夠在零樣本識別性能和閉集性能中取得最佳權(quán)衡;(iii)同時(shí),圖中紅色五角星對應(yīng)同一個(gè)插值模型,可以看到單個(gè)模型能夠在多個(gè)數(shù)據(jù)集中取得接近最優(yōu)的零樣本識別性能,且保持較高的閉集準(zhǔn)確率,顯示出方法無需針對特定數(shù)據(jù)集專門調(diào)整插值權(quán)重。

(3)零樣本視頻文本檢索性能

e86bec96-12a8-11ee-962d-dac502259ad0.png

評估文本到視頻/視頻到文本的檢索性能可以進(jìn)一步了解模型的泛化能力。實(shí)驗(yàn)遵循了在Kinetics-400數(shù)據(jù)集上訓(xùn)練模型,并在MSR-VTT數(shù)據(jù)集上測試的范式。結(jié)果展示了Open-VCLIP方法提升了模型的視頻檢索文本的性能和文本檢索視頻的性能,且在視頻檢索文本任務(wù)上,Open-VCLIP方法明顯高于CLIP基線,進(jìn)一步驗(yàn)證了本文方法有效性。

總結(jié)

本篇工作提出了Open-VCLIP方法,通過微調(diào)于視頻識別數(shù)據(jù)集有效將CLIP轉(zhuǎn)變?yōu)殚_放詞匯的視頻模型。文章主題包含三個(gè)部分:將問題歸納為無歷史數(shù)據(jù)的持續(xù)學(xué)習(xí)問題;為模型添加輕量化時(shí)序建模能力;設(shè)計(jì)正則化插值優(yōu)化策略提升模型泛化能力,減輕遺忘現(xiàn)象發(fā)生。實(shí)驗(yàn)表明,Open-VCLIP在零樣本動作識別任務(wù)明顯優(yōu)于最先進(jìn)的方法,并在閉集性能和零樣本視頻動作識別性能之間實(shí)現(xiàn)了最佳的權(quán)衡,所提方法也為大模型微調(diào)提供了新思路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    296

    瀏覽量

    60640
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24532
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    6611

原文標(biāo)題:ICML 2023 | 復(fù)旦和Meta提出Open-VCLIP:兼顧時(shí)序建模與開集識別的視頻理解模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    關(guān)于功能驗(yàn)證、時(shí)序驗(yàn)證、形式驗(yàn)證、時(shí)序建模的論文

    半定制/全定制混合設(shè)計(jì)的特點(diǎn),提出并實(shí)現(xiàn)了一套半定制/全定制混合設(shè)計(jì)流程中功能和時(shí)序驗(yàn)證的方法。論文從模擬驗(yàn)證、等價(jià)性驗(yàn)證和全定制設(shè)計(jì)的功能驗(yàn)證三個(gè)方面對FF-DX的分支控制部件進(jìn)行功能驗(yàn)證。對于模擬
    發(fā)表于 12-07 17:40

    高階API構(gòu)建模型和數(shù)據(jù)使用

    了TensorFlow2.0Beta版本,同pytorch一樣支持動態(tài)執(zhí)行(TensorFlow2.0默認(rèn)eager模式,無需啟動會話執(zhí)行計(jì)算圖),同時(shí)刪除了雜亂低階API,使用高階API簡單地構(gòu)建復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,本文主要分享用高階API構(gòu)建模型和數(shù)據(jù)
    發(fā)表于 11-04 07:49

    多片段時(shí)序數(shù)據(jù)建模預(yù)測實(shí)踐資料分享

    數(shù)據(jù)進(jìn)行模型的構(gòu)建與預(yù)測分析的,但是在實(shí)際的工程使用中會有一種特殊的情況就是:我們通過實(shí)驗(yàn)所采集到的數(shù)據(jù)往往不是絕對連續(xù)的而是多“片段”的。何為 “片段”?以我之前的時(shí)序
    發(fā)表于 06-30 07:52

    分享一種comsol磁場與結(jié)構(gòu)場耦合模型建模

    的專業(yè)知識,無需在意,不求甚解主要學(xué)習(xí)本專業(yè)的建模,要及時(shí)補(bǔ)充專業(yè)知識、了解相關(guān)知識(指一些術(shù)語、名詞)遇到問題難以理解的,且暫時(shí)沒能解決,先記住,以后遇到再深究COMSOL學(xué)習(xí)自學(xué)(孤家寡人),主要學(xué)習(xí)磁場與結(jié)構(gòu)場耦合模型
    發(fā)表于 07-09 06:40

    結(jié)合碼本和運(yùn)行期均值法的雙層背景建模方法

    背景建模視頻處理的重要部分,是后續(xù)運(yùn)動目標(biāo)檢測、識別和跟蹤的基礎(chǔ)。針對現(xiàn)有的背景建模方法無法兼顧抗干擾性、適應(yīng)光照、背景更新速度和遮擋等問
    發(fā)表于 11-29 10:04 ?0次下載
    結(jié)合碼本和運(yùn)行期均值法的雙層背景<b class='flag-5'>建模</b>方法

    一種改進(jìn)的時(shí)序效應(yīng)的推薦模型

    針對傳統(tǒng)基于時(shí)序效應(yīng)的奇異值分解(SVD)推薦模型在對用戶預(yù)測評分建模過程中只考慮評分矩陣,采用復(fù)雜的時(shí)間函數(shù)擬合項(xiàng)目的生命周期、用戶偏好的時(shí)序變化過程,造成
    發(fā)表于 12-03 09:32 ?0次下載

    面向人體動作識別的隨機(jī)增量型混合學(xué)習(xí)機(jī)模型

    針對自然人機(jī)交互應(yīng)用中的人體動作識別問題,總結(jié)了傳統(tǒng)機(jī)器學(xué)習(xí)模型識別人體動作時(shí)的缺點(diǎn),然后在此基礎(chǔ)上針對自然人機(jī)交互應(yīng)用的獨(dú)特要求提出了面向人體動作
    發(fā)表于 01-03 15:50 ?1次下載
    面向人體動作<b class='flag-5'>識別的</b>隨機(jī)增量型混合學(xué)習(xí)機(jī)<b class='flag-5'>模型</b>

    漏(opendrain)和(opencollector)介紹

    在電路設(shè)計(jì)時(shí)我們常常遇到漏(open drain)和open collector)的概念。
    發(fā)表于 01-11 14:21 ?5.8w次閱讀
    <b class='flag-5'>開</b>漏(opendrain)和<b class='flag-5'>開</b><b class='flag-5'>集</b>(opencollector)介紹

    基于視頻的人臉識別轉(zhuǎn)換為圖像識別

    將基于視頻的人臉識別轉(zhuǎn)換為圖像識別問題,并提出兩種流形來表示每個(gè)圖像:一種是類間流形,表示每
    發(fā)表于 01-21 11:10 ?4次下載

    基于視頻深度學(xué)習(xí)的時(shí)空雙流人物動作識別模型

    相比,深度卷積神經(jīng)網(wǎng)絡(luò)( Convolutional Neural Network.CNN)在動作識別領(lǐng)域的表現(xiàn)并不突出,原因有以下兩點(diǎn):第一,現(xiàn)今視頻數(shù)據(jù)較小并且噪聲信息較多。視頻
    發(fā)表于 04-17 10:46 ?0次下載
    基于<b class='flag-5'>視頻</b>深度學(xué)習(xí)的時(shí)空雙流人物動作<b class='flag-5'>識別</b><b class='flag-5'>模型</b>

    可高效識別視頻不同內(nèi)容的視頻摘要算法

    針對如何高效地識別視頻中具有代表性的內(nèi)容問題,提出了一種對不同的視頻幀賦予不同重要性的視頻摘要算法。首先使用長短期記憶網(wǎng)絡(luò)來
    發(fā)表于 04-29 15:07 ?24次下載
    可高效<b class='flag-5'>識別</b><b class='flag-5'>視頻</b>不同內(nèi)容的<b class='flag-5'>視頻</b>摘要算法

    面向人臉識別的FusNet網(wǎng)絡(luò)模型

    面向人臉識別的FusNet網(wǎng)絡(luò)模型
    發(fā)表于 06-09 14:59 ?8次下載

    模型在Close set和在Open set的表現(xiàn)是否存在一定的相關(guān)性呢

    識別:指對一個(gè)在訓(xùn)練上訓(xùn)練好的模型,當(dāng)利用一個(gè)測試(該測試
    的頭像 發(fā)表于 09-09 09:26 ?889次閱讀

    基于實(shí)體和動作時(shí)空建模視頻文本預(yù)訓(xùn)練

    摘要 盡管常見的大規(guī)模視頻-文本預(yù)訓(xùn)練模型已經(jīng)在很多下游任務(wù)取得不錯(cuò)的效果,現(xiàn)有的模型通常將視頻或者文本視為一個(gè)整體建模跨模態(tài)的表示,顯示結(jié)
    的頭像 發(fā)表于 05-25 11:29 ?658次閱讀
    基于實(shí)體和動作時(shí)空<b class='flag-5'>建模</b>的<b class='flag-5'>視頻</b>文本預(yù)訓(xùn)練

    Meta發(fā)布新型無監(jiān)督視頻預(yù)測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無監(jiān)督視頻預(yù)測模型,名為“V-JEPA”。這一模型視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)?/div>
    的頭像 發(fā)表于 02-19 11:19 ?818次閱讀