国产女人喷潮视频在线观看,亚洲欧美综合区自拍另类,亚洲小说区图片区都市50P

概覽

本文介紹一篇ACM MM 2022 Oral的工作。基于傳統(tǒng)的跨模態(tài)文本-視頻檢索(Video-to-Text Retrieval, T2VR)任務(wù)，該工作提出了一個(gè)全新的文本到視頻跨模態(tài)檢索子任務(wù)，即部分相關(guān)的視頻檢索(Partially Relevant Video Retrieval, PRVR)。

PRVR任務(wù)旨在從大量未剪輯的長(zhǎng)視頻中檢索出與查詢文本部分相關(guān)的對(duì)應(yīng)視頻。若一個(gè)未經(jīng)剪輯的長(zhǎng)視頻中存在某一片段與給出的查詢文本相關(guān)，則認(rèn)為該長(zhǎng)視頻與給出的查詢文本呈部分相關(guān)的關(guān)系。

而在傳統(tǒng)的T2VR任務(wù)中，視頻都是預(yù)剪輯后的短視頻，且通常希望檢索得到整個(gè)視頻與文本查詢完全相關(guān)。相比之下，PRVR任務(wù)更加符合實(shí)際應(yīng)用場(chǎng)景，且更具有挑戰(zhàn)性。

作者將PRVR任務(wù)視為一個(gè)多示例學(xué)習(xí)的問(wèn)題，將視頻同時(shí)視為由多個(gè)片段以及視頻幀所組成的包。若文本與長(zhǎng)視頻的某幀或者某個(gè)片段相關(guān)，則視為文本與該長(zhǎng)視頻相關(guān)?；诖?，作者設(shè)計(jì)了多尺度多示例模型，該模型分別對(duì)視頻進(jìn)行片段尺度和幀尺度的特征表示，并引入了以關(guān)鍵片段為向?qū)У淖⒁饬?a href="http://ttokpm.com/article/zt/" target="_blank">聚合方法，模型整體以從粗到細(xì)的方式學(xué)習(xí)文本-視頻間的相似度關(guān)系。該模型除了在PRVR任務(wù)上表現(xiàn)較好之外，也可用于提高視頻庫(kù)片段檢索(Video Corpus Moment Retrieval，VCMR)模型的性能。

論文：Partially Relevant Video Retrieval

收錄：ACM MM 2022 （Oral Paper）

主頁(yè)：http://danieljf24.github.io/prvr/

代碼：https://github.com/HuiGuanLab/ms-sl

1. 背景與挑戰(zhàn)

當(dāng)前的文本到視頻檢索（T2VR）方法通常是在面向視頻描述生成任務(wù)的數(shù)據(jù)集（如MSVD、MSR-VTT和VATEX）上訓(xùn)練和測(cè)試的。這些數(shù)據(jù)集存在共同的特性，即其包含的視頻通常是以較短的持續(xù)時(shí)間進(jìn)行預(yù)剪輯得到，同時(shí)提供的對(duì)應(yīng)文本能充分描述視頻內(nèi)容的要點(diǎn)。因此，在此類數(shù)據(jù)集中所給出的文本-視頻對(duì)呈完全相關(guān)的關(guān)系。

然而在現(xiàn)實(shí)的視頻檢索場(chǎng)景中，由于查詢文本是未知的，預(yù)先剪輯好的視頻可能不包含足夠的內(nèi)容來(lái)完全滿足查詢文本。這表明現(xiàn)階段在學(xué)術(shù)研究的T2VR與實(shí)際應(yīng)用存在一定的鴻溝。

如圖1所示，上半部分的圖取自傳統(tǒng)T2VR數(shù)據(jù)集MSR-VTT，由于視頻長(zhǎng)度較短，場(chǎng)景單一，所以對(duì)應(yīng)的文本"兩個(gè)男人在開(kāi)車(chē)的同時(shí)進(jìn)行交談"能夠很好地概括視頻的所有內(nèi)容。而在下半部分取自TV show Retrieval數(shù)據(jù)集的長(zhǎng)視頻場(chǎng)景多變，持續(xù)時(shí)間較長(zhǎng)。文本"豪斯使用記號(hào)筆在玻璃表面寫(xiě)字"僅能表述視頻中的某一片段。在現(xiàn)實(shí)世界中的檢索場(chǎng)景大多符合后者。

為了彌補(bǔ)這一鴻溝，作者提出了一種新的T2VR子任務(wù)——部分相關(guān)的視頻檢索(Partially Relevant Video Retrieval, PRVR)。PRVR任務(wù)旨在從大量未剪輯的長(zhǎng)視頻中檢索出與查詢文本部分相關(guān)的對(duì)應(yīng)視頻。若一個(gè)未經(jīng)剪輯的長(zhǎng)視頻中存在某一片段與給出的查詢文本相關(guān)，則認(rèn)為該長(zhǎng)視頻與給出的查詢文本呈部分相關(guān)的關(guān)系。

圖1 傳統(tǒng)T2VR任務(wù)中文本-視頻對(duì)的相關(guān)關(guān)系與現(xiàn)實(shí)世界的差別

雖然PRVR任務(wù)和傳統(tǒng)的T2VR任務(wù)的目標(biāo)均為從視頻庫(kù)中檢索出查詢文本的對(duì)應(yīng)視頻，但在PRVR任務(wù)中視頻通常比較長(zhǎng)，同時(shí)文本查詢對(duì)應(yīng)的片段在原視頻中的時(shí)長(zhǎng)占比分布較廣。如圖3所示，在TVR和Charades-STA數(shù)據(jù)集中，時(shí)長(zhǎng)占比大多分布在50%以下；Activitynet數(shù)據(jù)集的占比則在1%-100%之間均有分布。

這就代表若簡(jiǎn)單地將視頻表示為單一向量，會(huì)大量丟失與查詢文本相關(guān)的關(guān)鍵信息。同時(shí)查詢文本在對(duì)應(yīng)長(zhǎng)視頻的相關(guān)時(shí)刻起始位置和持續(xù)時(shí)間都是未知的，需要模型具備在沒(méi)有時(shí)刻標(biāo)簽指導(dǎo)下建模出文本和對(duì)應(yīng)長(zhǎng)視頻間部分相關(guān)關(guān)系的能力，所以PRVR任務(wù)相較于傳統(tǒng)的T2VR任務(wù)更具挑戰(zhàn)性。

圖3 不同數(shù)據(jù)集中片段時(shí)長(zhǎng)占比分布

2. 方法

作者將PRVR定義為多示例學(xué)習(xí)(Multiple Instance Learning, MIL)問(wèn)題。

多示例學(xué)習(xí)是弱標(biāo)注數(shù)據(jù)學(xué)習(xí)的經(jīng)典框架，并被廣泛用于分類任務(wù)。在多示例學(xué)習(xí)中，一個(gè)樣本被視為由大量示例所組成的包，若包中的某一個(gè)或多個(gè)示例為正樣本時(shí)，則該包為正樣本；反之則該包為負(fù)樣本。作者將長(zhǎng)視頻整體視為一個(gè)包，視頻中的各幀或由不同大小幀組成的片段則被視為不同示例。若文本與長(zhǎng)視頻的某幀或者某個(gè)片段相關(guān)，則視為文本與該長(zhǎng)視頻相關(guān)。

此外，由于不同查詢文本與長(zhǎng)視頻的相關(guān)時(shí)刻持續(xù)時(shí)長(zhǎng)區(qū)別較大，所以作者在多個(gè)時(shí)間尺度進(jìn)行視頻表示，進(jìn)一步提出了多尺度相似性學(xué)習(xí)來(lái)度量查詢文本和長(zhǎng)視頻間的部分相關(guān)性。

圖4 模型框架圖

2.1 文本特征表示

由于當(dāng)前模型的重點(diǎn)并不在于文本編碼，所以作者使用了一個(gè)較為簡(jiǎn)單且有效的文本編碼框架，它也可以被任意當(dāng)下熱門(mén)的文本編碼框架替代。

具體地，給定一句由個(gè)單詞所組成的查詢文本，使用預(yù)訓(xùn)練的RoBERTa模型來(lái)提取每個(gè)單詞的特征向量作為文本的初始特征。之后通過(guò)全連接層進(jìn)行特征降維后，使用一層的標(biāo)準(zhǔn)Transformer模塊對(duì)其進(jìn)行進(jìn)一步編碼得到。最終通過(guò)注意力模塊得到句子級(jí)別的特征表示，既：

2.2 視頻特征表示

對(duì)于輸入的長(zhǎng)視頻，首先使用預(yù)訓(xùn)練的CNN對(duì)其進(jìn)行特征預(yù)提取，作為視頻的初始特征向量。進(jìn)一步地，作者分別從片段尺度和幀尺度分別對(duì)視頻初始特征向量進(jìn)行編碼。

2.2.1 視頻的片段尺度編碼

在對(duì)視頻初始特征向量進(jìn)行片段尺度編碼前，作者將其降采樣為長(zhǎng)度為的特征，以減少初始特征序列的長(zhǎng)度，并有助于降低編碼模塊的計(jì)算復(fù)雜度。

之后，將降采樣后的特征使用全連接層進(jìn)行特征降維后，輸入到一層的標(biāo)準(zhǔn)Transformer中捕捉其上下文信息:

由于上文提到PRVR任務(wù)中查詢文本在對(duì)應(yīng)長(zhǎng)視頻的起止時(shí)刻是未知的，作者采用滑動(dòng)窗口的方法生成不同長(zhǎng)度的候選視頻片段。具體地，作者使用不同尺寸的滑動(dòng)窗口以步長(zhǎng)為1的幅度遍歷，在遍歷過(guò)程中通過(guò)對(duì)落在滑動(dòng)窗口內(nèi)的特征進(jìn)行平均池化來(lái)獲得對(duì)應(yīng)大小的視頻段特征序列。其形象化過(guò)程如上圖中片段構(gòu)造模塊所示。通過(guò)同時(shí)使用大小從的滑動(dòng)窗口，得到視頻段特征序列集合，將其展開(kāi)后得到最終的視頻片段尺度特征序列，。

2.2.2 視頻的幀尺度編碼

由于視頻初始特征向量是獨(dú)立提取的，因此它們?nèi)狈ι舷挛牡臅r(shí)序信息。作者使用Transformer模塊捕捉丟失的時(shí)序依賴關(guān)系。首先簡(jiǎn)單地對(duì)初始特征使用全連接層進(jìn)行特征降維，并輸入到一層標(biāo)準(zhǔn)Transformer，來(lái)得到視頻的幀尺度特征表示：

2.4 多尺度相似性學(xué)習(xí)

由于在PRVR中視頻比較長(zhǎng)，直接在計(jì)算視頻文本相似性難度較大。

作者認(rèn)為如果模型簡(jiǎn)單地知道與查詢文本相關(guān)的大致內(nèi)容，它將有助于模型在更細(xì)粒度的范圍內(nèi)準(zhǔn)確地找到更相關(guān)的內(nèi)容。

因此作者提出了多尺度相似性學(xué)習(xí)，以從粗到細(xì)的方式計(jì)算文本與視頻間的相似度。它首先檢測(cè)視頻中最可能與查詢文本相關(guān)的關(guān)鍵片段，然后在關(guān)鍵片段的指導(dǎo)下衡量每幀的重要性。通過(guò)聯(lián)合考慮查詢文本與關(guān)鍵片段和各幀的相似度來(lái)計(jì)算最終的文本-視頻相似度。

2.4.1 片段尺度相似度

在部分相關(guān)的檢索任務(wù)中，若文本與視頻中的某一片段相關(guān)，則認(rèn)為文本與該視頻相關(guān)。

因此作者首先計(jì)算視頻段特征序列中每個(gè)片段與文本特征表示之間的相似度，并將文本與片段最大的相似度作為文本與整個(gè)視頻的相似度。對(duì)于相似度取值，作者認(rèn)為取平均值會(huì)使得相關(guān)片段信息被大部分的低相似度片段模糊，所以取最大值作為視頻片段尺度相似度。

此外，作者將相似度最高的視頻段特征作為關(guān)鍵視頻段特征。

2.4.2 幀尺度相似度

檢測(cè)到長(zhǎng)視頻中與文本最相關(guān)的關(guān)鍵片段后，作者以關(guān)鍵片段為進(jìn)一步指導(dǎo)，在細(xì)粒度的時(shí)間尺度上衡量長(zhǎng)視頻每幀的重要性。

具體地，作者借鑒了Multi-head Attention的編碼方式，將關(guān)鍵片段特征作為query，視頻的幀尺度特征序列作為key和value。分別計(jì)算出中各特征的權(quán)重并對(duì)其進(jìn)行聚合，并計(jì)算與文本特征表示的余弦相似度作為視頻幀尺度相似度：

2.5 訓(xùn)練和測(cè)試

在模型訓(xùn)練階段，作者同時(shí)使用了三元組損失和對(duì)比學(xué)習(xí)損失進(jìn)行模型優(yōu)化。在測(cè)試階段，作者同時(shí)使用片段尺度相似度和幀尺度相似度以不同權(quán)重共同度量文本和視頻間的最終相似度：

3. 實(shí)驗(yàn)結(jié)果

3.1整體性能對(duì)比實(shí)驗(yàn)

由于在上文提到，T2VR任務(wù)的傳統(tǒng)數(shù)據(jù)集并不適用與PRVR任務(wù)，所以作者使用了被用于單視頻定位任務(wù)（Single Video Moment Retrieval, SVMR）和視頻庫(kù)定位任務(wù)（Video Corpus Moment Retrieval, VCMR）的數(shù)據(jù)集，分別是TV show Retrieval、Activitynet Captions以及Charades-STA。

在以上三個(gè)數(shù)據(jù)集中，文本僅與視頻中的某一片段相關(guān)，且視頻的相對(duì)持續(xù)時(shí)間更長(zhǎng)，符合PRVR任務(wù)的檢索要求。

此外，作者采用R@1、R@5、R@10、R@100以及Recall Sum等性能指標(biāo)來(lái)衡量模型。同時(shí)，由于當(dāng)前并沒(méi)有模型是面向PRVR任務(wù)的，作者選取了在傳統(tǒng)T2VR任務(wù)上表現(xiàn)較好的模型作為baseline并在以上三個(gè)數(shù)據(jù)集上進(jìn)行重新訓(xùn)練，以此進(jìn)行性能對(duì)比。

在所有數(shù)據(jù)集上，論文提出的模型性能遠(yuǎn)超各baseline。這表明論文提出的模型相較于傳統(tǒng)視頻檢索模型能夠更好地解決PRVR任務(wù)。

3.2 分組性能對(duì)比實(shí)驗(yàn)

由于在上述的性能對(duì)比實(shí)驗(yàn)中僅反映了模型檢索數(shù)據(jù)集中所有文本-視頻對(duì)的整體性能，為了在更加細(xì)粒度的方面探索各模型對(duì)不同相關(guān)性的文本-視頻對(duì)的檢索性能，作者定義了片段時(shí)長(zhǎng)/視頻時(shí)長(zhǎng)比（M/V）這一概念，它以通過(guò)查詢文本所對(duì)應(yīng)的正確片段持續(xù)時(shí)間除以整個(gè)視頻的持續(xù)時(shí)間來(lái)衡量。

M/V越小，表示對(duì)應(yīng)視頻與查詢文本相關(guān)的內(nèi)容越少，反之則越多。此外， M/V越小，查詢文本與其對(duì)應(yīng)視頻的相關(guān)性越低，而M/V越大，相關(guān)性越高。根據(jù)M/V的大小，作者將TVR數(shù)據(jù)集上的10895個(gè)測(cè)試查詢文本分為六組，并報(bào)告了在不同分組上的性能。

作者所提出的模型在所有分組中始終表現(xiàn)最好。從左到右觀察下圖，12個(gè)比較模型的平均性能隨著M/V的增加而增加。最低M/V組的表現(xiàn)最差，而最高M(jìn)/V組的表現(xiàn)最好。

這表明，傳統(tǒng)的視頻檢索模型能夠更好地應(yīng)對(duì)與相應(yīng)視頻具有更大相關(guān)性的查詢文本。相比之下，作者所提出的模型在所有M/V組中取得的成績(jī)更為平衡。這一結(jié)果表明，作者提出的模型對(duì)視頻中的無(wú)關(guān)內(nèi)容不太敏感。

3.3 消融實(shí)驗(yàn)

對(duì)于提出的多尺度多示例模型的不同組成部分，作者進(jìn)行了消融分析。

模型單獨(dú)使用幀尺度或片段尺度特征表示分支時(shí)，性能都不如兩分支相結(jié)合。同時(shí)基于關(guān)鍵片段的注意力機(jī)制也能為模型帶來(lái)較大的性能提升。由于在模型訓(xùn)練階段同時(shí)使用了三元組損失和對(duì)比學(xué)習(xí)損失，作者也對(duì)兩損失結(jié)合使用的有效性進(jìn)行了論證。

3.4 對(duì)VCMR模型的性能提升

VCMR任務(wù)旨在給定查詢文本后，在視頻庫(kù)中檢索出對(duì)應(yīng)視頻，并且確定查詢文本在對(duì)應(yīng)視頻中的起止時(shí)刻。當(dāng)前用于VCMR任務(wù)的主流模型通常擁有兩個(gè)階段的工作流程。第一階段為從視頻庫(kù)中檢索出k個(gè)候選視頻，第二階段為從候選視頻中檢索出準(zhǔn)確的起止時(shí)刻。

作者選取了當(dāng)前性能較高的模型，XML和ReLoCLNet，將以上兩個(gè)模型在TVR數(shù)據(jù)集上的第一階段檢索結(jié)果替換為作者所提出模型的檢索結(jié)果，從下圖可以看出在進(jìn)行替換后能給上述兩模型帶來(lái)VCMR任務(wù)上的性能提升。

3.5 可視化展示

下圖作者給出了一些模型檢索過(guò)程中的可視化實(shí)例，分別給出了查詢文本在其對(duì)應(yīng)視頻中由模型檢測(cè)出的關(guān)鍵片段范圍與關(guān)鍵片段和所有視頻幀之間的相似度曲線。

在前兩個(gè)查詢實(shí)例中，模型檢測(cè)出的關(guān)鍵片段與正確相關(guān)片段完全重合。在后兩個(gè)查詢實(shí)例中，檢測(cè)出的關(guān)鍵片段較為不準(zhǔn)確，但是正確片段所包含的幀均具有較高的注意力權(quán)重。

這表明幀尺度相似度學(xué)習(xí)分支可以幫助片段尺度相似度學(xué)習(xí)分支在一定程度上補(bǔ)齊缺失信息，進(jìn)一步反映了模型設(shè)計(jì)雙分支相似度學(xué)習(xí)模塊的合理性。

4. 結(jié)論

在本文中，針對(duì)傳統(tǒng)T2VR任務(wù)在現(xiàn)實(shí)中的局限性，作者提出了一個(gè)全新的文本到視頻跨模態(tài)檢索子任務(wù)PRVR。在PRVR中，查詢文本與對(duì)應(yīng)視頻均呈部分相關(guān)關(guān)系而非傳統(tǒng)T2VR任務(wù)中的完全相關(guān)關(guān)系。對(duì)于PRVR，作者將其定義為多示例學(xué)習(xí)問(wèn)題，并提出多尺度多示例網(wǎng)絡(luò)，它以從粗到細(xì)的方式計(jì)算查詢文本和長(zhǎng)視頻在片段尺度和幀尺度上的相似性。在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了作者所提出的模型對(duì)于PRVR任務(wù)的有效性，并表明它也可以用于提升VCMR任務(wù)模型的性能。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

ACM

ACM

+關(guān)注

關(guān)注
0

文章
32

瀏覽量
10309
cnn

cnn

+關(guān)注

關(guān)注
3

文章
350

瀏覽量
22132

原文標(biāo)題：ACM MM 2022 Oral | PRVR: 新的文本到視頻跨模態(tài)檢索子任務(wù)

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

在TouchGFX中使用Modal時(shí)如何更改模態(tài)文本？

TouchGFX 使用模態(tài)窗口。在Model Window中聲明了一個(gè)TextArear，TextArear的內(nèi)容要根據(jù)情況改變。有沒(méi)有辦法只在一

發(fā)表于 01-09 06:37

一種針對(duì)該文本檢索任務(wù)的BERT算法方案DR-BERT

基于MS MARCO數(shù)據(jù)集，微軟提出了兩種不同的任務(wù)：一種是給定問(wèn)題，檢索所有數(shù)據(jù)集中的文檔并進(jìn)行排序，屬于文檔檢索和排序任務(wù)；另

發(fā)表于 08-27 18:05 ?4039次閱讀

可解決數(shù)據(jù)異構(gòu)性問(wèn)題的跨模態(tài)檢索方法

隨著越來(lái)越多多模態(tài)數(shù)據(jù)的岀現(xiàn)，跨模態(tài)檢索引起了廣泛的關(guān)注。跨模態(tài)

發(fā)表于 03-26 14:29 ?10次下載

可解決數(shù)據(jù)異構(gòu)性問(wèn)題的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>檢索</b>方法

基于異構(gòu)哈希網(wǎng)絡(luò)的跨模態(tài)人臉檢索方法探究分析

該文提出一種基于異構(gòu)哈希網(wǎng)絡(luò)的跨模態(tài)人臉檢索方法。異構(gòu)哈希網(wǎng)絡(luò)能夠?qū)⑽挥诓煌臻g的人臉圖像和人臉視頻映射到

發(fā)表于 03-31 09:29 ?18次下載

基于異構(gòu)哈希網(wǎng)絡(luò)的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>人臉<b class='flag-5'>檢索</b>方法探究分析

基于食物圖片的食譜檢索技術(shù)

飲食記錄是飲食管理的關(guān)鍵環(huán)節(jié)。為了簡(jiǎn)化記錄過(guò)程，研究者提出了基于食物圖片的食譜檢索技術(shù)通過(guò)拍攝的圖片檢索到對(duì)應(yīng)食譜，并據(jù)此生成營(yíng)養(yǎng)信息，從而提高了記錄的便捷性。食譜檢索是典型的

發(fā)表于 04-12 10:30 ?5次下載

基于食物圖片的食譜<b class='flag-5'>檢索</b>技術(shù)

基于深度學(xué)習(xí)的特種車(chē)輛跨模態(tài)檢索和識(shí)別方法

駕駛混合交通的環(huán)境中，實(shí)現(xiàn)無(wú)人車(chē)對(duì)正在執(zhí)行任務(wù)的特種車(chē)輛進(jìn)行合理避讓顯得尤為重要。針對(duì)無(wú)人駕駛對(duì)特種車(chē)輛識(shí)別的需求，文中構(gòu)建了跨模態(tài)檢索與識(shí)別網(wǎng)絡(luò)（ Cross-modal retri

發(fā)表于 04-23 14:56 ?15次下載

基于深度學(xué)習(xí)的特種車(chē)輛<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>檢索</b>和識(shí)別方法

一種基于異構(gòu)哈希網(wǎng)絡(luò)的跨模態(tài)人臉檢索方法

該文提出一種基于異構(gòu)哈希網(wǎng)絡(luò)的跨模態(tài)人臉檢索方法。異枃哈希網(wǎng)絡(luò)能夠?qū)⑽挥诓煌臻g的人臉圖像和人臉視頻映射到

發(fā)表于 04-28 16:24 ?5次下載

<b class='flag-5'>一</b>種基于異構(gòu)哈希網(wǎng)絡(luò)的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>人臉<b class='flag-5'>檢索</b>方法

如何去解決文本到圖像生成的跨模態(tài)對(duì)比損失問(wèn)題？

從文本到圖像的自動(dòng)生成，如何訓(xùn)練模型僅通過(guò)一段文本描述輸入就能生成具體的圖像，是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)

發(fā)表于 06-15 10:07 ?2687次閱讀

基于耦合字典學(xué)習(xí)與圖像正則化的跨模態(tài)檢索

基于耦合字典學(xué)習(xí)與圖像正則化的跨模態(tài)檢索

發(fā)表于 06-27 11:23 ?39次下載

一個(gè)真實(shí)閑聊多模態(tài)數(shù)據(jù)集TikTalk

隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對(duì)話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。

發(fā)表于 02-09 09:31 ?1729次閱讀

ImageBind：跨模態(tài)之王，將6種模態(tài)全部綁定！

最近，很多方法學(xué)習(xí)與文本、音頻等對(duì)齊的圖像特征。這些方法使用單對(duì)模態(tài)或者最多幾種視覺(jué)模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對(duì)。因此，視頻 - 音

發(fā)表于 05-11 09:30 ?972次閱讀

基于實(shí)體和動(dòng)作時(shí)空建模的視頻文本預(yù)訓(xùn)練

摘要盡管常見(jiàn)的大規(guī)模視頻-文本預(yù)訓(xùn)練模型已經(jīng)在很多下游任務(wù)取得不錯(cuò)的效果，現(xiàn)有的模型通常將視頻或者文本視為

發(fā)表于 05-25 11:29 ?715次閱讀

基于文本到圖像模型的可控文本到視頻生成

的文本到視頻模型需要大量高質(zhì)量的視頻和計(jì)算資源，這限制了相關(guān)社區(qū)進(jìn)一步的研究和應(yīng)用。為了減少過(guò)度的訓(xùn)練要求，我們研究了

發(fā)表于 06-14 10:39 ?898次閱讀

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開(kāi)源，在多模態(tài)序列中「補(bǔ)全一切」

熱度。Flamingo 具備強(qiáng)大的多模態(tài)上下文少樣本學(xué)習(xí)能力。 Flamingo 走的技術(shù)路線是將大語(yǔ)言模型與一個(gè)預(yù)訓(xùn)練視覺(jué)編碼器結(jié)合，并插入可學(xué)習(xí)的層來(lái)捕捉跨

發(fā)表于 07-16 20:45 ?684次閱讀

UniVL-DR: 多模態(tài)稠密向量檢索模型

for Multi-Modal Retrieval 背景介紹盡管當(dāng)前主流搜索引擎主要面向文本數(shù)據(jù)，然而多媒體內(nèi)容的增長(zhǎng)一直是互聯(lián)網(wǎng)上最顯著趨勢(shì)之一，各種研究表明用戶更喜歡搜索結(jié)果中出現(xiàn)生動(dòng)的多

發(fā)表于 08-06 22:00 ?807次閱讀