0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺語言預(yù)訓(xùn)練(VLP)模型的最新進(jìn)展

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-04-02 17:26 ? 次閱讀

讓機(jī)器做出與人類相似的反應(yīng)一直是 AI 研究不懈追求的目標(biāo)。為了讓機(jī)器具有感知和思考的能力,研究人員進(jìn)行了一系列相關(guān)研究,如人臉識(shí)別、閱讀理解和人機(jī)對(duì)話,通過這些任務(wù)訓(xùn)練和評(píng)估機(jī)器在特定方面的智能。一般來講,領(lǐng)域?qū)<彝ㄟ^手工構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)集,然后在這些數(shù)據(jù)集上訓(xùn)練和評(píng)估相關(guān)模型。然而,由于相關(guān)技術(shù)的限制,訓(xùn)練模型往往需要大量的標(biāo)注數(shù)據(jù),以獲得更好、更強(qiáng)大的模型。

基于 Transformer 架構(gòu)的預(yù)訓(xùn)練模型緩解了這個(gè)問題。它們首先通過自監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,從大規(guī)模未標(biāo)記數(shù)據(jù)中訓(xùn)練模型,從而學(xué)習(xí)通用表示。它們?cè)谙掠稳蝿?wù)上僅使用少量手動(dòng)標(biāo)記的數(shù)據(jù)進(jìn)行微調(diào)就能取得令人驚訝的效果。自 BERT 被應(yīng)用于 NLP 任務(wù)以來,各種預(yù)訓(xùn)練模型在單模態(tài)領(lǐng)域快速發(fā)展,例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作表明它們有利于下游單模態(tài)任務(wù),并避免從頭開始訓(xùn)練新模型。

與單模態(tài)領(lǐng)域類似,多模態(tài)領(lǐng)域也存在高質(zhì)量標(biāo)注數(shù)據(jù)較少的問題。我們不禁會(huì)問,上述預(yù)訓(xùn)練方法能否應(yīng)用于多模態(tài)任務(wù)?研究人員已經(jīng)對(duì)這個(gè)問題進(jìn)行了探索并取得了重大進(jìn)展。

在本文中,來自中國科學(xué)院自動(dòng)化研究所、中國科學(xué)院大學(xué)的研究者調(diào)查了視覺 - 語言預(yù)訓(xùn)練(vision-language pre-training,VLP)最新進(jìn)展和新領(lǐng)域,包括圖像 - 文本預(yù)訓(xùn)練和視頻 - 文本預(yù)訓(xùn)練。VLP 通過對(duì)大規(guī)模數(shù)據(jù)的預(yù)訓(xùn)練來學(xué)習(xí)不同模態(tài)之間語義對(duì)應(yīng)關(guān)系。例如,在圖像 - 文本預(yù)訓(xùn)練中,研究者期望模型將文本中的狗與圖像中的狗外觀相關(guān)聯(lián)。在視頻 - 文本預(yù)訓(xùn)練中,研究者期望模型將文本中的對(duì)象 / 動(dòng)作映射到視頻中的對(duì)象 / 動(dòng)作。

視覺語言預(yù)訓(xùn)練(VLP)模型的最新進(jìn)展

為了實(shí)現(xiàn)這一目標(biāo),研究者需要巧妙地設(shè)計(jì) VLP 對(duì)象和模型架構(gòu),以允許模型挖掘不同模態(tài)之間的關(guān)聯(lián)。

為了讓讀者更好地全面掌握 VLP,該研究首先從特征提取、模型架構(gòu)、預(yù)訓(xùn)練目標(biāo)、預(yù)訓(xùn)練數(shù)據(jù)集和下游任務(wù)五個(gè)方面回顧其最近進(jìn)展。然后,文章詳細(xì)總結(jié)了具體的 VLP 模型。最后,文章討論了 VLP 的新領(lǐng)域。據(jù)了解,這是對(duì) VLP 領(lǐng)域的首次調(diào)查。研究者希望這項(xiàng)調(diào)查能夠?yàn)?VLP 領(lǐng)域的未來研究提供啟示。

VLP 綜述

VLP 五個(gè)方面回顧及其最近進(jìn)展

在特征處理方面:論文主要介紹了 VLP 模型如何進(jìn)行預(yù)處理和表示圖像、視頻和文本以獲得對(duì)應(yīng)特征。

為了充分利用單模態(tài)預(yù)訓(xùn)練模型,VLP 隨機(jī)初始化標(biāo)準(zhǔn) transformer 編碼器來生成視覺或文本表示。從視覺來講,VLP 利用預(yù)訓(xùn)練視覺 transformer(例如 ViT 和 DeiT)對(duì) ViT-PF 進(jìn)行編碼。從文本來講,VLP 使用預(yù)訓(xùn)練文本 transformer(例如 BERT)對(duì)文本特征進(jìn)行編碼。為簡單起見,該研究將這些 transformer 命名為 Xformer。

在模型架構(gòu)方面:論文從兩個(gè)不同的角度介紹 VLP 模型架構(gòu):(1)從多模態(tài)融合的角度來觀察單流與雙流架構(gòu)(2)從整體架構(gòu)設(shè)計(jì)來比較編碼器以及編碼器 - 解碼器對(duì)比。

單流架構(gòu)是指將文本和視覺特征組合在一起,然后饋入單個(gè) transformer 塊,如下圖 1 (a) 所示。單流架構(gòu)通過合并注意力來融合多模態(tài)輸入。單流架構(gòu)的參數(shù)效率更高,因?yàn)閮煞N模式都使用相同的參數(shù)集。

雙流架構(gòu)是指文本和視覺特征沒有組合在一起,而是獨(dú)立饋入到兩個(gè)不同的 transformer 塊,如圖 1 (b) 所示。這兩個(gè) transformer 塊不共享參數(shù)。為了獲得更高的性能,交叉注意力(如 圖 1 (b) 中的虛線所示)用于實(shí)現(xiàn)跨模態(tài)交互。為了實(shí)現(xiàn)更高的效率,視覺 transformer 塊和文本 transformer 塊之間也可以不采用交叉注意力。

視覺語言預(yù)訓(xùn)練(VLP)模型的最新進(jìn)展

許多 VLP 模型只采用編碼器架構(gòu),不同模態(tài)表示直接饋入輸出層。相比之下,其他 VLP 模型提倡使用 transformer 編碼器 - 解碼器架構(gòu),不同模態(tài)表示首先饋入解碼器,然后饋入輸出層。

在預(yù)訓(xùn)練目標(biāo)方面:論文通過使用不同的預(yù)訓(xùn)練目標(biāo)來預(yù)訓(xùn)練 VLP 模型,并將預(yù)訓(xùn)練目標(biāo)總結(jié)為四類:完成、匹配、時(shí)間和特定類型。

完成(completion)指的是利用未掩碼部分來重建掩碼元素。以掩碼語言建模 (MLM) 為例,其最早由 taylor 提出,由于 BERT 將其作為預(yù)訓(xùn)練任務(wù)而廣為人知。VLP 模型中的 MLM 類似于預(yù)訓(xùn)練語言模型 (PLM) 中的 MLM,它不僅可以通過其余文本 token 來預(yù)測(cè)掩碼文本 token,還可以通過視覺 token 來預(yù)測(cè)掩碼文本 token。根據(jù)經(jīng)驗(yàn),遵循 BERT 的 VLP 模型以 15% 的掩碼率隨機(jī)掩碼每個(gè)文本輸入 token,并在 80% 的時(shí)間使用特殊 token [MASK]、10% 的時(shí)間使用隨機(jī)文本 token,剩余 10% 的時(shí)間使用原始 token 來替換被掩碼掉的文本。不過在普林斯頓大學(xué)陳丹琦等人的論文《Should You Mask 15% in Masked Language Modeling?》中,作者發(fā)現(xiàn):在有效的預(yù)訓(xùn)練方案下,他們可以掩蔽 40-50% 的輸入文本,并獲得比默認(rèn)的 15% 更好的下游性能。

在掩碼視覺建模 (MVM) 中,與 MLM 一樣,MVM 對(duì)視覺(圖像或視頻)區(qū)域或 patch 進(jìn)行采樣,并且通常以 15% 的概率掩碼其視覺特征。VLP 模型需要在給定剩余的視覺特征和所有文本特征的情況下重建掩碼的視覺特征。

視覺 - 語言匹配 (VLM) 是最常用的預(yù)訓(xùn)練目標(biāo),用于對(duì)齊視覺和語言。在單流 VLP 模型中,研究者使用特殊 token [CLS] 表示作為兩種模態(tài)的融合表示。在雙流 VLP 模型中,研究者將特殊視覺 token [CLSV] 視覺表示和特殊文本 token [CLST] 文本表示連接起來,作為兩種模態(tài)的融合表示。VLP 模型將兩種模態(tài)的融合表示提供給 FC 層和 sigmoid 函數(shù)以預(yù)測(cè) 0 到 1 之間的分?jǐn)?shù),其中 0 表示視覺和語言不匹配,1 表示視覺和語言匹配。在訓(xùn)練期間,VLP 模型在每一步從數(shù)據(jù)集中采樣正對(duì)或負(fù)對(duì)。

在預(yù)訓(xùn)練數(shù)據(jù)集方面:大多數(shù)用于 VLP 的數(shù)據(jù)集是通過組合跨多模態(tài)任務(wù)的公共數(shù)據(jù)集構(gòu)建而成。這里,一些主流語料庫及其詳細(xì)信息如下表 1 所示。

視覺語言預(yù)訓(xùn)練(VLP)模型的最新進(jìn)展

在下游任務(wù)方面:各種各樣的任務(wù)需要視覺和語言知識(shí)融合。本小節(jié)論文介紹了此類任務(wù)的基本細(xì)節(jié)和目標(biāo),并將其分為五類:分類、回歸、檢索、生成和其他任務(wù),其中分類、回歸和檢索任務(wù)也稱為理解任務(wù)。

在分類任務(wù)中,其包括視覺問答 (VQA)、視覺推理和合成問答 (GQA)、視覺 - 語言推理 (VLI)、自然語言視覺推理 (NLVR)、視覺常識(shí)推理 (VCR) 等。在 VQA 中,提供圖像或視頻視覺輸入,它通常被認(rèn)為是一個(gè)分類任務(wù),模型從一個(gè)選擇池中預(yù)測(cè)出最合適的答案;在 GQA 中,我們可以將 GQA 視為 VQA 的升級(jí)版,旨在推進(jìn)自然場景視覺推理的研究;在 VLI 中,給定具有對(duì)齊字幕的視頻剪輯作為前提,并與基于視頻內(nèi)容的自然語言假設(shè)配對(duì),模型需要推斷該假設(shè)是否與給定視頻剪輯相矛盾。

在回歸任務(wù)中,多模態(tài)情感分析 (MSA) 旨在利用多模態(tài)信號(hào)(如視覺、語言等)檢測(cè)視頻中的情緒。它是作為一個(gè)連續(xù)的強(qiáng)度變量來預(yù)測(cè)話語的情感走向。

在檢索任務(wù)中,視覺 - 語言檢索 (VLR) 通過適當(dāng)?shù)钠ヅ洳呗詠砝斫庖曈X(圖像或視頻)和語言,其包括兩個(gè)子任務(wù),視覺到文本檢索和文本到視覺檢索,其中視覺到文本檢索是根據(jù)視覺從更大的描述池中獲取最相關(guān)的文本描述,反之亦然。

在生成任務(wù)中,視覺字幕 (VC) 旨在為給定的視覺(圖像或視頻)輸入生成語義和語法上合適的文本描述。此外,論文還介紹了其他下游任務(wù),例如多模態(tài)機(jī)器翻譯 (MMT)、視覺語言導(dǎo)航 (VLN) 和光學(xué)字符識(shí)別 (OCR) 等。

SOTA VLP 模型

圖像 - 文本 VLP 模型。VisualBERT 被稱為第一個(gè)圖像 - 文本預(yù)訓(xùn)練模型,使用 Faster R-CNN 提取視覺特征,并將視覺特征和文本嵌入連接起來,然后將連接后的特征饋送到單個(gè)由 BERT 初始化的 transformer 中。許多 VLP 模型在調(diào)整預(yù)訓(xùn)練目標(biāo)和預(yù)訓(xùn)練數(shù)據(jù)集時(shí)遵循與 VisualBERT 相似的特征提取和架構(gòu)。最近,VLMO 利用圖像 patch 嵌入和文本詞嵌入,將組合嵌入與模態(tài)專家一起輸入到單個(gè) transformer 中,并取得了令人印象深刻的性能。METER 探索了如何使用單模態(tài)預(yù)訓(xùn)練模型,并提出一種雙流架構(gòu)模型來處理多模態(tài)融合,從而在許多下游任務(wù)上實(shí)現(xiàn)了 SOTA 性能。

視頻 - 文本 VLP 模型。VideoBERT 被稱為第一個(gè)視頻 - 文本預(yù)訓(xùn)練模型,其擴(kuò)展 BERT 模型以同時(shí)處理視頻和文本。VideoBERT 使用預(yù)訓(xùn)練的 ConvNet 和 S3D 來提取視頻特征并將它們與文本詞嵌入連接起來,并饋送到以 BERT 進(jìn)行初始化的 transformer。在訓(xùn)練 VideoBERT 時(shí),ConvNet 和 S3D 被凍結(jié),這表明該方法不是端到端的。最近,受 ViT 的啟發(fā),F(xiàn)rozen 和 Region-Learner 首先將視頻剪輯處理成幀,并根據(jù) ViT 處理每一幀圖像的方法獲得 patch 嵌入。Frozen 和 Region-Learner 以端到端的方式優(yōu)化自身并實(shí)現(xiàn) SOTA 性能。

下表 2 總結(jié)了更多現(xiàn)有的主流 VLP 模型:

視覺語言預(yù)訓(xùn)練(VLP)模型的最新進(jìn)展

未來,在現(xiàn)有工作的基礎(chǔ)上,研究者希望 VLP 可以從以下幾個(gè)方面進(jìn)一步發(fā)展:

結(jié)合聲學(xué)信息,以往的多模態(tài)預(yù)訓(xùn)練研究大多強(qiáng)調(diào)語言和視覺的聯(lián)合建模,而忽略了隱藏在音頻中的信息;

知識(shí)學(xué)習(xí)和認(rèn)知,盡管現(xiàn)有的 VLP 模型已經(jīng)取得了顯著的性能,但它們本質(zhì)上是擬合大規(guī)模多模態(tài)數(shù)據(jù)集,讓 VLP 模型更有知識(shí)對(duì)于未來的 VLP 很重要;

提示優(yōu)化,通過設(shè)計(jì)離散或連續(xù)提示并將 MLM 用于特定的下游任務(wù),這些模型可以減少微調(diào)大量參數(shù)的計(jì)算成本,彌合預(yù)訓(xùn)練和微調(diào)之間的差距。

原文標(biāo)題:多模態(tài)綜述 | 一文了解Language-Vision預(yù)訓(xùn)練最新進(jìn)展和新領(lǐng)域

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266239
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48365
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    135

    瀏覽量

    5944

原文標(biāo)題:多模態(tài)綜述 | 一文了解Language-Vision預(yù)訓(xùn)練最新進(jìn)展和新領(lǐng)域

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    中國龍芯CPU及產(chǎn)品最新進(jìn)展

    本內(nèi)容向大家講解了中國龍芯CPU是什么意思,龍芯CPU最新產(chǎn)品及龍芯CPU最新進(jìn)展情況
    發(fā)表于 12-07 17:09 ?2.8w次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型預(yù)訓(xùn)練

    語言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)
    發(fā)表于 05-07 17:10

    風(fēng)光互補(bǔ)技術(shù)及應(yīng)用新進(jìn)展

    風(fēng)光互補(bǔ)技術(shù)及應(yīng)用新進(jìn)展   [hide]風(fēng)光互補(bǔ)技術(shù)及應(yīng)用新進(jìn)展.rar[/hide] [此貼子已經(jīng)被作者于2009-10-22 11:52:24編輯過]
    發(fā)表于 10-22 11:51

    風(fēng)光互補(bǔ)技術(shù)原理及最新進(jìn)展

    風(fēng)光互補(bǔ)技術(shù)原理及最新進(jìn)展摘要: 簡要回顧國內(nèi)外風(fēng)電、光伏技術(shù)與應(yīng)用發(fā)展態(tài)勢(shì),結(jié)合風(fēng)光互補(bǔ)系統(tǒng)應(yīng)用, 分析、介紹了風(fēng)光互補(bǔ)LED路燈照明系統(tǒng)、智能控制器設(shè)計(jì)、分布式供電電源、風(fēng)光互補(bǔ)水泵系統(tǒng),并著重
    發(fā)表于 10-26 13:45

    DIY懷表設(shè)計(jì)正式啟動(dòng),請(qǐng)關(guān)注最新進(jìn)展。

    ``我們的電子懷表正式啟動(dòng),強(qiáng)烈邀請(qǐng)各電子工程師嚴(yán)重關(guān)注,本次PCB板由華強(qiáng)PCB(http://www.hqpcb.com/ )提供。DIY懷表設(shè)計(jì)正式啟動(dòng),請(qǐng)關(guān)注最新進(jìn)展。做電子的如
    發(fā)表于 01-13 09:27

    車聯(lián)網(wǎng)技術(shù)的最新進(jìn)展

    `直播主題及亮點(diǎn):在介紹中國車聯(lián)網(wǎng)的發(fā)展歷史的基礎(chǔ)上,分析目前的車聯(lián)網(wǎng)產(chǎn)品類型和技術(shù)路線,分析5G的技術(shù)特點(diǎn)、優(yōu)勢(shì)和未來市場發(fā)展趨勢(shì),介紹北斗與GPS的區(qū)別和北斗衛(wèi)星的最新進(jìn)展和應(yīng)用。針對(duì)即將成為車
    發(fā)表于 09-21 14:01

    介紹IXIAIP測(cè)試平臺(tái)和所提供測(cè)試方案的最新進(jìn)展

    介紹IXIAIP測(cè)試平臺(tái)和所提供測(cè)試方案的最新進(jìn)展
    發(fā)表于 05-26 06:46

    ITU-T FG IPTV標(biāo)準(zhǔn)化最新進(jìn)展如何?

    ITU-T FG IPTV標(biāo)準(zhǔn)化最新進(jìn)展如何?
    發(fā)表于 05-27 06:06

    CMOS圖像傳感器最新進(jìn)展及發(fā)展趨勢(shì)是什么?

    CMOS圖像傳感器最新進(jìn)展及發(fā)展趨勢(shì)是什么?
    發(fā)表于 06-08 06:20

    VisionFive 2 AOSP最新進(jìn)展即將發(fā)布!

    非常開心地在這里和大家提前預(yù)告,我們即將發(fā)布VisionFive 2 集成 AOSP的最新進(jìn)展!請(qǐng)大家多多期待吧~ 此次通過眾多社區(qū)成員的支持和貢獻(xiàn)(https://github.com
    發(fā)表于 10-08 09:15

    UWB通信技術(shù)最新進(jìn)展及發(fā)展趨勢(shì)

    UWB通信技術(shù)最新進(jìn)展及發(fā)展趨勢(shì),下來看看
    發(fā)表于 02-07 12:44 ?11次下載

    利用視覺語言模型對(duì)檢測(cè)器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語言處理以及計(jì)算機(jī)視覺領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高模型
    的頭像 發(fā)表于 08-08 15:33 ?1256次閱讀

    多維度剖析視覺-語言訓(xùn)練的技術(shù)路線

    (如BERT\GPT等)的啟發(fā),視覺-語言預(yù)訓(xùn)練 (Vision-Language Pre-training, VLP) 逐漸受到關(guān)注,成為
    的頭像 發(fā)表于 02-23 11:15 ?816次閱讀

    ASML***的最新進(jìn)展

    、與 Mike在SEMICON 上的一些討論以及 ASML 最近的財(cái)報(bào)電話會(huì)議中的一些內(nèi)容。以分享了ASML光刻機(jī)的最新進(jìn)展。
    的頭像 發(fā)表于 07-30 10:39 ?2165次閱讀
    ASML***的<b class='flag-5'>最新進(jìn)展</b>

    5G最新進(jìn)展深度解析.zip

    5G最新進(jìn)展深度解析
    發(fā)表于 01-13 09:06 ?1次下載