0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于圖文多模態(tài)領(lǐng)域典型任務(wù)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-09-01 17:14 ? 次閱讀

圖文多模態(tài)領(lǐng)域典型任務(wù)如img-text retrieval、VQA、captioning、grounding等,目前的學(xué)術(shù)設(shè)定難度尚可。但是, 一旦知識范圍擴(kuò)展,到了open-ended scenario,任務(wù)難度立刻劇增 。但是DeepMind的Flamingo模型在這些挑戰(zhàn)場景中使用同一個模型便做到了。當(dāng)時看到論文中的這些例子,十分驚訝!

d0502f50-2915-11ed-ba43-dac502259ad0.png

可以看到,F(xiàn)lamingo模型不僅可以做到open-ended captioning、VQA等,甚至可以計(jì)數(shù)、算數(shù)。其中很多額外的知識,比如火烈鳥的發(fā)源地等知識,對于單模態(tài)的語言模型如GPT-3、T5、Chinchilla等可以說是難度不大。

但是對于傳統(tǒng)的多模態(tài)模型而言,很難通過傳統(tǒng)的img-text pair學(xué)到如此廣闊的外部知識,因?yàn)楹芏嘀R是蘊(yùn)含在基于文本的單模態(tài)中的(如維基百科) 。所以,DeepMind在多模態(tài)領(lǐng)域的發(fā)力點(diǎn)就在 站人語言模型的巨人肩膀上,凍住超大規(guī)模訓(xùn)練的語言模型,將多模態(tài)模型設(shè)計(jì)向NLP大模型靠攏。

Frozen

要介紹Flamingo模型,不得不先介紹DeepMind在NeurIPS 2021發(fā)表的前作Frozen。Frozen模型十分簡單,作者使用一個預(yù)訓(xùn)練好的語言模型,并且完全凍結(jié)參數(shù),只訓(xùn)練visual encoder。

模型結(jié)構(gòu):其中LM模型是在C4數(shù)據(jù)上訓(xùn)練的包含7B參數(shù)的transformer結(jié)構(gòu),visual encoder是NF-ResNet50。訓(xùn)練數(shù)據(jù):訓(xùn)練時只采用了CC3M數(shù)據(jù)集,包含300萬img-text pair,預(yù)訓(xùn)練數(shù)據(jù)量不大。Frozen框架如下。其中視覺特征可以看作是LM模型的prompt,凍結(jié)的語言模型就在視覺特征的“提示”下,做出應(yīng)答。

d0915886-2915-11ed-ba43-dac502259ad0.png

Frozen模型結(jié)構(gòu)

可以看到,通過一些img-text pair的約束,unfrozen的visual encoder是朝著frozen LM靠攏和對齊的。該算法在預(yù)訓(xùn)練時只使用了captioning語料CC3M,并且知識的豐富度也有限。那么,F(xiàn)rozen模型能做什么呢?

d0b8bcaa-2915-11ed-ba43-dac502259ad0.png

Frozen模型在下游場景的應(yīng)用

雖然由caption數(shù)據(jù)(CC3M)訓(xùn)練,它竟然可以做VQA甚至基于知識的VQA,比如上圖,你告訴它飛機(jī)是萊特兄弟發(fā)明的,它就能類比出蘋果手機(jī)是喬布斯創(chuàng)造的。很顯然, 這種外部知識肯定不是CC3M中有限的img-text pair能夠給予的,無非是來源于從始至終未參與訓(xùn)練、凍結(jié)的LM模型 。接下來作者做了一系列實(shí)驗(yàn),可以看到,其實(shí)Frozen距離SOTA模型仍十分遙遠(yuǎn)。

d0eb882e-2915-11ed-ba43-dac502259ad0.png

Frozen實(shí)驗(yàn)結(jié)果

可以看到,F(xiàn)rozen模型距離VQA和OKVQA數(shù)據(jù)集上的SOTA算法仍有十分巨大的gap。

幾個有意思的現(xiàn)象:

如果模型看不到圖片(blind模型),只依賴于LM模型,效果尚可,但是明顯低于看得見圖片的模型。 說明Frozen確實(shí)對img-text模態(tài)進(jìn)行了對齊,學(xué)習(xí)到了如何參考圖片信息再做出應(yīng)答 ;

few-shot甚至zero-shot就可以達(dá)到還不錯的性能;

end-to-end finetune LM模型效果會下降,說明由大量單模態(tài)訓(xùn)練出的LM模型參數(shù)很容易被少量的img-text數(shù)據(jù)破壞掉。證明了本文觀點(diǎn),LM模型需要Frozen才能保留文本信息學(xué)到的知識!

Flamingo

介紹完了Frozen,那么DeepMind團(tuán)隊(duì)再接再厲,創(chuàng)造效果驚艷的Flamingo模型就順理成章了。相比于Frozen,F(xiàn)lamingo模型的幾點(diǎn)改進(jìn):

更強(qiáng)的LM模型: 70B參數(shù)的語言模型Chinchilla;

更多的可訓(xùn)練參數(shù): visual encoder這次也凍結(jié)了,但是圖片特征采樣模型可以訓(xùn)練,更重要的是LM模型的各層中也嵌入了可學(xué)習(xí)的參數(shù),可訓(xùn)練參數(shù)總量高達(dá)10B;

更恐怖的訓(xùn)練數(shù)據(jù):不僅加入了ALIGN算法的18億img-text pair,數(shù)百萬的video-text pair。此外,還有大量的不匹配的圖文信息,來源于MultiModal MassiveWeb (M3W) dataset,其中圖片數(shù)量上億,文本大概有182 GB??梢允褂胾npaired img-text數(shù)據(jù)進(jìn)行訓(xùn)練也是Flamingo模型的一大亮點(diǎn)。總而言之,它的數(shù)據(jù)量十分恐怖,已經(jīng)遠(yuǎn)遠(yuǎn)超過目前業(yè)界的多模態(tài)算法比如CLIP、ALIGN、SimVLM、BLIP等。

下面看看Flamingo的模型結(jié)構(gòu):

d119f61e-2915-11ed-ba43-dac502259ad0.png

Flamingo模型結(jié)構(gòu)

可以看到, 不同于Frozen,這一次visual encoder也是凍結(jié)的。參數(shù)可以學(xué)習(xí)的就兩部分,一個是Perceiver Resampler,一個是嵌入在LM模型中的Gated Block。Perceiver Resampler結(jié)構(gòu)如下:

d14359aa-2915-11ed-ba43-dac502259ad0.png

Perceiver Resampler結(jié)構(gòu)

Perceiver Resampler結(jié)構(gòu)一目了然,一些可學(xué)習(xí)的embedding作為query,然后圖片特征或者時續(xù)的視頻特征attend到query上,作為最后的輸出。

d17ae7bc-2915-11ed-ba43-dac502259ad0.png

gated xattn-dense結(jié)構(gòu)

嵌入在LM模型中的gated xattn-dense的結(jié)構(gòu)同樣一目了然,使用文本信息作為query去aggregate視覺信息。其中text embedding作為query,visual embedding作為key和value。類比于transformer結(jié)構(gòu),唯一小的差別就是cross-attention和FFN之后額外加了一個gate。

介紹完了Flamingo的模型結(jié)構(gòu),簡單看看它的爆表性能吧,可以說,下游場景中只用few-shot的情況下做到這種程度,讓人驚訝...... 在一些答案集合固定的任務(wù)中,比如傳統(tǒng)的VQAv2中優(yōu)勢不明顯, 但是open-ended的knowledge-based VQA任務(wù)中,比如OKVQA,只用few-shot就可以刷新當(dāng)前SOTA 。 在盲人場景的VizWiz以及OCR信息特別多的TextVQA等任務(wù)中,效果同樣可圈可點(diǎn)。一些基于視頻的QA比如NextQA和iVQA效果同樣刷新當(dāng)前最好性能......

d19fff34-2915-11ed-ba43-dac502259ad0.png

如果Flamingo不使用few-shot模式,而進(jìn)行fine-tune模式,論文中顯示,同樣可以刷新不少業(yè)界SOTA指標(biāo),這里就不列舉了。最后再列出幾個讓人驚嘆的示例結(jié)束本文,準(zhǔn)備再去好好研究一番論文細(xì)節(jié)。

多模態(tài)描述,多模態(tài)問答,多模態(tài)對話,多模態(tài)推薦……以前很多人覺得很遙遠(yuǎn),但是近年來進(jìn)展飛速,距離實(shí)際場景的gap也在逐步縮小,未來可期~

d1e3fb1c-2915-11ed-ba43-dac502259ad0.png

d215a90a-2915-11ed-ba43-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    501

    瀏覽量

    10236
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24619
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    484

    瀏覽量

    21987

原文標(biāo)題:站在NLP巨人模型的肩膀才是多模態(tài)的未來?

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場景下的模態(tài)情感識別

    自動情感識別是一個非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價值.本文探討了在文化場景下的模態(tài)情感識別問題.我們從語音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制
    發(fā)表于 12-18 14:47 ?0次下載

    如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用?

    一個模型完成了CV,NLP方向的7個任務(wù),每個任務(wù)上表現(xiàn)都非常好。 ? Transformer架構(gòu)在自然語言處理和其他領(lǐng)域的機(jī)器學(xué)習(xí)(ML)任務(wù)中表現(xiàn)出了巨大的成功,但大多僅限于單個
    的頭像 發(fā)表于 03-08 10:30 ?2707次閱讀
    如何讓Transformer在多種<b class='flag-5'>模態(tài)</b>下處理不同<b class='flag-5'>領(lǐng)域</b>的廣泛應(yīng)用?

    模態(tài)MR和特征融合的GBM自動分割算法

    模態(tài)MR和特征融合的GBM自動分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    簡述文本與圖像領(lǐng)域模態(tài)學(xué)習(xí)有關(guān)問題

    來自:哈工大SCIR 本期導(dǎo)讀:近年來研究人員在計(jì)算機(jī)視覺和自然語言處理方向均取得了很大進(jìn)展,因此融合了二者的模態(tài)深度學(xué)習(xí)也越來越受到關(guān)注。本期主要討論結(jié)合文本和圖像的模態(tài)
    的頭像 發(fā)表于 08-26 16:29 ?6733次閱讀

    如何使用模態(tài)信息做prompt

    Multimodal Conditionality for Natural Language Generation 研究的任務(wù)場景則是以模態(tài)信息作為條件做 conditional 的 NLG
    的頭像 發(fā)表于 11-03 09:39 ?1834次閱讀
    如何使用<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息做prompt

    DocumentAI的模型、任務(wù)和基準(zhǔn)數(shù)據(jù)集

    隨著最近幾年模態(tài)大火的,越來越多的任務(wù)都被推陳出新為模態(tài)版本。譬如,傳統(tǒng)對話任務(wù),推出了考慮
    的頭像 發(fā)表于 08-22 09:55 ?1790次閱讀

    模態(tài)圖像合成與編輯方法

    本篇綜述通過對現(xiàn)有的模態(tài)圖像合成與編輯方法的歸納總結(jié),對該領(lǐng)域目前的挑戰(zhàn)和未來方向進(jìn)行了探討和分析。
    的頭像 發(fā)表于 08-23 09:12 ?1221次閱讀

    一個真實(shí)閑聊模態(tài)數(shù)據(jù)集TikTalk

    隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。
    的頭像 發(fā)表于 02-09 09:31 ?1729次閱讀

    中文模態(tài)對話數(shù)據(jù)集

    隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的
    的頭像 發(fā)表于 02-22 11:03 ?1288次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對話數(shù)據(jù)集

    如何利用LLM做模態(tài)任務(wù)?

    大型語言模型LLM(Large Language Model)具有很強(qiáng)的通用知識理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放模態(tài)輸入接口并且不會透露任何模型上技術(shù)細(xì)節(jié)。因此,現(xiàn)階段,如何利用LLM做一些
    的頭像 發(fā)表于 05-11 17:09 ?862次閱讀
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>任務(wù)</b>?

    邱錫鵬團(tuán)隊(duì)提出具有內(nèi)生跨模態(tài)能力的SpeechGPT,為模態(tài)LLM指明方向

    大型語言模型(LLM)在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時,模態(tài)大型語言模型,如 GPT-4、PALM-E 和 LLaVA,已經(jīng)探索了 LLM 理解
    的頭像 發(fā)表于 05-22 14:38 ?630次閱讀
    邱錫鵬團(tuán)隊(duì)提出具有內(nèi)生跨<b class='flag-5'>模態(tài)</b>能力的SpeechGPT,為<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>LLM指明方向

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)大模型開源,在模態(tài)序列中「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對模態(tài)大模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語言模型 Flamingo ,它使用單一視覺語言模型處理多項(xiàng)
    的頭像 發(fā)表于 07-16 20:45 ?684次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    基于視覺的模態(tài)觸覺感知系統(tǒng)

    傳統(tǒng)的模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達(dá)到模態(tài)觸覺信息的解耦,但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性,以及需要應(yīng)對來自不同刺激間的干
    發(fā)表于 10-18 11:24 ?807次閱讀
    基于視覺的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>觸覺感知系統(tǒng)

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合,以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹
    的頭像 發(fā)表于 12-15 14:28 ?8765次閱讀