0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是多模態(tài)?多模態(tài)的難題是什么?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2024-01-17 10:03 ? 次閱讀

作者:Peter,北京郵電大學(xué) · 計(jì)算機(jī)

什么是多模態(tài)?

如果把LLM比做關(guān)在籠子里的AI,那么它和世界交互的方式就是通過“遞文字紙條”。文字是人類對(duì)世界的表示,存在著信息提煉、損失、冗余、甚至錯(cuò)誤(曾經(jīng)的地心說)。而多模態(tài)就像是讓AI繞開了人類的中間表示,直接接觸世界,從最原始的視覺、聲音、空間等開始理解這個(gè)世界,改變世界。

好像并沒有對(duì)多模態(tài)的嚴(yán)謹(jǐn)定義。通常見到的多模態(tài)是聯(lián)合建模Language、Vision、Audio。而很多時(shí)候拓展到3d, radar, point cloud, structure (e.g. layout, markup language)。

模型經(jīng)歷了從傳統(tǒng)單模態(tài)模型,到通用單模態(tài),再到通用多模態(tài)的一個(gè)大致的發(fā)展,大致如下圖:

ef1c6658-b45e-11ee-8b88-92fbcf53809c.jpg

?NN Building Blocks: 相對(duì)通用的NN模型組件。

?Traditional Single Modality Models: 傳統(tǒng)的垂類小模型,通常小于100M~1B參數(shù),只在某個(gè)垂直場(chǎng)景上有效。雖然不通用,但是具有一些獨(dú)特優(yōu)勢(shì):顯著的性能和成本優(yōu)勢(shì),常常能夠在移動(dòng)端設(shè)備部署,離線可用。在很多場(chǎng)景和大模型組合使用,依然扮演重要角色。

?General Single Modality Models: 單模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對(duì)圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。

?MLLM:多模態(tài)大模型。以LLM為核心(>1B參數(shù)),端到端的具備多種模態(tài)輸入,多種模態(tài)輸出的大模型。某種程度上看見了AGI的曙光。

?MLLM Application: 靈活的結(jié)合LLM、MLLM、General/Traditional Single Modality Models等能力形成新的產(chǎn)品形態(tài)。

多模態(tài)的價(jià)值?

文字發(fā)展了數(shù)千年,似乎已經(jīng)能精確的表達(dá)任意事物,僅憑文字就可以產(chǎn)生智能。數(shù)學(xué)物理公式、代碼等更是從某種程度上遠(yuǎn)遠(yuǎn)超越了世界的表象,體現(xiàn)了人類智慧的偉大。

然而,人的一切依然依托于物理世界,包括人本身的物理屬性。人們能毫不費(fèi)力的處理十個(gè)小時(shí)的視覺信號(hào)(比如刷視頻、看風(fēng)景),十年如一日,但是一般人無法長(zhǎng)時(shí)間的進(jìn)行文字閱讀理解。美麗的風(fēng)景、優(yōu)美的旋律能輕易的讓大部分感受到愉悅,而復(fù)雜的文字或代碼則需要更大的精力。

其他的各種人類社會(huì)的生產(chǎn)、消費(fèi)、溝通等都離不開對(duì)世界自然信號(hào)的直接處理。難以想象這一切如果都需要通過中間的文字轉(zhuǎn)化,才能被接受和反饋。(想象司機(jī)通過閱讀文字,決定方向和油門)

AGI需要對(duì)自然信號(hào)的直接處理與反饋。

多模態(tài)技術(shù)

當(dāng)前多模態(tài)大模型通常都會(huì)經(jīng)過三個(gè)步驟:

?編碼:類比人的眼睛和耳朵,自然信號(hào)先要通過特定的器官轉(zhuǎn)換成大腦可以處理的信號(hào)。

?把每一個(gè)image切成多個(gè)patch,然后通過vit, siglip等vision encoder編碼成一串vision embedding。考慮到視覺信號(hào)的冗余,可以再通過resampler, qformer等結(jié)構(gòu)進(jìn)行壓縮,減少輸入。

?或者也可能是通過VAE編碼成一個(gè)(h, w, c)shape的latent feature?;蛘呤峭ㄟ^VQ編碼成類似上文中l(wèi)anguage“詞”的序號(hào)(integer),然后通過embedding table lookup轉(zhuǎn)化成embedding。

?對(duì)于language而言,通常就是文字的向量化。比如用bpe或者sentencepiece等算法把長(zhǎng)序列的文字切成有限個(gè)數(shù)的“詞”,從詞表(vocabulary)中找到對(duì)應(yīng)的序號(hào),然后再通過embedding table lookup,把這些“詞”轉(zhuǎn)化成模型能理解的embedding。

?vision有一些不同的處理方式,比如:

?audio也需要進(jìn)行編碼,將傳統(tǒng)的waveform通過fft處理成mel-spectrum。也有EnCodec或SoundStream等neural encoder可以把a(bǔ)udio編碼成一系列的token。

?處理(思考):完成編碼的信號(hào)就如同人們大腦接收到的視覺、聲音、文字信號(hào)??梢酝ㄟ^“思考“的過程后,給出反饋。

?基于diffusion的處理過程是近幾年新出現(xiàn)的一類有趣的方法。在vision, audio生成中有卓越的表現(xiàn)。

?基于llm的處理過程似乎更值得期待。llm本身已經(jīng)具備相當(dāng)?shù)闹悄艹潭?,提供了很高的天花板。如果llm能夠很好的綜合處理多模態(tài)信號(hào),或許能接近AGI的目標(biāo)。

?解碼:編碼的反向過程,把模型內(nèi)部的表示轉(zhuǎn)化成物理世界的自然信號(hào)。就類似人們通過嘴巴說話,或者手繪畫。

以下面兩個(gè)多模態(tài)模型為例子:

StableDiffusion:

?編碼:image通過VAE encoder變成latent z。

?處理:核心的處理過程在Unet中,通過多步denoise,對(duì)z進(jìn)行去噪。

?解碼:z最終通過VAE decoder解碼成image。

ef239da6-b45e-11ee-8b88-92fbcf53809c.jpg

stable diffusion

DreamLLM:

?編碼:text通過word embedding,而圖片通過visual encoder。

?處理:casual llm對(duì)編碼后的的語(yǔ)言和文字信號(hào)進(jìn)行聯(lián)合處理,預(yù)測(cè)需要生成的語(yǔ)言和文字信號(hào)。

?解碼:將預(yù)測(cè)結(jié)果還原成text和image。

ef2e1754-b45e-11ee-8b88-92fbcf53809c.jpg

DreamLLM

類似的架構(gòu)還在語(yǔ)音生成的模型結(jié)構(gòu)中出現(xiàn),比如VALL-E,有對(duì)應(yīng)的semantic, acoustic編碼和解碼,以及diffusion or llm的處理過程。

ef397f40-b45e-11ee-8b88-92fbcf53809c.jpg

多模態(tài)的難題

目前我還有些多模態(tài)相關(guān)的問題沒太想明白。

多模態(tài)scaling law

目前Meta, Google有放出一些多模態(tài)的實(shí)驗(yàn),比如PALI對(duì)于ViT的scaling。但是還缺少一些理論性的支持和疑點(diǎn)。

?ViT在多模態(tài)理解中扮演了什么角色,需要如此大的參數(shù)規(guī)模?這部份參數(shù)是否可以轉(zhuǎn)移到LLM上?

?數(shù)據(jù)scale時(shí),如何分配圖片和文字的比例是比較好的實(shí)踐?

如果做個(gè)思想實(shí)驗(yàn):

?一個(gè)網(wǎng)頁(yè)上有500個(gè)字,需要800個(gè)token表示。

?一個(gè)screenshot截圖了這個(gè)網(wǎng)頁(yè),用vision encoder編碼后得到400個(gè)token。

如果使用LLM分別處理兩種輸入,能夠完成同樣的任務(wù)。那么似乎就不需要用text作為L(zhǎng)LM的輸入了。

?對(duì)于text, vision, audio信號(hào)編碼的最佳實(shí)踐是什么?每類信號(hào)需要使用多少的參數(shù)量才能無損的壓縮原始信號(hào)?

從簡(jiǎn)單主義出發(fā),scaling is all you need。

但是no profit, no scaling。所以還是得回到上面那個(gè)問題。

多模態(tài)生成的路徑

Diffusion在生成上取得了不俗的效果,比如繪畫。LLM同樣可以完成視覺和音頻的生成。

?最終是LLM replace Diffusion, 還是Diffusion as decoder for LLM,還是通過別的方式?

?Diffusion的multi-step denoise是否可以通過llm的multi-layer transformer + iterative sampling來隱式模擬

?或許diffusion就像是convolution,是人們發(fā)明的inductive bias,最終會(huì)被general learnable method取代。

LLM end2end many2many是否是個(gè)偽需求?

?是否有一種無損(或者近似)的信息傳遞方式,讓多個(gè)LLM互相協(xié)作?

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28875

    瀏覽量

    266194
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2134

    瀏覽量

    1970
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    247

    瀏覽量

    279

原文標(biāo)題:聊聊:什么是多模態(tài)?有什么價(jià)值以及難題

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場(chǎng)景下的模態(tài)情感識(shí)別

    自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價(jià)值.本文探討了在文化場(chǎng)景下的模態(tài)情感識(shí)別問題.我們從語(yǔ)音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制
    發(fā)表于 12-18 14:47 ?0次下載

    Transformer模型的模態(tài)學(xué)習(xí)應(yīng)用

    隨著Transformer在視覺中的崛起,Transformer在模態(tài)中應(yīng)用也是合情合理的事情,甚至以后可能會(huì)有更多的類似的paper。
    的頭像 發(fā)表于 03-25 09:29 ?1w次閱讀
    Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>學(xué)習(xí)應(yīng)用

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    面向社交媒體的模態(tài)屬性級(jí)情感分析

    另一方面,相比于單一的文本數(shù)據(jù),模態(tài)數(shù)據(jù)包含了多種不同信息,這些信息之間往往一一對(duì)應(yīng)、互為補(bǔ)充,如何對(duì)齊不同模態(tài)的內(nèi)容并提出有效的模態(tài)
    的頭像 發(fā)表于 10-19 10:10 ?1680次閱讀

    基于模態(tài)智慧感知決策的S230芯片

    提到模態(tài)融合感知, 我們難免會(huì)覺得有些困惑 “模態(tài)”,可理解為“感官” 模態(tài)即將多種感官融合 不夠直觀? 那今天我們就以一道
    發(fā)表于 11-03 11:59 ?594次閱讀

    中文模態(tài)對(duì)話數(shù)據(jù)集

    隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對(duì)話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的
    的頭像 發(fā)表于 02-22 11:03 ?1200次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對(duì)話數(shù)據(jù)集

    VisCPM:邁向多語(yǔ)言模態(tài)大模型時(shí)代

    隨著 GPT-4 和 Stable Diffusion 等模型模態(tài)能力的突飛猛進(jìn),模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個(gè)前沿焦點(diǎn)??傮w而言,面向圖像和文本的
    的頭像 發(fā)表于 07-10 10:05 ?637次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時(shí)代

    更強(qiáng)更通用:智源「悟道3.0」Emu模態(tài)大模型開源,在模態(tài)序列中「補(bǔ)全一切」

    當(dāng)前學(xué)界和工業(yè)界都對(duì)模態(tài)大模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了模態(tài)視覺語(yǔ)言模型 Flamingo ,它使用單一視覺語(yǔ)言模型處理多項(xiàng)任務(wù),在
    的頭像 發(fā)表于 07-16 20:45 ?614次閱讀
    更強(qiáng)更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補(bǔ)全一切」

    基于Transformer模態(tài)先導(dǎo)性工作

    模態(tài)(Multimodality)是指在信息處理、傳遞和表達(dá)中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語(yǔ)言、視覺、聽覺、觸覺等,它們共同作用來傳遞更豐富、更全面的信息。
    的頭像 發(fā)表于 08-21 09:49 ?721次閱讀
    基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>先導(dǎo)性工作

    DreamLLM:多功能模態(tài)大型語(yǔ)言模型,你的DreamLLM~

    由于固有的模態(tài)缺口,如CLIP語(yǔ)義主要關(guān)注模態(tài)共享信息,往往忽略了可以增強(qiáng)多模態(tài)理解的模態(tài)特定知識(shí)。因此,這些研究并沒有充分認(rèn)識(shí)到模式創(chuàng)造
    的頭像 發(fā)表于 09-25 17:26 ?609次閱讀
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大型語(yǔ)言模型,你的DreamLLM~

    基于視覺的模態(tài)觸覺感知系統(tǒng)

    傳統(tǒng)的模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達(dá)到模態(tài)觸覺信息的解耦,但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性,以及需要應(yīng)對(duì)來自不同刺激間的干擾。
    發(fā)表于 10-18 11:24 ?708次閱讀
    基于視覺的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>觸覺感知系統(tǒng)

    探究編輯模態(tài)大語(yǔ)言模型的可行性

    不同于單模態(tài)模型編輯,模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手,將單模態(tài)
    發(fā)表于 11-09 14:53 ?399次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言模型的可行性

    大模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語(yǔ)音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大模型+
    的頭像 發(fā)表于 12-13 13:55 ?1351次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場(chǎng)景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個(gè)備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合,以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹
    的頭像 發(fā)表于 12-15 14:28 ?7255次閱讀