国产av原创国片精品有毛,欧美老熟妇BBwww

作者：Peter，北京郵電大學(xué) · 計(jì)算機(jī)

什么是多模態(tài)？

如果把LLM比做關(guān)在籠子里的AI，那么它和世界交互的方式就是通過“遞文字紙條”。文字是人類對(duì)世界的表示，存在著信息提煉、損失、冗余、甚至錯(cuò)誤（曾經(jīng)的地心說）。而多模態(tài)就像是讓AI繞開了人類的中間表示，直接接觸世界，從最原始的視覺、聲音、空間等開始理解這個(gè)世界，改變世界。

好像并沒有對(duì)多模態(tài)的嚴(yán)謹(jǐn)定義。通常見到的多模態(tài)是聯(lián)合建模Language、Vision、Audio。而很多時(shí)候拓展到3d, radar, point cloud, structure (e.g. layout, markup language)。

模型經(jīng)歷了從傳統(tǒng)單模態(tài)模型，到通用單模態(tài)，再到通用多模態(tài)的一個(gè)大致的發(fā)展，大致如下圖：

?NN Building Blocks: 相對(duì)通用的NN模型組件。

?Tradi tional Single Modality Models: 傳統(tǒng)的垂類小模型，通常小于100M~1B參數(shù)，只在某個(gè)垂直場(chǎng)景上有效。雖然不通用，但是具有一些獨(dú)特優(yōu)勢(shì)：顯著的性能和成本優(yōu)勢(shì)，常常能夠在移動(dòng)端設(shè)備部署，離線可用。在很多場(chǎng)景和大模型組合使用，依然扮演重要角色。

?General Single Modality Models: 單模態(tài)大模型，通常大于100M～1B參數(shù)。具有較強(qiáng)的通用性，比如對(duì)圖片中任意物體進(jìn)行分割，或者生成任意內(nèi)容的圖片或聲音。極大降低了場(chǎng)景的定制成本。

?MLLM：多模態(tài)大模型。以LLM為核心（>1B參數(shù)），端到端的具備多種模態(tài)輸入，多種模態(tài)輸出的大模型。某種程度上看見了AGI的曙光。

?MLLM Application: 靈活的結(jié)合LLM、MLLM、General/Traditional Single Modality Models等能力形成新的產(chǎn)品形態(tài)。

多模態(tài)的價(jià)值？

文字發(fā)展了數(shù)千年，似乎已經(jīng)能精確的表達(dá)任意事物，僅憑文字就可以產(chǎn)生智能。數(shù)學(xué)物理公式、代碼等更是從某種程度上遠(yuǎn)遠(yuǎn)超越了世界的表象，體現(xiàn)了人類智慧的偉大。

然而，人的一切依然依托于物理世界，包括人本身的物理屬性。人們能毫不費(fèi)力的處理十個(gè)小時(shí)的視覺信號(hào)（比如刷視頻、看風(fēng)景），十年如一日，但是一般人無法長(zhǎng)時(shí)間的進(jìn)行文字閱讀理解。美麗的風(fēng)景、優(yōu)美的旋律能輕易的讓大部分感受到愉悅，而復(fù)雜的文字或代碼則需要更大的精力。

其他的各種人類社會(huì)的生產(chǎn)、消費(fèi)、溝通等都離不開對(duì)世界自然信號(hào)的直接處理。難以想象這一切如果都需要通過中間的文字轉(zhuǎn)化，才能被接受和反饋。（想象司機(jī)通過閱讀文字，決定方向和油門）

AGI需要對(duì)自然信號(hào)的直接處理與反饋。

多模態(tài)技術(shù)

當(dāng)前多模態(tài)大模型通常都會(huì)經(jīng)過三個(gè)步驟：

?編碼：類比人的眼睛和耳朵，自然信號(hào)先要通過特定的器官轉(zhuǎn)換成大腦可以處理的信號(hào)。

?把每一個(gè)image切成多個(gè)patch，然后通過vit, siglip等vision encoder編碼成一串vision embedding。考慮到視覺信號(hào)的冗余，可以再通過resampler, qformer等結(jié)構(gòu)進(jìn)行壓縮，減少輸入。

?或者也可能是通過VAE編碼成一個(gè)(h, w, c）shape的latent feature?；蛘呤峭ㄟ^VQ編碼成類似上文中l(wèi)anguage“詞”的序號(hào)（integer），然后通過embedding table lookup轉(zhuǎn)化成embedding。

?對(duì)于language而言，通常就是文字的向量化。比如用bpe或者sentencepiece等算法把長(zhǎng)序列的文字切成有限個(gè)數(shù)的“詞”，從詞表（vocabulary)中找到對(duì)應(yīng)的序號(hào)，然后再通過embedding table lookup，把這些“詞”轉(zhuǎn)化成模型能理解的embedding。

?vision有一些不同的處理方式，比如：

?audio也需要進(jìn)行編碼，將傳統(tǒng)的waveform通過fft處理成mel-spectrum。也有EnCodec或SoundStream等neural encoder可以把a(bǔ)udio編碼成一系列的token。

?處理（思考）：完成編碼的信號(hào)就如同人們大腦接收到的視覺、聲音、文字信號(hào)?？梢酝ㄟ^“思考“的過程后，給出反饋。

?基于diffusion的處理過程是近幾年新出現(xiàn)的一類有趣的方法。在vision, audio生成中有卓越的表現(xiàn)。

?基于llm的處理過程似乎更值得期待。llm本身已經(jīng)具備相當(dāng)?shù)闹悄艹潭?，提供了很高的天花板。如果llm能夠很好的綜合處理多模態(tài)信號(hào)，或許能接近AGI的目標(biāo)。

?解碼：編碼的反向過程，把模型內(nèi)部的表示轉(zhuǎn)化成物理世界的自然信號(hào)。就類似人們通過嘴巴說話，或者手繪畫。

以下面兩個(gè)多模態(tài)模型為例子：

StableDiffusion:

?編碼：image通過VAE encoder變成latent z。

?處理：核心的處理過程在Unet中，通過多步denoise，對(duì)z進(jìn)行去噪。

?解碼：z最終通過VAE decoder解碼成image。

stable diffusion

DreamLLM:

?編碼：text通過word embedding，而圖片通過visual encoder。

?處理：casual llm對(duì)編碼后的的語(yǔ)言和文字信號(hào)進(jìn)行聯(lián)合處理，預(yù)測(cè)需要生成的語(yǔ)言和文字信號(hào)。

?解碼：將預(yù)測(cè)結(jié)果還原成text和image。

DreamLLM

類似的架構(gòu)還在語(yǔ)音生成的模型結(jié)構(gòu)中出現(xiàn)，比如VALL-E，有對(duì)應(yīng)的semantic, acoustic編碼和解碼，以及diffusion or llm的處理過程。

多模態(tài)的難題

目前我還有些多模態(tài)相關(guān)的問題沒太想明白。

多模態(tài)scaling law

目前Meta, Google有放出一些多模態(tài)的實(shí)驗(yàn)，比如PALI對(duì)于ViT的scaling。但是還缺少一些理論性的支持和疑點(diǎn)。

?ViT在多模態(tài)理解中扮演了什么角色，需要如此大的參數(shù)規(guī)模？這部份參數(shù)是否可以轉(zhuǎn)移到LLM上？

?數(shù)據(jù)scale時(shí)，如何分配圖片和文字的比例是比較好的實(shí)踐？

如果做個(gè)思想實(shí)驗(yàn)：

?一個(gè)網(wǎng)頁(yè)上有500個(gè)字，需要800個(gè)token表示。

?一個(gè)screenshot截圖了這個(gè)網(wǎng)頁(yè)，用vision encoder編碼后得到400個(gè)token。

如果使用LLM分別處理兩種輸入，能夠完成同樣的任務(wù)。那么似乎就不需要用text作為L(zhǎng)LM的輸入了。

?對(duì)于text, vision, audio信號(hào)編碼的最佳實(shí)踐是什么？每類信號(hào)需要使用多少的參數(shù)量才能無損的壓縮原始信號(hào)？

從簡(jiǎn)單主義出發(fā)，scaling is all you need。

但是no profit, no scaling。所以還是得回到上面那個(gè)問題。

多模態(tài)生成的路徑

Diffusion在生成上取得了不俗的效果，比如繪畫。LLM同樣可以完成視覺和音頻的生成。

?最終是LLM replace Diffusion, 還是Diffusion as decoder for LLM，還是通過別的方式？

?Diffusion的multi-step denoise是否可以通過llm的multi-layer transformer + iterative sampling來隱式模擬？

?或許diffusion就像是convolution，是人們發(fā)明的inductive bias，最終會(huì)被general learnable method取代。

LLM end2end many2many是否是個(gè)偽需求？

?是否有一種無損（或者近似）的信息傳遞方式，讓多個(gè)LLM互相協(xié)作？

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
28875

瀏覽量
266194
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2134

瀏覽量
1970
LLM

LLM

+關(guān)注

關(guān)注
0

文章
247

瀏覽量
279

原文標(biāo)題：聊聊：什么是多模態(tài)？有什么價(jià)值以及難題

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

lABCIWQmultyWindows多模態(tài)窗口2010

lABCIWQmultyWindows多模態(tài)窗口2010。

發(fā)表于 05-17 17:47 ?0次下載

多文化場(chǎng)景下的多模態(tài)情感識(shí)別

自動(dòng)情感識(shí)別是一個(gè)非常具有挑戰(zhàn)性的課題，并且有著廣泛的應(yīng)用價(jià)值．本文探討了在多文化場(chǎng)景下的多模態(tài)情感識(shí)別問題．我們從語(yǔ)音聲學(xué)和面部表情等模態(tài)分別提取了不同的情感特征。包括傳統(tǒng)的手工定制

發(fā)表于 12-18 14:47 ?0次下載

Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會(huì)有更多的類似的paper。

發(fā)表于 03-25 09:29 ?1w次閱讀

Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>學(xué)習(xí)應(yīng)用

多模態(tài)MR和多特征融合的GBM自動(dòng)分割算法

多模態(tài)MR和多特征融合的GBM自動(dòng)分割算法

發(fā)表于 06-27 11:45 ?32次下載

面向社交媒體的多模態(tài)屬性級(jí)情感分析

另一方面，相比于單一的文本數(shù)據(jù)，多模態(tài)數(shù)據(jù)包含了多種不同信息，這些信息之間往往一一對(duì)應(yīng)、互為補(bǔ)充，如何對(duì)齊不同模態(tài)的內(nèi)容并提出有效的多模態(tài)融

發(fā)表于 10-19 10:10 ?1680次閱讀

基于多模態(tài)智慧感知決策的S230芯片

提到多模態(tài)融合感知，我們難免會(huì)覺得有些困惑 “模態(tài)”，可理解為“感官” 多模態(tài)即將多種感官融合不夠直觀？那今天我們就以一道

發(fā)表于 11-03 11:59 ?594次閱讀

中文多模態(tài)對(duì)話數(shù)據(jù)集

隨著大量預(yù)訓(xùn)練語(yǔ)言模型在文本對(duì)話任務(wù)中的出色表現(xiàn)，以及多模態(tài)的發(fā)展，在對(duì)話中引入多模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的多

發(fā)表于 02-22 11:03 ?1200次閱讀

VisCPM：邁向多語(yǔ)言多模態(tài)大模型時(shí)代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進(jìn)，多模態(tài)大模型已經(jīng)成為大模型邁向通用人工智能（AGI）目標(biāo)的下一個(gè)前沿焦點(diǎn)?？傮w而言，面向圖像和文本的

發(fā)表于 07-10 10:05 ?637次閱讀

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

當(dāng)前學(xué)界和工業(yè)界都對(duì)多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語(yǔ)言模型 Flamingo ，它使用單一視覺語(yǔ)言模型處理多項(xiàng)任務(wù)，在

發(fā)表于 07-16 20:45 ?614次閱讀

基于Transformer多模態(tài)先導(dǎo)性工作

多模態(tài)（Multimodality）是指在信息處理、傳遞和表達(dá)中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語(yǔ)言、視覺、聽覺、觸覺等，它們共同作用來傳遞更豐富、更全面的信息。

發(fā)表于 08-21 09:49 ?721次閱讀

DreamLLM：多功能多模態(tài)大型語(yǔ)言模型，你的DreamLLM~

由于固有的模態(tài)缺口，如CLIP語(yǔ)義主要關(guān)注模態(tài)共享信息，往往忽略了可以增強(qiáng)多模態(tài)理解的模態(tài)特定知識(shí)。因此，這些研究并沒有充分認(rèn)識(shí)到多模式創(chuàng)造

發(fā)表于 09-25 17:26 ?609次閱讀

基于視覺的多模態(tài)觸覺感知系統(tǒng)

傳統(tǒng)的多模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達(dá)到多模態(tài)觸覺信息的解耦，但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性，以及需要應(yīng)對(duì)來自不同刺激間的干擾。

發(fā)表于 10-18 11:24 ?708次閱讀

探究編輯多模態(tài)大語(yǔ)言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點(diǎn)依然從單模態(tài)模型編輯入手，將單模態(tài)

發(fā)表于 11-09 14:53 ?399次閱讀

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢(shì)是不支持其他模態(tài)（包括圖像、語(yǔ)音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)大、更通用呢？本節(jié)將介紹“大模型+

發(fā)表于 12-13 13:55 ?1351次閱讀

人工智能領(lǐng)域多模態(tài)的概念和應(yīng)用場(chǎng)景

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)成為了一個(gè)備受關(guān)注的研究方向。多模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合，以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹

發(fā)表于 12-15 14:28 ?7255次閱讀