大型語言模型LLM(Large Language Model)具有很強(qiáng)的通用知識理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)。因此,現(xiàn)階段,如何利用LLM做一些多模態(tài)任務(wù)還是有一定的研究價(jià)值的。
本文整理了近兩年來基于LLM做vision-lanuage任務(wù)的一些工作,并將其劃分為4個(gè)類別:
利用LLM作為理解中樞調(diào)用多模態(tài)模型,例如VisualChatGPT(2023)[1], MM-REACT(2023)[2];
將視覺轉(zhuǎn)化為文本,作為LLM的輸入,例如PICA(2022)[3],PromptCap(2022)[4],ScienceQA(2022)[5];
利用視覺模態(tài)影響LLM的解碼,例如ZeroCap[6],MAGIC[7];
凍住LLM,訓(xùn)練視覺編碼器等額外結(jié)構(gòu)以適配LLM,例如Frozen[8],BLIP2[9],F(xiàn)lamingo[10],PaLM-E[11];
接下來每個(gè)類別會(huì)挑選代表性的工作進(jìn)行簡單介紹:
一. 利用LLM作為理解中樞調(diào)用多模態(tài)模型
以微軟Visual ChatGPT[1]為例,它的目標(biāo)是使得一個(gè)系統(tǒng)既能和人進(jìn)行視覺內(nèi)容相關(guān)的對話,又能進(jìn)行畫圖以及圖片修改的工作。為此,Visual ChatGPT采用ChatGPT作為和用戶交流的理解中樞,整合了多個(gè)視覺基礎(chǔ)模型(Visual Foundation Models),通過prompt engineering (即Prompt Manager)告訴ChatGPT各個(gè)基礎(chǔ)模型的用法以及輸入輸出格式,讓ChatGPT決定為了滿足用戶的需求,應(yīng)該如何調(diào)用這些模型,如圖1所示。
圖1:Visual ChatGPT系統(tǒng)示意圖
微軟另一個(gè)小組稍晚一段時(shí)間提出的MM-REACT[2]也是同樣的思路,區(qū)別主要在于prompt engineering的設(shè)計(jì)以及MM-REACT更側(cè)重于視覺的通用理解和解釋,包含了很多Microsoft Azure API,例如名人識別、票據(jù)識別以及Bing搜索等。
二. 將視覺轉(zhuǎn)化為文本,作為LLM的輸入
以PICA[3]為例,它的目標(biāo)是充分利用LLM中的海量知識來做Knowledge-based QA。給定一張圖和問題,以往的工作主要從外部來源,例如維基百科等來檢索出相關(guān)的背景知識以輔助答案的生成。但PICA嘗試將圖片用文本的形式描述出來后,直接和問題拼在一起作為LLM的輸入,讓LLM通過in-context learning的方式直接生成回答,如圖2所示。
圖2:PICA方法示意圖
in-context learning的效果比較依賴example/demonstration的質(zhì)量,為此PICA的作者利用CLIP挑選了和當(dāng)前測試樣例在問題和圖片上最接近的16個(gè)訓(xùn)練樣例作為examples。
三. 利用視覺模態(tài)影響LLM的解碼
以MAGIC[3]為例,它的目標(biāo)是讓LLM做image captioning的任務(wù),它的核心思路是生成每一個(gè)詞時(shí),提高視覺相關(guān)的詞的生成概率,公式如圖3所示。
圖3:MAGIC解碼公式示意圖
該公式主要由三部分組成:1)LLM預(yù)測詞的概率;2)退化懲罰(橙色);3)視覺相關(guān)性(紅色)。退化懲罰主要是希望生成的詞能帶來新的信息量。視覺相關(guān)性部分為基于CLIP計(jì)算了所有候選詞和圖片的相關(guān)性,取softmax之后的概率作為預(yù)測概率。
四.訓(xùn)練視覺編碼器等額外結(jié)構(gòu)以適配LLM
這部分工作是目前關(guān)注度最高的工作,因?yàn)樗哂袧摿怼耙赃h(yuǎn)低于多模態(tài)通用模型訓(xùn)練的代價(jià)將LLM拓展為多模態(tài)模型”。DeepMind于2021年發(fā)表的Frozen,2022年的Flamingo以及Saleforce 2023年的BLIP2都是這條路線,如圖4所示。
圖4:Frozen,F(xiàn)lamingo,BLIP2示意圖。
Frozen訓(xùn)練時(shí)將圖片編碼成2個(gè)vision token,作為LLM的前綴,目標(biāo)為生成后續(xù)文本,采用Conceptual Caption作為訓(xùn)練語料。Frozen通過few-shot learning/in-context learning做下游VQA以及image classification的效果還沒有很強(qiáng),但是已經(jīng)能觀察到一些多模態(tài)in-context learning的能力。
Flamingo為了解決視覺feature map大小可能不一致(尤其對于多幀的視頻)的問題,用Perceiver Resampler (類似DETR的解碼器)生成固定長度的特征序列(64個(gè)token),并且在LLM的每一層之前額外增加了一層對視覺特征進(jìn)行注意力計(jì)算的cross-attention layer,以實(shí)現(xiàn)更強(qiáng)的視覺相關(guān)性生成。Flamingo的訓(xùn)練參數(shù)遠(yuǎn)高于Frozen,因此采用了大量的數(shù)據(jù):1)MultiModal MassiveWeb(M3W) dataset:從43million的網(wǎng)頁上收集的圖文混合數(shù)據(jù),轉(zhuǎn)化為圖文交叉排列的序列(根據(jù)網(wǎng)頁上圖片相對位置,決定在轉(zhuǎn)化為序列后,
BLIP2采用了類似于Flamingo的視覺編碼結(jié)構(gòu),但是采用了更復(fù)雜的訓(xùn)練策略。其包含兩階段訓(xùn)練,第一階段主要想讓視覺編碼器學(xué)會(huì)提取最關(guān)鍵的視覺信息,訓(xùn)練任務(wù)包括image-Text Contrastive Learning, Image-grounded Text Generation以及Image-Text Matching;第二階段則主要是將視覺編碼結(jié)構(gòu)的輸出適配LLM,訓(xùn)練任務(wù)也是language modeling。BLIP2的訓(xùn)練數(shù)據(jù)包括MSCOCO,Visual Genome,CC15M,SBU,115M來自于LAION400M的圖片以及BLIP在web images上生成的描述。BLIP2實(shí)現(xiàn)了很強(qiáng)的zero-shot capitoning以及VQA的能力,但是作者提到未觀察到其in-context learning的能力,即輸入樣例并不能提升它的性能。作者分析是因?yàn)橛?xùn)練數(shù)據(jù)里不存在Flamingo使用的圖文交錯(cuò)排布的數(shù)據(jù)。不過Frozen也是沒有用這類數(shù)據(jù),但是也觀察到了一定的in-context learning能力。因此多模態(tài)的in-context learning能力可能和訓(xùn)練數(shù)據(jù)、訓(xùn)練任務(wù)以及位置編碼方法等都存在相關(guān)性。
總結(jié)
“利用LLM作為理解中樞調(diào)用多模態(tài)模型”可以方便快捷地基于LLM部署一個(gè)多模態(tài)理解和生成系統(tǒng),難點(diǎn)主要在于prompt engineering的設(shè)計(jì)來調(diào)度不同的多模態(tài)模型;
“將視覺轉(zhuǎn)化為文本,作為LLM的輸入”和“利用視覺模態(tài)影響LLM的解碼”可以直接利用LLM做一些多模態(tài)任務(wù),但是可能上限較低,其表現(xiàn)依賴于外部多模態(tài)模型的能力;
“訓(xùn)練視覺編碼器等額外結(jié)構(gòu)以適配LLM”具有更高的研究價(jià)值,因?yàn)槠渚邆鋵⑷我饽B(tài)融入LLM,實(shí)現(xiàn)真正意義多模態(tài)模型的潛力,其難點(diǎn)在于如何實(shí)現(xiàn)較強(qiáng)的in-context learning的能力。
審核編輯:劉清
-
解碼器
+關(guān)注
關(guān)注
9文章
1129瀏覽量
40636 -
編碼器
+關(guān)注
關(guān)注
45文章
3573瀏覽量
133980 -
視覺編程
+關(guān)注
關(guān)注
0文章
2瀏覽量
1804 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1546瀏覽量
7356
原文標(biāo)題:利用大語言模型做多模態(tài)任務(wù)
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論