很榮幸我們近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023錄用!
https://arxiv.org/abs/2305.08381
這是我們第一篇拓展至多模態(tài)領(lǐng)域的高效微調(diào)的工作,在該工作中我們首次采用模式逼近(mode apprximation)的方法來(lái)進(jìn)行大模型的輕量化高效微調(diào),僅需訓(xùn)練預(yù)訓(xùn)練大模型0.04%的參數(shù)。同時(shí)我們?cè)O(shè)計(jì)了兩個(gè)啟發(fā)性模塊來(lái)增強(qiáng)高效微調(diào)時(shí)極低參數(shù)條件下的模態(tài)對(duì)齊。實(shí)驗(yàn)上,我們?cè)诹罂缒B(tài)基準(zhǔn)測(cè)試集上進(jìn)行全面評(píng)估顯示,我們的方法不僅超越當(dāng)前的sota, 還在一些任務(wù)上優(yōu)于全量微調(diào)方法。
論文的相關(guān)代碼也會(huì)開(kāi)源在這個(gè)GitHub項(xiàng)目:
github.com/WillDreamer/Aurora
大模型的高效微調(diào)是一個(gè)非常新且日漸繁榮的task,歡迎小伙伴們一起學(xué)習(xí)交流~
一、背景
深度學(xué)習(xí)的大模型時(shí)代已經(jīng)來(lái)臨,越來(lái)越多的大規(guī)模預(yù)訓(xùn)練模型在文本、視覺(jué)和多模態(tài)領(lǐng)域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量有兩個(gè)明顯缺點(diǎn)。第一,它帶來(lái)巨大的計(jì)算和物理存儲(chǔ)成本,使預(yù)訓(xùn)練和遷移變得非常昂貴。第二,微調(diào)限制了預(yù)訓(xùn)練知識(shí)在小規(guī)模數(shù)據(jù)量的下游任務(wù)中的應(yīng)用效果。這兩點(diǎn)阻礙了大模型從特定數(shù)據(jù)集擴(kuò)展到更廣泛場(chǎng)景。
為緩解預(yù)訓(xùn)練大模型的高昂成本,一系列參數(shù)高效微調(diào)方法相繼提出。其通用范式是凍結(jié)大模型的骨干網(wǎng)絡(luò),并引入少量額外參數(shù)。最近,一些工作開(kāi)始關(guān)注多模態(tài)領(lǐng)域的高效微調(diào)任務(wù),例如UniAdapter、VL-Adapter和MAPLE。但是,它們的通用思路是將自然語(yǔ)言處理領(lǐng)域的現(xiàn)有架構(gòu)用于多模態(tài)模型并組合使用,然后直接在單模態(tài)和多模態(tài)分支的骨干網(wǎng)絡(luò)中插入可訓(xùn)練參數(shù)以獲得良好表現(xiàn)。直接、簡(jiǎn)單的設(shè)計(jì)無(wú)法將參數(shù)高效遷移的精髓融入多模態(tài)模型。此外,還有兩個(gè)主要挑戰(zhàn)需要面對(duì): (1)如何在極輕量級(jí)高效微調(diào)框架下進(jìn)行知識(shí)遷移;(2)在極低參數(shù)環(huán)境下如何提高各模態(tài)間的對(duì)齊程度。
圖1:與現(xiàn)有主流的高效微調(diào)方法的對(duì)比
在這篇文章中,我們嘗試解決這兩種挑戰(zhàn),貢獻(xiàn)可以總結(jié)為:
介紹了名為Aurora的多模態(tài)基礎(chǔ)大模型高效微調(diào)框架,它解決了當(dāng)前大規(guī)模預(yù)訓(xùn)練和微調(diào)策略的局限性。
提出了模式近似(mode approximation)方法來(lái)生成輕量級(jí)可學(xué)習(xí)參數(shù),并提出了兩個(gè)啟發(fā)性模塊來(lái)更好地增強(qiáng)模態(tài)融合。
通過(guò)六個(gè)跨模態(tài)任務(wù)和兩個(gè)零樣本任務(wù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示Aurora相比其他方法取得了最先進(jìn)的性能,同時(shí)也只使用最少的可學(xué)習(xí)參數(shù)。
二、高效微調(diào)的輕量化架構(gòu)的設(shè)計(jì)
Aurora的整體過(guò)程示意圖。
三、高效微調(diào)的模態(tài)對(duì)齊的設(shè)計(jì)
3.1 Informative Context Enhancement
該模塊的目標(biāo)是為了實(shí)現(xiàn)更好的模態(tài)對(duì)齊,在交叉注意力模塊后的融合特征中提供提示文本來(lái)更好的激活。受“上下文學(xué)習(xí)”這一領(lǐng)域的進(jìn)步啟發(fā),我們意識(shí)到為提示詞提供示范模板是很重要的。最直觀的方法是對(duì)圖像與文本對(duì)進(jìn)行對(duì)齊,以獲得更多跨模態(tài)上下文信息。但是,即使與相關(guān)圖像區(qū)域匹配,描述這些區(qū)域的文本可能還是有多個(gè)選擇。一些文本可能準(zhǔn)確概括圖像內(nèi)容,而另一些可能不行。在沒(méi)有事先匹配文本信息的先驗(yàn)情況下,我們決定引入上下文增強(qiáng)模塊來(lái)涵蓋各個(gè)方面的可能的文本信息。
四、實(shí)驗(yàn)結(jié)果
4.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集與基準(zhǔn)比較。我們?cè)诹鶄€(gè)跨模態(tài)任務(wù)領(lǐng)域的benchmark上評(píng)估了Aurora,這些任務(wù)包括圖片文本檢索、問(wèn)答(QA)、視頻文本檢索和視頻QA。我們將Aurora與兩類(lèi)方法進(jìn)行比較:完全微調(diào)后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多細(xì)節(jié)請(qǐng)參閱附錄。
實(shí)現(xiàn)細(xì)節(jié)。我們的實(shí)現(xiàn)基于Salesforce開(kāi)源代碼庫(kù)。與UniAdapter一致,我們使用BLIP-base作為所有多模態(tài)下游任務(wù)的視覺(jué)語(yǔ)言初始化權(quán)重。我們使用PyTorch在8臺(tái)NVIDIA V100 GPU(32G)設(shè)備上實(shí)現(xiàn)所有實(shí)驗(yàn)。我們使用AdamW優(yōu)化器,設(shè)置權(quán)重衰減為0.05,學(xué)習(xí)率通過(guò)網(wǎng)格搜索得到為1e-4。需要注意的是,在微調(diào)過(guò)程中,參數(shù)組只更新交叉注意模塊的權(quán)重, backbone初始化權(quán)重不更新。
4.2 實(shí)驗(yàn)結(jié)果
Image-Text Retrieval
Video-Text Retrieval
VQA
實(shí)驗(yàn)氣泡圖
4.3 消融實(shí)驗(yàn)
How Rank of CP Decomposition Affects Aurora?
How Does Aurora Benefit from Informative Context Enhancement
How Does Aurora Benefit from Gated Query Transformation?
How Does Aurora Benefit from Parameter Sharing?
4.4 可視化分析
參數(shù)分布可視化
Video-Text retrieval cases on MSRVTT
Video Question Answering cases on MSRVTT-QA
-
框架
+關(guān)注
關(guān)注
0文章
398瀏覽量
17404 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120889 -
大模型
+關(guān)注
關(guān)注
2文章
2274瀏覽量
2356
原文標(biāo)題:NeurIPS 2023 | 北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào)
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論