0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌重磅新作PaLI-3:視覺語言新模型!更小、更快、更強

CVer ? 來源:機器之心 ? 2023-10-20 16:21 ? 次閱讀

在多模態(tài)(視覺語言)大模型領域,拼參數(shù)贏性能的同時,追求參數(shù)更小、速度更快、性能更強是另一條研究路徑。

在大模型時代,視覺語言模型(VLM)的參數(shù)已經(jīng)擴展到了數(shù)百甚至數(shù)千億,使得性能持續(xù)增加。與此同時,更小規(guī)模的模型仍然很重要,它們更易于訓練和服務,更加環(huán)境友好,并為模型設計提供更快的研究周期。

在該領域,谷歌研究院在去年推出了一個名為 PaLI(Pathways Language and Image)的模型。作為一個多模態(tài)大模型,PaLI 的關鍵結構之一是復用大型單模態(tài)基干進行語言和視覺建模,在語言方面復用 13B 參數(shù)的 mT5-XXL,在視覺方面復用 2B 參數(shù)的 ViT-G 和 4B 參數(shù)的 ViT-e。當時 PaLI 實現(xiàn)了優(yōu)于多數(shù)新舊模型的性能。

此后谷歌繼續(xù)專注于更小規(guī)模的建模,并于近日提出 PaLI-3,這是 PaLI 系列的第三代模型。通過一個僅有 5B 參數(shù)的預訓練基線模型,他們優(yōu)化了訓練方法,并在多個 VLM 基準上實現(xiàn)了有競爭力以及新的 SOTA 結果。

該方法主要由三部分組成,分別是在 web 規(guī)模的圖像文本數(shù)據(jù)上對圖像編碼器的對比預訓練、用于 PaLI 多模態(tài)訓練的改進后的混合數(shù)據(jù)集,以及更高分辨率的訓練。

eb59ac64-6f13-11ee-939d-92fbcf53809c.png

作者來自谷歌研究院、谷歌DeepMind和谷歌云。

論文地址:https://arxiv.org/abs/2310.09199

下圖為 5B PaLI-3 模型概覽,其中通過對比預訓練的 2B SigLIP 視覺模型,圖像被單獨地編碼成了視覺 token。接著與 query 一起,這些視覺 token 被傳遞給了 3B 編碼器 - 解碼器結構的 UL2 Transformer,它生成了預期答案。在這樣的設置下,與之前 PaLI 模型中單個分類預訓練的模型,對比預訓練的模型提供了明顯更有用的 token。

eb6fd372-6f13-11ee-939d-92fbcf53809c.png

效果怎么樣呢?PaLI-3 在需要視覺定位文本理解和目標定位的任務上實現(xiàn)了新的 SOTA,包括 RefCOCO 數(shù)據(jù)集上的 8 個視覺定位文本理解任務和參考表達分割任務。PaLI-3 也在一系列分類視覺任務上有出色的表現(xiàn)。

此外研究者還專門做了消融實驗以與分類預訓練的 ViT 基線模型比較,并進一步確認了預訓練視覺編碼器在有噪聲 web 規(guī)模的圖像文本數(shù)據(jù)上的可行性,從而成為在分類數(shù)據(jù)上進行訓練的優(yōu)先替代方案。

除了 5B PaLI-3 模型之外,研究者還利用最近提出的 SigLIP 方法,構建了一個參數(shù)擴展到 2B 的 SOTA 多語言對比視覺模型。

模型介紹

架構

在更高的層面,PaLI-3 的架構遵循了 Chen et al. (2023b;a):ViT 模型將圖像編碼為 token,并與問題、提示和指令等文本輸入一起被傳遞到編碼器 - 解碼器結構的 transformer,從而生成文本輸出。

先看視覺組件。研究者使用 SigLIP 訓練方法,從對比預訓練的 ViT-G/14 模型(參數(shù)約為 2B)初始化出 PaLI-3 的視覺基干。簡而言之,他們訓練了圖像嵌入 ViT-G/14 模型和文本嵌入 transformer 模型來分別嵌入圖像和文本,這樣一來,使用圖像和文本嵌入點積的 sigmoid 交叉熵的二元分類器,能夠準確地分類各自的圖像和文本是否相互對應。

這類似于 CLIP 和 ALIGN,但更加高效、可擴展和穩(wěn)健。同時這種方法是為了預訓練 ViT 圖像嵌入組件,因此當將 ViT 插入到 PaLI 時,文本嵌入 transformer 會被丟棄。

再來看完整的 PaLI 模型。ViT 圖像編碼器的輸出在池化之前形成了視覺 token,并線性地映射和添加到嵌入的輸入文本 token。接著這些 token 被傳遞到了預訓練的 3B UL2 編碼器 - 解碼器模型,從而生成文本輸出。該模型的文本輸入通常包含有描述任務類型的提示,并為該任務編碼必要的文本輸入。

訓練

訓練過程包含多個階段。

階段 0:單峰預訓練。圖像編碼器按照 SigLIP 訓練協(xié)議,圖像編碼器的訓練分辨率為 224×224 ;文本編碼器 - 解碼器是一個 3B UL2 模型,按照 Tay 等人描述的混合降噪程序進行訓練。

階段 1:多模態(tài)訓練。將圖像編碼器與文本編碼器 - 解碼器相結合,然后,將這個組合得到的 PaLI 模型在多模態(tài)任務和數(shù)據(jù)上進行訓練,此時,圖像編碼器保持凍結,分辨率還是 224×224。通過對文本質(zhì)量進行啟發(fā)式過濾,并使用 SplitCap 訓練目標,再次從 WebLI 數(shù)據(jù)集派生出主要的混合組件。

階段 2:提升分辨率。高分辨率輸入是一種被廣泛接受的提高性能的方法,這既是因為可以感知圖像中的更多細節(jié),也是因為通過增加序列長度來提高模型能力。本文通過解凍圖像編碼器來提高 PaLI-3 的分辨率,將檢查點保持在 812×812 和 1064×1064 分辨率。

任務遷移。最后,對于每個單獨的任務(基準),本文使用凍結的 ViT 圖像編碼器在任務的訓練數(shù)據(jù)上微調(diào) PaLI-3 模型;對于大多數(shù)任務,本文微調(diào) 812×812 分辨率檢查點,但對于兩個文檔理解任務,本文將分辨率提高到 1064×1064。

實驗及結果

實驗首先比較了在 PaLI 框架下不同 ViT 模型的結果對比,研究者考慮了兩種 ViT 模型:Classif 和 SigLIP。

結果如表 1 所示,表明雖然 SigLIP 模型的少樣本線性分類有些落后,但通過使用 PaLI-3,SigLIP 模型在更簡單的任務上(例如字幕和問答)提供了適度的增益,并且在更復雜的場景即文本和空間理解任務上取得了巨大增益。

eb7dbafa-6f13-11ee-939d-92fbcf53809c.png

此外,研究者還在 TextCaps、TextVQA、STVQA、OCRVQA、InfographicVQA、DocVQA、ChartQA、Scree2Words、 WidgetCap 數(shù)據(jù)集上評估了 PaLI-3。結果如表 2 所示,在使用外部 OCR 系統(tǒng)的情況下,PaLI-3 僅比 SOTA 方法低 0.7 分。然而,在沒有這種外部系統(tǒng)的情況下,PaLI-3 比所有 SOTA 方法的組合高出 4.4 分。對于 TextCaps、TextVQA、InfographicVQA 和 DocVQA,PaLI-3 的優(yōu)勢超多 8 分甚至更多。

eb89d682-6f13-11ee-939d-92fbcf53809c.png

參考表達分割

研究者擴展了 PaLI-3,使其能夠通過類語言輸出來預測分割掩碼。為此,他們利用了 Ning et al. (2023) 的向量量化變分自編碼器(VQ-VAE)。VQ-VAE 經(jīng)過訓練可以學習 128 個掩碼 token,其編碼器可以將 64 × 64 像素的分割掩碼標記為 16 個掩碼 token,解碼器可以轉(zhuǎn)換回來。

研究者訓練 PaLI-3 來預測單個分割掩碼,首先輸出 4 個坐標作為文本,并表示為邊界框。接著是 16 個掩碼 token,表示邊界框內(nèi)的掩碼。

表 1 表明對于此類定位任務,對比預訓練比分類預訓練更有效。下表 3 顯示,完整的 PaLI-3 模型在參考表達分割方面略微優(yōu)于現(xiàn)有技術。

eba1f9d8-6f13-11ee-939d-92fbcf53809c.png

圖像理解

接下來研究者在一般視覺語言理解任務上評估了 PaLI-3。與之前的工作一樣,他們沒有使用外部 OCR 模塊,因為這些基準測試很少涉及圖像中的文本。

結果表明,與最近的 SOTA 模型相比,PaLI-3 的尺寸要小得多,但它在這些基準測試中表現(xiàn)出了非常強大的性能。對于 COCO,PaLI-3 優(yōu)于除 BEiT-3 以及 17B 和 55B PaLI 之外的所有模型。在 VQAv2 和 TallyQA 上,PaLI-3 超過了除 PaLI-X 之外的所有先前模型。對于 OKVQA 任務,PaLI-3 僅落后于 PaLM-E (562B) 和 PaLI-X (55B),但仍然優(yōu)于 32-shot Flamingo (80B) 模型。

ebb39ae4-6f13-11ee-939d-92fbcf53809c.png

視頻字幕和問答

該研究在 4 個視頻字幕基準上對 PaLI-3 模型進行了微調(diào)和評估:MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。此外,該研究在 3 個視頻問答基準上進行了同樣的操作:NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。

盡管沒有使用視頻數(shù)據(jù)進行預訓練,PaLI-3 仍以較小的模型尺寸實現(xiàn)了出色的視頻 QA 結果:在 MSR-VTT-QA 和 ActivityNet-QA 上實現(xiàn)了最先進的性能,并在 NextQA 上取得了具有競爭力的結果。在圖像和視頻 QA 上的持續(xù)改進凸顯了采用對比 ViT 的好處。

此外,PaLI-3 還取得了非常好的視頻字幕結果,平均僅比 SOTA 結果低 3 個 CIDEr 點。考慮到模型尺寸,PaLI-3 在性能和實用性方面似乎都是一個絕佳的選擇。

直接圖像編碼器評估

研究者還評估了 ViT-G 模型,ViT-G 可以理解為不是完整的 PaLI-3,結果如表 6 所示。

首先,該研究使用標準的 ImageNet 基準測試及其兩個最流行的變體來測試圖像分類功能。結果表明,SigLIP 在 top-1 和 v2 準確率方面略有落后,但在 ReaL 方面結果相當。

其次,該研究報告了不同模型在 Crossmodal-3600 基準上的結果。結果表明 SigLIP ViT-G 模型明顯優(yōu)于較大的 ViT-e 模型。

最后,該研究還報告了線性 probing 結果,結果表明 SigLIP 不及其他模型。

ebbecc20-6f13-11ee-939d-92fbcf53809c.png

表 7 和表 8 評估了模型的公平性、偏差和其他潛在問題。

ebcb19c6-6f13-11ee-939d-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3574

    瀏覽量

    133983
  • 語言模型
    +關注

    關注

    0

    文章

    501

    瀏覽量

    10236
  • 大模型
    +關注

    關注

    2

    文章

    2278

    瀏覽量

    2359

原文標題:谷歌重磅新作PaLI-3:視覺語言新模型!更小、更快、更強

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何利用Transformers了解視覺語言模型

    模型稱為 “視覺語言模型是什么意思?一個結合了視覺語言模態(tài)的
    發(fā)表于 03-03 09:49 ?993次閱讀
    如何利用Transformers了解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    下游任務提供豐富的文本表示,如谷歌公司推出的BERT。(2) Decoder-Only 預訓練語言模型:這類模型一般使用單向的 Decoder 結構,通常擅長生成任務,如OpenAI
    發(fā)表于 05-05 12:17

    谷歌交互世界模型重磅發(fā)布

    谷歌模型
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年02月28日 09:13:06

    微型光纜的發(fā)展趨勢:更小、更快更強

    更小、更快、更優(yōu) 這是多年來光纜的發(fā)展趨勢。隨著色散補償技術的發(fā)明以及人們對提高光纖可靠性等問題的關注,更快、更優(yōu)無疑是20世紀90年代所倡導的目標。
    發(fā)表于 03-29 16:15 ?2426次閱讀
    微型光纜的發(fā)展趨勢:<b class='flag-5'>更小</b>、<b class='flag-5'>更快</b>、<b class='flag-5'>更強</b>韌

    微型PLC:更酷、更小、更快

    微型PLC:更酷、更小、更快
    的頭像 發(fā)表于 05-30 13:22 ?2654次閱讀

    谷歌提出MorphNet:網(wǎng)絡規(guī)模更小、速度更快!

    谷歌已經(jīng)將 MorphNet 應用到其多個生產(chǎn)級圖像處理模型中。MorphNet 可帶來模型大小/FLOPs 的顯著降低,且?guī)缀醪粫斐少|(zhì)量損失。
    的頭像 發(fā)表于 04-22 16:15 ?1854次閱讀
    <b class='flag-5'>谷歌</b>提出MorphNet:網(wǎng)絡規(guī)模<b class='flag-5'>更小</b>、速度<b class='flag-5'>更快</b>!

    谷歌推出1.6萬億參數(shù)的人工智能語言模型,打破GPT-3記錄

    ? 古諺道:“熟讀唐詩三百首,不會作詩也會吟?!?這句話放在目前的人工智能語言模型中也非常適用。 此前,OpenAI 的研究人員開發(fā)出 “GPT-3”,這是一個由 1750 億個參數(shù)組成的 AI
    的頭像 發(fā)表于 01-18 17:16 ?2287次閱讀

    谷歌開發(fā)出超過一萬億參數(shù)的語言模型,秒殺GPT-3

    繼GPT-3問世僅僅不到一年的時間,Google重磅推出Switch Transformer,直接將參數(shù)量從GPT-3的1750億拉高到1.6萬億,并比之前最大的、由google開發(fā)的語言
    的頭像 發(fā)表于 01-27 16:26 ?2103次閱讀
    <b class='flag-5'>谷歌</b>開發(fā)出超過一萬億參數(shù)的<b class='flag-5'>語言</b><b class='flag-5'>模型</b>,秒殺GPT-<b class='flag-5'>3</b>

    谷歌多模態(tài)大模型PaLI研究神經(jīng)網(wǎng)絡

    語言視覺任務的建模中,更大的神經(jīng)網(wǎng)絡模型能獲得更好的結果,幾乎已經(jīng)是共識。在語言方面,T5、GPT-3、Megatron-Turing、G
    的頭像 發(fā)表于 10-09 14:18 ?1094次閱讀

    谷歌提出PaLI:一種多模態(tài)大模型,刷新多個任務SOTA!

    PaLI 使用單獨 “Image-and-text to text” 接口執(zhí)行很多圖像、語言以及 "圖像 + 語言" 任務。PaLI 的關鍵結構之一是重復使用大型單模態(tài) backbon
    的頭像 發(fā)表于 01-29 11:25 ?1437次閱讀

    【機器視覺】歡創(chuàng)播報 | 谷歌發(fā)布人工智能語言模型PaLM 2

    1 谷歌發(fā)布人工智能語言模型PaLM 2 在11日凌晨的谷歌I/O大會上,谷歌CEO桑達爾·皮查伊發(fā)布了人工智能
    的頭像 發(fā)表于 05-11 13:40 ?670次閱讀

    機器人基于開源的多模態(tài)語言視覺模型

    ByteDance Research 基于開源的多模態(tài)語言視覺模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發(fā)表于 01-19 11:43 ?352次閱讀
    機器人基于開源的多模態(tài)<b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    谷歌模型合成軟件有哪些

    谷歌模型合成軟件通常指的是谷歌提供的用于創(chuàng)建、修改和共享3D模型的軟件。目前,谷歌推出的
    的頭像 發(fā)表于 02-29 18:20 ?1310次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌
    的頭像 發(fā)表于 03-01 16:20 ?578次閱讀

    谷歌發(fā)布新型大語言模型Gemma 2

    在人工智能領域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發(fā)人員,正式發(fā)布了其最新研發(fā)的大語言模型——Ge
    的頭像 發(fā)表于 06-29 09:48 ?391次閱讀