0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

任意文本、視覺、音頻混合生成,多模態(tài)有了強大的基礎引擎CoDi-2

智能感知與物聯(lián)網(wǎng)技術研究所 ? 來源:未知 ? 2023-12-03 20:20 ? 次閱讀
研究者表示,CoDi-2 標志著在開發(fā)全面的多模態(tài)基礎模型領域取得了重大突破。

今年 5 月,北卡羅來納大學教堂山分校、微軟提出一種可組合擴散(Composable Diffusion,簡稱 CoDi)模型,讓一種模型統(tǒng)一多種模態(tài)成為可能。CoDi 不僅支持從單模態(tài)到單模態(tài)的生成,還能接收多個條件輸入以及多模態(tài)聯(lián)合生成。

近日,UC 伯克利、微軟 Azure AI、Zoom、北卡羅來納大學教堂山分校等多個機構的研究者將 CoDi 升級到了 CoDi-2。

wKgaomVsc6OAeaxrAAEl2u7reAU239.png

  • 論文地址:https://arxiv.org/pdf/2311.18775.pdf

  • 項目地址:https://codi-2.github.io/

項目 demo

論文一作 Zineng Tang 表示,「CoDi-2 遵循復雜的多模態(tài)交錯上下文指令,以零樣本或少樣本交互的方式生成任何模態(tài)(文本、視覺和音頻)?!?/span>

wKgaomVsc6OAYmXrAAI_ZkWK0sY869.png

圖源:https://twitter.com/ZinengTang/status/1730658941414371820

可以說,作為一種多功能、交互式的多模態(tài)大語言模型(MLLM),CoDi-2 能夠以 any-to-any 輸入-輸出模態(tài)范式進行上下文學習、推理、聊天、編輯等任務。通過對齊編碼與生成時的模態(tài)與語言,CoDi-2 使 LLM 不僅可以理解復雜的模態(tài)交錯指令和上下文示例, 還能在連續(xù)的特征空間內自回歸地生成合理和連貫的多模態(tài)輸出。

而為了訓練 CoDi-2,研究者構建了一個大規(guī)模生成數(shù)據(jù)集,包含了跨文本、視覺和音頻的上下文多模態(tài)指令。CoDi-2 展示了一系列多模態(tài)生成的零樣本能力,比如上下文學習、推理以及通過多輪交互對話實現(xiàn)的 any-to-any 模態(tài)生成組合。其中在主題驅動圖像生成、視覺轉換和音頻編輯等任務上超越了以往領域特定的模型。

wKgaomVsc6OATom_AAWunzoj2p0816.png

人類與 CoDi-2 的多輪對話為圖像編輯提供了上下文多模態(tài)指令。

模型架構

CoDi-2 在設計時旨在處理上下文中的文本、圖像和音頻等多模態(tài)輸入,利用特定指令促進上下文學習并生成相應的文本、圖像和音頻輸出。CoDi-2 模型架構圖如下所示。

wKgaomVsc6OAdK65AAKOrejz7vs577.png

將多模態(tài)大語言模型作為基礎引擎

這種 any-to-any 基礎模型可以消化交錯式模態(tài)輸入,理解和推理復雜指令(如多輪對話、上下文示例),并與多模態(tài)擴散器交互,實現(xiàn)這一切的前提是需要一個強大的基礎引擎。研究者提出將 MLLM 作為這個引擎,它的構建需要為僅文本的 LLM 提供多模態(tài)感知。

利用對齊的多模態(tài)編碼器映射,研究者可以無縫地使 LLM 感知到模態(tài)交錯的輸入序列。具體地,在處理多模態(tài)輸入序列時,他們首先使用多模態(tài)編碼器將多模態(tài)數(shù)據(jù)映射到特征序列,然后特殊 token 被添加到特征序列的前后,比如「?audio? [audio feature sequence] ?/audio?」。

基于 MLLM 的多模態(tài)生成

研究者提出將擴散模型(DM)集成到 MLLM 中,從而生成多模態(tài)輸出,這里遵循細致入微的多模態(tài)交錯指令和提示。擴散模型的訓練目標如下所示:

wKgaomVsc6SAdyM-AAB6GX4e-Ac131.png

接著他們提出訓練 MLLM 以生成條件式特征 c = C_y (y),該特征被饋入到擴散模型中以合成目標輸出 x。這樣一來,擴散模型的生成損失被用來訓練 MLLM。

任務類型

本文提出的模型在以下示例任務類型中顯示出強大的能力,它提供了一種獨特的方法來提示模型生成或轉換上下文中的多模態(tài)內容,包括本文、圖像、音頻、視頻及其組合。

1. 零樣本提示。零樣本提示任務要求模型在沒有任何先前示例的情況下進行推理并生成新內容。

2. 一次/少量樣本提示。一次或少量樣本提示為模型提供了一個或幾個示例,以便在執(zhí)行類似任務之前從中學習。這種方法在以下任務中很明顯:模型將學習到的概念從一個圖像應用到另一個圖像,或者通過理解所提供示例中描述的風格來創(chuàng)建一個新的藝術品。

(1)范例學習在要求模型將此學習應用于新實例之前,向模型顯式顯示期望輸出的示例。(2)概念學習涉及模型從這些給定示例的共享概念/屬性中學習,例如藝術風格或模式,然后創(chuàng)建展示類似概念/屬性的新內容。(3)主題驅動的學習側重于根據(jù)一組提供的圖像生成新的內容。

實驗及結果

模型設置

本文模型的實現(xiàn)基于 Llama2,特別是 Llama-2-7b-chat-hf。研究者使用 ImageBind ,它具有對齊的圖像、視頻、音頻、文本、深度、thermal 和 IMU 模式編碼器。研究者使用 ImageBind 對圖像和音頻特征進行編碼,并通過多層感知器(MLP)將其投射到 LLM(Llama-2-7b-chat-hf)的輸入維度。MLP 由線性映射、激活、歸一化和另一個線性映射組成。當 LLM 生成圖像或音頻特征時,他們通過另一個 MLP 將其投射回 ImageBind 特征維度。本文圖像擴散模型基于 StableDiffusion2.1 (stabilityai/stable-diffusion-2-1-unclip)、AudioLDM2 和 zeroscope v2。

對于需要更高保真原始輸入的圖像或音頻,研究者還將原始圖像或音頻輸入到擴散模型中,同時通過連接擴散噪聲生成特征。這種方法在保留輸入內容的最大感知特征方面尤為有效,添加新內容或改變風格等指令編輯也是如此。

圖像生成評估

下圖展示了 Dreambench 上主題驅動圖像生成的評估結果和 MSCOCO 上的 FID 分數(shù)。本文方法實現(xiàn)了極具競爭力的零樣本性能,顯示了其對未知新任務的泛化能力。

wKgaomVsc6SAdPG5AAGrw4P79Wg155.png

音頻生成評估

表 5 展示了音頻處理任務的評估結果,即添加、刪除和替換音軌中的元素。從表中可以明顯看出,與之前的方法相比,本文方法表現(xiàn)出了卓越的性能。值得注意的是,在所有三個編輯任務中,它在所有指標 — 對數(shù)譜距離(LSD)、Kullback-Leibler(KL)發(fā)散和 Fréchet Dis- tance(FD)上都取得了最低得分。

wKgaomVsc6SAfoACAAIrPGvX02A094.png


原文標題:任意文本、視覺、音頻混合生成,多模態(tài)有了強大的基礎引擎CoDi-2

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:任意文本、視覺、音頻混合生成,多模態(tài)有了強大的基礎引擎CoDi-2

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于Qwen-Agent與OpenVINO構建本地AI智能體

    Qwen2 是阿里巴巴集團 Qwen 團隊研發(fā)的大語言模型和大型模態(tài)模型系列。Qwen2 具備自然語言理解、文本生成
    的頭像 發(fā)表于 07-26 09:54 ?587次閱讀
    基于Qwen-Agent與OpenVINO構建本地AI智能體

    阿里云通義大模型助力“小愛同學”強化模態(tài)AI生成能力

    小米的人工智能助手“小愛同學”近期與阿里云通義大模型達成戰(zhàn)略合作,共同提升其模態(tài)AI生成能力,特別是在圖片生成與理解方面。這次合作不僅將強化“小愛同學”的功能,還將在小米的多個產(chǎn)品線
    的頭像 發(fā)表于 05-13 09:19 ?601次閱讀

    人大系初創(chuàng)公司智子引擎發(fā)布全新模態(tài)大模型Awaker 1.0

    人大系初創(chuàng)公司智子引擎近日震撼發(fā)布新一代模態(tài)大模型Awaker 1.0,這一里程碑式的成果標志著公司在通用人工智能(AGI)領域取得了重要突破。與前代ChatImg序列模型相比,A
    的頭像 發(fā)表于 05-06 09:59 ?472次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語言理解、圖像識別及視頻生成模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互
    發(fā)表于 04-18 17:01 ?491次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型

    NVIDIA Edify模態(tài)架構升級,引領視覺生成式AI新紀元

    NVIDIA近日宣布,其用于視覺生成式AI的模態(tài)架構Edify迎來重大更新,為開發(fā)者和視覺內容提供商帶來前所未有的新功能。其中,3D資產(chǎn)
    的頭像 發(fā)表于 03-27 10:22 ?329次閱讀

    NVIDIA Edify為視覺內容提供商帶來3D生成式AI和全新圖像控件

    用于視覺生成式 AI 的模態(tài)架構 NVIDIA Edify 正在邁入全新維度。
    的頭像 發(fā)表于 03-26 09:49 ?577次閱讀

    機器人基于開源的模態(tài)語言視覺大模型

    ByteDance Research 基于開源的模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發(fā)表于 01-19 11:43 ?293次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語言<b class='flag-5'>視覺</b>大模型

    什么是模態(tài)?模態(tài)的難題是什么?

    模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強的通用性,比如對圖片中任意物體進行分割,或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?3809次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>?<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的難題是什么?

    自動駕駛和模態(tài)大語言模型的發(fā)展歷程

    模態(tài)大語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結合,通過多模態(tài)對齊使它們能夠更高效地執(zhí)行各種任務,包括圖像分類、將
    發(fā)表于 12-28 11:45 ?413次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型的發(fā)展歷程

    成都匯陽投資關于模態(tài)驅動應用前景廣闊,上游算力迎機會!

    【Gemini 大模型主打模態(tài),性能對標 GPT-4】 當?shù)貢r間12月6日, 谷歌公司宣布推出其規(guī)模最大、功能最強的模態(tài)大模型 Gemini, 其最
    的頭像 發(fā)表于 12-18 13:08 ?391次閱讀
    成都匯陽投資關于<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>驅動應用前景廣闊,上游算力迎機會!

    大模型+模態(tài)的3種實現(xiàn)方法

    我們知道,預訓練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態(tài)的信息,讓其變得更強大
    的頭像 發(fā)表于 12-13 13:55 ?1363次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實現(xiàn)方法

    哈工大提出Myriad:利用視覺專家進行工業(yè)異常檢測的大型模態(tài)模型

    最近,大型模態(tài)(即視覺和語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務上表現(xiàn)
    的頭像 發(fā)表于 11-21 16:08 ?1307次閱讀
    哈工大提出Myriad:利用<b class='flag-5'>視覺</b>專家進行工業(yè)異常檢測的大型<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>模型

    北大&amp;華為提出:模態(tài)基礎大模型的高效微調

    深度學習的大模型時代已經(jīng)來臨,越來越多的大規(guī)模預訓練模型在文本、視覺模態(tài)領域展示出杰出的生成和推理能力。然而大模型巨大的參數(shù)量
    的頭像 發(fā)表于 11-08 16:20 ?564次閱讀
    北大&amp;華為提出:<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>基礎大模型的高效微調

    基于視覺模態(tài)觸覺感知系統(tǒng)

    傳統(tǒng)的模態(tài)/多任務觸覺感知系統(tǒng)通過集成多種傳感單元來達到模態(tài)觸覺信息的解耦,但其往往導致系統(tǒng)結構的復雜性,以及需要應對來自不同刺激間的干擾。
    發(fā)表于 10-18 11:24 ?709次閱讀
    基于<b class='flag-5'>視覺</b>的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>觸覺感知系統(tǒng)

    模態(tài)大模型企業(yè),智子引擎全國總部落戶南京江北

    智子引擎主要從事新一代人工智能低層引擎模態(tài)大模型的研究開發(fā)和商業(yè)化運營。本項目開發(fā)了應用水平模態(tài)
    的頭像 發(fā)表于 10-10 11:03 ?926次閱讀