0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

邱錫鵬團隊提出具有內(nèi)生跨模態(tài)能力的SpeechGPT,為多模態(tài)LLM指明方向

深度學(xué)習(xí)自然語言處理 ? 來源:機器之心 ? 2023-05-22 14:38 ? 次閱讀

「 SpeechGPT 為打造真正的多模態(tài)大語言模型指明了方向:將不同模態(tài)的數(shù)據(jù)(視覺,語音等)統(tǒng)一表示為離散單元集成在 LLM 之中,在跨模態(tài)數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練和指令微調(diào),來使得模型具有多模態(tài)理解和生成的能力,從而離 AGI 更進一步?!埂?復(fù)旦大學(xué)計算機學(xué)院教授邱錫鵬

5fb155f0-f7da-11ed-90ce-dac502259ad0.png

大型語言模型(LLM)在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時,多模態(tài)大型語言模型,如 GPT-4、PALM-E 和 LLaVA,已經(jīng)探索了 LLM 理解多模態(tài)信息的能力。然而,當(dāng)前 LLM 與通用人工智能(AGI)之間仍存在顯著差距。首先,大多數(shù)當(dāng)前 LLM 只能感知和理解多模態(tài)內(nèi)容,而不能自然而然地生成多模態(tài)內(nèi)容。其次,像圖像和語音這樣的連續(xù)信號不能直接適應(yīng)接收離散 token 的 LLM。 當(dāng)前的語音 - 語言(speech-language)模型主要采用級聯(lián)模式,即 LLM 與自動語音識別(ASR)模型或文本到語音(TTS)模型串聯(lián)連接,或者 LLM 作為控制中心,與多個語音處理模型集成以涵蓋多個音頻或語音任務(wù)。一些關(guān)于生成式口語語言模型的先前工作涉及將語音信號編碼為離散表示,并使用語言模型對其進行建模。 雖然現(xiàn)有的級聯(lián)方法或口語語言模型能夠感知和生成語音,但仍存在一些限制。首先,在級聯(lián)模型中,LLM 僅充當(dāng)內(nèi)容生成器。由于語音和文本的表示沒有對齊,LLM 的知識無法遷移到語音模態(tài)中。其次,級聯(lián)方法存在失去語音的附加語言信號(如情感和韻律)的問題。第三,現(xiàn)有的口語語言模型只能合成語音,而無法理解其語義信息,因此無法實現(xiàn)真正的跨模態(tài)感知和生成。 在本文中,來自復(fù)旦大學(xué)的張棟、邱錫鵬等研究者提出了 SpeechGPT,這是一個具有內(nèi)生跨模態(tài)對話能力的大型語言模型,能夠感知和生成多模態(tài)內(nèi)容。他們通過自監(jiān)督訓(xùn)練的語音模型對語音進行離散化處理,以統(tǒng)一語音和文本之間的模態(tài)。然后,他們將離散的語音 token 擴展到 LLM 的詞匯表中,從而賦予模型感知和生成語音的內(nèi)生能力。

5fc971d0-f7da-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2305.11000.pdf

demo 地址:https://0nutation.github.io/SpeechGPT.github.io/

GitHub 地址:https://github.com/0nutation/SpeechGPT

為了為模型提供處理多模態(tài)指令的能力,研究者構(gòu)建了第一個語音 - 文本跨模態(tài)指令遵循數(shù)據(jù)集 SpeechInstruct。具體而言,他們將語音離散化為離散單元(discrete unit),并基于現(xiàn)有的 ASR 數(shù)據(jù)集構(gòu)建跨模態(tài)的單元 - 文本(unit-text)對。同時,他們使用 GPT-4 構(gòu)建了針對多個任務(wù)的數(shù)百個指令,以模擬實際用戶的指令,具體見附錄 B。此外,為了進一步增強模型的跨模態(tài)能力,他們設(shè)計了「Chain-of-Modality」指令數(shù)據(jù),即模型接收語音命令,用文本思考過程,然后以語音形式輸出響應(yīng)。 為了實現(xiàn)更好的跨模態(tài)遷移和高效的訓(xùn)練,SpeechGPT 經(jīng)歷了三個階段的訓(xùn)練過程:模態(tài)適應(yīng)預(yù)訓(xùn)練、跨模態(tài)指令微調(diào)和 chain-of-modality 指令微調(diào)。第一階段通過離散語音單元連續(xù)任務(wù)實現(xiàn)了 SpeechGPT 的語音理解能力。第二階段利用 SpeechInstruct 改進了模型的跨模態(tài)能力。第三階段利用參數(shù)高效的 LoRA 微調(diào)進行進一步的模態(tài)對齊。 為了評估 SpeechGPT 的有效性,研究者進行了廣泛的人工評估和案例分析,以評估 SpeechGPT 在文本任務(wù)、語音 - 文本跨模態(tài)任務(wù)和口語對話任務(wù)上的性能。結(jié)果表明,SpeechGPT 在單模態(tài)和跨模態(tài)指令遵循任務(wù)以及口語對話任務(wù)方面展現(xiàn)出強大的能力。

5ff533b0-f7da-11ed-90ce-dac502259ad0.png

SpeechInstruct 由于公開可用的語音數(shù)據(jù)的限制和語音 - 文本任務(wù)的多樣性不足,研究者構(gòu)建了 SpeechInstruct,這是一個語音 - 文本跨模態(tài)指令遵循數(shù)據(jù)集。該數(shù)據(jù)集分為兩個部分,第一部分叫做跨模態(tài)指令,第二部分叫做 Chain-of-Modality 指令。SpeechInstruct 的構(gòu)建過程如圖 2 所示。

60053a12-f7da-11ed-90ce-dac502259ad0.png

SpeechGPT 研究者設(shè)計了一個統(tǒng)一的框架,以實現(xiàn)不同模態(tài)之間的架構(gòu)兼容性。如圖 2 所示,他們的模型有三個主要組件:離散單元提取器、大型語言模型和單元聲碼器。在這個架構(gòu)下,LLM 可以感知多模態(tài)輸入并生成多模態(tài)輸出。 離散單元提取器 離散單元提取器利用 Hidden-unit BERT(HuBERT)模型將連續(xù)的語音信號轉(zhuǎn)換為一系列離散單元的序列。 HuBERT 是一個自監(jiān)督模型,它通過對模型的中間表示應(yīng)用 k-means 聚類來為掩蔽的音頻片段預(yù)測離散標簽進行學(xué)習(xí)。它結(jié)合了 1-D 卷積層和一個 Transformer 編碼器,將語音編碼為連續(xù)的中間表示,然后使用 k-means 模型將這些表示轉(zhuǎn)換為一系列聚類索引的序列。隨后,相鄰的重復(fù)索引被移除,得到表示為6052d4c0-f7da-11ed-90ce-dac502259ad0.png的離散單元序列,K 表示聚類總數(shù)。 ?大型語言模型? 研究者采用 Meta AI 的 LLaMA 模型作為他們的大型語言模型。LLaMA 包括一個嵌入層、多個 Transformer 塊和一個語言模型頭層。LLaMA 的參數(shù)總數(shù)范圍從 7B 到 65B 不等。通過使用包含 1.0 萬億 token 的大規(guī)模訓(xùn)練數(shù)據(jù)集,LLaMA 在各種自然語言處理基準測試中展現(xiàn)出與規(guī)模更大的 175B GPT-3 相當(dāng)?shù)男阅堋??單元聲碼器? 由于 (Polyak et al., 2021) 中單個說話人單元聲碼器的限制,研究者訓(xùn)練了一個多說話人單元的 HiFi-GAN,用于從離散表示中解碼語音信號。HiFi-GAN 的架構(gòu)包括一個生成器 G 和多個判別器 D。生成器使用查找表(Look-Up Tables,LUT)來嵌入離散表示,并通過一系列由轉(zhuǎn)置卷積和具有擴張層的殘差塊組成的模塊對嵌入序列進行上采樣。說話人嵌入被連接到上采樣序列中的每個幀上。判別器包括一個多周期判別器(Multi-Period Discriminator,MPD)和一個多尺度判別器(Multi-Scale Discriminator,MSD),其架構(gòu)與 (Polyak et al., 2021) 相同。 ?實驗?跨模態(tài)指令遵循?? 如表 1 所示,當(dāng)提供不同的指令時,模型能夠執(zhí)行相應(yīng)的任務(wù)并根據(jù)這些輸入生成準確的輸出。 ?

606765de-f7da-11ed-90ce-dac502259ad0.png

口語對話 表 2 展示了 SpeechGPT 的 10 個口語對話案例。對話表明,在與人類的交互中,SpeechGPT 能夠理解語音指令并用語音作出相應(yīng)回應(yīng),同時遵守「HHH」標準(無害、有幫助、誠實)。

6071f972-f7da-11ed-90ce-dac502259ad0.png

局限性 盡管 SpeechGPT 展示出令人印象深刻的跨模態(tài)指令遵循和口語對話能力,但仍存在一些限制:

它不考慮語音中的語音外語言信息,例如無法以不同的情緒語調(diào)生成回應(yīng);

它在生成基于語音的回應(yīng)之前需要生成基于文本的回應(yīng);

由于上下文長度的限制,它無法支持多輪對話。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    44

    文章

    3529

    瀏覽量

    133261
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    313

    瀏覽量

    20835
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    487

    瀏覽量

    10201
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    247

    瀏覽量

    279

原文標題:邱錫鵬團隊提出具有內(nèi)生跨模態(tài)能力的SpeechGPT,為多模態(tài)LLM指明方向

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    學(xué)渣畢業(yè),近乎零基礎(chǔ),求大神指明方向

    面試老總出的題目,用vision模塊編程,外置攝像頭,發(fā)現(xiàn)ThinkPad標識中事先去除的紅點,學(xué)渣畢業(yè),近乎零基礎(chǔ),求大神指明方向
    發(fā)表于 02-23 09:15

    lABCIWQmultyWindows模態(tài)窗口2010

    lABCIWQmultyWindows模態(tài)窗口2010。
    發(fā)表于 05-17 17:47 ?0次下載

    文化場景下的模態(tài)情感識別

    自動情感識別是一個非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價值.本文探討了在文化場景下的模態(tài)情感識別問題.我們從語音聲學(xué)和面部表情等模態(tài)
    發(fā)表于 12-18 14:47 ?0次下載

    可解決數(shù)據(jù)異構(gòu)性問題的模態(tài)檢索方法

    隨著越來越多多模態(tài)數(shù)據(jù)的岀現(xiàn),模態(tài)檢索引起了廣泛的關(guān)注。模態(tài)檢索面臨一大挑戰(zhàn)
    發(fā)表于 03-26 14:29 ?10次下載
    可解決數(shù)據(jù)異構(gòu)性問題的<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>檢索方法

    基于語義耦合相關(guān)的判別式模態(tài)哈希特征表示學(xué)習(xí)算法

    基于哈希的模態(tài)檢索以其存儲消耗低、査詢速度快等優(yōu)點受到廣泛的關(guān)注。模態(tài)哈希學(xué)習(xí)的核心問題是如何對不同模態(tài)數(shù)據(jù)進行有效地共享語義空間嵌入學(xué)
    發(fā)表于 03-31 11:28 ?12次下載
    基于語義耦合相關(guān)的判別式<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>哈希特征表示學(xué)習(xí)算法

    中文模態(tài)對話數(shù)據(jù)集

    隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及模態(tài)的發(fā)展,在對話中引入模態(tài)信息已經(jīng)引起了大量學(xué)者的關(guān)注。目前已經(jīng)提出了各種各樣的
    的頭像 發(fā)表于 02-22 11:03 ?1199次閱讀
    中文<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>對話數(shù)據(jù)集

    ImageBind:模態(tài)之王,將6種模態(tài)全部綁定!

    最近,很多方法學(xué)習(xí)與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對。因此,視頻 - 音頻嵌入無法直接用于圖像 - 文本任務(wù),反之亦然。學(xué)習(xí)真正的聯(lián)合嵌入面臨的一個主要障礙是缺
    的頭像 發(fā)表于 05-11 09:30 ?887次閱讀
    ImageBind:<b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b>之王,將6種<b class='flag-5'>模態(tài)</b>全部綁定!

    如何利用LLM模態(tài)任務(wù)?

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放
    的頭像 發(fā)表于 05-11 17:09 ?808次閱讀
    如何利用<b class='flag-5'>LLM</b>做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>任務(wù)?

    團隊提出SpeechGPT具有內(nèi)模態(tài)能力的大語言模型

    雖然現(xiàn)有的級聯(lián)方法或口語語言模型能夠感知和生成語音,但仍存在一些限制。首先,在級聯(lián)模型中,LLM 僅充當(dāng)內(nèi)容生成器。由于語音和文本的表示沒有對齊,LLM 的知識無法遷移到語音模態(tài)中。
    的頭像 發(fā)表于 05-22 10:19 ?573次閱讀
    <b class='flag-5'>邱</b><b class='flag-5'>錫</b><b class='flag-5'>鵬</b><b class='flag-5'>團隊</b><b class='flag-5'>提出</b><b class='flag-5'>SpeechGPT</b>:<b class='flag-5'>具有</b><b class='flag-5'>內(nèi)</b><b class='flag-5'>生</b><b class='flag-5'>跨</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>能力</b>的大語言模型

    VisCPM:邁向多語言模態(tài)大模型時代

    可以大致分為兩類: 1. 在圖文(image-to-text generation)方面,以 GPT-4 代表的模態(tài)大模型,可以面向圖像進行開放域?qū)υ捄蜕疃韧评恚?2. 在文生圖
    的頭像 發(fā)表于 07-10 10:05 ?637次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型時代

    更強更通用:智源「悟道3.0」Emu模態(tài)大模型開源,在模態(tài)序列中「補全一切」

    熱度。Flamingo 具備強大的模態(tài)上下文少樣本學(xué)習(xí)能力。 Flamingo 走的技術(shù)路線是將大語言模型與一個預(yù)訓(xùn)練視覺編碼器結(jié)合,并插入可學(xué)習(xí)的層來捕捉
    的頭像 發(fā)表于 07-16 20:45 ?614次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型開源,在<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>序列中「補全一切」

    大模型+模態(tài)的3種實現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入
    的頭像 發(fā)表于 12-13 13:55 ?1349次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實現(xiàn)方法

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個備受關(guān)注的研究方向模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進行融合,以實現(xiàn)更加準確、高效的人工智能
    的頭像 發(fā)表于 12-15 14:28 ?7241次閱讀

    從Google模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

    前段時間Google推出Gemini模態(tài)大模型,展示了不凡的對話能力模態(tài)能力,其表現(xiàn)究竟如
    的頭像 發(fā)表于 12-28 11:19 ?1011次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型看后續(xù)大模型應(yīng)該具備哪些<b class='flag-5'>能力</b>

    自動駕駛和模態(tài)大語言模型的發(fā)展歷程

    模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注,其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合,通過多模態(tài)對齊使它們能夠更高效地執(zhí)
    發(fā)表于 12-28 11:45 ?411次閱讀
    自動駕駛和<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言模型的發(fā)展歷程