摘要
擁有指令跟隨能力的大型語言模型已經(jīng)徹底改變了人工智能領(lǐng)域。這些模型通過其自然語言界面展現(xiàn)出卓越的通用性,能夠應(yīng)對各種現(xiàn)實(shí)世界任務(wù)。
然而,它們的性能在很大程度上依賴于高質(zhì)量的示例數(shù)據(jù),通常難以獲得。當(dāng)涉及到多模態(tài)指令跟隨時(shí),這一挑戰(zhàn)進(jìn)一步加劇。
我們介紹了TextBind,這是一個(gè)幾乎無需注釋的框架,用于賦予更大型的語言模型多輪交織的多模態(tài)指令跟隨能力。
我們的方法僅需要圖像描述對,并從語言模型生成多輪多模態(tài)指令-響應(yīng)對話。我們發(fā)布了我們的數(shù)據(jù)集、模型和演示,以促進(jìn)未來在多模態(tài)指令跟隨領(lǐng)域的研究。
數(shù)據(jù)
TextBind提供了處理和生成任意交織的圖像和文本內(nèi)容的示例,使語言模型能夠在開放世界場景中與用戶進(jìn)行自然互動。
模型
我們的模型包括一個(gè)圖像編碼器、一個(gè)圖像解碼器、一個(gè)語言模型,以及連接它們的橋接網(wǎng)絡(luò),支持多輪交織的多模態(tài)指令跟隨。它可以生成并處理任意交織的圖像和文本內(nèi)容。
demo
語言模型能夠執(zhí)行各種任務(wù),包括根據(jù)一組圖像創(chuàng)作引人入勝的故事,比較多個(gè)圖像中的共同和不同之處,用生動的圖像解釋概念,生成帶有插圖的長篇連貫故事等等。最有趣的是,我們模型的核心創(chuàng)新在于其能夠在廣泛的真實(shí)場景中與用戶自然互動。歡迎訪問我們的demo[1]。
例子
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報(bào)投訴
原文標(biāo)題:TextBind:在開放世界中多輪交織的多模態(tài)指令跟隨
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
相關(guān)推薦
交織多址接入系統(tǒng)信道容量證明:交織多址接入系統(tǒng)(IDMA)是使用低速率碼并利用交織器區(qū)分用戶的多
發(fā)表于 10-20 17:48
?5次下載
lABCIWQmultyWindows多模態(tài)窗口2010。
發(fā)表于 05-17 17:47
?0次下載
自動情感識別是一個(gè)非常具有挑戰(zhàn)性的課題,并且有著廣泛的應(yīng)用價(jià)值.本文探討了在多文化場景下的多模態(tài)情感識別問題.我們從語音聲學(xué)和面部表情等模態(tài)
發(fā)表于 12-18 14:47
?0次下載
test 看文本部分在其中起到的作用為0... ( ) ? 現(xiàn)在看來還是wide and deep這種方式太粗暴了(對于復(fù)雜信息的融合),本文寫寫多模態(tài)掃盲基礎(chǔ)和最近大家精巧的一些圖像文本融合的模型設(shè)計(jì),主要是在VQA(視覺問
發(fā)表于 12-31 10:12
?4954次閱讀
隨著Transformer在視覺中的崛起,Transformer在多模態(tài)中應(yīng)用也是合情合理的事情
發(fā)表于 03-25 09:29
?1w次閱讀
多模態(tài)MR和多特征融合的GBM自動分割算法
發(fā)表于 06-27 11:45
?32次下載
隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及多模態(tài)的發(fā)展,在對話中引入多
發(fā)表于 02-09 09:31
?1748次閱讀
隨著大量預(yù)訓(xùn)練語言模型在文本對話任務(wù)中的出色表現(xiàn),以及多模態(tài)的發(fā)展,在對話中引入多
發(fā)表于 02-22 11:03
?1304次閱讀
大型語言模型LLM(Large Language Model)具有很強(qiáng)的通用知識理解以及較強(qiáng)的邏輯推理能力,但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力,但目前還未開放多模態(tài)輸入接口并且不會透露任何模型上技術(shù)細(xì)節(jié)
發(fā)表于 05-11 17:09
?864次閱讀
基于開源多模態(tài)模型 OpenFlamingo,作者使用公開數(shù)據(jù)集創(chuàng)建了各種視覺指令數(shù)據(jù),包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外,還使用僅包含語言指令數(shù)據(jù)的語言
發(fā)表于 05-12 09:55
?1153次閱讀
然而,一個(gè)理想的 AI 對話助手應(yīng)該能夠解決涉及多種模態(tài)的任務(wù)。這需要獲得一個(gè)多樣化和高質(zhì)量的多模式指令跟隨數(shù)據(jù)集。比如,LLaVAInstruct-150K 數(shù)據(jù)集(也被稱為 LLa
發(fā)表于 06-12 16:36
?705次閱讀
可以大致分為兩類: 1. 在圖生文(image-to-text generation)方面,以 GPT-4 為代表的多模態(tài)大模型,可以面向圖像進(jìn)行開放域?qū)υ捄蜕疃韧评恚?2.
發(fā)表于 07-10 10:05
?679次閱讀
當(dāng)前學(xué)界和工業(yè)界都對多模態(tài)大模型研究熱情高漲。去年,谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言模型 Flamingo ,它使用單一視覺語言模型處理多項(xiàng)任務(wù),
發(fā)表于 07-16 20:45
?692次閱讀
多模態(tài)(Multimodality)是指在信息處理、傳遞和表達(dá)中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語言、視覺、聽覺、觸覺
發(fā)表于 08-21 09:49
?791次閱讀
傳統(tǒng)的多模態(tài)/多任務(wù)觸覺感知系統(tǒng)通過集成多種傳感單元來達(dá)到多模態(tài)觸覺信息的解耦,但其往往導(dǎo)致系統(tǒng)結(jié)構(gòu)的復(fù)雜性,以及需要應(yīng)對來自不同刺激間的干擾。
發(fā)表于 10-18 11:24
?808次閱讀
評論