亚洲呦萝小初AV,24小时日本在线视频资源,gogogo高清在线播放免费

Meta 新的開源模型 ImageBind 將多個(gè)數(shù)據(jù)流連接在一起，適用于文本、視頻和音頻等 6 種模態(tài)。

在人類的感官中，一張圖片可以將很多體驗(yàn)融合到一起，比如一張海灘圖片可以讓我們想起海浪的聲音、沙子的質(zhì)地、拂面而來(lái)的微風(fēng)，甚至可以激發(fā)創(chuàng)作一首詩(shī)的靈感。圖像的這種「綁定」（binding）屬性通過(guò)與自身相關(guān)的任何感官體驗(yàn)對(duì)齊，為學(xué)習(xí)視覺特征提供了大量監(jiān)督來(lái)源。

理想情況下，對(duì)于單個(gè)聯(lián)合嵌入空間，視覺特征應(yīng)該通過(guò)對(duì)齊所有感官來(lái)學(xué)習(xí)。然而這需要通過(guò)同一組圖像來(lái)獲取所有感官類型和組合的配對(duì)數(shù)據(jù)，顯然不可行。

最近，很多方法學(xué)習(xí)與文本、音頻等對(duì)齊的圖像特征。這些方法使用單對(duì)模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對(duì)。因此，視頻 - 音頻嵌入無(wú)法直接用于圖像 - 文本任務(wù)，反之亦然。學(xué)習(xí)真正的聯(lián)合嵌入面臨的一個(gè)主要障礙是缺乏所有模態(tài)融合在一起的大量多模態(tài)數(shù)據(jù)。

今日，Meta AI 提出了 ImageBind，它通過(guò)利用多種類型的圖像配對(duì)數(shù)據(jù)來(lái)學(xué)習(xí)單個(gè)共享表示空間。該研究不需要所有模態(tài)相互同時(shí)出現(xiàn)的數(shù)據(jù)集，相反利用到了圖像的綁定屬性，只要將每個(gè)模態(tài)的嵌入與圖像嵌入對(duì)齊，就會(huì)實(shí)現(xiàn)所有模態(tài)的迅速對(duì)齊。Meta AI 還公布了相應(yīng)代碼。

主頁(yè)：https://imagebind.metademolab.com/

論文地址：https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

GitHub 地址：https://github.com/facebookresearch/ImageBind

具體而言，ImageBind 利用網(wǎng)絡(luò)規(guī)模（圖像、文本）匹配數(shù)據(jù)，并將其與自然存在的配對(duì)數(shù)據(jù)（視頻、音頻、圖像、深度）相結(jié)合，以學(xué)習(xí)單個(gè)聯(lián)合嵌入空間。這樣做使得 ImageBind 隱式地將文本嵌入與其他模態(tài)（如音頻、深度等）對(duì)齊，從而在沒有顯式語(yǔ)義或文本配對(duì)的情況下，能在這些模態(tài)上實(shí)現(xiàn)零樣本識(shí)別功能。

下圖 2 為 ImageBind 的整體概覽。

與此同時(shí)，研究者表示 ImageBind 可以使用大規(guī)模視覺語(yǔ)言模型（如 CLIP）進(jìn)行初始化，從而利用這些模型的豐富圖像和文本表示。因此，ImageBind 只需要很少的訓(xùn)練就可以應(yīng)用于各種不同的模態(tài)和任務(wù)。

ImageBind 是 Meta 致力于創(chuàng)建多模態(tài) AI 系統(tǒng)的一部分，從而實(shí)現(xiàn)從所有相關(guān)類型數(shù)據(jù)中學(xué)習(xí)。隨著模態(tài)數(shù)量的增加，ImageBind 為研究人員打開了嘗試開發(fā)全新整體性系統(tǒng)的閘門，例如結(jié)合 3D 和 IMU 傳感器來(lái)設(shè)計(jì)或體驗(yàn)身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式，即組合使用文本、視頻和圖像來(lái)搜索圖像、視頻、音頻文件或文本信息。

綁定內(nèi)容和圖像，學(xué)習(xí)單個(gè)嵌入空間

人類有能力通過(guò)很少的樣本學(xué)習(xí)新概念，比如如閱讀對(duì)動(dòng)物的描述之后，就可以在實(shí)際生活中認(rèn)出它們；通過(guò)一張不熟悉的汽車模型照片，就可以預(yù)測(cè)其引擎可能發(fā)出的聲音。這在一定程度上是因?yàn)閱螐垐D像可以將整體感官體驗(yàn)「捆綁」在一起。然而在人工智能領(lǐng)域，雖然模態(tài)數(shù)量一直在增加，但多感官數(shù)據(jù)的缺乏會(huì)限制標(biāo)準(zhǔn)的需要配對(duì)數(shù)據(jù)的多模態(tài)學(xué)習(xí)。

理想情況下，一個(gè)有著不同種類數(shù)據(jù)的聯(lián)合嵌入空間能讓模型在學(xué)習(xí)視覺特征的同時(shí)學(xué)習(xí)其他的模態(tài)。此前，往往需要收集所有可能的配對(duì)數(shù)據(jù)組合，才能讓所有模態(tài)學(xué)習(xí)聯(lián)合嵌入空間。

ImageBind 規(guī)避了這個(gè)難題，它利用最近的大型視覺語(yǔ)言模型它將最近的大規(guī)模視覺語(yǔ)言模型的零樣本能力擴(kuò)展到新的模態(tài)，它們與圖像的自然配對(duì)，如視頻 - 音頻和圖像 - 深度數(shù)據(jù)，來(lái)學(xué)習(xí)一個(gè)聯(lián)合嵌入空間。針對(duì)其他四種模式（音頻、深度、熱成像和 IMU 讀數(shù)），研究者使用自然配對(duì)的自監(jiān)督數(shù)據(jù)。

通過(guò)將六種模態(tài)的嵌入對(duì)齊到一個(gè)公共空間，ImageBind 可以跨模態(tài)檢索未同時(shí)觀察到的不同類型的內(nèi)容，添加不同模態(tài)的嵌入以自然地對(duì)它們的語(yǔ)義進(jìn)行組合，以及結(jié)合使用 Meta AI 的音頻嵌入與預(yù)訓(xùn)練 DALLE-2 解碼器（設(shè)計(jì)用于與 CLIP 文本嵌入）來(lái)實(shí)現(xiàn)音頻到圖像生成。

互聯(lián)網(wǎng)上存在大量連同文本一起出現(xiàn)的圖像，因此訓(xùn)練圖像 - 文本模型已經(jīng)得到了廣泛的研究。ImageBind 利用了圖像能與各種模態(tài)相連接的綁定屬性，比如利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來(lái)，或者利用在有 IMU 傳感器的可穿戴相機(jī)中捕捉到的視頻數(shù)據(jù)將運(yùn)動(dòng)與視頻連接起來(lái)。

從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)到的視覺表征可以用作學(xué)習(xí)不同模態(tài)特征的目標(biāo)。這使得 ImageBind 將圖像與同時(shí)出現(xiàn)的任何模態(tài)對(duì)齊，自然地使這些模態(tài)彼此對(duì)齊。熱圖和深度圖等與圖像具有強(qiáng)相關(guān)性的模態(tài)更容易對(duì)齊。音頻和 IMU（慣性測(cè)量單元）等非視覺的模態(tài)則具有較弱的相關(guān)性，比如嬰兒哭聲等特定聲音可以搭配各種視覺背景。

ImageBind 表明，圖像配對(duì)數(shù)據(jù)足以將這六種模態(tài)綁定在一起。該模型可以更全面地解釋內(nèi)容，使不同的模態(tài)可以相互「對(duì)話」，并在沒有同時(shí)觀察它們的情況下找到它們之間的聯(lián)系。例如，ImageBind 可以在沒有一起觀察音頻和文本的情況下將二者聯(lián)系起來(lái)。這使得其他模型能夠「理解」新的模態(tài)，而不需要任何資源密集型的訓(xùn)練。

ImageBind 強(qiáng)大的 scaling 表現(xiàn)使該模型能夠替代或增強(qiáng)許多人工智能模型，使它們能夠使用其他模態(tài)。例如雖然 Make-A-Scene 可以通過(guò)使用文本 prompt 生成圖像，但 ImageBind 可以將其升級(jí)為使用音頻生成圖像，如笑聲或雨聲。

ImageBind 的卓越性能

Meta 的分析表明，ImageBind 的 scaling 行為隨著圖像編碼器的強(qiáng)度而提高。換句話說(shuō)，ImageBind 對(duì)齊模態(tài)的能力隨著視覺模型的能力和大小而提升。這表明，更大的視覺模型對(duì)非視覺任務(wù)有利，如音頻分類，而且訓(xùn)練這種模型的好處超出了計(jì)算機(jī)視覺任務(wù)的范疇。

在實(shí)驗(yàn)中，Meta 使用了 ImageBind 的音頻和深度編碼器，并將其與之前在 zero-shot 檢索以及音頻和深度分類任務(wù)中的工作進(jìn)行了比較。

在基準(zhǔn)測(cè)試上，mageBind 在音頻和深度方面優(yōu)于專家模型。

Meta 發(fā)現(xiàn) ImageBind 可以用于少樣本音頻和深度分類任務(wù)，并且優(yōu)于之前定制的方法。例如，ImageBind 明顯優(yōu)于 Meta 在 Audioset 上訓(xùn)練的自監(jiān)督 AudioMAE 模型，以及在音頻分類上微調(diào)的監(jiān)督 AudioMAE 模型。

此外，ImageBind 還在跨模態(tài)的零樣本識(shí)別任務(wù)上取得了新的 SOTA 性能，甚至優(yōu)于經(jīng)過(guò)訓(xùn)練以識(shí)別該模態(tài)概念的最新模型。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3573

瀏覽量
133980
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
501

瀏覽量
10236
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1200

瀏覽量
24619

原文標(biāo)題：爆火！ImageBind：跨模態(tài)之王，將6種模態(tài)全部綁定！

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

OpenHarmony實(shí)戰(zhàn)開發(fā)-如何實(shí)現(xiàn)模態(tài)轉(zhuǎn)場(chǎng)

(0xf56c6c) // 第三步：使用bindPopup接口將彈窗內(nèi)容綁定給元素 .bindPopup(this.customPopup, { builder: this.popupBuilder

發(fā)表于 04-28 14:47

模態(tài)窗口的設(shè)置問(wèn)題

Labview中，一個(gè)窗口如果設(shè)置為模態(tài)窗口，則打開后，點(diǎn)擊其他窗口應(yīng)該是沒有作用的。我設(shè)置的幾個(gè)子VI為模態(tài)窗口，效果都沒有問(wèn)題。但有一個(gè)子VI，設(shè)置為模態(tài)窗口，打開后，點(diǎn)擊其他窗口的按鈕，雖然

發(fā)表于 11-28 21:56

labview 模態(tài)分析

用labview進(jìn)行模態(tài)分析，有很多問(wèn)題，望高手指點(diǎn)一二力錘激勵(lì)信號(hào)+加速度傳感器信號(hào)，請(qǐng)問(wèn)下，labview什么控件可以計(jì)算系統(tǒng)的模態(tài)還是說(shuō)僅僅兩路信號(hào)是分析不了模態(tài)的。

發(fā)表于 06-24 11:50

LMS Virtual Lab 流固模態(tài)分析

LMS Virtual Lab 流固模態(tài)分析的主要步驟：1、設(shè)置材料、屬性、約束條件，進(jìn)行結(jié)構(gòu)有限元模態(tài)分析。注意：模態(tài)計(jì)算的頻率范圍不要太小，否則可能計(jì)算錯(cuò)誤！2、對(duì)流體進(jìn)行模態(tài)分析

發(fā)表于 05-29 06:59

簡(jiǎn)單的模型進(jìn)行流固耦合的模態(tài)分析

。聲腔的第一階自由模態(tài)為剛體模態(tài)，聲腔內(nèi)各點(diǎn)的聲壓幅值相同；結(jié)構(gòu)自由模態(tài)前6階為6個(gè)自由度的剛體模態(tài)

發(fā)表于 07-07 17:15

CSI工作模態(tài)分析

CSI拓?fù)銫SI開關(guān)狀態(tài)CSI工作模態(tài)分析CSI與VSI的聯(lián)系

發(fā)表于 11-15 07:38

百度研制知識(shí)增強(qiáng)的跨模態(tài)深度問(wèn)答技術(shù)等在內(nèi)的的應(yīng)用系統(tǒng)

同時(shí)，百度還研制了知識(shí)增強(qiáng)的跨模態(tài)深度語(yǔ)義理解方法，通過(guò)知識(shí)關(guān)聯(lián)跨模態(tài)信息，運(yùn)用語(yǔ)言描述不同模態(tài)信息的語(yǔ)義，進(jìn)而讓機(jī)器實(shí)現(xiàn)從看清到看懂、從聽

發(fā)表于 09-16 14:48 ?2163次閱讀

可解決數(shù)據(jù)異構(gòu)性問(wèn)題的跨模態(tài)檢索方法

隨著越來(lái)越多多模態(tài)數(shù)據(jù)的岀現(xiàn)，跨模態(tài)檢索引起了廣泛的關(guān)注。跨模態(tài)檢索面臨一大挑戰(zhàn)為模態(tài)鴻溝，為了

發(fā)表于 03-26 14:29 ?10次下載

基于語(yǔ)義耦合相關(guān)的判別式跨模態(tài)哈希特征表示學(xué)習(xí)算法

基于哈希的跨模態(tài)檢索以其存儲(chǔ)消耗低、査詢速度快等優(yōu)點(diǎn)受到廣泛的關(guān)注。跨模態(tài)哈希學(xué)習(xí)的核心問(wèn)題是如何對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行有效地共享語(yǔ)義空間嵌入學(xué)

發(fā)表于 03-31 11:28 ?12次下載

可提高跨模態(tài)行人重識(shí)別算法精度的特征學(xué)習(xí)框架

為了提升跨模態(tài)行人重識(shí)別算法的識(shí)別精度，提出了一種基于改進(jìn)困難三元組損失的特征學(xué)習(xí)框架。首先，改進(jìn)了傳統(tǒng)困難三元組損失，使其轉(zhuǎn)換為全局三元組損失。其次，基于跨

發(fā)表于 05-10 11:06 ?9次下載

基于耦合字典學(xué)習(xí)與圖像正則化的跨模態(tài)檢索

基于耦合字典學(xué)習(xí)與圖像正則化的跨模態(tài)檢索

發(fā)表于 06-27 11:23 ?39次下載

模態(tài)分析定義以及模態(tài)假設(shè)理論

模態(tài)分析的經(jīng)典定義為，將線性定常系統(tǒng)振動(dòng)微分方程組中的物理坐標(biāo)變換為模態(tài)坐標(biāo)，使方程組解耦，成為一組以模態(tài)坐標(biāo)及模態(tài)參數(shù)描述的獨(dú)立方程，以便

發(fā)表于 04-26 10:43 ?2199次閱讀

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢(shì)是不支持其他模態(tài)（包括圖像、語(yǔ)音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)

發(fā)表于 12-13 13:55 ?1589次閱讀

鴻蒙ArkTS聲明式開發(fā)：跨平臺(tái)支持列表【全屏模態(tài)轉(zhuǎn)場(chǎng)】模態(tài)轉(zhuǎn)場(chǎng)設(shè)置

通過(guò)bindContentCover屬性為組件綁定全屏模態(tài)頁(yè)面，在組件插入和刪除時(shí)可通過(guò)設(shè)置轉(zhuǎn)場(chǎng)參數(shù)ModalTransition顯示過(guò)渡動(dòng)效。

發(fā)表于 06-12 15:47 ?2644次閱讀

鴻蒙ArkTS聲明式開發(fā)：跨平臺(tái)支持列表【半模態(tài)轉(zhuǎn)場(chǎng)】模態(tài)轉(zhuǎn)場(chǎng)設(shè)置

通過(guò)bindSheet屬性為組件綁定半模態(tài)頁(yè)面，在組件插入時(shí)可通過(guò)設(shè)置自定義或默認(rèn)的內(nèi)置高度確定半模態(tài)大小。

發(fā)表于 06-12 21:09 ?892次閱讀