0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于多模態(tài)機(jī)器學(xué)習(xí)綜述論文

mK5P_AItists ? 來源:lq ? 2019-01-21 13:38 ? 次閱讀

摘要:”當(dāng)研究問題或數(shù)據(jù)集包括多個(gè)這樣的模態(tài)時(shí),其特征在于多模態(tài)。

【導(dǎo)讀】人工智能領(lǐng)域最頂級(jí)國際期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影響因子為 9.455),2019年1月最新一期發(fā)表了關(guān)于多模態(tài)機(jī)器學(xué)習(xí)綜述論文。我們周圍的世界涉及多種形式 - 我們看到物體,聽到聲音,感覺質(zhì)地,聞到異味等等。 一般而言,模態(tài)指的是事物發(fā)生或經(jīng)歷的方式。 大多數(shù)人將形態(tài)與感覺方式聯(lián)系起來,這些感覺方式代表了我們主要的交流和感覺渠道,例如視覺或觸覺。



因此,當(dāng)研究問題或數(shù)據(jù)集包括多個(gè)這樣的模態(tài)時(shí),其特征在于多模態(tài)。 本文主要關(guān)注但不僅僅關(guān)注三種形式:自然語言既可以是書面的,也可以是口頭的; 視覺信號(hào),通常用圖像或視頻表示; 和聲音信號(hào),編碼聲音和口頭信息,如韻律和聲音表達(dá)。

我們對世界的體驗(yàn)是多模式的 - 我們看到物體,聽到聲音,感覺質(zhì)地,聞到異味和味道。情態(tài)是指某種事物發(fā)生或經(jīng)歷的方式,并且當(dāng)研究問題包括多種這樣的形式時(shí),研究問題被描述為多模式。為了使人工智能在理解我們周圍的世界方面取得進(jìn)展,它需要能夠?qū)⑦@種多模態(tài)信號(hào)一起解釋。多模式機(jī)器學(xué)習(xí)旨在構(gòu)建可以處理和關(guān)聯(lián)來自多種模態(tài)的信息的模型。這是一個(gè)充滿活力的多學(xué)科領(lǐng)域,具有越來越重要的意義和非凡的潛力。本文不是關(guān)注特定的多模態(tài)應(yīng)用,而是研究多模態(tài)機(jī)器學(xué)習(xí)本身的最新進(jìn)展。我們超越了典型的早期和晚期融合分類,并確定了多模式機(jī)器學(xué)習(xí)所面臨的更廣泛的挑戰(zhàn),即:表示,翻譯,對齊,融合和共同學(xué)習(xí)。這種新的分類法將使研究人員能夠更好地了解該領(lǐng)域的狀況,并確定未來研究的方向。

論文地址:

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806

模態(tài)特征表示

多模態(tài)的表示方法有兩類:

聯(lián)合表示將不同模態(tài)的特征映射到同一個(gè)空間,代表方法有神經(jīng)網(wǎng)絡(luò)的方法、圖模型方法與序列模型方法。

協(xié)調(diào)方法特征仍在原空間,但是通過相似度或者結(jié)構(gòu)特征協(xié)調(diào)。

多模態(tài)特征翻譯

多模態(tài)特征翻譯分為基于樣本的和生成式的:

基于樣本的方法從特征字典中找出最佳翻譯。基于樣本的方法分為基于檢索式的和合并的方法。

生成式的方法則是通過樣本,訓(xùn)練一個(gè)翻譯模型,并使用翻譯模型完成對特征的轉(zhuǎn)換。生成式的方法有基于語法的、encoder-decoder模型和連續(xù)模型。

多模態(tài)特征對齊

多模態(tài)特征對齊是找到同一個(gè)實(shí)例的不同之間模態(tài)特征之間的關(guān)系。

顯式對齊方法包括監(jiān)督模型和無監(jiān)督模型。無監(jiān)督模型如CCA和DTW(Dynamic time warping)等。

隱式對齊的方法包括圖模型和神經(jīng)網(wǎng)絡(luò)

多模態(tài)特征融合

多模態(tài)特征融合是指將從不同模態(tài)的特征集成在一起,共同完成一個(gè)任務(wù),如分類。

無模型融合的方法被分為早期模型(基于特征)、晚期模型(基于決策)和混合模型

有模型融合的方法有核方法、圖模型方法、神經(jīng)網(wǎng)絡(luò)模型方法等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46703

    瀏覽量

    237219
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8357

    瀏覽量

    132335
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    286

    瀏覽量

    13322

原文標(biāo)題:人工智能頂刊TPAMI2019最新《多模態(tài)機(jī)器學(xué)習(xí)綜述》

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?269次閱讀

    云知聲推出山海模態(tài)大模型

    在人工智能技術(shù)的浩瀚星海中,模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創(chuàng)新之姿,推出了其匠心獨(dú)運(yùn)的山海模態(tài)大模型,正式宣告“Her時(shí)代
    的頭像 發(fā)表于 08-27 15:20 ?348次閱讀

    清華大學(xué):軟體機(jī)器人柔性傳感技術(shù)最新研究進(jìn)展

    傳感領(lǐng)域發(fā)表卷首(frontispiece)綜述論文。這項(xiàng)工作全面總結(jié)了用于柔性傳感器的智能材料以及先進(jìn)制造方法,詳盡歸納了不同類型的傳感模式。
    的頭像 發(fā)表于 08-13 16:28 ?985次閱讀
    清華大學(xué):軟體<b class='flag-5'>機(jī)器</b>人柔性傳感技術(shù)最新研究進(jìn)展

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,近年來在多個(gè)領(lǐng)域取得了顯著的成果,特別是在圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域。然而,深度學(xué)習(xí)模型的強(qiáng)大性能往往依賴于大量有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練
    的頭像 發(fā)表于 07-09 10:50 ?418次閱讀

    AI機(jī)器人迎來模態(tài)模型

    配備 GR00T 模型的機(jī)器人由于需要“吸收消化”外界的模態(tài)信息,還要快速完成理解、決策、行動(dòng)等一系列動(dòng)作,因此對于算力的需求是巨量的。
    發(fā)表于 04-12 10:39 ?250次閱讀

    蘋果發(fā)布300億參數(shù)MM1模態(tài)大模型

    近日,科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中,正式公布了其最新的模態(tài)大模型研究成果——MM1。這款具有高達(dá)300億參數(shù)的模態(tài)
    的頭像 發(fā)表于 03-19 11:19 ?826次閱讀

    機(jī)器人基于開源的模態(tài)語言視覺大模型

    ByteDance Research 基于開源的模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?354次閱讀
    <b class='flag-5'>機(jī)器</b>人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>語言視覺大模型

    什么是模態(tài)?模態(tài)的難題是什么?

    模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強(qiáng)的通用性,比如對圖片中任意物體進(jìn)行分割,或者生成任意內(nèi)容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?4334次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>?<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的難題是什么?

    從Google模態(tài)大模型看后續(xù)大模型應(yīng)該具備哪些能力

    前段時(shí)間Google推出Gemini模態(tài)大模型,展示了不凡的對話能力和模態(tài)能力,其表現(xiàn)究竟如何呢?
    的頭像 發(fā)表于 12-28 11:19 ?1171次閱讀
    從Google<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型看后續(xù)大模型應(yīng)該具備哪些能力

    語音識(shí)別技術(shù)最新進(jìn)展:視聽融合的模態(tài)交互成為主要演進(jìn)方向

    多種模態(tài)(聲學(xué)、語言模型、視覺特征等)進(jìn)行聯(lián)合建模,基于深度學(xué)習(xí)模態(tài)語音識(shí)別取得了新進(jìn)展。 ?
    的頭像 發(fā)表于 12-28 09:06 ?3555次閱讀
    語音識(shí)別技術(shù)最新進(jìn)展:視聽融合的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>交互成為主要演進(jìn)方向

    成都匯陽投資關(guān)于模態(tài)驅(qū)動(dòng)應(yīng)用前景廣闊,上游算力迎機(jī)會(huì)!

    【Gemini 大模型主打模態(tài),性能對標(biāo) GPT-4】 當(dāng)?shù)貢r(shí)間12月6日, 谷歌公司宣布推出其規(guī)模最大、功能最強(qiáng)的模態(tài)大模型 Gemini, 其最強(qiáng)大的 TPU (張量處理單元)
    的頭像 發(fā)表于 12-18 13:08 ?448次閱讀
    成都匯陽投資<b class='flag-5'>關(guān)于</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>驅(qū)動(dòng)應(yīng)用前景廣闊,上游算力迎機(jī)會(huì)!

    人工智能領(lǐng)域模態(tài)的概念和應(yīng)用場景

    隨著人工智能技術(shù)的不斷發(fā)展,模態(tài)成為了一個(gè)備受關(guān)注的研究方向。模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進(jìn)行融合,以實(shí)現(xiàn)更加準(zhǔn)確、高效的人工智能應(yīng)用。本文將詳細(xì)介紹
    的頭像 發(fā)表于 12-15 14:28 ?8874次閱讀

    大模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)大、更通用呢?本節(jié)將介紹“大模型+
    的頭像 發(fā)表于 12-13 13:55 ?1592次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    任意文本、視覺、音頻混合生成,模態(tài)有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

    研究者表示,CoDi-2 標(biāo)志著在開發(fā)全面的模態(tài)基礎(chǔ)模型領(lǐng)域取得了重大突破。 今年 5 月,北卡羅來納大學(xué)教堂山分校、微軟提出一種可組合擴(kuò)散(Composable Diffusion,簡稱
    的頭像 發(fā)表于 12-03 20:20 ?664次閱讀
    任意文本、視覺、音頻混合生成,<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>有了強(qiáng)大的基礎(chǔ)引擎CoDi-2

    用語言對齊模態(tài)信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單

    目前的 VL 預(yù)訓(xùn)練方法通常僅適用于視覺和語言模態(tài),而現(xiàn)實(shí)世界中的應(yīng)用場景往往包含更多的模態(tài)信息,如深度圖、熱圖像等。如何整合和分析不同模態(tài)的信息,并且能夠在多個(gè)模態(tài)之間建立準(zhǔn)確的語義
    的頭像 發(fā)表于 11-23 15:46 ?655次閱讀
    用語言對齊<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>信息,北大騰訊等提出LanguageBind,刷新多個(gè)榜單