0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用視覺+語言數(shù)據(jù)增強視覺特征

CVer ? 來源:CVer ? 作者:CVer ? 2023-02-13 13:44 ? 次閱讀

研究動機

傳統(tǒng)的多模態(tài)預訓練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來同時學習視覺+語言的聯(lián)合特征。但是關(guān)注如何利用視覺+語言數(shù)據(jù)提升視覺任務(wù)(多模態(tài)->單模態(tài))上性能的工作并不多。本文旨在針對上述問題提出一種簡單高效的方法。

在這篇文章中,以醫(yī)療影像上的特征學習為例,我們提出對圖像+文本同時進行掩碼建模(即Masked Record Modeling,Record={Image,Text})可以更好地學習視覺特征。該方法具有以下優(yōu)點:

簡單。僅通過特征相加就可以實現(xiàn)多模態(tài)信息的融合。此處亦可進一步挖掘,比如引入更高效的融合策略或者擴展到其它領(lǐng)域。

高效。在近30w的數(shù)據(jù)集上,在4張NVIDIA 3080Ti上完成預訓練僅需要1天半左右的時間。

性能強。在微調(diào)階段,在特定數(shù)據(jù)集上,使用1%的標記數(shù)據(jù)可以接近100%標記數(shù)據(jù)的性能。

方法(一句話總結(jié))

1318d8aa-ab48-11ed-bfe3-dac502259ad0.png

如上圖所示,我們提出的訓練策略是比較直觀的,主要包含三步:

隨機Mask一部分輸入的圖像和文本

使用加法融合過后的圖像+文本的特征重建文本

使用圖像的特征重建圖像。

性能

1343eedc-ab48-11ed-bfe3-dac502259ad0.png

如上圖所示,我們?nèi)鎸Ρ攘爽F(xiàn)有的相關(guān)方法和模型在各類微調(diào)任務(wù)上的性能。

在CheXpert上,我們以1%的有標記數(shù)據(jù)接近使用100%有標記數(shù)據(jù)的性能。

RSNA Pneumonia和SIIM (分割)上,我們以較大幅度超過了之前最先進的方法。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    299

    瀏覽量

    60713
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1200

    瀏覽量

    24621
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8856

    瀏覽量

    137217

原文標題:ICLR 2023 | 廈大&港大提出MRM:利用視覺+語言數(shù)據(jù)增強視覺特征

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    圖像采集卡:增強視覺數(shù)據(jù)采集

    圖像采集卡介紹:在視覺數(shù)據(jù)采集領(lǐng)域,圖像采集卡在捕獲和處理來自各種來源的圖像或視頻方面發(fā)揮著關(guān)鍵作用。在本文中,我們將深入探討圖像采集卡的世界、其功能、應用以及它們在視覺數(shù)據(jù)采集領(lǐng)域提
    的頭像 發(fā)表于 09-24 11:06 ?244次閱讀
    圖像采集卡:<b class='flag-5'>增強</b><b class='flag-5'>視覺</b><b class='flag-5'>數(shù)據(jù)</b>采集

    視覺檢測是什么意思?機器視覺檢測的適用行業(yè)及場景有哪些?

    檢測的定義與原理 機器視覺檢測,是利用光學成像、數(shù)字信號處理和計算機技術(shù),模擬人類視覺的功能,對目標物體進行自動檢測和分析的技術(shù)。它包括圖像采集、預處理、特征提取、分類識別等多個環(huán)節(jié),
    的頭像 發(fā)表于 08-30 11:20 ?272次閱讀

    什么是機器視覺opencv?它有哪些優(yōu)勢?

    機器視覺(Machine Vision)是一種利用計算機和圖像處理技術(shù)來模擬人類視覺系統(tǒng)的功能,實現(xiàn)對圖像的識別、分析和理解的技術(shù)。OpenCV(Open Source Computer
    的頭像 發(fā)表于 07-16 10:33 ?620次閱讀

    機器視覺和計算機視覺有什么區(qū)別

    。機器視覺的研究目標是讓機器具有類似人類的視覺能力,能夠自動、準確地完成各種視覺任務(wù)。 計算機視覺 計算機視覺,又稱為
    的頭像 發(fā)表于 07-16 10:23 ?442次閱讀

    機器視覺的應用實例解析

    機器視覺是一種利用計算機視覺技術(shù)對圖像進行處理、分析和理解的技術(shù)。它在許多領(lǐng)域都有廣泛的應用,包括工業(yè)自動化、醫(yī)療診斷、交通監(jiān)控、安全監(jiān)控等。 一、引言 機器視覺技術(shù)的發(fā)展可以追溯到2
    的頭像 發(fā)表于 07-16 10:19 ?339次閱讀

    機器視覺控制的優(yōu)缺點有哪些

    機器視覺控制是一種利用計算機視覺技術(shù)對機器進行控制的方法,它在工業(yè)自動化、機器人技術(shù)、智能交通等領(lǐng)域得到了廣泛應用。然而,機器視覺控制也存在一些優(yōu)缺點。本文將詳細介紹機器
    的頭像 發(fā)表于 07-04 10:43 ?626次閱讀

    TDES9640增強視覺解串器數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《TDES9640增強視覺解串器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 06-21 10:11 ?3次下載
    TDES9640<b class='flag-5'>增強</b><b class='flag-5'>視覺</b>解串器<b class='flag-5'>數(shù)據(jù)</b>表

    視覺檢測設(shè)備的分類

    視覺檢測設(shè)備是一種利用攝像頭、傳感器、光源和圖像處理算法等技術(shù)組成的設(shè)備,用于檢測、識別、分析和判斷圖像或視頻中目標物體的特征、屬性、狀態(tài)或缺陷。這些設(shè)備可以應用于各種行業(yè)和領(lǐng)域,包括工業(yè)自動化
    的頭像 發(fā)表于 02-21 09:41 ?1203次閱讀
    <b class='flag-5'>視覺</b>檢測設(shè)備的分類

    機器視覺軟件有哪些 機器視覺軟件的優(yōu)點

    機器視覺軟件是一種利用計算機視覺技術(shù)來模擬和彌補人眼視覺功能的軟件系統(tǒng)。它可以通過對圖像和視頻進行分析,識別和理解目標物體,以實現(xiàn)自動化和智能化的任務(wù)。機器
    的頭像 發(fā)表于 02-02 10:53 ?1426次閱讀

    賽默斐視表面瑕疵檢測系統(tǒng)是一種利用機器視覺技術(shù)

    或其他圖像采集設(shè)備對產(chǎn)品表面進行拍攝,獲取產(chǎn)品的圖像數(shù)據(jù)。 圖像預處理:對采集到的圖像進行預處理,包括去噪、灰度化、增強對比度等操作,以提高后續(xù)處理的準確性。 特征提?。簭念A處理后的圖像中提取
    的頭像 發(fā)表于 01-25 15:47 ?279次閱讀

    機器人基于開源的多模態(tài)語言視覺大模型

    ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發(fā)表于 01-19 11:43 ?352次閱讀
    機器人基于開源的多模態(tài)<b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大模型

    焊接視覺檢測系統(tǒng)的原理和應用

    工業(yè)生產(chǎn)中的重要性和應用情況。 焊接視覺檢測是基于機器視覺和圖像處理技術(shù)的自動化技術(shù),原理是利用計算機視覺技術(shù),通過圖像采集、處理和分析,實現(xiàn)對焊接質(zhì)量自動化檢測、
    的頭像 發(fā)表于 01-16 14:15 ?583次閱讀
    焊接<b class='flag-5'>視覺</b>檢測系統(tǒng)的原理和應用

    工業(yè)視覺與計算機視覺的區(qū)別

    工業(yè)視覺主要解決以往需要人眼進行的工件的定位、測量、檢測等重復性勞動;計算機視覺的主要任務(wù)是賦予智能機器人視覺利用測距、物體標定與識別等功能實現(xiàn)對于外界位置信息、圖像信息等的識別與判
    發(fā)表于 01-16 10:06 ?514次閱讀
    工業(yè)<b class='flag-5'>視覺</b>與計算機<b class='flag-5'>視覺</b>的區(qū)別

    labview視覺開發(fā)模塊認識及應用

    開發(fā)者能夠快速、高效地開發(fā)出各種視覺應用。 LabVIEW視覺開發(fā)模塊的主要特點包括以下幾個方面: 圖形化編程:LabVIEW使用圖形化編程語言G語言,可以通過簡單地拖拽和連接函數(shù)模塊
    的頭像 發(fā)表于 12-28 11:00 ?1373次閱讀

    哈工大提出Myriad:利用視覺專家進行工業(yè)異常檢測的大型多模態(tài)模型

    最近,大型多模態(tài)(即視覺語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務(wù)上表現(xiàn)出了卓越的感知能力,使其成為更易于理解的異常
    的頭像 發(fā)表于 11-21 16:08 ?1671次閱讀
    哈工大提出Myriad:<b class='flag-5'>利用</b><b class='flag-5'>視覺</b>專家進行工業(yè)異常檢測的大型多模態(tài)模型