0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

CVer ? 來源:CVer ? 2023-12-04 15:33 ? 次閱讀

低成本擴(kuò)大輸入分辨率:探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導(dǎo)讀】11月,華中科技大學(xué)團(tuán)隊(duì)發(fā)布了新的多模態(tài)大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達(dá)1344×896的圖像,并加入了有著詳細(xì)描述的高質(zhì)量圖文數(shù)據(jù)進(jìn)行訓(xùn)練,幫助Monkey煉就洞察圖像細(xì)節(jié)的火眼金睛,取得了與Caption和QA任務(wù)相關(guān)的16個(gè)數(shù)據(jù)集的SOTA,甚至與GPT4V相比,在密集文本問答任務(wù)上也有著亮眼的表現(xiàn)。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問答任務(wù)上取得了很不錯(cuò)的效果,可以根據(jù)問題的要求進(jìn)行推理,能夠適配中文問答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場景中Monkey也展現(xiàn)了不俗的問答能力,自身擁有豐富的知識(shí)庫,可以根據(jù)問題進(jìn)行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務(wù)上同樣取得了出色的結(jié)果,不僅僅是對(duì)圖片進(jìn)行準(zhǔn)確詳細(xì)的描述,同時(shí)能夠合理發(fā)散,分析出圖片所傳達(dá)的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進(jìn)行問答的可視化結(jié)果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個(gè)不同的數(shù)據(jù)集上進(jìn)行測試的結(jié)果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務(wù),并在16個(gè)數(shù)據(jù)集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個(gè)圖片塊,再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個(gè)圖片塊經(jīng)過視覺編碼時(shí)會(huì)加入一個(gè)專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓(xùn)練時(shí)僅訓(xùn)練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達(dá)到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級(jí)特征融合的詳細(xì)描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個(gè)步驟:第一步,使用BLIP2對(duì)整張圖生成全局描述;第二步用 GRIT生成區(qū)域框,并提供區(qū)域中對(duì)象的名稱和詳細(xì)描述,同時(shí)使用PPOCR提取區(qū)域的文本框坐標(biāo)和文本內(nèi)容;第三步使用SAM進(jìn)行分割,并送入BLIP2生成對(duì)各個(gè)物體及其組成部分的詳細(xì)描述;第四步使用BLIP-2 評(píng)估過濾掉低分匹配;最后使用ChatGPT 對(duì)上述得到的描述進(jìn)行總結(jié)從而得到圖像的詳細(xì)描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級(jí)特征融合的詳細(xì)描述生成方法后得到的標(biāo)注與原始CC3M標(biāo)注的對(duì)比,不難看出,兩種標(biāo)注之間存在著較大的差距,生成的詳細(xì)標(biāo)注盡可能地包含了圖片中的各種細(xì)節(jié),而不像是CC3M地原始標(biāo)注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進(jìn)行訓(xùn)練,使得Monkey能夠更好地把握?qǐng)D文之間的關(guān)系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對(duì)比結(jié)果與展示:

通過下圖展示的Monkey在QA任務(wù)上與多種大模型的對(duì)比結(jié)果,從中我們能夠更加直觀地感受到Monkey強(qiáng)大的問答能力,能夠準(zhǔn)確地把握住問題并給出正確的回答,尤其是在密集文本問答任務(wù)上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結(jié)

Monkey提出了一種訓(xùn)練高效的方法,無需預(yù)訓(xùn)練即可有效地提高模型的輸入分辨率,最高可達(dá)896 x 1344像素。為了彌補(bǔ)簡單文本標(biāo)簽和高分辨率輸入之間的差距,Monkey提出了一種多級(jí)特征融合的詳細(xì)描述生成方法,它可以自動(dòng)提供豐富的信息,以引導(dǎo)模型學(xué)習(xí)圖像中各個(gè)物體的屬性及其聯(lián)系。通過這兩種設(shè)計(jì)的協(xié)同作用,Monkey練就了一雙火眼金睛,在多個(gè)基準(zhǔn)測試中取得了出色的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 高分辨率
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    15301
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40375
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2274

    瀏覽量

    2357

原文標(biāo)題:低成本擴(kuò)大輸入分辨率!華科大提出Monkey:新的多模態(tài)大模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡單來說,
    的頭像 發(fā)表于 10-18 09:39 ?253次閱讀

    VR顯示器分辨率的選擇

    一、VR顯示器分辨率的重要性 1.1 分辨率與視覺體驗(yàn) 分辨率是指顯示器上能夠顯示的像素點(diǎn)的數(shù)量,通常用水平像素?cái)?shù)×垂直像素?cái)?shù)來表示。在VR顯示器中,分辨率直接影響到用戶的視覺體驗(yàn)。高
    的頭像 發(fā)表于 07-08 10:29 ?890次閱讀

    編碼器分辨率是什么意思 編碼器分辨率和脈沖數(shù)的關(guān)系

    按照編碼器支持的分辨率可以把編碼器分成標(biāo)清編碼器、高清編碼器、全高清編碼器,分辨率越高幀率越高視頻就越清楚。 1.編碼器的分辨率是什么意思 編碼器的分辨率是指編碼器以每旋轉(zhuǎn)360度提供
    的頭像 發(fā)表于 02-21 18:07 ?3751次閱讀
    編碼器<b class='flag-5'>分辨率</b>是什么意思 編碼器<b class='flag-5'>分辨率</b>和脈沖數(shù)的關(guān)系

    電容觸摸屏的分辨率怎么調(diào)

    電容觸摸屏的分辨率調(diào)整是通過調(diào)整觸摸屏的控制器的參數(shù)來實(shí)現(xiàn)的。觸摸屏的分辨率是指能夠在屏幕上識(shí)別的最小觸摸點(diǎn)的像素?cái)?shù)量。分辨率越高,觸摸屏可以更準(zhǔn)確地檢測和響應(yīng)用戶的操作。 在調(diào)整電容觸摸屏的
    的頭像 發(fā)表于 01-23 16:59 ?1755次閱讀

    鏡頭分辨率簡述

    分辨率可以從顯示分辨率與圖像分辨率兩個(gè)方向來分類。
    的頭像 發(fā)表于 01-15 11:12 ?861次閱讀

    淺談相機(jī)的圖像分辨率

    談到顯微成像系統(tǒng),常常會(huì)用分辨率來評(píng)價(jià)成像能力的高低,那分辨率到底指的是什么,又怎樣計(jì)算呢?其實(shí)對(duì)于一個(gè)特定的顯微成像系統(tǒng),分辨率要從兩個(gè)方面來考慮,一種是光學(xué)系統(tǒng)的分辨率—光學(xué)衍射極
    的頭像 發(fā)表于 01-09 09:54 ?1550次閱讀
    淺談相機(jī)的圖像<b class='flag-5'>分辨率</b>

    adc電路的分辨率怎么算

    ADC(模數(shù)轉(zhuǎn)換器)電路的分辨率是指其能夠?qū)⒛M信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)時(shí)能夠達(dá)到的最小分辨單位。分辨率通常用位數(shù)表示,例如10位的ADC具有1024個(gè)離散的輸出級(jí)別。 要計(jì)算ADC電路的分辨率
    的頭像 發(fā)表于 01-04 15:23 ?6320次閱讀

    詳述ADC精度和分辨率的差異

    的DC柱狀圖。 圖1:ADC傳遞曲線上ADC分辨率和有效分辨率的圖示 圖1中的圖表提出了一個(gè)有意思的問題。如果同樣的模擬輸入會(huì)導(dǎo)致多個(gè)數(shù)字輸出,那么對(duì)于ADC
    發(fā)表于 12-20 06:55

    峰峰值分辨率與有效分辨率的區(qū)別

    分辨率 是指無閃爍位數(shù),計(jì)算方法與有效分辨率不同。本文將說明峰峰值分辨率與有效分辨率的區(qū)別。 先來說說噪聲 圖1顯示模擬輸入接地時(shí)從
    發(fā)表于 12-15 07:56

    模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)
    的頭像 發(fā)表于 12-13 13:55 ?1589次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)方法

    用于高分辨率制造的低成本顯微投影光刻系統(tǒng)

    集成光信號(hào)分配、處理和傳感網(wǎng)絡(luò)需要小型化基本光學(xué)元件,如波導(dǎo)、分光器、光柵和光開關(guān)。為了實(shí)現(xiàn)這一目標(biāo),需要能夠?qū)崿F(xiàn)高分辨率制造的方法。
    的頭像 發(fā)表于 12-04 09:23 ?502次閱讀
    用于高<b class='flag-5'>分辨率</b>制造的<b class='flag-5'>低成本</b>顯微投影光刻系統(tǒng)

    峰值噪聲與有效噪聲的區(qū)別?峰值分辨率與有效分辨率的區(qū)別?

    峰值噪聲與有效噪聲的區(qū)別,峰值分辨率與有效分辨率的區(qū)別?無失碼分辨率又是指的什么?
    發(fā)表于 11-27 11:42

    哈工大提出Myriad:利用視覺專家進(jìn)行工業(yè)異常檢測的大型模態(tài)模型

    最近,大型模態(tài)(即視覺和語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務(wù)上表現(xiàn)出了卓越的感知能力,使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而,現(xiàn)有的通用 LMM 中缺乏有關(guān)異常檢測的知識(shí),而訓(xùn)練特定
    的頭像 發(fā)表于 11-21 16:08 ?1666次閱讀
    哈工<b class='flag-5'>大提出</b>Myriad:利用視覺專家進(jìn)行工業(yè)異常檢測的大型<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>模型</b>

    請(qǐng)問AD5522的分辨率如何提高?

    AD5522的輸出電壓跨度在22.5V左右,對(duì)應(yīng)16bit的DAC的分辨率約22.5V/65536=343uV。 如果我想提高到170uV左右的分辨率,但是又要保持輸出電壓跨度22.5V不變需要用
    發(fā)表于 11-15 08:20