亚洲人成亚洲人成在线观看,国产v综合v亚洲欧美大另类

低成本擴(kuò)大輸入分辨率：探秘98億參數(shù)多模態(tài)大模型--Monkey眼中的世界

【導(dǎo)讀】11月，華中科技大學(xué)團(tuán)隊(duì)發(fā)布了新的多模態(tài)大模型——Monkey，通過專注于大分辨率，使得Monkey能夠處理分辨率高達(dá)1344×896的圖像，并加入了有著詳細(xì)描述的高質(zhì)量圖文數(shù)據(jù)進(jìn)行訓(xùn)練，幫助Monkey煉就洞察圖像細(xì)節(jié)的火眼金睛，取得了與Caption和QA任務(wù)相關(guān)的16個(gè)數(shù)據(jù)集的SOTA，甚至與GPT4V相比，在密集文本問答任務(wù)上也有著亮眼的表現(xiàn)。

論文鏈接：https://arxiv.org/abs/2311.06607

代碼地址：https://github.com/Yuliang-Liu/Monkey

官方demo效果展示：

Monkey在密集文本的問答任務(wù)上取得了很不錯(cuò)的效果，可以根據(jù)問題的要求進(jìn)行推理，能夠適配中文問答

在文本較少的場景中Monkey也展現(xiàn)了不俗的問答能力，自身擁有豐富的知識(shí)庫，可以根據(jù)問題進(jìn)行外推，從而回答出正確的答案

Monkey在Caption任務(wù)上同樣取得了出色的結(jié)果，不僅僅是對(duì)圖片進(jìn)行準(zhǔn)確詳細(xì)的描述，同時(shí)能夠合理發(fā)散，分析出圖片所傳達(dá)的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進(jìn)行問答的可視化結(jié)果展示。

下圖展示了Monkey的卓越性能，在 18 個(gè)不同的數(shù)據(jù)集上進(jìn)行測試的結(jié)果表明，Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務(wù)，并在16個(gè)數(shù)據(jù)集上取得SOTA。

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個(gè)圖片塊，再將這些圖片塊和原始輸入圖片統(tǒng)一到448*448的尺寸。每個(gè)圖片塊經(jīng)過視覺編碼時(shí)會(huì)加入一個(gè)專屬的Lora以此更好地提取圖片塊的局部視覺特征，訓(xùn)練時(shí)僅訓(xùn)練Lora部分，而原始的輸入圖像則用于提取全局特征，以此方法達(dá)到增大輸入分辨率的目的。

2. 多級(jí)特征融合的詳細(xì)描述生成方法生成高質(zhì)量圖文數(shù)據(jù)

主要分為五個(gè)步驟：第一步，使用BLIP2對(duì)整張圖生成全局描述；第二步用 GRIT生成區(qū)域框，并提供區(qū)域中對(duì)象的名稱和詳細(xì)描述，同時(shí)使用PPOCR提取區(qū)域的文本框坐標(biāo)和文本內(nèi)容；第三步使用SAM進(jìn)行分割，并送入BLIP2生成對(duì)各個(gè)物體及其組成部分的詳細(xì)描述；第四步使用BLIP-2 評(píng)估過濾掉低分匹配；最后使用ChatGPT 對(duì)上述得到的描述進(jìn)行總結(jié)從而得到圖像的詳細(xì)描述。

下圖為使用使用多級(jí)特征融合的詳細(xì)描述生成方法后得到的標(biāo)注與原始CC3M標(biāo)注的對(duì)比，不難看出，兩種標(biāo)注之間存在著較大的差距，生成的詳細(xì)標(biāo)注盡可能地包含了圖片中的各種細(xì)節(jié)，而不像是CC3M地原始標(biāo)注那樣一句帶過。利用這樣高質(zhì)量的圖文數(shù)據(jù)進(jìn)行訓(xùn)練，使得Monkey能夠更好地把握?qǐng)D文之間的關(guān)系。

更多的可視化對(duì)比結(jié)果與展示:

通過下圖展示的Monkey在QA任務(wù)上與多種大模型的對(duì)比結(jié)果，從中我們能夠更加直觀地感受到Monkey強(qiáng)大的問答能力，能夠準(zhǔn)確地把握住問題并給出正確的回答，尤其是在密集文本問答任務(wù)上，目前的大模型或多或少都面臨著一定的問題，Monkey為解決這一難題提供了一條可行的出路。

總結(jié)

Monkey提出了一種訓(xùn)練高效的方法，無需預(yù)訓(xùn)練即可有效地提高模型的輸入分辨率，最高可達(dá)896 x 1344像素。為了彌補(bǔ)簡單文本標(biāo)簽和高分辨率輸入之間的差距，Monkey提出了一種多級(jí)特征融合的詳細(xì)描述生成方法，它可以自動(dòng)提供豐富的信息，以引導(dǎo)模型學(xué)習(xí)圖像中各個(gè)物體的屬性及其聯(lián)系。通過這兩種設(shè)計(jì)的協(xié)同作用，Monkey練就了一雙火眼金睛，在多個(gè)基準(zhǔn)測試中取得了出色的結(jié)果。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

高分辨率

高分辨率

+關(guān)注

關(guān)注
0

文章
44

瀏覽量
15301
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1078

瀏覽量
40375
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2274

瀏覽量
2357

原文標(biāo)題：低成本擴(kuò)大輸入分辨率！華科大提出Monkey：新的多模態(tài)大模型

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡單來說，多

發(fā)表于 10-18 09:39 ?253次閱讀

VR顯示器分辨率的選擇

一、VR顯示器分辨率的重要性 1.1 分辨率與視覺體驗(yàn) 分辨率是指顯示器上能夠顯示的像素點(diǎn)的數(shù)量，通常用水平像素?cái)?shù)×垂直像素?cái)?shù)來表示。在VR顯示器中，分辨率直接影響到用戶的視覺體驗(yàn)。高

發(fā)表于 07-08 10:29 ?890次閱讀

編碼器分辨率是什么意思編碼器分辨率和脈沖數(shù)的關(guān)系

按照編碼器支持的分辨率可以把編碼器分成標(biāo)清編碼器、高清編碼器、全高清編碼器，分辨率越高幀率越高視頻就越清楚。 1.編碼器的分辨率是什么意思編碼器的分辨率是指編碼器以每旋轉(zhuǎn)360度提供

發(fā)表于 02-21 18:07 ?3751次閱讀

電容觸摸屏的分辨率怎么調(diào)

電容觸摸屏的分辨率調(diào)整是通過調(diào)整觸摸屏的控制器的參數(shù)來實(shí)現(xiàn)的。觸摸屏的分辨率是指能夠在屏幕上識(shí)別的最小觸摸點(diǎn)的像素?cái)?shù)量。分辨率越高，觸摸屏可以更準(zhǔn)確地檢測和響應(yīng)用戶的操作。在調(diào)整電容觸摸屏的

發(fā)表于 01-23 16:59 ?1755次閱讀

鏡頭分辨率簡述

分辨率可以從顯示分辨率與圖像分辨率兩個(gè)方向來分類。

發(fā)表于 01-15 11:12 ?861次閱讀

淺談相機(jī)的圖像分辨率

談到顯微成像系統(tǒng)，常常會(huì)用分辨率來評(píng)價(jià)成像能力的高低，那分辨率到底指的是什么，又怎樣計(jì)算呢？其實(shí)對(duì)于一個(gè)特定的顯微成像系統(tǒng)，分辨率要從兩個(gè)方面來考慮，一種是光學(xué)系統(tǒng)的分辨率—光學(xué)衍射極

發(fā)表于 01-09 09:54 ?1550次閱讀

adc電路的分辨率怎么算

ADC（模數(shù)轉(zhuǎn)換器）電路的分辨率是指其能夠?qū)⒛M信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)時(shí)能夠達(dá)到的最小分辨單位。分辨率通常用位數(shù)表示，例如10位的ADC具有1024個(gè)離散的輸出級(jí)別。要計(jì)算ADC電路的分辨率

發(fā)表于 01-04 15:23 ?6320次閱讀

詳述ADC精度和分辨率的差異

的DC柱狀圖。圖1：ADC傳遞曲線上ADC分辨率和有效分辨率的圖示圖1中的圖表提出了一個(gè)有意思的問題。如果同樣的模擬輸入會(huì)導(dǎo)致多個(gè)數(shù)字輸出，那么對(duì)于ADC

發(fā)表于 12-20 06:55

峰峰值分辨率與有效分辨率的區(qū)別

值分辨率 是指無閃爍位數(shù)，計(jì)算方法與有效分辨率不同。本文將說明峰峰值分辨率與有效分辨率的區(qū)別。先來說說噪聲圖1顯示模擬輸入接地時(shí)從

發(fā)表于 12-15 07:56

大模型+多模態(tài)的3種實(shí)現(xiàn)方法

我們知道，預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息，讓其變得更強(qiáng)

發(fā)表于 12-13 13:55 ?1589次閱讀

酣暢淋漓的知識(shí)分享|精度、精確度、準(zhǔn)確度、分辨率怎么區(qū)別？#精度 #精確度 #準(zhǔn)確度 #分辨率

元器件分辨率

安泰小課堂
發(fā)布于 :2023年12月08日 13:46:05

用于高分辨率制造的低成本顯微投影光刻系統(tǒng)

集成光信號(hào)分配、處理和傳感網(wǎng)絡(luò)需要小型化基本光學(xué)元件，如波導(dǎo)、分光器、光柵和光開關(guān)。為了實(shí)現(xiàn)這一目標(biāo)，需要能夠?qū)崿F(xiàn)高分辨率制造的方法。

發(fā)表于 12-04 09:23 ?502次閱讀

峰值噪聲與有效噪聲的區(qū)別？峰值分辨率與有效分辨率的區(qū)別？

峰值噪聲與有效噪聲的區(qū)別，峰值分辨率與有效分辨率的區(qū)別？無失碼分辨率又是指的什么？

發(fā)表于 11-27 11:42

哈工大提出Myriad：利用視覺專家進(jìn)行工業(yè)異常檢測的大型多模態(tài)模型

最近，大型多模態(tài)（即視覺和語言）模型（LMM）在圖像描述、視覺理解、視覺推理等多種視覺任務(wù)上表現(xiàn)出了卓越的感知能力，使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而，現(xiàn)有的通用 LMM 中缺乏有關(guān)異常檢測的知識(shí)，而訓(xùn)練特定

發(fā)表于 11-21 16:08 ?1666次閱讀

請(qǐng)問AD5522的分辨率如何提高？

AD5522的輸出電壓跨度在22.5V左右，對(duì)應(yīng)16bit的DAC的分辨率約22.5V/65536=343uV。如果我想提高到170uV左右的分辨率，但是又要保持輸出電壓跨度22.5V不變需要用

發(fā)表于 11-15 08:20