亚洲国产成人影院播放,最近免费中文字幕中文高清百度

從BLIP-2到SAM視覺(jué)語(yǔ)義金字塔+ChatGPT

8G GPU顯存即可以運(yùn)行

代碼鏈接（已開(kāi)源）：h

https://github.com/showlab/Image2Paragraph

動(dòng)機(jī)：

怎么把圖片表示成高質(zhì)量文本一直是個(gè)熱門(mén)的問(wèn)題。傳統(tǒng)的思路Show，and Tell 等 Image Caption和Dense Caption 等都是依賴(lài)大量的人工標(biāo)注。首先依靠諸如亞馬遜AMT（亞非拉大兄弟們）等標(biāo)注平臺(tái)給每張圖一人寫(xiě)一段描述。其中添加了一系列規(guī)則，諸如名詞數(shù)目，顏色等等。通常用一句簡(jiǎn)短的話(huà)來(lái)描述一張圖。

然而，這種樸素的標(biāo)記思路造成了嚴(yán)重的One-to-many問(wèn)題。如一張圖對(duì)應(yīng)很多文本。由于圖片和文本之間信息的不對(duì)稱(chēng)性，在這類(lèi)數(shù)據(jù)上訓(xùn)練的結(jié)果很容易陷入平凡解。（Pretrain中也經(jīng)常遇到的問(wèn)題）

而LLM（大語(yǔ)言模型）尤其是ChatGPT展現(xiàn)出來(lái)的邏輯能力讓人望塵莫及。我們驚訝發(fā)現(xiàn)，把Bounding Box 和 Object信息給到GPT4， GPT4很自然的能推理出物體之間的位置關(guān)系，甚至想像出物體之間的聯(lián)系。

因此一個(gè)很自然的想法就是，用GPT4對(duì)每張圖生成高信息量的段落，F(xiàn)rom One-to-many to one-to-one

做法：

低階語(yǔ)義抽?。?/p>

Image Caption, Dense Caption, Object Detection, Segement Anything 等等統(tǒng)一當(dāng)成視覺(jué)理解組件。

如圖所示，首先用BLIP2 得到一張圖的Coars-grained Caption信息。再用 GRIT得到Dense Caption信息，最終用Segment Anything 去得到Fine- grained Region-level Semantic.

高階推理：

把金字塔視覺(jué)語(yǔ)義給到ChatGPT，讓ChatGPT去推理物體之間的關(guān)系和物體的物質(zhì)信息等，最終生成一個(gè)高質(zhì)量Unique的文本段落。

可視化：

最后對(duì)生成的段落，放進(jìn)Control Net生成一張重構(gòu)的圖。

實(shí)驗(yàn)：

最后是一些運(yùn)行結(jié)果：

對(duì)生成的段落用ControlNet生成新圖片。

Region-level Semantic:

最后有意思的是：

當(dāng)我們把圖片變成文本之后。不需要訓(xùn)練的情況下，檢索效果竟然好與在COCO上 Train的結(jié)果。

一些呼之欲出的問(wèn)題即將到來(lái)：

現(xiàn)有Vision- language Pretrain需不需要新的 Data collection 范式？

現(xiàn)有的Image- Text 數(shù)據(jù)集尤其是Caption數(shù)據(jù)需不需要Refine？

參考：

Show，And Tell.GRIT.ChatGPT.Segment Anything.ControlNet.Blip2.

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴