0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三項(xiàng)SOTA!MasQCLIP:開(kāi)放詞匯通用圖像分割新網(wǎng)絡(luò)

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 2023-12-12 11:23 ? 次閱讀

1. 效果展示

MasQCLIP在開(kāi)放詞匯實(shí)例分割、語(yǔ)義分割和全景分割三項(xiàng)任務(wù)上均實(shí)現(xiàn)了SOTA,漲點(diǎn)非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

2c36400a-987a-11ee-8b88-92fbcf53809c.png

再來(lái)看看開(kāi)放詞匯全景分割的定性效果,圖片來(lái)源于ADE20k,可以發(fā)現(xiàn)MasQCLIP分割出的Mask和類(lèi)別精度更高。

2c7bd53e-987a-11ee-8b88-92fbcf53809c.png

2. 具體原理是什么?

先介紹一下基礎(chǔ)的CLIP模型:ICML-2021的工作,多模態(tài)視覺(jué)-語(yǔ)言模型代表。主要用來(lái)提取zero-shot目標(biāo)的特征。核心思想是,很多模型需要預(yù)定義圖像類(lèi)別,但是文本實(shí)際上就已經(jīng)提供了未見(jiàn)類(lèi)別的信息,融合文本就可以極大增強(qiáng)模型的泛化性。

MasQCLIP的思想是,利用稠密特征與預(yù)訓(xùn)練的CLIP模型無(wú)縫集成,從而避免訓(xùn)練大規(guī)模參數(shù)。MasQCLIP在使用CLIP模型構(gòu)建圖像分割時(shí)側(cè)重兩方面:

(1)學(xué)生-教師模塊,通過(guò)從基礎(chǔ)(已見(jiàn))類(lèi)中提取信息來(lái)處理新(未見(jiàn))類(lèi)的Mask;

(2)更新CLIP模型中查詢(xún)的模型參數(shù)的微調(diào)過(guò)程。

具體Pipeline是,MasQCLIP由類(lèi)無(wú)關(guān)Mask提議網(wǎng)絡(luò)和基于CLIP的Mask分類(lèi)模塊組成。在Mask提議網(wǎng)絡(luò)中,應(yīng)用漸進(jìn)蒸餾來(lái)分割基類(lèi)之外的Mask。之后將預(yù)測(cè)的Mask送入分類(lèi)模塊以獲得標(biāo)簽。為了有效利用密集CLIP特征,還提出了MasQ-Tuning策略。

2cfae536-987a-11ee-8b88-92fbcf53809c.png

再來(lái)看看這個(gè)漸進(jìn)蒸餾,就是從教師模型的分割圖中提取和基礎(chǔ)類(lèi)別沒(méi)有重疊的Mask,用來(lái)做輔助訓(xùn)練,將這些額外的標(biāo)注蒸餾到學(xué)生模型中,然后不停的迭代循環(huán)來(lái)提高泛化性。

2d2090f6-987a-11ee-8b88-92fbcf53809c.png

3. 再來(lái)看看效果如何

開(kāi)放詞匯通用圖像分割的定量結(jié)果,直接對(duì)比了實(shí)例分割、語(yǔ)義分割、全景分割三個(gè)任務(wù)。三大任務(wù)漲點(diǎn)都非常明顯!

2d438bce-987a-11ee-8b88-92fbcf53809c.png

開(kāi)放詞匯實(shí)例分割結(jié)果,分別對(duì)比基類(lèi)和新類(lèi)別的定量精度,展示了模型的泛化性。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

2d6efc00-987a-11ee-8b88-92fbcf53809c.png

開(kāi)放詞匯實(shí)例分割定性對(duì)比,可以發(fā)現(xiàn)MasQCLIP分割精度更高!

2d87cc80-987a-11ee-8b88-92fbcf53809c.jpg








審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像分割
    +關(guān)注

    關(guān)注

    4

    文章

    182

    瀏覽量

    17960
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    6640

原文標(biāo)題:北大&清華最新開(kāi)源 | 三項(xiàng)SOTA!MasQCLIP:開(kāi)放詞匯通用圖像分割新網(wǎng)絡(luò)

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    蘋(píng)果iOS 18.2將推三項(xiàng)備忘錄AI功能,提升創(chuàng)作效率

    11月6日,據(jù)外媒報(bào)道,蘋(píng)果公司正籌備推出第二波Apple Intelligence(蘋(píng)果智能)功能,并計(jì)劃在下個(gè)月發(fā)布的iOS 18.2更新中,為備忘錄應(yīng)用帶來(lái)三項(xiàng)關(guān)鍵的人工智能改進(jìn),旨在提升用戶(hù)的創(chuàng)作效率和日常記錄體驗(yàn)。
    的頭像 發(fā)表于 11-06 14:58 ?303次閱讀

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割是一種重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類(lèi)別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、
    的頭像 發(fā)表于 07-17 09:56 ?336次閱讀

    圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

    圖像分割和語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中兩個(gè)重要的概念,它們?cè)?b class='flag-5'>圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像
    的頭像 發(fā)表于 07-17 09:55 ?622次閱讀

    圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么

    圖像分割與目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要任務(wù),它們?cè)谠S多應(yīng)用場(chǎng)景中都發(fā)揮著關(guān)鍵作用。然而,盡管它們?cè)谀承┓矫嬗邢嗨浦帲鼈兊哪繕?biāo)、方法和應(yīng)用場(chǎng)景有很大的不同。本文將介紹圖像分割
    的頭像 發(fā)表于 07-17 09:53 ?1024次閱讀

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?599次閱讀

    機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

    機(jī)器人視覺(jué)技術(shù)中的圖像分割方法是一個(gè)廣泛且深入的研究領(lǐng)域。圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程,這些區(qū)域或?qū)ο缶哂心撤N共同的特征,如顏
    的頭像 發(fā)表于 07-09 09:31 ?387次閱讀

    機(jī)器人視覺(jué)技術(shù)中圖像分割方法有哪些

    機(jī)器人視覺(jué)技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科。圖像分割是機(jī)器人視覺(jué)技術(shù)中的一個(gè)重要環(huán)節(jié),它的目標(biāo)是從一幅圖像中將目標(biāo)物體與背景分離出來(lái),以
    的頭像 發(fā)表于 07-04 11:34 ?680次閱讀

    NB81是否支持OneNet SOTA功能?應(yīng)該如何激活SOTA?

    NB81是否支持OneNet SOTA功能? 可以支持,應(yīng)該如何激活SOTA?
    發(fā)表于 06-04 06:14

    維信諾主導(dǎo)三項(xiàng)柔性顯示器件團(tuán)體標(biāo)準(zhǔn)發(fā)布

    近日,維信諾昆山公司憑借其深厚的技術(shù)積累和行業(yè)影響力,主導(dǎo)制定并發(fā)布了三項(xiàng)團(tuán)體標(biāo)準(zhǔn):T/SOECC 014-2024《柔性顯示器件 折痕測(cè)試方法》、T/SOECC 015-2024《柔性顯示器
    的頭像 發(fā)表于 03-13 10:37 ?853次閱讀

    改進(jìn)棉花根系圖像分割方法

    棉花是錦葵科棉屬植物,棉花生產(chǎn)的纖維是我國(guó)各類(lèi)衣服、家具布和工業(yè)用布的材料,目前我國(guó)的棉花產(chǎn)量也非常高,主要以新疆地區(qū)為主。根系是植物組成的重要部分,其生長(zhǎng)發(fā)育至關(guān)重要。 根系圖像分割是根系表型分析
    的頭像 發(fā)表于 01-18 16:18 ?266次閱讀

    【愛(ài)芯派 Pro 開(kāi)發(fā)板試用體驗(yàn)】+ 圖像分割和填充的Demo測(cè)試

    測(cè)試的程序是官方提供的交互式圖像分割和修復(fù)(Segment and Inpaint Anything)。所謂交互式圖像分割和修復(fù),就是軟件提供了一個(gè)基于QT6的GUI交互界面,實(shí)現(xiàn)了交
    發(fā)表于 12-26 11:22

    三項(xiàng)交流電主軸電機(jī)啟動(dòng)后轉(zhuǎn)子無(wú)法轉(zhuǎn)動(dòng)卻左右劇烈擺動(dòng)是什么原因呀?

    一臺(tái)數(shù)控齒輪磨床三項(xiàng)交流電主軸砂輪主軸電機(jī)主軸帶編碼器,啟動(dòng)后轉(zhuǎn)子無(wú)法轉(zhuǎn)動(dòng)卻左右劇烈擺動(dòng)。什么原因呀?編碼器和主軸電機(jī)驅(qū)動(dòng)器均已更換,電機(jī)繞組已檢查無(wú)短路斷路三項(xiàng)繞阻平衡。請(qǐng)版主幫幫忙呀!
    發(fā)表于 12-12 06:07

    安富利榮獲Nordic三項(xiàng)大獎(jiǎng)!

    11月6日,安富利榮獲全球先進(jìn)的集成電路硬件及軟件供應(yīng)商N(yùn)ordic頒發(fā)的三項(xiàng)大獎(jiǎng)——授予安富利中國(guó)團(tuán)隊(duì)中表現(xiàn)突出的“Nordic大使”、“最佳分銷(xiāo)FAE”獎(jiǎng),以及授予安富利亞洲團(tuán)隊(duì)的“年度分銷(xiāo)商”獎(jiǎng)項(xiàng)。
    的頭像 發(fā)表于 11-28 17:07 ?529次閱讀

    不同型號(hào)的三項(xiàng)電容可以串聯(lián)嗎?

    近年來(lái),隨著電子產(chǎn)品的普及和需求的增加,電容器的應(yīng)用越來(lái)越廣泛。在電路設(shè)計(jì)中,有時(shí)候需要將不同型號(hào)的三項(xiàng)電容串聯(lián)在一起使用。那么,不同型號(hào)的三項(xiàng)電容可以串聯(lián)嗎?
    的頭像 發(fā)表于 11-15 14:22 ?1702次閱讀
    不同型號(hào)的<b class='flag-5'>三項(xiàng)</b>電容可以串聯(lián)嗎?

    NeurlPS&apos;23開(kāi)源 | 首個(gè)!開(kāi)放詞匯3D實(shí)例分割!

    我們介紹了開(kāi)放詞匯3D實(shí)例分割的任務(wù)。當(dāng)前的3D實(shí)例分割方法通常只能從訓(xùn)練數(shù)據(jù)集中標(biāo)注的預(yù)定義的封閉類(lèi)集中識(shí)別對(duì)象類(lèi)別。這給現(xiàn)實(shí)世界的應(yīng)用程序帶來(lái)了很大的限制,在現(xiàn)實(shí)世界的應(yīng)用程序中,
    的頭像 發(fā)表于 11-14 15:53 ?560次閱讀
    NeurlPS&apos;23開(kāi)源 | 首個(gè)!<b class='flag-5'>開(kāi)放</b><b class='flag-5'>詞匯</b>3D實(shí)例<b class='flag-5'>分割</b>!