精品妓女久久久久亚洲中文,加勒比海盗1高清在线

0. 筆者個(gè)人體會(huì)

實(shí)例分割是CV領(lǐng)域很經(jīng)典的任務(wù)，應(yīng)用也非常廣泛。但一個(gè)比較頭疼的點(diǎn)是需要預(yù)定義類別，訓(xùn)練和測(cè)試都只能針對(duì)固定的類別。

最近，筆者閱讀了一篇NeurlPS 2023開源的方案OpenMask3D，可以根據(jù)輸入詞匯直接分割模型，關(guān)鍵是輸入的詞匯非常任意，比如"印有花卉圖案的扶手椅"，可以很好得跟其他類別區(qū)分開。

今天筆者將為大家分享這項(xiàng)工作，當(dāng)然筆者水平有限，如果有理解不當(dāng)?shù)牡胤綒g迎大家一起討論~

1. 效果展示

OpenMask3D聲稱是第一個(gè)開放詞匯3D實(shí)例分割模型，也就是輸入詞匯，分割對(duì)應(yīng)的3D實(shí)例。神奇的是它甚至可以識(shí)別顏色、幾何、材料、位置、臨近關(guān)系等語(yǔ)義信息。比如輸入"腳凳"、"上面有一個(gè)花瓶的邊桌""一個(gè)白色的枕頭"、"放著花瓶的邊桌"、"空垃圾桶"，感覺深度學(xué)習(xí)越來越偏向人類的思維模式了。

代碼已經(jīng)開源了，感興趣的小伙伴可以運(yùn)行代碼測(cè)試一下。下面來看具體的論文信息。

2. 摘要

我們介紹了開放詞匯3D實(shí)例分割的任務(wù)。當(dāng)前的3D實(shí)例分割方法通常只能從訓(xùn)練數(shù)據(jù)集中標(biāo)注的預(yù)定義的封閉類集中識(shí)別對(duì)象類別。這給現(xiàn)實(shí)世界的應(yīng)用程序帶來了很大的限制，在現(xiàn)實(shí)世界的應(yīng)用程序中，人們可能需要執(zhí)行由與各種各樣的對(duì)象相關(guān)的新穎、開放的詞匯表查詢所指導(dǎo)的任務(wù)。最近，開放詞匯3D場(chǎng)景理解方法已經(jīng)出現(xiàn)，通過學(xué)習(xí)場(chǎng)景中每個(gè)點(diǎn)的可查詢特征來解決這個(gè)問題。雖然這種表示可以直接用于執(zhí)行語(yǔ)義分割，但是現(xiàn)有的方法不能分離多個(gè)對(duì)象實(shí)例。在這項(xiàng)工作中，我們解決了這一限制，并提出了OpenMask3D，這是一個(gè)開放詞匯三維實(shí)例分割的zero-shot方法。在預(yù)測(cè)的類別不可知的3D實(shí)例掩模的指導(dǎo)下，我們的模型通過基于剪輯的圖像嵌入的多視圖融合來聚集每個(gè)掩模的特征。在ScanNet200和Replica上的實(shí)驗(yàn)和消融研究表明，OpenMask3D優(yōu)于其他開放詞匯方法，尤其是在長(zhǎng)尾分布上。定性實(shí)驗(yàn)進(jìn)一步展示了OpenMask3D基于描述幾何圖形、啟示和材料的自由形式查詢來分割對(duì)象屬性的能力。

3. 算法解析

OpenMask3D聲稱是第一個(gè)開放詞匯的3D實(shí)例分割模型，其Pipeline由四個(gè)步驟組成：

1、輸入帶位姿的RGB-D和重建的點(diǎn)云；

2、對(duì)每個(gè)點(diǎn)云計(jì)算與類無關(guān)的實(shí)例Mask；

3、使用預(yù)訓(xùn)練的視覺-語(yǔ)言模型CLIP，對(duì)每個(gè)Mask計(jì)算一個(gè)特征表示。

4、計(jì)算開放詞匯的三維實(shí)例分段表示，查詢概念相關(guān)的對(duì)象。

類別無關(guān)的實(shí)例分割怎么做的？

這個(gè)方法的關(guān)鍵新穎之處，在于它遵循一個(gè)實(shí)例mask引導(dǎo)的策略，而現(xiàn)有方法是基于點(diǎn)引導(dǎo)的。具體流程是先使用預(yù)訓(xùn)練的3D實(shí)例分割模型進(jìn)行預(yù)測(cè)，預(yù)測(cè)得到二進(jìn)制mask以及對(duì)應(yīng)的類別和置信度。OpenMask3D直接拋棄類別和置信度，將二進(jìn)制mask送到下游計(jì)算mask-特征。

每個(gè)實(shí)例的Mask-特征怎么計(jì)算的？

對(duì)每個(gè)Mask，首先選擇在RGB序列中可見性最好的k個(gè)視角。在每個(gè)視角內(nèi)，由3D實(shí)例分割投影為2D分割，用SAM（分割一切）優(yōu)化，再經(jīng)過裁剪獲得僅包括目標(biāo)的多尺度mask圖。之后使用CLIP編碼器來獲得2D Mask的圖像embedding，這些圖像級(jí)的embedding再根據(jù)k個(gè)視角聚合得到mask-特征的表征。

k個(gè)視角圖像是如何計(jì)算的呢？

這里是計(jì)算的共視得分然后排序，用vis表示投影點(diǎn)云個(gè)數(shù)，其中第i個(gè)mask在第j幀圖像的得分為：

直接投影不就得到2D分割了，為啥還要加SAM？

作者認(rèn)為，直接投影的話目標(biāo)輪廓非常不準(zhǔn)，而且會(huì)產(chǎn)生很多噪聲，因此使用了之前大火的分割一切模型來優(yōu)化。這里也不是直接用SAM來分割，而是使用RANSAC采樣點(diǎn)+SAM分割的方案，得到置信度最高的2D分割區(qū)域。

經(jīng)過這一步，就將類別無關(guān)的實(shí)例mask轉(zhuǎn)換為了語(yǔ)言特征，無論是使用文本查詢還是圖像查詢都非常方便。

4. 實(shí)驗(yàn)結(jié)果

ScanNet200驗(yàn)證集上的定量對(duì)比，對(duì)比了全監(jiān)督方案Mask3D，還有另一個(gè)開放詞匯模型OpenScene。結(jié)果顯示OpenMask3DAP指標(biāo)達(dá)到最優(yōu)，尤其是長(zhǎng)尾類別，對(duì)全監(jiān)督方案還是有很大差距，這個(gè)也能理解。

ScanNet200驗(yàn)證集上的消融實(shí)驗(yàn)，對(duì)比top k視角選擇（也分析k值多少合適）、2D Mask生成（是否使用SAM）、多尺度裁剪對(duì)性能的影響。

下面這個(gè)實(shí)驗(yàn)很有意思，之前的3D實(shí)例分割是使用預(yù)訓(xùn)練模型生成的，現(xiàn)在作者測(cè)試了直接使用3D實(shí)例分割真值的效果，后面的流程都一樣。結(jié)果顯示，使用真值后，在長(zhǎng)尾類上的精度甚至超越了全監(jiān)督方案Mask3D 9.1% AP。

定性結(jié)果，測(cè)試開放詞匯3D實(shí)例分割性能。借助zero-shot性能，OpenMask3D能夠分割"一個(gè)綠色的座位"、"印有花卉圖案的扶手椅"、"上面沒有衣服的床"、"壁紙前的沙發(fā)"這樣很特殊的目標(biāo)。而且OpenMask3D還可以識(shí)別顏色、紋理、情境、背景等對(duì)象屬性，這個(gè)非常新奇。

OpenMask3D和OpenScene的定性比對(duì)比，由于OpenMask3D計(jì)算的是embedding和每個(gè)對(duì)象實(shí)例的每個(gè)mask特征向量之間的相似性，所以會(huì)產(chǎn)生更好的分割邊界。這里也推薦「3D視覺工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程！》。

5. 總結(jié)

感覺大模型在場(chǎng)景理解上越來越偏向人類的思維方式了，以前的實(shí)例分割只能檢測(cè)預(yù)定義的類別，現(xiàn)在居然可以分割"印有花卉圖案的扶手椅"這樣的實(shí)例，不得不感嘆AI的發(fā)展速度。OpenMask3D聲稱是第一個(gè)開放詞匯的3D實(shí)例分割模型，給定任意文本就可以查詢3D目標(biāo)，甚至可以識(shí)別幾何信息、材料、顏色、位置關(guān)系這種語(yǔ)義信息，關(guān)鍵還是zero-shot的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

3D

3D

+關(guān)注

關(guān)注
9

文章
2836

瀏覽量
107000
AI

AI

+關(guān)注

關(guān)注
87

文章
28875

瀏覽量
266194
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2134

瀏覽量
1970

原文標(biāo)題：NeurlPS'23開源 | 首個(gè)！開放詞匯3D實(shí)例分割！

文章出處：【微信號(hào)：3D視覺工坊，微信公眾號(hào)：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【原創(chuàng)&整理】Altium 常用3D設(shè)計(jì)封裝庫(kù)

本帖最后由 first-tech 于 2013-4-3 23:28 編輯 Altium designer 3D設(shè)計(jì)應(yīng)用越來越廣，應(yīng)網(wǎng)友要求，在此發(fā)布常用的3D設(shè)計(jì)封裝庫(kù)，歡迎大家

發(fā)表于 04-03 15:28

分享一些開源3D打印創(chuàng)新

嵌入式頂級(jí)程序員開源繼續(xù)推動(dòng)3D打印行業(yè)的快速創(chuàng)新。如果您停下來想一想，這很有道理-存在3D打印機(jī)可以做其他事情。將這一理念與免費(fèi)軟件和開源硬件相結(jié)合，可以幫助其他人參與改進(jìn)其制

發(fā)表于 12-21 07:27

3D視頻目標(biāo)分割與快速跟蹤

3D視頻目標(biāo)分割與快速跟蹤_朱仲杰

發(fā)表于 01-07 16:00 ?0次下載

騰訊醫(yī)療AI開源模型讓3D醫(yī)療應(yīng)用性能提升

騰訊優(yōu)圖首個(gè)醫(yī)療AI深度學(xué)習(xí)預(yù)訓(xùn)練模型MedicalNet正式對(duì)外開源。據(jù)稱，這是全球第一個(gè)提供多種3D醫(yī)療影像專用預(yù)訓(xùn)練模型的項(xiàng)目，將為全球醫(yī)療AI發(fā)展提供基礎(chǔ)。

發(fā)表于 08-09 09:17 ?1325次閱讀

3D的感知技術(shù)及實(shí)踐

測(cè)量表面法向量估計(jì) 幾何測(cè)量平面提取 3D重建從離散點(diǎn)云得到光滑曲面 3D重建ICP點(diǎn)云配準(zhǔn) 3D重建SDF表面重建應(yīng)用例子：從稀疏的點(diǎn)云中，構(gòu)造出可以3D打印的模型

發(fā)表于 10-23 09:40 ?3096次閱讀

<b class='flag-5'>3D</b>的感知技術(shù)及實(shí)踐

世界首座3D打印鋼橋正式開放

音圈模組3D打印的鋼橋開放啦。大家都知道，荷蘭首都阿姆斯特丹以其歷史建筑、運(yùn)河和橋梁聞名于世，也是了世界上the first由3D打印的鋼橋。近日，這座橋已經(jīng)向公眾開放啦。

發(fā)表于 08-11 17:34 ?414次閱讀

燈塔3D打印和Arduino開源分享

電子發(fā)燒友網(wǎng)站提供《燈塔3D打印和Arduino開源分享.zip》資料免費(fèi)下載

發(fā)表于 11-02 09:29 ?0次下載

燈塔<b class='flag-5'>3D</b>打印和Arduino<b class='flag-5'>開源</b>分享

首個(gè)無監(jiān)督3D點(diǎn)云物體實(shí)例分割算法

本文旨在尋求一種無監(jiān)督的3D物體分割方法。我們發(fā)現(xiàn)，運(yùn)動(dòng)信息有望幫助我們實(shí)現(xiàn)這一目標(biāo)。如下圖1所示，在左圖中的藍(lán)色/橙色圓圈內(nèi)，一輛汽車上的所有點(diǎn)一起向前運(yùn)動(dòng)，而場(chǎng)景中其他的點(diǎn)則保持靜止。那么理論上，我們可以基于每個(gè)點(diǎn)的運(yùn)動(dòng)，將場(chǎng)景中屬于汽車的點(diǎn)和其他點(diǎn)

發(fā)表于 11-09 15:15 ?2025次閱讀

自研軟件賦能彈性體3D打??！清鋒LuxStudio&amp;amp;LuxFlow讓用戶3D打印游刃有余

導(dǎo)語(yǔ)：基于領(lǐng)先全球的3D打印柔性材料EM?23彈性材料，以及超高速光固化3D打印機(jī)iLuxPro及Lux3+，通過LuxStudio晶格設(shè)計(jì)&amp

發(fā)表于 02-17 10:23 ?615次閱讀

定制笛卡爾3D打印機(jī)開源分享

電子發(fā)燒友網(wǎng)站提供《定制笛卡爾3D打印機(jī)開源分享.zip》資料免費(fèi)下載

發(fā)表于 06-26 11:33 ?0次下載

3D打印底盤開源分享

電子發(fā)燒友網(wǎng)站提供《3D打印底盤開源分享.zip》資料免費(fèi)下載

發(fā)表于 07-06 14:43 ?1次下載

CVPR 2023 | 華科&amp;amp;MSRA新作：基于CLIP的輕量級(jí)開放詞匯語(yǔ)義分割架構(gòu)

本文提出了 SAN 框架，用于開放詞匯語(yǔ)義分割。該框架成功地利用了凍結(jié)的 CLIP 模型的特征以及端到端的流程，并最大化地采用凍結(jié)的 CLIP 模型。簡(jiǎn)介本文介紹了一種名為Side

發(fā)表于 07-10 10:05 ?878次閱讀

NeurlPS&;apos;23開源 | 大規(guī)模室外NeRF也可以實(shí)時(shí)渲染

神經(jīng)輻射場(chǎng) (NeRF)是一種新穎的隱式三維重建方法，顯示出巨大的潛力，受到越來越多的關(guān)注。它能夠僅從一組照片中重建3D場(chǎng)景。然而，它的實(shí)時(shí)渲染能力，尤其是對(duì)于大規(guī)模場(chǎng)景的交互式實(shí)時(shí)渲染，仍然具有顯著的局限性。

發(fā)表于 11-08 16:41 ?820次閱讀

基于深度學(xué)習(xí)的3D點(diǎn)云實(shí)例分割方法

3D實(shí)例分割（3DIS）是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由點(diǎn)云表示的 3D 場(chǎng)景，我們尋求為每

發(fā)表于 11-13 10:34 ?1626次閱讀

三項(xiàng)SOTA！MasQCLIP：開放詞匯通用圖像分割新網(wǎng)絡(luò)

MasQCLIP在開放詞匯實(shí)例分割、語(yǔ)義分割和全景分割三項(xiàng)任務(wù)上均實(shí)現(xiàn)了SOTA，漲點(diǎn)非常明顯。

發(fā)表于 12-12 11:23 ?607次閱讀