0. 筆者個人體會
今天筆者將為大家分享NVIDIA的最新開源方案FoundationPose,是一個用于 6D 姿態(tài)估計(jì)和跟蹤的統(tǒng)一基礎(chǔ)模型。只要給出CAD模型或少量參考圖像,F(xiàn)oundationPose就可以在測試時立即應(yīng)用于新物體,無需任何微調(diào),關(guān)鍵是各項(xiàng)指標(biāo)明顯優(yōu)于專為每個任務(wù)設(shè)計(jì)的SOTA方案。
下面一起來閱讀一下這項(xiàng)工作,文末附論文和代碼鏈接~
1. 效果展示
FoundationPose實(shí)現(xiàn)了新物體的6D姿態(tài)估計(jì)和跟蹤,支持基于模型和無模型設(shè)置。在這四個任務(wù)中的每一個上,F(xiàn)oundationPose都優(yōu)于專用任務(wù)的SOTA方案。(·表示僅RGB,×表示RGBD)。這里也推薦工坊推出的新課程《單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)》。
2. 具體原理是什么?
為減少大規(guī)模訓(xùn)練的人工工作,F(xiàn)oundationPose利用3D模型數(shù)據(jù)庫、大型語言模型和擴(kuò)散模型等新技術(shù),開發(fā)了一種新的合成數(shù)據(jù)生成Pipeline。為了彌補(bǔ)無模型和基于模型的設(shè)置之間的差距,F(xiàn)oundationPose利用以對象為中心的神經(jīng)場來進(jìn)行隨后的渲染和新視圖RGBD渲染。
對于姿態(tài)估計(jì),首先在物體周圍均勻地初始化全局姿態(tài),然后通過細(xì)化網(wǎng)絡(luò)對其進(jìn)行細(xì)化。最后將改進(jìn)的位姿轉(zhuǎn)發(fā)給姿態(tài)選擇模塊,預(yù)測位姿的分?jǐn)?shù),輸出得分最高的位姿。
3. 和其他SOTA方法對比如何?
YCB-Video數(shù)據(jù)集上Model-free方案的位姿估計(jì)定量結(jié)果對比。
YCB-Video數(shù)據(jù)集上位姿跟蹤的定量對比。這里也推薦工坊推出的新課程《單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)》。
對更多實(shí)驗(yàn)結(jié)果和文章細(xì)節(jié)感興趣的讀者,可以閱讀一下論文原文~
4. 論文信息
標(biāo)題:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
作者:Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
機(jī)構(gòu):NVIDIA
原文鏈接:https://arxiv.org/abs/2312.08344
代碼鏈接:https://github.com/NVlabs/FoundationPose
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102711 -
RGB
+關(guān)注
關(guān)注
4文章
797瀏覽量
58338
原文標(biāo)題:通用性超強(qiáng)!同時實(shí)現(xiàn)6D位姿估計(jì)和跟蹤!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論