0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探索ICLR‘24 Spotlight中的首個(gè)十億級(jí)別3D通用大模型

3D視覺(jué)工坊 ? 來(lái)源:3DCV ? 2024-01-25 10:10 ? 次閱讀

智源視覺(jué)團(tuán)隊(duì)近期的工作:3D視覺(jué)大模型Uni3DICLR 2024的評(píng)審中獲得了688分,被選為Spotlight Presentation。在本文中,作者第一次將3D基礎(chǔ)模型成功scale up到了十億(1B)級(jí)別參數(shù)量,并使用一個(gè)模型在諸多3D下游應(yīng)用中取得SOTA結(jié)果。代碼和各個(gè)scale的模型(從6M-1B)均已開(kāi)源:

3ebcb348-bb0d-11ee-8b88-92fbcf53809c.png

作者主要探索了3D視覺(jué)中scale up模型參數(shù)量和統(tǒng)一模型架構(gòu)的可能性。在NLP / 2D vision領(lǐng)域,scale up大模型(GPT-4,SAM,EVA等)已經(jīng)取得了很impressive的結(jié)果,但是在3D視覺(jué)中模型的scale up始終沒(méi)有成功。Uni3D旨在將NLP/2D中scale up的成功復(fù)現(xiàn)到3D表征模型上。

wKgaomWxwz2APhVyAAK0x5tfPxA652.png

在這項(xiàng)工作中,作者提出了一個(gè)3D基礎(chǔ)大模型Uni3D,直接將3D backbone統(tǒng)一為ViT(Vision Transformer),以此利用豐富和強(qiáng)大的2D預(yù)訓(xùn)練大模型作為初始化。Uni3D使用CLIP模型中的文本/圖像表征作為訓(xùn)練目標(biāo),通過(guò)學(xué)習(xí)三個(gè)模態(tài)的表征對(duì)齊(點(diǎn)云-圖像-文本)實(shí)現(xiàn)3D點(diǎn)云對(duì)圖像和文本的感知。同時(shí),通過(guò)使用ViT中成功的scale up策略,我們將Uni3D逐步 scale up,訓(xùn)練了從Tiny到giant的5個(gè)不同scale的Uni3D模型,成功地將Uni3D擴(kuò)展到10億級(jí)別參數(shù)。

3ed39fcc-bb0d-11ee-8b88-92fbcf53809c.png

下游應(yīng)用:

Uni3D在多個(gè)3D任務(wù)上達(dá)到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.

零樣本/少樣本分類(lèi)

Uni3D在ModelNet上實(shí)現(xiàn)了88.2%的零樣本分類(lèi)準(zhǔn)確率,甚至接近了有監(jiān)督學(xué)習(xí)方法的結(jié)果(如PointNet 89.2 %);

在最困難的Objaverse-LVIS基準(zhǔn)下,Uni3D取得了55.3%的零樣本分類(lèi)準(zhǔn)確率,大幅刷新了該榜單。

而在Objaverse-LVIS基準(zhǔn)的少樣本分類(lèi)測(cè)試中,Uni3D實(shí)現(xiàn)了83.1%的準(zhǔn)確率(16樣本下),明顯超過(guò)了以往的最先進(jìn)基準(zhǔn)OpenShape 32%。

3ed74f32-bb0d-11ee-8b88-92fbcf53809c.png

開(kāi)放世界的理解能力

研究團(tuán)隊(duì)采用與CLIP2相同的設(shè)置在ScanNet測(cè)試集下探究Uni3D在現(xiàn)實(shí)場(chǎng)景下的零樣本識(shí)別性能。與之前最先進(jìn)的SOTA方法PointCLIP、PointCLIP V2 、CLIP2Point 和CLIP2 相比,Uni3D表現(xiàn)最佳。

3f647e02-bb0d-11ee-8b88-92fbcf53809c.png

3f68d704-bb0d-11ee-8b88-92fbcf53809c.png

Uni3D在少樣本點(diǎn)云部件分割任務(wù)上也展示出了卓越的性能。下表結(jié)果顯示,在各種實(shí)驗(yàn)條件下,Uni3D的性能都明顯優(yōu)于Point-BERT等基線方法。即便只使用每類(lèi)一個(gè)樣本訓(xùn)練,Uni3D也達(dá)到了使用10%的訓(xùn)練數(shù)據(jù)的先前基線方法(如PointNet++,Point-BERT)的水平,在訓(xùn)練集的規(guī)模相對(duì)減少兩個(gè)數(shù)量級(jí)的情況下,仍能顯示出Uni3D更強(qiáng)的細(xì)粒度3D結(jié)構(gòu)理解能力。

3f89fe3e-bb0d-11ee-8b88-92fbcf53809c.png

由于學(xué)到了強(qiáng)大的多模態(tài)表征能力,Uni3D還能夠做一些有意思的應(yīng)用,如point cloud painting(點(diǎn)云繪畫(huà)),text/image-based 3D shape retrieval(基于圖像/文本的3D模型檢索),point cloud captioning(點(diǎn)云描述):

點(diǎn)云繪畫(huà):體現(xiàn)了在3D AIGC上的潛在能力

給定一個(gè)文本,Uni3D通過(guò)優(yōu)化點(diǎn)云的顏色來(lái)提高點(diǎn)云和文本在特征空間的相似度,基于此實(shí)現(xiàn)文本操控的點(diǎn)云內(nèi)容創(chuàng)作和點(diǎn)云繪畫(huà)。

3f8dd298-bb0d-11ee-8b88-92fbcf53809c.png

文本驅(qū)動(dòng)/圖像驅(qū)動(dòng)的三維形狀檢索:體現(xiàn)在構(gòu)建多模態(tài)檢索庫(kù)上的潛在能力

Uni3D通過(guò)學(xué)習(xí)到的統(tǒng)一的三維多模態(tài)表示,具有感知多個(gè)2D/語(yǔ)言信號(hào)的能力,可以通過(guò)圖像或文本輸入從大型3D數(shù)據(jù)集中檢索三維形狀。這是通過(guò)計(jì)算查詢圖像/文本提示的embedding與3D形狀的embedding入之間的余弦相似度來(lái)實(shí)現(xiàn)了對(duì)查詢的最相似3D形狀的獲取。

Uni3D 還可根據(jù)輸入文本來(lái)檢索 3D 形狀

將之前已經(jīng)成熟的“文搜圖/圖搜圖”擴(kuò)展到“文搜3D/圖搜3D”,這使得檢索互聯(lián)網(wǎng)上大規(guī)模未標(biāo)定的繁雜三維模型成為可能,為相關(guān)三維領(lǐng)域從業(yè)者、創(chuàng)作者搜集素材提供實(shí)用工具。

Uni3D 還可給定點(diǎn)云生成對(duì)應(yīng)的文本描述

Uni3D擴(kuò)展為T(mén)ext-to-3D generation tasks的評(píng)測(cè)指標(biāo)

在text-to-3D研究領(lǐng)域,目前量化度量仍然是一個(gè)較難的問(wèn)題。目前的量化指標(biāo)都是將生成的3D模型渲染為2D圖片,利用2D指標(biāo)衡量生成質(zhì)量。然而由于渲染角度互相獨(dú)立以及3D模型自遮擋等問(wèn)題,2D評(píng)價(jià)指標(biāo)難以完全真實(shí)反映出3D生成模型的真實(shí)能力。如下圖,生成的3D模型有明顯的3D不一致性問(wèn)題,但是單獨(dú)看其中大部分的視角渲染圖片都是正常的物體,導(dǎo)致2D評(píng)價(jià)指標(biāo)往往難以反映生成3D模型的不一致問(wèn)題。

作者團(tuán)隊(duì)近期推出的Text-to-3D generation 工作GeoDream提出利用目前最大最強(qiáng)的3D基礎(chǔ)模型Uni3D,直接對(duì)3D模型進(jìn)行評(píng)估,避免渲染帶來(lái)的視角問(wèn)題。相應(yīng)的評(píng)價(jià)指標(biāo)代碼也開(kāi)源到GeoDream的代碼庫(kù)中 (https://github.com/baaivision/GeoDream) 。

量化比較:在生成質(zhì)量和語(yǔ)義保持性的量化測(cè)試上,GeoDream相比于之前方法取得顯著提升。在基于渲染2D圖片的量化指標(biāo)(FID,CLIP-Score)和直接在3D空間度量生成的3D資產(chǎn)量化指標(biāo)(Uni3D-Score)上均有提升,說(shuō)明GeoDream渲染的圖片和3D結(jié)構(gòu)均有優(yōu)勢(shì)。

3fe8b046-bb0d-11ee-8b88-92fbcf53809c.png

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D視覺(jué)
    +關(guān)注

    關(guān)注

    4

    文章

    423

    瀏覽量

    27427
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2134

    瀏覽量

    1971

原文標(biāo)題:ICLR‘24 Spotlight 首個(gè)十億級(jí)別3D通用大模型

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ad193d模型不顯示?

    封裝庫(kù)導(dǎo)入3d模型不顯示,但導(dǎo)入3d模型后的封裝庫(kù)生成pcb文件時(shí)顯示3d模型,這是什么原因?qū)е?/div>
    發(fā)表于 04-24 13:41

    LABVIEW如何驅(qū)動(dòng)3D模型

    基于soildwork繪制的3D機(jī)器人模型,要求實(shí)際的機(jī)器人在運(yùn)動(dòng)時(shí),將3D模型加載在LABVIEW,與實(shí)際機(jī)器人同步動(dòng)作,做運(yùn)動(dòng)演示。
    發(fā)表于 02-28 16:51

    Labview 3D模型

    新手求助……有沒(méi)有哪位大神會(huì)利用labview顯示3D模型(含裝配體,需要轉(zhuǎn)動(dòng)不同的部位)嗎?是用3D傳感器映射???
    發(fā)表于 08-26 01:20

    Labview如何導(dǎo)入3D模型

    Labview如何導(dǎo)入3D模型,例如3Dmax生成的模型。嘗試過(guò)用.STL格式導(dǎo)入Labview。但是
    發(fā)表于 01-26 13:13

    3d模型問(wèn)題

    最近在學(xué)3d模型,遇到些問(wèn)題,請(qǐng)教大家。1.3D模型的格式。模型是用3dmax做的,為
    發(fā)表于 11-12 17:14

    分享貼片3D模型

    分享貼片3D模型
    發(fā)表于 12-18 21:08

    浩辰3D軟件如何創(chuàng)建槽特征?3D模型設(shè)計(jì)教程!

    3D模型設(shè)計(jì)創(chuàng)建槽特征是十分常見(jiàn)的,那么在浩辰3D軟件如何創(chuàng)建槽特征呢?下面小編就來(lái)給大家介紹一下浩辰
    發(fā)表于 09-28 16:16

    浩辰3D軟件入門(mén)教程:如何比較3D模型

    差異。步驟一:點(diǎn)選「比較模型」功能在浩辰3D軟件的開(kāi)始菜單,選擇「工具」選項(xiàng)卡,并且點(diǎn)選「比較模型」功能。輸入?yún)⒖?b class='flag-5'>模型和工作
    發(fā)表于 12-15 13:45

    AD的3D模型繪制功能介紹

    `  首先,在封裝庫(kù)的編輯界面下,我們點(diǎn)擊菜單欄目的Place-》3D Body,見(jiàn)圖(1)?!   D(1)3D模型打開(kāi)步驟  打開(kāi)后就會(huì)出現(xiàn)信息編輯界面,見(jiàn)圖(2)。我們可以看到AD的3D
    發(fā)表于 01-14 16:48

    3D模型的基礎(chǔ)介紹

    3D模型基礎(chǔ)
    發(fā)表于 01-28 07:50

    3D設(shè)計(jì)軟件怎么創(chuàng)建風(fēng)扇葉模型?浩辰3D基礎(chǔ)教程

    環(huán)節(jié)。下面,小編將通過(guò)繪制生活中常見(jiàn)的風(fēng)扇葉模型,展示如何通過(guò)浩辰3D設(shè)計(jì)軟件高效地完成日常的創(chuàng)新設(shè)計(jì)需求。1、葉轂繪制在浩辰3D設(shè)計(jì)軟件的草圖選項(xiàng)卡,點(diǎn)選「草圖繪制」,繪制出葉轂的
    發(fā)表于 06-04 14:11

    3D模型

    3D模型, 淘寶網(wǎng)上買(mǎi)的3D元器件庫(kù)需要的自行下載
    發(fā)表于 11-04 15:36 ?0次下載

    3D技術(shù)的應(yīng)用探索3D機(jī)器視覺(jué)庫(kù)

    3D技術(shù)的應(yīng)用探索3D機(jī)器視覺(jué)庫(kù) 的資料。
    發(fā)表于 03-22 15:01 ?0次下載

    關(guān)于 AD 如何創(chuàng)建 3D 模型及設(shè)計(jì)教程 Ver1.0

    關(guān)于Altium_Design如何創(chuàng)建3D模型3D設(shè)計(jì)教程Ver1.0
    發(fā)表于 01-25 17:24 ?29次下載

    高分工作!Uni3D3D基礎(chǔ)大模型,刷新多個(gè)SOTA!

    我們主要探索3D視覺(jué)scale up模型參數(shù)量和統(tǒng)一模型架構(gòu)的可能性。在NLP / 2D v
    的頭像 發(fā)表于 01-30 15:56 ?642次閱讀
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基礎(chǔ)大<b class='flag-5'>模型</b>,刷新多個(gè)SOTA!