0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高分工作!Uni3D:3D基礎(chǔ)大模型,刷新多個(gè)SOTA!

CVer ? 來源:CVer ? 2024-01-30 15:56 ? 次閱讀

我們近期的工作:3D視覺大模型Uni3D在ICLR 2024的評審中獲得了688分,被選為Spotlight Presentation

02be4964-b8ed-11ee-8b88-92fbcf53809c.jpg

在本文中,我們第一次將3D基礎(chǔ)模型成功scale up到了十億(1B)級別參數(shù)量,并使用一個(gè)模型在諸多3D下游應(yīng)用中取得SoTA結(jié)果。代碼和各個(gè)scale的模型(從6M-1B)均已開源,歡迎大家關(guān)注和使用:

論文:https://https://arxiv.org/pdf/2310.06773

代碼:https://https://github.com/baaivision/Uni3D

02cb5d02-b8ed-11ee-8b88-92fbcf53809c.jpg

我們主要探索了3D視覺中scale up模型參數(shù)量和統(tǒng)一模型架構(gòu)的可能性。在NLP / 2D vision領(lǐng)域,scale up大模型(GPT-4,SAM,EVA等)已經(jīng)取得了很impressive的結(jié)果,但是在3D視覺中模型的scale up始終沒有成功。我們旨在將NLP/2D中scale up的成功復(fù)現(xiàn)到3D表征模型上。

02d03426-b8ed-11ee-8b88-92fbcf53809c.jpg

在這項(xiàng)工作中,我們提出了一個(gè)3D基礎(chǔ)大模型Uni3D,直接將3D backbone統(tǒng)一為ViT(Vision Transformer),以此利用豐富和強(qiáng)大的2D預(yù)訓(xùn)練大模型作為初始化。Uni3D使用CLIP模型中的文本/圖像表征作為訓(xùn)練目標(biāo),通過學(xué)習(xí)三個(gè)模態(tài)的表征對齊(點(diǎn)云-圖像-文本)實(shí)現(xiàn)3D點(diǎn)云對圖像和文本的感知。同時(shí),通過使用ViT中成功的scale up策略,我們將Uni3D逐步 scale up,訓(xùn)練了從Tiny到giant的5個(gè)不同scale的Uni3D模型,成功地將Uni3D擴(kuò)展到10億級別參數(shù)。

02df8750-b8ed-11ee-8b88-92fbcf53809c.jpg

Uni3D模型不同scale下的參數(shù)量和zero-shot分類結(jié)果

Uni3D在多個(gè)3D任務(wù)上達(dá)到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.

02f5e8f6-b8ed-11ee-8b88-92fbcf53809c.jpg

Zero-shot classification

030673b0-b8ed-11ee-8b88-92fbcf53809c.jpg

Real-world zero-shot recognition

由于學(xué)到了強(qiáng)大的多模態(tài)表征能力,Uni3D還能夠做一些有意思的應(yīng)用,如point cloud painting(點(diǎn)云繪畫),text/image-based 3D shape retrieval(基于圖像/文本的3D模型檢索),point cloud captioning(點(diǎn)云描述):

030d818c-b8ed-11ee-8b88-92fbcf53809c.jpg

Point cloud painting

03126e90-b8ed-11ee-8b88-92fbcf53809c.jpg

Image-based 3D shape retrieval

032b3eca-b8ed-11ee-8b88-92fbcf53809c.jpg

Text-based 3D shape retrieval

03421aaa-b8ed-11ee-8b88-92fbcf53809c.jpg

Point cloud captioning.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 3D視覺
    +關(guān)注

    關(guān)注

    4

    文章

    423

    瀏覽量

    27428
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2134

    瀏覽量

    1974

原文標(biāo)題:ICLR 2024 | 高分工作!Uni3D:3D基礎(chǔ)大模型,刷新多個(gè)SOTA!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    安寶特產(chǎn)品 安寶特3D Analyzer:智能的3D CAD高級分析工具

    安寶特3D Analyzer包含多種實(shí)用的3D CAD高級分析工具,包括自動比對模型、碰撞檢測、間隙檢查、壁厚檢查,以及拔模和底切分析,能夠有效提升3D CAD
    的頭像 發(fā)表于 08-07 10:13 ?199次閱讀
    安寶特產(chǎn)品  安寶特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高級分析工具

    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

    App。 騰訊元寶APP發(fā)布時(shí),就圍繞工作效率場景、日常生活等場景提供了豐富的應(yīng)用,并有創(chuàng)建個(gè)人智能體等個(gè)性化體驗(yàn),“3D角色夢工廠”則將大模型生成技術(shù)和3D應(yīng)用結(jié)合,進(jìn)一步創(chuàng)新了元寶
    的頭像 發(fā)表于 07-18 11:39 ?616次閱讀
    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)<b class='flag-5'>3D</b>生成應(yīng)用

    裸眼3D筆記本電腦——先進(jìn)的光場裸眼3D技術(shù)

    隨著科技的不斷進(jìn)步,裸眼3D技術(shù)已經(jīng)不再是科幻電影中的幻想。如今,英倫科技裸眼3D筆記本電腦將這一前沿科技帶到了我們的日常生活中。無論你是專業(yè)的3D模型設(shè)計(jì)師,還是希望在視頻播放和
    的頭像 發(fā)表于 07-16 10:04 ?285次閱讀

    ad19中3d模型不顯示?

    封裝庫導(dǎo)入3d模型不顯示,但導(dǎo)入3d模型后的封裝庫生成pcb文件時(shí)顯示3d模型,這是什么原因?qū)е?/div>
    發(fā)表于 04-24 13:41

    包含具有多種類型信息的3D模型

    Desktop是一個(gè)3D建模CAD程序,用于多種繪圖和設(shè)計(jì),涵蓋建筑、土木和機(jī)械工程,以及室內(nèi)設(shè)計(jì)、產(chǎn)品設(shè)計(jì)、景觀建筑甚至游戲開發(fā)。它通常用于創(chuàng)建和編輯3D模型,同時(shí)提供與BIM工作
    發(fā)表于 03-28 17:18

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,該模型以其獨(dú)特的功能吸引了眾多關(guān)注。此模型具備從單張圖像中生成多視圖
    的頭像 發(fā)表于 03-22 10:30 ?649次閱讀

    探索ICLR‘24 Spotlight中的首個(gè)十億級別3D通用大模型

    Uni3D在少樣本點(diǎn)云部件分割任務(wù)上也展示出了卓越的性能。下表結(jié)果顯示,在各種實(shí)驗(yàn)條件下,Uni3D的性能都明顯優(yōu)于Point-BERT等基線方法。
    的頭像 發(fā)表于 01-25 10:10 ?375次閱讀
    探索ICLR‘24 Spotlight中的首個(gè)十億級別<b class='flag-5'>3D</b>通用大<b class='flag-5'>模型</b>

    3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷一系列人工制作的過程,如 3D 人體模型回歸、綁定、
    的頭像 發(fā)表于 12-20 16:37 ?1293次閱讀
    <b class='flag-5'>3D</b>人體生成<b class='flag-5'>模型</b>HumanGaussian實(shí)現(xiàn)原理

    CASAIM沙盤模型3D打印的優(yōu)勢和應(yīng)用

    隨著3D打印技術(shù)的不斷發(fā)展,沙盤模型3D打印已經(jīng)成為建筑行業(yè)中的一項(xiàng)創(chuàng)新應(yīng)用。這種技術(shù)能夠?qū)⒃O(shè)計(jì)師的創(chuàng)意以實(shí)體形式呈現(xiàn),為建筑項(xiàng)目的溝通和展示提供了更加直觀和便捷的方式。本文將介紹CASAIM沙盤
    的頭像 發(fā)表于 12-19 16:44 ?411次閱讀
    CASAIM沙盤<b class='flag-5'>模型</b><b class='flag-5'>3D</b>打印的優(yōu)勢和應(yīng)用

    提供3D打印材料與解決方案,助力3D打印產(chǎn)業(yè)發(fā)展

    提供3D打印材料與解決方案,助力3D打印產(chǎn)業(yè)發(fā)展
    的頭像 發(fā)表于 12-12 11:12 ?388次閱讀

    3D 封裝與 3D 集成有何區(qū)別?

    3D 封裝與 3D 集成有何區(qū)別?
    的頭像 發(fā)表于 12-05 15:19 ?758次閱讀
    <b class='flag-5'>3D</b> 封裝與 <b class='flag-5'>3D</b> 集成有何區(qū)別?

    當(dāng)芯片變身 3D系統(tǒng),3D異構(gòu)集成面臨哪些挑戰(zhàn)

    當(dāng)芯片變身 3D 系統(tǒng),3D 異構(gòu)集成面臨哪些挑戰(zhàn)
    的頭像 發(fā)表于 11-24 17:51 ?610次閱讀
    當(dāng)芯片變身 <b class='flag-5'>3D</b>系統(tǒng),<b class='flag-5'>3D</b>異構(gòu)集成面臨哪些挑戰(zhàn)

    PADS VX2.7 下載安裝及3D模型導(dǎo)入的注意事項(xiàng)

    ://mentor.mr-wu.cn/ 安裝方式按照安裝包內(nèi)的指導(dǎo)完成即可。 破解注意事項(xiàng):1.用最新版饅頭破解 2.必須關(guān)閉殺毒軟件,否則破解后不可用! 二:3D模型導(dǎo)入 1.從3D模型
    發(fā)表于 11-22 17:54

    HT for Web (Hightopo) 使用心得(4)- 3D 場景 Graph3dView 與 Obj 模型

    這里我們通過代碼建立一個(gè) 3D 場景并添加一個(gè) Obj 模型來介紹一下 HT for Web 在 3D 場景和模型加載方面的使用。
    的頭像 發(fā)表于 11-20 11:05 ?591次閱讀
    HT for Web (Hightopo) 使用心得(4)- <b class='flag-5'>3D</b> 場景 Graph<b class='flag-5'>3</b>dView 與 Obj <b class='flag-5'>模型</b>

    88個(gè)電子元器件3D模型合集

    整合88個(gè)國外網(wǎng)站下載的電子元器件3D模型,省去逐一下載的麻煩。
    發(fā)表于 09-25 07:47