0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR2023:IDEA與清華提出首個一階段3D全身人體網(wǎng)格重建算法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-04-07 09:56 ? 次閱讀

三維全身人體網(wǎng)格重建(3D Whole-Body Mesh Recovery)是三維人體重建領(lǐng)域的一個基礎(chǔ)任務(wù),是人類行為建模的一個重要環(huán)節(jié),用于從單目圖像中捕獲出準(zhǔn)確的全身人體姿態(tài)和形狀,在人體重建、人機(jī)交互等許多下游任務(wù)中有著廣泛的應(yīng)用。

來自粵港澳大灣區(qū)研究院(IDEA)與清華大學(xué)深研院的研究者們提出了首個用于全身人體網(wǎng)格重建的一階段算法OSX,通過模塊感知的Transformer網(wǎng)絡(luò),高效、準(zhǔn)確地重建出全身人體網(wǎng)格,并提出了一個大規(guī)模、關(guān)注真實(shí)應(yīng)用場景的上半身人體重建數(shù)據(jù)集UBody.

本文提出的算法從投稿至今(2022.11~2023.04),是AGORA榜單SMPL-X賽道的第一名。該工作已經(jīng)被計(jì)算機(jī)視覺頂會CVPR2023接收,算法代碼和預(yù)訓(xùn)練模型已經(jīng)全部開源。

ab422af4-d4cf-11ed-bfe3-dac502259ad0.png

三維全身人體網(wǎng)格重建(3D Whole-Body Mesh Recovery)是人類行為建模的一個重要環(huán)節(jié),用于從單目圖像中估計(jì)出人體姿態(tài)(Body Pose), 手勢(Hand Gesture)和臉部表情(Facial Expressions),該任務(wù)在許多下游現(xiàn)實(shí)場景中有著廣泛的應(yīng)用,例如動作捕捉、人機(jī)交互等。得益于SMPLX等參數(shù)化模型的發(fā)展,全身人體網(wǎng)格重建精度得到了提升,該任務(wù)也得到越來越多的關(guān)注。

相比于身體姿態(tài)估計(jì)(Body-Only Mesh Recovery),全身人體網(wǎng)格重建需要額外估計(jì)手和臉部的參數(shù),而手和臉部的分辨率往往較小,導(dǎo)致難以通過一個一階段的網(wǎng)絡(luò),將全身參數(shù)估計(jì)出來。之前的方法大多采用多階段的復(fù)制-粘貼(Copy-Paste)框架,提前檢測出手和臉的包圍框(Bounding Box),將其裁剪出來并放大,輸入三個獨(dú)立的網(wǎng)絡(luò),分別估計(jì)出身體(Body), 手(Hand), 和臉(Face)的參數(shù),再進(jìn)行融合。這種多階段的做法可以解決手和臉分辨率過小的問題,然而,由于三部分的參數(shù)估計(jì)相對獨(dú)立,容易導(dǎo)致最后的結(jié)果以及三部分之間的連接不夠自然和真實(shí),同時也會增加模型的復(fù)雜度。為了解決以上問題,我們提出了首個一階段的算法OSX,我們使用一個模塊感知的Transformer模型,同時估計(jì)出人體姿態(tài), 手勢和臉部表情。該算法在較小計(jì)算量和運(yùn)行時間的情況下,在3個公開數(shù)據(jù)集(AGORA, EHF, 3DPW)上,超過了現(xiàn)有的全身人體網(wǎng)格重建算法。

我們注意到,目前的全身人體網(wǎng)格重建數(shù)據(jù)集,大部分是在實(shí)驗(yàn)室環(huán)境或者仿真環(huán)境下采集的,而這些數(shù)據(jù)集與現(xiàn)實(shí)場景有著較大的分布差異。這就容易導(dǎo)致訓(xùn)練出來的模型在應(yīng)用于現(xiàn)實(shí)場景時,重建效果不佳。此外,現(xiàn)實(shí)中的許多場景,如直播、手語等,人往往只有上半身出現(xiàn)在畫面中,而目前的數(shù)據(jù)集全部都是全身人體,手和臉的分辨率往往較低。為了彌補(bǔ)這方面數(shù)據(jù)集的缺陷,我們提出了一個大規(guī)模的上半身數(shù)據(jù)集UBody,該數(shù)據(jù)集涵蓋了15個真實(shí)場景,包括100萬幀圖片和對應(yīng)的全身關(guān)鍵點(diǎn)(2D Whole-Body Keypoint), 人體包圍框(Person BBox)、人手包圍框(Hand BBox)以及SMPLX標(biāo)簽。下圖是UBody的部分?jǐn)?shù)據(jù)可視化。

ab5c1004-d4cf-11ed-bfe3-dac502259ad0.gif

圖1 UBody數(shù)據(jù)集展示

本工作的貢獻(xiàn)點(diǎn)可以概括為:

我們提出了首個一階段的全身人體網(wǎng)格重建算法OSX,能夠用一個簡單、高效的方式,估計(jì)出SMPLX參數(shù)。

我們的算法OSX在三個公開數(shù)據(jù)集上,超過了現(xiàn)有的全身人體網(wǎng)格重建算法。

我們提出了一個大規(guī)模的上半身數(shù)據(jù)集UBody,用以促進(jìn)全身人體網(wǎng)格重建這個基礎(chǔ)任務(wù)在現(xiàn)實(shí)場景中的應(yīng)用。

2. 一階段重建算法介紹

2.1 OSX整體框架

如下圖所示,我們提出了一個模塊感知(Component-Aware)的Transoformer模型,來同時估計(jì)全身人體參數(shù),再將其輸入SMPLX模型,得到全身人體網(wǎng)格。我們注意到,身體姿態(tài)(Body Pose)估計(jì)需要利用到全局的人體依賴信息,而手勢(Hand Gesture)和臉部表情(Facial Expression)則更多的聚焦于局部的區(qū)域特征。因而,我們設(shè)計(jì)了一個全局編碼器和一個局部解碼器,編碼器借助于全局自注意力機(jī)制(Global Self-attention),捕獲人體的全身依賴關(guān)系,估計(jì)出身體姿態(tài)和形狀(Body Pose and Shape),解碼器則對特征圖進(jìn)行上采樣,使用關(guān)鍵點(diǎn)引導(dǎo)的交叉注意力機(jī)制(Cross-Attention),用以估計(jì)手和臉部的參數(shù)。

addebf7a-d4cf-11ed-bfe3-dac502259ad0.png

圖2 OSX網(wǎng)絡(luò)結(jié)構(gòu)示意圖

2.2 全局編碼器

在全局編碼器中,人體圖片首先被切為多個互不重蛩的塊,這些塊通過一個卷積層,加上位置編碼,轉(zhuǎn)換為特征令牌(Feature Token) ,接著,我們再將其與若干個由可學(xué)習(xí)參數(shù)構(gòu)成的人體令牌(Body Token) 進(jìn)行連接,輸入全局編碼器。全局編碼 器由多個Transformer塊組成,每個塊包含一個多頭自注意力、一個前饋網(wǎng)絡(luò)和兩個層歸一化模塊(Layer Normization)。 經(jīng)過這些 塊之后,人體各個部分之間的信息得到了交互,body token 捕捉了人體的全身依賴關(guān)系,輸入全連接層,回歸出人體姿態(tài)和 形狀。 Feature token則進(jìn)行重組(Reshape),轉(zhuǎn)換為特征圖,供解碼器使用。

2.3 高分辨率局部解碼器

在解碼器中,我們首先對特征圖進(jìn)行上采樣,以解決手和臉分辨率過低的問題。具體的,我們使用一個可微分的感興趣區(qū)域?qū)R (Region of Interest Alignment)操作,將手和臉部的特征圖進(jìn)行上采樣,因而獲得多尺度的手、臉高分辨率特征 。接著,我們定義多個模塊令牌(Component Token) ,每一個token代表一個關(guān)鍵點(diǎn),將這些token輸入解碼器,通過關(guān)鍵點(diǎn) 引導(dǎo)的交叉注意力機(jī)制,從高分辨率特征中捕獲有用的信息,更新Component Token:

ae123d28-d4cf-11ed-bfe3-dac502259ad0.png

最終,這些模塊token通過全連接層,轉(zhuǎn)換為手勢和臉部表情,并與身體姿態(tài)和形狀一起,輸入SMPLX模型,轉(zhuǎn)換為人體網(wǎng)格。

3. 上半身數(shù)據(jù)集UBody介紹

3.1 數(shù)據(jù)集亮點(diǎn)

為了縮小全身人體網(wǎng)格重建這一基礎(chǔ)任務(wù)與下游任務(wù)的差異,我們從15個現(xiàn)實(shí)場景,包括音樂演奏、脫口秀、手語、魔術(shù)表演等,收集了超過100萬的圖片,對其進(jìn)行標(biāo)注。這些場景與現(xiàn)有的數(shù)據(jù)集AGORA相比,由于只包含上半身,因而手和臉的分辨率更大,具有更加豐富的手部動作和人臉表情。同時,這些場景含有非常多樣的遮擋、交互、切鏡、背景和光照變化,因而更加具有挑戰(zhàn)性,更加符合現(xiàn)實(shí)場景。此外,UBody是視頻的形式,每個視頻都包含了音頻(Audio),因而未來也可以應(yīng)用于多模態(tài)等任務(wù)。

ae291a34-d4cf-11ed-bfe3-dac502259ad0.png

圖3 UBody 15個場景展示

3.2 IDEA自研高精度全身動捕標(biāo)注框架

為了標(biāo)注這些大規(guī)模的數(shù)據(jù),我們提出了一個自動化標(biāo)注方案,如下圖所示,我們首先訓(xùn)練一個基于ViT的關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò),估計(jì)出高精度的全身人體關(guān)鍵點(diǎn)。接著,我們使用一個多階段漸進(jìn)擬合技術(shù)(Progreesive Fitting),將OSX輸出的人體網(wǎng)格轉(zhuǎn)換為三維關(guān)鍵點(diǎn)(3D Keypoints),并投影到圖像平面,與估計(jì)的二維關(guān)鍵點(diǎn)(2D Keypoints)計(jì)算損失,用以優(yōu)化OSX網(wǎng)絡(luò)參數(shù),直至估計(jì)出來的網(wǎng)格與2D關(guān)鍵點(diǎn)能夠高度貼合。

ae5652ce-d4cf-11ed-bfe3-dac502259ad0.png

圖4 全身動捕標(biāo)注框架圖

以下是UBody數(shù)據(jù)集的15個場景及其標(biāo)注結(jié)果的展示:

ae66a9c6-d4cf-11ed-bfe3-dac502259ad0.gif

SignLanguage

aec00b9c-d4cf-11ed-bfe3-dac502259ad0.gif

Singing

af973bd0-d4cf-11ed-bfe3-dac502259ad0.gif

OnlineClass

b00628f6-d4cf-11ed-bfe3-dac502259ad0.gif

Olympic

b07de4e0-d4cf-11ed-bfe3-dac502259ad0.gif

Entertainment

b0a83178-d4cf-11ed-bfe3-dac502259ad0.gif

Fitness

b10949b8-d4cf-11ed-bfe3-dac502259ad0.gif

LiveVlog

b28abac4-d4cf-11ed-bfe3-dac502259ad0.gif

Conference

b2eeb6d2-d4cf-11ed-bfe3-dac502259ad0.gif

TVShow

b415a6d8-d4cf-11ed-bfe3-dac502259ad0.gif

ConductMusic

b56e70be-d4cf-11ed-bfe3-dac502259ad0.gif

Speech

b5d41fd6-d4cf-11ed-bfe3-dac502259ad0.gif

TalkShow

b62ea3ac-d4cf-11ed-bfe3-dac502259ad0.gif

MagicShow

4. 實(shí)驗(yàn)結(jié)果

4.1 定量實(shí)驗(yàn)對比

OSX從投稿至今(2022.11~2023.04),是AGORA榜單上SMPLX賽道的榜首,在AGORA-test (https://agora-evaluation.is.tuebingen.mpg.de/)上的定量對比結(jié)果如下表所示:

b77b5778-d4cf-11ed-bfe3-dac502259ad0.png

表1 OSX與SOTA算法在AGORA-test上的定量結(jié)果

在AGORA-val上的定量對比結(jié)果如下表所示:

b7a2830c-d4cf-11ed-bfe3-dac502259ad0.png

表2 OSX與SOTA算法在AGORA-val上的定量結(jié)果

在EHF和3DPW的定量結(jié)果如下:

b7c5a512-d4cf-11ed-bfe3-dac502259ad0.png

表3 OSX與SOTA算法在EHF及3DPW上的定量結(jié)果

可以看出,OSX由于使用了模塊感知的Transformer網(wǎng)絡(luò),能夠同時保證全局依賴關(guān)系的建模和局部特征的捕獲,在現(xiàn)有數(shù)據(jù)集,特別是AGORA這一較為困難的數(shù)據(jù)集上,顯著超過了之前的方法。

4.2 定性實(shí)驗(yàn)對比

在AGORA上的定性對比結(jié)果如圖所示:

b7deb03e-d4cf-11ed-bfe3-dac502259ad0.gif

從左到右依次為:輸入圖, ExPose, Hand4Whole, OSX(Ours)

在EHF上的定性對比結(jié)果如圖所示:

b842aa9e-d4cf-11ed-bfe3-dac502259ad0.gif

從左到右依次為:輸入圖, ExPose, Hand4Whole, OSX(Ours)

在UBody數(shù)據(jù)集上的對比結(jié)果如圖所示:

ba576234-d4cf-11ed-bfe3-dac502259ad0.gif

從左到右依次為:輸入圖, ExPose, Hand4Whole, OSX(Ours)

可以看出,我們的算法OSX能夠估計(jì)出更加準(zhǔn)確的身體姿勢,手部動作和臉部表情,重建出來的人體網(wǎng)格更加準(zhǔn)確,與原圖貼合的更好,更加魯棒。

5. 總結(jié)

OSX是首個一階段全身人體網(wǎng)格重建的算法,通過一個模塊感知的Transformer模型,同時估計(jì)了body pose, hand pose和facial experssion,在三個公開榜單上取得了目前最好whole-body mesh recovery最好的結(jié)果。此外,我們提出了一個大規(guī)模的上半身場景數(shù)據(jù)集UBody,用以促進(jìn)人體網(wǎng)格重建任務(wù)在下游場景中的應(yīng)用。我們的代碼已經(jīng)進(jìn)行了開源,希望能夠推動該領(lǐng)域的發(fā)展。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4592

    瀏覽量

    92521
  • 網(wǎng)格
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    15990
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1201

    瀏覽量

    24622

原文標(biāo)題:CVPR2023:IDEA與清華提出首個一階段3D全身人體網(wǎng)格重建算法,代碼開源!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何將3D散點(diǎn)圖與3D網(wǎng)格圖在個三維坐標(biāo)系中顯示呢?

    如何將3D散點(diǎn)圖與3D網(wǎng)格圖在個三維坐標(biāo)系中顯示呢?
    發(fā)表于 03-08 18:18

    【ELT.ZIP】OpenHarmony啃論文俱樂部——即刻征服3D網(wǎng)格壓縮編碼

    算法會碰撞出什么火花呢?圖像、醫(yī)療、機(jī)器人、通信都在這里了你可能少有聽說的TinyOS操作系統(tǒng)揭秘 3D 網(wǎng)格壓縮的三類方式殿堂級 WARP 寄存器壓縮技術(shù)【技術(shù)DNA】[外鏈圖片轉(zhuǎn)存失敗,源站可能有
    發(fā)表于 07-20 21:51

    基于約束的地質(zhì)網(wǎng)格曲面重建算法

    提出種基于地質(zhì)約束的地質(zhì)曲面重建算法,為在三維地質(zhì)建模中構(gòu)造線性不連續(xù)層位面片提供種解決方案。應(yīng)用“移動立方體”
    發(fā)表于 04-03 09:04 ?8次下載

    種基于量化方法的3D模型盲水印算法

    相對非盲算法而言,盲算法因在水印檢測時不需要傳輸原始載體而使其應(yīng)用更為廣泛。雖然盲水印算法的魯棒性稍弱,但仍有提高的空間。該文提出
    發(fā)表于 02-10 11:53 ?11次下載

    基于STL曲面網(wǎng)格重建算法

    快速獲得完整拓?fù)潢P(guān)系且其存在大量冗余信息的缺點(diǎn),制約了STL網(wǎng)格模型的進(jìn)步優(yōu)化處理與應(yīng)用.為此,需要針對STL網(wǎng)格模型進(jìn)行網(wǎng)格重建.針對2
    發(fā)表于 12-25 11:52 ?1次下載
    基于STL曲面<b class='flag-5'>網(wǎng)格</b><b class='flag-5'>重建</b><b class='flag-5'>算法</b>

    基于局部姿態(tài)先驗(yàn)的深度圖像3D人體運(yùn)動捕獲方法

    提出種基于局部姿態(tài)先驗(yàn)的從深度圖像中實(shí)時在線捕獲3D人體運(yùn)動的方法,關(guān)鍵思路是根據(jù)從捕獲的深度圖像中自動提取具有語義信息的虛擬稀疏3D標(biāo)記
    發(fā)表于 01-03 14:33 ?0次下載

    FAIR和INRIA的合作提出人體姿勢估計(jì)新模型,適用于人體3D表面構(gòu)建

    FAIR和INRIA的合作研究提出個在Mask-RCNN基礎(chǔ)上改進(jìn)的密集人體姿態(tài)評估模型DensePose-RCNN,適用于人體3D表面構(gòu)
    的頭像 發(fā)表于 02-05 11:21 ?5767次閱讀

    我國首個衛(wèi)星物聯(lián)網(wǎng)完成第一階段建設(shè)

    我國首個衛(wèi)星物聯(lián)網(wǎng)完成第一階段建設(shè)。根據(jù)麥肯錫預(yù)測,預(yù)計(jì)2025年前,天基物聯(lián)網(wǎng)產(chǎn)值可達(dá)5600億美元至8500億美元。
    的頭像 發(fā)表于 10-20 16:19 ?2573次閱讀

    3D的感知技術(shù)及實(shí)踐

    測量表面法向量估計(jì) 幾何測量平面提取 3D重建從離散點(diǎn)云得到光滑曲面 3D重建ICP點(diǎn)云配準(zhǔn) 3D重建
    的頭像 發(fā)表于 10-23 09:40 ?3161次閱讀
    <b class='flag-5'>3D</b>的感知技術(shù)及實(shí)踐

    大規(guī)模3D重建的Power Bundle Adjustment

    BA (BA) 是個經(jīng)典的計(jì)算機(jī)視覺問題,它構(gòu)成了許多 3D 重建和運(yùn)動結(jié)構(gòu) (SfM) 算法的核心組成部分。它指的是通過最小化非線性重投影誤差來聯(lián)合估計(jì)相機(jī)參數(shù)和
    的頭像 發(fā)表于 12-15 11:20 ?652次閱讀

    用于快速高保真RGB-D表面重建的神經(jīng)特征網(wǎng)格優(yōu)化的GO-Surf

    我們提出了GO-Surf,種直接的特征網(wǎng)格優(yōu)化方法,用于從RGB-D序列中準(zhǔn)確和快速地重建表面。
    的頭像 發(fā)表于 03-17 16:35 ?705次閱讀

    生成高質(zhì)量 3D 網(wǎng)格,從重建到生成式 AI

    代 AI 工作流已經(jīng)在生成高保真 3D 模型方面取得了巨大成功,從基于給定圖像的場景重建,到能夠?yàn)榻换ナ襟w驗(yàn)制作資產(chǎn)的生成式 AI。 這些生成的 3D 模型通常被提取成標(biāo)準(zhǔn)的三角
    的頭像 發(fā)表于 08-17 19:15 ?691次閱讀
    生成高質(zhì)量 <b class='flag-5'>3D</b> <b class='flag-5'>網(wǎng)格</b>,從<b class='flag-5'>重建</b>到生成式 AI

    NeurIPS 2023 | 清華ETH提出首個二值化光譜重建算法

    壓縮重建工具包 BiSCI 內(nèi),該工具包支持八類最主要的二值網(wǎng)絡(luò),歡迎大家來使用。同時,我們還將 BiSRNet 嵌入到了我們之前開發(fā)的光譜重建工具箱 MST 當(dāng)中。目前 MST 工具包已支持超過 12 類深度學(xué)習(xí)算法
    的頭像 發(fā)表于 12-03 20:20 ?619次閱讀
    NeurIPS <b class='flag-5'>2023</b> | <b class='flag-5'>清華</b>ETH<b class='flag-5'>提出首個</b>二值化光譜<b class='flag-5'>重建</b><b class='flag-5'>算法</b>

    3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷系列人工制作的過程,如
    的頭像 發(fā)表于 12-20 16:37 ?1473次閱讀
    <b class='flag-5'>3D</b><b class='flag-5'>人體</b>生成模型HumanGaussian實(shí)現(xiàn)原理

    Nullmax提出多相機(jī)3D目標(biāo)檢測新方法QAF2D

    今天上午,計(jì)算機(jī)視覺領(lǐng)域頂會CVPR公布了最終的論文接收結(jié)果,Nullmax感知部門的3D目標(biāo)檢測研究《Enhancing 3D Object Detection with 2D De
    的頭像 發(fā)表于 02-27 16:38 ?1054次閱讀
    Nullmax<b class='flag-5'>提出</b>多相機(jī)<b class='flag-5'>3D</b>目標(biāo)檢測新方法QAF2<b class='flag-5'>D</b>