從單張圖片中估計(jì)人體的三維位姿是計(jì)算機(jī)視覺中一個(gè)重要的問題,不僅可以在人體重構(gòu)和行為監(jiān)控上發(fā)揮作用,更為機(jī)器人控制和遠(yuǎn)程執(zhí)行提供了潛在的解決方案。卷積網(wǎng)絡(luò)可以有效的從圖像中檢測人體的關(guān)鍵點(diǎn),得到精確的2D關(guān)節(jié)位置。但想要直接通過2D關(guān)節(jié)位置學(xué)習(xí)出包含關(guān)節(jié)位置和骨骼旋轉(zhuǎn)角度的3D位姿是十分困難的,需要解決高度非線性的映射問題。最近,日本產(chǎn)業(yè)綜合技術(shù)研究院的研究人員提出了一種新的方法,通過結(jié)合骨骼結(jié)構(gòu)的回歸器和基于3D位姿表達(dá)的交叉熱力圖回歸,實(shí)現(xiàn)了端到端的3D人體位姿預(yù)測,不僅能從單張RGB圖中預(yù)測出關(guān)節(jié)位置,同時(shí)還能準(zhǔn)確得到連接在關(guān)節(jié)上的骨骼角度。此外研究人員還豐富了已有的MPII數(shù)據(jù)集并進(jìn)行了有效的三維標(biāo)注。
預(yù)測三維位姿存在的挑戰(zhàn)
最近在人體位姿估計(jì)方面的工作取得了很大進(jìn)展,但例如像OpenPose等模型只能生成2D層面的關(guān)節(jié)信息,生成3D的關(guān)節(jié)信息面臨著一系列挑戰(zhàn)。首先,需要對三維的關(guān)節(jié)位姿進(jìn)行準(zhǔn)確有效的表達(dá),這關(guān)系到最終預(yù)測的精度。先前的方法使用了熱力圖(體積和2D熱力圖+深度)的方法實(shí)現(xiàn)了精確的3D位姿預(yù)測。但目前利用卷積網(wǎng)絡(luò)預(yù)測3D關(guān)節(jié)還沒有獲得較好的效果。此外對于應(yīng)用的角度,人們希望能夠同時(shí)獲得關(guān)節(jié)的位置和角度,即骨骼每一部分在空間中的位姿其次,對于3D人體位姿估計(jì)任務(wù)缺乏良好的、充分的數(shù)據(jù)集。相比2D的數(shù)據(jù),3D關(guān)節(jié)位姿標(biāo)記更為復(fù)雜耗時(shí)。雖然可以利用運(yùn)動(dòng)捕捉系統(tǒng)(MoCap)和RGB相機(jī)同時(shí)記錄,但其獲得的場景有限。例如Human 3.6M數(shù)據(jù)集只包含了10種物體的周圍場景,使模型不能得到充分訓(xùn)練。
新方法
人體的骨骼結(jié)構(gòu)具有天然的連續(xù)性和固定的結(jié)構(gòu)空間,可以作為三維位姿估計(jì)的一個(gè)約束來使用。在機(jī)器人和生物力學(xué)領(lǐng)域,研究人員們經(jīng)常會使用正逆運(yùn)動(dòng)學(xué)的研究方法,在統(tǒng)計(jì)模型和人體骨架的約束下(骨骼相對長度、關(guān)節(jié)運(yùn)動(dòng)空間和對稱性等),從MoCap的2D關(guān)鍵點(diǎn)結(jié)果計(jì)算出3D位姿。在這一工作中,研究人員提出了SkeletonNet模型,通過結(jié)合骨骼結(jié)構(gòu)和關(guān)節(jié)3D位置的熱力圖表示實(shí)現(xiàn)了3D人體關(guān)節(jié)位姿的高精度估計(jì)。這一模型主要由負(fù)責(zé)從輸入圖像獲得初始解的骨旋轉(zhuǎn)網(wǎng)絡(luò),基于此利用卷積熱力圖回歸器來恢復(fù)出更為精確的結(jié)果。模型的架構(gòu)如下圖所示:
骨旋轉(zhuǎn)回歸器(Bone rotation regressor)。首先,骨旋轉(zhuǎn)回歸器的任務(wù)是從輸入圖像中預(yù)測出人體全局的選擇信息以及每一個(gè)骨頭相對于整體的局部旋轉(zhuǎn)信息。由于人體骨骼構(gòu)造的特性,人體的全局位姿特征具有一系列離散的模式。例如坐姿、站立和躺下等姿勢都可以用離散的全局模式來表示,所以研究人員利用了分類器的原理來預(yù)測全局位姿。此外,每一個(gè)關(guān)節(jié)的運(yùn)動(dòng)空間在一定范圍內(nèi)是連續(xù)的,這意味著關(guān)節(jié)的局部角度預(yù)測可以用回歸模型很好的建模。
正交化(Gram Schmidt orthogonalization layer)。在通過分類器得到全局位姿RotG以及每個(gè)關(guān)節(jié)的局部旋轉(zhuǎn)RotB后,相乘就可以得到關(guān)節(jié)位姿的初始解了。但此時(shí)面臨著一個(gè)問題,如果這兩個(gè)矩陣不是正交陣的話,生成的位姿在尺度和外形上就會畸變。為了解決這個(gè)問題,研究人員又在結(jié)果添加了格拉姆施密特正交層來對先前得到的矩陣進(jìn)行變換。將變換后的選擇矩陣相乘就可以得到每個(gè)關(guān)節(jié)有效的初始位姿,并通過初始位置矢量和角度關(guān)系計(jì)算得到關(guān)節(jié)的絕對位置。交叉熱力圖回歸器(Cross heatmap regressor)。為了得到更為精確的結(jié)果,研究人員們提出了交叉熱力圖的方法來優(yōu)化每個(gè)關(guān)節(jié)三維位姿的最終預(yù)測。這種交叉熱力圖由xy和zy方向堆疊的熱力圖構(gòu)成,兩個(gè)平面足夠描述關(guān)節(jié)在三維空間中的信息。將關(guān)節(jié)的三維位置投影到二維坐標(biāo)中,并經(jīng)過一系列可微運(yùn)算可以得到每個(gè)關(guān)節(jié)的交叉熱力圖,通過回歸來優(yōu)化最終關(guān)節(jié)位置。最終的網(wǎng)絡(luò)的損失函數(shù)如下所示:
分別表示全局選擇、每個(gè)骨頭的旋轉(zhuǎn)、最終的旋轉(zhuǎn)、位置和交叉熱力圖損失。
數(shù)據(jù)集
為了對網(wǎng)絡(luò)進(jìn)行充分的訓(xùn)練,研究人員對MPII數(shù)據(jù)進(jìn)行了3D標(biāo)注,利用PMP(projected matching pursuit)等方法得到了原數(shù)據(jù)集中關(guān)節(jié)的三維位置,并利用標(biāo)注工具標(biāo)注了3D位姿。最終得到了10291張標(biāo)記圖像。
結(jié)果
實(shí)驗(yàn)在重建誤差、旋轉(zhuǎn)和MPJPE(每關(guān)節(jié)平均位置誤差)上到得到了較好的結(jié)果。相較于今年cvpr的87.97mm的結(jié)果,這篇文章的MPJPE達(dá)到了69.9mm。
下圖中可以清楚的看到使用了格拉姆正交矩陣和交叉熱力圖對結(jié)果的提升作用,其中正交化讓生成結(jié)果的尺度和外形更加合理,而熱力圖回歸則大幅度的提高了模型預(yù)測的精度。
研究人員希望在未來繼續(xù)探索基于圖像的人體監(jiān)測應(yīng)用,包括從單張圖像檢測人體的形態(tài)、體重、接觸力甚至關(guān)節(jié)的扭矩等等。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28109瀏覽量
205861 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1694瀏覽量
45901 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24621
原文標(biāo)題:SkeletonNet:完整的人體三維位姿重建方法
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論