AlphaPose升級了!上海交大MVIG組(盧策吾團(tuán)隊(duì))構(gòu)建了CrowdPose數(shù)據(jù)集,用來衡量算法在擁擠場景中的性能。同時(shí)提出了一個(gè)高效的算法來解決擁擠人群中的姿態(tài)估計(jì)問題,實(shí)驗(yàn)結(jié)果遠(yuǎn)高于當(dāng)前最好的算法。
AlphaPose升級了!
擁擠人群場景下的AlphaPose
這個(gè)實(shí)時(shí)多人姿態(tài)估計(jì)系統(tǒng),現(xiàn)在可以處理最具挑戰(zhàn)的擁擠人群場景了:
上海交大MVIG組(盧策吾團(tuán)隊(duì))建了一個(gè)新的數(shù)據(jù)集——CrowdPose,用來衡量算法在擁擠場景中的性能;
同時(shí)提出了一個(gè)高效的算法來解決擁擠人群中的姿態(tài)估計(jì)問題:相比OpenPose提升18mAP、相比Mask-RCNN提升8mAP。
論文已被CVPR2019接收。
論文鏈接:
https://arxiv.org/abs/1812.00324
代碼鏈接:
https://github.com/MVIG-SJTU/AlphaPose
CrowdPose——擁擠人群姿態(tài)估計(jì)數(shù)據(jù)集
為了衡量人體姿態(tài)估計(jì)算法的性能,學(xué)術(shù)界與工業(yè)界建立了越來越多的公開數(shù)據(jù)集,如MPII,MSCOCO和AI Challenger。然而,這些數(shù)據(jù)集的圖片通常采集自日常的生活場景,缺乏擁擠人群場景的數(shù)據(jù)。
主流數(shù)據(jù)集的擁擠場景分布如圖1所示。對于由數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法來說,數(shù)據(jù)集的分布不均衡,意味著算法性能的不均衡。
圖1 主流公開數(shù)據(jù)集于CrowdPose數(shù)據(jù)集的擁擠場景數(shù)據(jù)分布。三個(gè)主流數(shù)據(jù)集的數(shù)據(jù)中,非擁擠數(shù)據(jù)占據(jù)了絕大部分比例,而CrowdPose數(shù)據(jù)集有著均勻的數(shù)據(jù)分布。
隨著學(xué)術(shù)界對人體姿態(tài)研究的深入,算法追求像素級的精度,簡單場景下的性能已經(jīng)逐步逼近人類的精度,但在擁擠場景中往往會失效,如圖2所示。
圖2 隨著擁擠程度的加劇,現(xiàn)有開源系統(tǒng)的性能急劇下降。相較于非擁擠的情況,擁擠時(shí)算法性能最多下降了20mAP。
針對這樣的情況,上海交大MVIG組的研究者開源了CrowdPose數(shù)據(jù)集。CrowdPose數(shù)據(jù)集中的圖片,有著均勻分布的擁擠程度。既可以評估算法在日常非擁擠情況下的表現(xiàn),也可以評估其在極度擁擠時(shí)的性能。
目前,數(shù)據(jù)集開源了2萬張圖片,評估工具也已經(jīng)上線。在未來的幾個(gè)月時(shí)間內(nèi),研究者將會不斷擴(kuò)大數(shù)據(jù)的規(guī)模,開源一個(gè)更大的數(shù)據(jù)集。
實(shí)時(shí)全局競爭匹配算法
在擁擠人群的場景下,傳統(tǒng)的二步法模型往往會失效。主要原因在于:人群過于密集,重合程度太高,每個(gè)人的位置難以用人體檢測框表示。
圖3 人體檢測框難以表達(dá)人的位置。
研究者們提出了一個(gè)全局競爭匹配算法,減少了姿態(tài)估計(jì)模型對于人體框的依賴,同時(shí)提高了模型對于復(fù)雜人體場景的魯棒性,在擁擠場景中的表現(xiàn)超越了現(xiàn)有的方法。
圖4 本研究中的全局競爭匹配算法概覽。模型對于每個(gè)檢測到的人體框輸出一系列候選關(guān)鍵點(diǎn)。人體實(shí)例與關(guān)鍵點(diǎn)實(shí)例構(gòu)建成一個(gè)稀疏圖模型。通過求解稀疏圖模型的最佳匹配問題,可得到全局最優(yōu)的人體姿態(tài)估計(jì)方案,對密集擁擠的場景有很強(qiáng)的魯棒性。
研究者們設(shè)計(jì)了一個(gè)關(guān)節(jié)點(diǎn)候選損失函數(shù),通過控制模型輸出響應(yīng)程度不同的多峰值熱度圖,在人體框不準(zhǔn)確的情況下,模型盡可能地輸出候選關(guān)節(jié)點(diǎn)可能的位置。
在得到每個(gè)人體框的候選關(guān)節(jié)點(diǎn)后,通過聚類與鏈接,消除冗余結(jié)果的同時(shí),構(gòu)建出一個(gè)人體實(shí)例-候選關(guān)節(jié)的圖模型。該圖模型表征了人體實(shí)例與每個(gè)關(guān)節(jié)點(diǎn)之間的連接關(guān)系與概率。
借助此模型,人體姿態(tài)估計(jì)問題可轉(zhuǎn)化成圖模型中的最佳匹配問題。由于人體姿態(tài)問題的特殊,該圖模型具有很強(qiáng)的稀疏性,經(jīng)過研究者們的分析,優(yōu)化匹配問題的時(shí)間復(fù)雜度與傳統(tǒng)的NMS算法相當(dāng)。
該方法由于建立了一個(gè)全局的圖模型,在匹配過程中考慮到了整體的連接方式,因此能很好地改善了二步法中缺乏全局視野的不足。
姿態(tài)估計(jì)各場景性能大幅提升
在實(shí)驗(yàn)中,研究者們對比了該算法與其他開源系統(tǒng)與算法之間的性能。
在CrowdPose數(shù)據(jù)集中,比當(dāng)前最好的算法提升了5.2mAP。除此之外,在極度擁擠的子集中,提升了6.2mAP。相較于OpenPose和Detectron(Mask R-CNN)等姿態(tài)估計(jì)開源系統(tǒng),性能提升的同時(shí),運(yùn)行速度快了2到3倍。
表1 在CrowdPose數(shù)據(jù)集上的定量對比實(shí)驗(yàn)
表2 三個(gè)場景子集中的性能評估與運(yùn)行速度對比(簡單、一般、擁擠)。
本文的方法分?jǐn)?shù)提升的同時(shí),運(yùn)行速度也大大增強(qiáng)。
未來方向
論文中,研究者們提出了一種新的競爭匹配模型,以解決擁擠場景的人體姿態(tài)檢測問題。接下來,研究者們會優(yōu)化競爭匹配模型,對其他形式的擁擠檢測問題(如擁擠實(shí)例分割)開展進(jìn)一步研究。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24621 -
開源系統(tǒng)
+關(guān)注
關(guān)注
0文章
25瀏覽量
13674 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5466瀏覽量
120891
原文標(biāo)題:AlphaPose升級!上海交大盧策吾團(tuán)隊(duì)開源密集人群姿態(tài)估計(jì)代碼
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論