【導(dǎo)讀】6 月 16--20 日,計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域頂會(huì) CVPR 2019 在美國(guó)長(zhǎng)灘舉行。每年的 CVPR 盛會(huì)除了精彩的論文分享、Workshop 與 Tutorial,還會(huì)舉辦多場(chǎng)涵蓋計(jì)算機(jī)視覺(jué)各子領(lǐng)域的專項(xiàng)比賽,競(jìng)爭(zhēng)亦是非常激烈。在此次人體姿態(tài)估計(jì)和人體分割比賽中,字節(jié)跳動(dòng)的兩個(gè)團(tuán)隊(duì)榜上有名,收獲兩個(gè)冠軍、一個(gè)亞軍。
關(guān)于 LIP 競(jìng)賽
“Look Into Person”(以下簡(jiǎn)稱 LIP )國(guó)際競(jìng)賽擁有大規(guī)模的人體姿態(tài)圖像數(shù)據(jù)庫(kù)、公平嚴(yán)格的評(píng)審標(biāo)準(zhǔn)以及國(guó)際性的競(jìng)賽影響力。本屆 LIP 國(guó)際競(jìng)賽吸引了超過(guò) 75 支隊(duì)伍參加,包括加州伯克利大學(xué)、NHN、悉尼科技大學(xué)、東南大學(xué)、上海交通大學(xué)、中國(guó)電子科技大學(xué)、香港中文大學(xué)等全球高校以及三星、字節(jié)跳動(dòng)、百度、京東等科技企業(yè)的人工智能研究院機(jī)構(gòu);包括五個(gè)競(jìng)賽任務(wù),分別是:
-
單人人體解析分割( the single-person human parsing)
-
單人人體姿態(tài)估計(jì)( the single-person pose estimation)
-
多人人體解析(the multi-person human parsing)
-
基于視頻的多人人體解析(multi-person video parsing, multi-person pose estimation benchmark)
-
基于圖像的服裝試穿(clothes virtual try-on benchmark)
今年的 LIP 國(guó)際競(jìng)賽上,字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室拿下了兩個(gè)國(guó)際冠軍和一個(gè)國(guó)際亞軍。由字節(jié)跳動(dòng)和東南大學(xué)組成的團(tuán)隊(duì)、以及肖斌帶領(lǐng)的字節(jié)跳動(dòng)團(tuán)隊(duì)并列單人人體姿態(tài)估計(jì)比賽的國(guó)際冠軍;同時(shí),字節(jié)跳動(dòng)和東南大學(xué)組成的團(tuán)隊(duì)同時(shí)還獲得了單人人體分割賽道的國(guó)際亞軍。
在單人人體姿態(tài)估計(jì)比賽中,兩個(gè)隊(duì)伍都刷新了去年的最好成績(jī)。其中,由字節(jié)跳動(dòng)和東南大學(xué)組成的團(tuán)隊(duì)提出了基于增強(qiáng)通道和空間信息的人體姿態(tài)估計(jì)網(wǎng)絡(luò),參考 CVPR 2019 論文《Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information》。
傳送門:
https://arxiv.org/abs/1905.03466
肖斌團(tuán)隊(duì)則提出利用高分辨率網(wǎng)絡(luò)(HRNet)來(lái)解決人體姿態(tài)估計(jì)問(wèn)題,參考 CVPR 2019 論文《Deep High-Resolution Representation Learning for Human Pose Estimation》。目前該論文的算法已經(jīng)在 Gituhub 上開(kāi)源,放地址:
傳送門:
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
下面為大家詳細(xì)介紹兩支冠軍團(tuán)隊(duì)的工作。
技術(shù)解讀(一)
字節(jié)跳動(dòng)和東南大學(xué)組成的團(tuán)隊(duì)提出了基于增強(qiáng)通道和空間信息的人體姿態(tài)估計(jì)網(wǎng)絡(luò),論文《Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information》的一作蘇凱是來(lái)自東南大學(xué)模式識(shí)別與挖掘?qū)嶒?yàn)室(PALM)碩士生三年級(jí),師從東南大學(xué)耿新教授。目前在字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室實(shí)習(xí),導(dǎo)師是喻冬東博士(共同一作)和王長(zhǎng)虎博士。
-
介紹
人體姿態(tài)估計(jì)旨在定位出圖片中人的關(guān)鍵身體部位,例如手臂、軀干以及面部的關(guān)鍵點(diǎn)等等。對(duì)于行為識(shí)別、人體再識(shí)別等諸多計(jì)算機(jī)任務(wù)來(lái)說(shuō),人體姿態(tài)估計(jì)是一項(xiàng)基礎(chǔ)且極具挑戰(zhàn)的課題。由于人與人之間的密切交互、遮擋以及不同尺度人體等因素影響,獲取準(zhǔn)確的定位結(jié)果仍然具有困難。
-
創(chuàng)新點(diǎn)
首先,在卷積神經(jīng)網(wǎng)絡(luò)中,高層特征往往具有更大的感受視野,所以它們對(duì)于復(fù)雜場(chǎng)景下的遮擋點(diǎn)、不可見(jiàn)點(diǎn)的推斷更有幫助。另一方面,卷積神經(jīng)網(wǎng)絡(luò)的低層特征往往具有更大的分辨率,所以它們對(duì)于關(guān)鍵點(diǎn)的精細(xì)調(diào)整更加有效。然而,在現(xiàn)實(shí)場(chǎng)景中,高低層特征之間權(quán)衡往往復(fù)雜多變。因此,論文提出通道交流模塊來(lái)促進(jìn)不同分辨率層特征之間的跨通道信息交流。通道交流模塊的目的是通過(guò)網(wǎng)絡(luò)自學(xué)習(xí)來(lái)校準(zhǔn)高低層特征之間的相互補(bǔ)充和強(qiáng)化。
其次,特征融合的過(guò)程是動(dòng)態(tài)多變的,融合后的特征往往也存在許多冗余。網(wǎng)絡(luò)中那些對(duì)姿態(tài)估計(jì)任務(wù)更加有效的特征信息應(yīng)該被自適應(yīng)地突顯出來(lái)。因此,論文提出基于空間和通道注意力機(jī)制的殘差模塊,自適應(yīng)地從空間和通道兩個(gè)維度增強(qiáng)剛剛?cè)诤虾蟮慕鹱炙卣餍畔ⅰ?/p>
-
實(shí)驗(yàn)
論文采用人體關(guān)鍵點(diǎn)檢測(cè)的最權(quán)威數(shù)據(jù)集之一 MS COCO(多人人體姿態(tài)數(shù)據(jù)集)。論文的 baseline 采用 Cascaded Pyramid Network(CVPR 2018)。論文首先在 MS COCO 進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證各個(gè)模塊的重要性。
表3 可以看出,在只使用通道交流模塊,組數(shù)設(shè)置為 4(CSM-4)的情況下,在 COCO minival 數(shù)據(jù)集的結(jié)果可以由 69.4 提升到 71.7。在只使用空間通道注意力殘差模塊的情況下,結(jié)果可以由 69.4 提升到 70.8。同時(shí)使用兩種模塊,結(jié)果進(jìn)一步提升到 72.1。
其次,論文在 COCO minival(表4)和 test-dev(表5)數(shù)據(jù)集對(duì)比了性能最先進(jìn)的一些網(wǎng)絡(luò)和結(jié)果,均取得了優(yōu)異的超越。
技術(shù)解讀(二)
另一個(gè)冠軍隊(duì)伍——肖斌帶領(lǐng)的字節(jié)跳動(dòng)團(tuán)隊(duì)則提出了利用高分辨率網(wǎng)絡(luò)(HRNet)來(lái)解決人體姿態(tài)估計(jì)問(wèn)題,以下是技術(shù)解讀。
通用的單人體姿態(tài)識(shí)別的框架通常為:給定單人圖片作為輸入,通過(guò) CNN(Convolutional Neural Network)得到高分辨率的人體關(guān)鍵帶的熱點(diǎn)圖片,最后通過(guò)在熱點(diǎn)圖片中尋找最大極值點(diǎn),得到人體關(guān)鍵點(diǎn)坐標(biāo)。
在介紹 LIP 比賽使用的 HRNet(High Resolution Network)之前,我們先回顧一下人體姿態(tài)識(shí)別常用的網(wǎng)路結(jié)構(gòu)。
-
回顧常用的人體姿態(tài)識(shí)別網(wǎng)絡(luò)
首先,先介紹一下人體姿態(tài)識(shí)別的經(jīng)典網(wǎng)絡(luò) Stack-Houglass[1],Stack-Hourglass 由普林斯頓大學(xué)教授 Jia Deng 團(tuán)隊(duì)首先提出,Stack-Hourglass 網(wǎng)路由多個(gè) stage 組成,每個(gè) stage,遵循從低語(yǔ)義高分辨率特征圖到高語(yǔ)義低分辨率特征圖,然后由高語(yǔ)義低分辨率的特征圖通過(guò)上采樣恢復(fù)出高分辨率的特征圖的串行結(jié)構(gòu),同時(shí)低語(yǔ)義的高分辨率的特征通過(guò)跳連結(jié)和深層的恢復(fù)的高分辨率融合。
在 2018 年,COCO 人體關(guān)鍵點(diǎn)比賽中,曠視團(tuán)隊(duì)提出了 CPN 網(wǎng)絡(luò)(Cascaded Pyramid Network)[2],獲得 COCO 人體姿態(tài)識(shí)別的冠軍。CPN 網(wǎng)絡(luò)使用 ResNet 作為骨干網(wǎng)路,采用了類似特征金字塔的結(jié)構(gòu)來(lái)生成高分辨的人體姿態(tài)關(guān)鍵點(diǎn)熱點(diǎn)圖。CPN 主干網(wǎng)路也是遵循從高分辨率特征到低分辨率特征的串行結(jié)構(gòu),最后通過(guò)跳連結(jié)構(gòu)以及上采樣操作,得到最終的高分辨率的熱點(diǎn)特征圖。
2018 ECCV 會(huì)議上,在人體姿態(tài)關(guān)鍵點(diǎn)檢測(cè)任務(wù)中,微軟亞洲研究院提出了一種通過(guò)三層級(jí)聯(lián)的反卷積方法——Simple Baseline[3],來(lái)解碼 ResNet 主干網(wǎng)路的低分辨率特征。這個(gè)方法很簡(jiǎn)單,但在人體關(guān)鍵點(diǎn)識(shí)別任務(wù)中取得了非常不錯(cuò)的成績(jī)。Simple Baseline 的方法也遵循了從高分率到低分辨率學(xué)習(xí),然后從低分辨率特征恢復(fù)高分辨特征的原則。
到這里總結(jié)一下,我們可以看出在人體關(guān)鍵點(diǎn)識(shí)別任務(wù)中,人體姿態(tài)識(shí)別的網(wǎng)路有以下幾大特征:
(1)網(wǎng)絡(luò)設(shè)計(jì)的結(jié)構(gòu)都遵循從高分辨率到低分辨率的串行連接結(jié)構(gòu);
(2)高分辨率的人體姿態(tài)高分辨率熱點(diǎn)圖,都需要從低分辯的特征圖恢復(fù)得到;
(3)通常,恢復(fù)的高分辨率特征圖需要融合淺層的高分辨特征圖。
-
為什么選擇 HRNet?
我們認(rèn)為在人體關(guān)鍵點(diǎn)檢測(cè)任務(wù)中,是需要一個(gè)更強(qiáng)的高分辨表達(dá)的特征圖,從技術(shù)路線上不應(yīng)該只局限在從低分辨率特征來(lái)恢復(fù)或解碼高分辨率特征這一種路線上,而應(yīng)該直接通過(guò)網(wǎng)路來(lái)學(xué)習(xí)高分辨率的特征表達(dá)。
因此,我們選擇了一種高分辨率表達(dá)的網(wǎng)路(High-Resolution Network,HRNet)[4]來(lái)做人體關(guān)鍵點(diǎn)檢測(cè)任務(wù)。HRNet 在網(wǎng)路整個(gè)過(guò)程中維持或?qū)W習(xí)高分辨率的特征,漸進(jìn)的增加低分辨率的的分支,并且通過(guò)特征交換模塊,多次進(jìn)行高分辨率和低分辨率的特征交換,從而學(xué)到足夠豐富的高分辨率特征。
-
HRNet 的與眾不同之處
通過(guò)對(duì)比我們可以看到 HRNet 和之前的網(wǎng)絡(luò)具有很大的不同:
首先,HRNet 的高分辨率特征和低分辨率特征是并行連接。其次,HRNet 始終會(huì)學(xué)習(xí)一個(gè)高分辨率的特征表達(dá)。最后,HRNet 是通過(guò)多次的高分辨率特征和低分辨率特征的交換,來(lái)進(jìn)一步增強(qiáng)高分辨率特征的學(xué)習(xí)。通過(guò)這種方式,HRNet 可以學(xué)到更強(qiáng)的高分辨率的特征表達(dá)。
HRNet 不僅在 LIP 人體姿態(tài)識(shí)別任務(wù)中取得了冠軍的結(jié)果。在其他人體姿態(tài)識(shí)別的數(shù)據(jù)集上如 COCO 關(guān)鍵點(diǎn)檢測(cè)任務(wù),PoseTrack 人體姿態(tài)識(shí)別以及跟蹤任務(wù),MPII 人體字體識(shí)別任務(wù)中都得到了 State-of-the-art 的結(jié)果。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4733瀏覽量
100415 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3752瀏覽量
64229 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237071
原文標(biāo)題:刷新記錄,算法開(kāi)源!字節(jié)跳動(dòng)獲人體姿態(tài)估計(jì)競(jìng)賽雙冠 | CVPR 2019
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論