作為與ICCV、ECCV并稱為計(jì)算機(jī)視覺(jué)領(lǐng)域三大國(guó)際會(huì)議之一,本屆CVPR大會(huì)共收到5265篇有效投稿,接收論文1300篇,接收率為25.2%。
商湯科技CVPR 2019錄取論文在多個(gè)領(lǐng)域?qū)崿F(xiàn)突破
作為國(guó)內(nèi)CV領(lǐng)域的明星公司,商湯科技及聯(lián)合實(shí)驗(yàn)室共有62篇論文被接收,其中口頭報(bào)告(Oral)論文18篇,相比2018 CVPR共44篇論文入選,增幅超40%。
商湯科技CVPR 2019錄取論文在多個(gè)領(lǐng)域?qū)崿F(xiàn)突破:高層視覺(jué)核心算法——物體檢測(cè)與分割、底層視覺(jué)核心算法——圖片復(fù)原與補(bǔ)全、面向自動(dòng)駕駛場(chǎng)景的3D視覺(jué)、面向AR/VR場(chǎng)景的人體姿態(tài)遷移、無(wú)監(jiān)督與自監(jiān)督深度學(xué)習(xí)前沿進(jìn)展等。
值得一提的是,在CVPR 2019 Workshop NTIRE 2019視頻恢復(fù)比賽中(包含兩個(gè)視頻去模糊和兩個(gè)視頻超分辨率),來(lái)自商湯科技、香港中文大學(xué)、南洋理工大學(xué)、中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院組成的聯(lián)合研究團(tuán)隊(duì)獲得了全部四個(gè)賽道的所有冠軍。
視頻恢復(fù)不是圖像恢復(fù)的簡(jiǎn)單應(yīng)用,因?yàn)槠浜写罅康臅r(shí)空冗余信息可以利用。目前行業(yè)最好的圖像超分辨算法是RCAN恢復(fù),但使用EDVR算法視頻超分辨率的結(jié)果能看到更多的細(xì)節(jié),效果大幅提升。作者發(fā)明了一種新的網(wǎng)絡(luò)模塊PCD對(duì)齊模塊,使用Deformable卷積進(jìn)行視頻的對(duì)齊,整個(gè)過(guò)程可以端到端訓(xùn)練。而且在挖掘時(shí)域(視頻前后幀)和空域(同一幀內(nèi)部)的信息融合時(shí),作者發(fā)明了一種時(shí)空注意力模型進(jìn)行信息融合。此次比賽的EDVR算法代碼已開(kāi)源(開(kāi)源地址:https://github.com/xinntao/EDVR)。
商湯論文精選:計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)技術(shù)最新突破
高層視覺(jué)核心算法——物體檢測(cè)與分割
代表性論文:基于混合任務(wù)級(jí)聯(lián)的實(shí)例分割算法
對(duì)于很多計(jì)算機(jī)視覺(jué)任務(wù)來(lái)說(shuō),級(jí)聯(lián)是一種經(jīng)典有效的結(jié)構(gòu),可以對(duì)性能產(chǎn)生明顯提升。但如何將級(jí)聯(lián)結(jié)構(gòu)引入實(shí)例分割的任務(wù)仍然是一個(gè)開(kāi)放性問(wèn)題。簡(jiǎn)單地將物體檢測(cè)的級(jí)聯(lián)結(jié)構(gòu)Cascade R-CNN與經(jīng)典的實(shí)例分割算法Mask R-CNN進(jìn)行結(jié)合,帶來(lái)的提升比較有限。
在這篇論文中,作者提出了一種新的框架Hybrid Task Cascade (HTC)。該框架是一個(gè)多階段多分支的混合級(jí)聯(lián)結(jié)構(gòu),對(duì)檢測(cè)和分割這兩個(gè)分支交替地進(jìn)行級(jí)聯(lián)預(yù)測(cè),除此之外,他們還引入了一個(gè)全卷積的語(yǔ)義分割分支來(lái)提供更豐富的上下文環(huán)境信息。HTC在COCO數(shù)據(jù)集上相對(duì) Cascade Mask R-CNN獲得了1.5個(gè)點(diǎn)的提升?;谔岢龅目蚣埽麄儷@得了COCO 2018比賽實(shí)例分割任務(wù)的冠軍。
代表性論文:基于特征指導(dǎo)的動(dòng)態(tài)錨點(diǎn)框生成算法
錨點(diǎn)框(Anchor)是現(xiàn)代物體檢測(cè)技術(shù)的基石。目前主流的物體檢測(cè)方法大多依賴于密集產(chǎn)生靜態(tài)錨點(diǎn)框的模式。在這種模式下,有著預(yù)定義的大小和長(zhǎng)寬比的靜態(tài)錨點(diǎn)框均勻的分布在平面上。
本文反思了這一關(guān)鍵步驟,提出了一種基于特征指導(dǎo)的動(dòng)態(tài)錨點(diǎn)框生成算法,該算法利用語(yǔ)義特征來(lái)指導(dǎo)錨點(diǎn)框生成的過(guò)程,具有高效率和高質(zhì)量的特點(diǎn)。本算法可以同時(shí)預(yù)測(cè)目標(biāo)物體中心區(qū)域和該區(qū)域應(yīng)產(chǎn)生的錨點(diǎn)框的大小和長(zhǎng)寬比,以及根據(jù)錨點(diǎn)框的形狀來(lái)調(diào)整特征,使特征與錨點(diǎn)框相吻合,從而產(chǎn)生極高質(zhì)量的動(dòng)態(tài)錨點(diǎn)框。
本方法可以無(wú)縫使用在各種基于錨點(diǎn)框的物體檢測(cè)器中。實(shí)驗(yàn)表明本方法可以顯著提高三種最主流的物體檢測(cè)器(Fast R-CNN, Faster R-CNN, RetinaNet)的性能。
底層視覺(jué)核心算法——圖片復(fù)原與補(bǔ)全
代表性論文:基于網(wǎng)絡(luò)參數(shù)插值的圖像效果連續(xù)調(diào)節(jié)
圖像效果的連續(xù)調(diào)節(jié)在實(shí)際中有著廣泛的需求和應(yīng)用, 但是目前基于深度學(xué)習(xí)的算法往往只能輸出一個(gè)固定的結(jié)果,缺乏靈活的調(diào)節(jié)能力來(lái)滿足不同的用戶需求。
針對(duì)這個(gè)問(wèn)題, 本文提出了一種簡(jiǎn)單有效的方式來(lái)達(dá)到對(duì)圖像效果的連續(xù)光滑的調(diào)節(jié),而不需要進(jìn)一步繁雜的訓(xùn)練過(guò)程。該方法能夠在許多任務(wù)上得到應(yīng)用, 比如圖像超分辨率,圖像去噪,圖像風(fēng)格轉(zhuǎn)換,以及其他許多圖像到圖像的變換。
具體來(lái)說(shuō),作者對(duì)兩個(gè)或多個(gè)有聯(lián)系的網(wǎng)絡(luò)的參數(shù)進(jìn)行線性插值,通過(guò)調(diào)節(jié)插值的系數(shù),便可以達(dá)到一個(gè)連續(xù)且光滑的效果調(diào)節(jié)。他們把這個(gè)在神經(jīng)網(wǎng)絡(luò)的參數(shù)空間中的操作方法稱為網(wǎng)絡(luò)參數(shù)插值。本文不僅展示了網(wǎng)絡(luò)參數(shù)插值在許多任務(wù)中的應(yīng)用,還提供了初步的分析幫助更好地理解網(wǎng)絡(luò)參數(shù)插值。
代表性論文:基于光流引導(dǎo)的視頻修復(fù)
本文關(guān)注視頻中的修復(fù)問(wèn)題,雖然近年來(lái)圖片修復(fù)(Image Inpainting)問(wèn)題取得了很大的進(jìn)展,可是在視頻上完成像素級(jí)的修復(fù)仍熱存在極大的挑戰(zhàn)。其困難主要在于:1)保證時(shí)序上的連續(xù)型 2)在高分辨率下實(shí)現(xiàn)修復(fù) 3)降低視頻對(duì)于計(jì)算的開(kāi)銷。
本文致力于解決這三個(gè)問(wèn)題,同時(shí)盡可能保證視頻的清晰度。在研究中發(fā)現(xiàn),保證視頻的時(shí)序一致性,對(duì)于視頻修復(fù)任務(wù)來(lái)說(shuō)非常重要,這不僅僅保證了修復(fù)后的視頻能夠有良好的觀看體驗(yàn),同時(shí)還幫助從視頻本身來(lái)抽取真實(shí)的像素塊來(lái)實(shí)現(xiàn)更加高效地修復(fù)。
所以作者提出的框架主要由兩部分組成,第一部分是通過(guò)深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)光流的補(bǔ)全,之后通過(guò)補(bǔ)全的光流在整個(gè)視頻間做像素的傳導(dǎo),從而形成一條在時(shí)序上保持一致的像素鏈。這樣缺失的區(qū)域就可以通過(guò)它來(lái)實(shí)現(xiàn)修復(fù),并且還能夠保證視頻的清晰度。
面向自動(dòng)駕駛場(chǎng)景的3D視覺(jué)
代表性論文:PointRCNN: 基于原始點(diǎn)云的3D物體檢測(cè)方法
本文首次提出了基于原始點(diǎn)云數(shù)據(jù)的二階段3D物體檢測(cè)框架,PointRCNN。3D物體檢測(cè)是自動(dòng)駕駛和機(jī)器人領(lǐng)域的重要研究方向,已有的3D物體檢測(cè)方法往往將點(diǎn)云數(shù)據(jù)投影到鳥瞰圖上再使用2D檢測(cè)方法去回歸3D檢測(cè)框,或者從2D圖像上產(chǎn)生2D檢測(cè)框后再去切割對(duì)應(yīng)的局部點(diǎn)云去回歸3D檢測(cè)框。而這些方法中,前者在將點(diǎn)云投影到俯視圖上時(shí)丟失了部分原始點(diǎn)云的信息,后者很難處理2D圖像中被嚴(yán)重遮擋的物體。
作者觀察到自動(dòng)駕駛場(chǎng)景中物體在3D空間中是自然分離的,從而可以直接從3D框的標(biāo)注信息中得到點(diǎn)云的語(yǔ)義分割標(biāo)注。因此本文提出了以自底向上的方式直接從原始點(diǎn)云數(shù)據(jù)中同步進(jìn)行前景點(diǎn)分割和3D初始框生成的網(wǎng)絡(luò)結(jié)構(gòu),即從每個(gè)前景點(diǎn)去生成一個(gè)對(duì)應(yīng)的3D初始框(階段一),從而避免了在3D空間中放置大量候選框。
在階段二中,前面生成的3D初始框?qū)⑼ㄟ^(guò)平移和旋轉(zhuǎn)從而規(guī)則化到統(tǒng)一坐標(biāo)系下,并通過(guò)點(diǎn)云池化等操作后得到每個(gè)初始框的全局語(yǔ)義特征和局部幾何特征,他們將這兩種特征融合后進(jìn)行了3D框的修正和置信度的打分,從而獲得最終的3D檢測(cè)框。
在提交到KITTI的3D檢測(cè)任務(wù)上進(jìn)行官方測(cè)試時(shí),作者提出的方法在只使用點(diǎn)云數(shù)據(jù)的情況下召回率和最終的檢測(cè)準(zhǔn)確率均超越了已有的方法并達(dá)到了先進(jìn)水平。目前該方法的已將代碼開(kāi)源GitHub上。
面向AR/VR場(chǎng)景的人體姿態(tài)遷移
代表性論文:基于人體本征光流的姿態(tài)轉(zhuǎn)換圖像生成
本文主要關(guān)注人體姿態(tài)轉(zhuǎn)移問(wèn)題,即在給定一幅包含一個(gè)人的輸入圖像和一個(gè)目標(biāo)姿態(tài)的情況下,生成同一個(gè)人在目標(biāo)姿態(tài)下的圖像。作者提出利用人體本征光流描述不同姿態(tài)間的像素級(jí)對(duì)應(yīng)關(guān)系。
為此,他們?cè)O(shè)計(jì)了一個(gè)前饋神經(jīng)網(wǎng)絡(luò)模塊,以原始姿態(tài)和目標(biāo)姿態(tài)作為輸入,迅速對(duì)光流場(chǎng)進(jìn)行估計(jì)??紤]到真實(shí)光流數(shù)據(jù)難以獲取,他們利用3D人體模型擬合圖像中的人體姿態(tài),生成對(duì)應(yīng)姿態(tài)變化的光流場(chǎng)數(shù)據(jù),用于模型訓(xùn)練。
在該光流預(yù)測(cè)模塊的基礎(chǔ)上,他們?cè)O(shè)計(jì)了一個(gè)圖像生成模型,利用本征光流對(duì)人體的外觀特征進(jìn)行空間變換,從而生成目標(biāo)姿態(tài)下的人體圖像。他們的模型在DeepFashion和Market-1501等數(shù)據(jù)集上取得了良好的效果。
無(wú)監(jiān)督與自監(jiān)督深度學(xué)習(xí)前沿進(jìn)展
代表性論文:基于條件運(yùn)動(dòng)傳播的自監(jiān)督學(xué)習(xí)
本文提出一種從運(yùn)動(dòng)中學(xué)習(xí)圖像特征的自監(jiān)督學(xué)習(xí)范式。(1)在自然場(chǎng)景中,物體的運(yùn)動(dòng)具有高度的復(fù)雜性,例如人體和常見(jiàn)動(dòng)物都具有較高的運(yùn)動(dòng)自由度。(2)同時(shí),從單張圖片中推測(cè)物體的運(yùn)動(dòng)具有歧義性?,F(xiàn)有基于運(yùn)動(dòng)的自監(jiān)督學(xué)習(xí)方法由于沒(méi)有很好地解決這兩個(gè)問(wèn)題,因而未能高效地從運(yùn)動(dòng)中學(xué)習(xí)到較好的圖像特征。
為此,作者提出了條件運(yùn)動(dòng)傳播這個(gè)自監(jiān)督學(xué)習(xí)任務(wù)。訓(xùn)練時(shí),他們將單張圖像作為輸入,將目標(biāo)運(yùn)動(dòng)場(chǎng)中抽樣出來(lái)的稀疏運(yùn)動(dòng)場(chǎng)作為條件,訓(xùn)練神經(jīng)網(wǎng)絡(luò)去恢復(fù)目標(biāo)運(yùn)動(dòng)場(chǎng)。這樣訓(xùn)練完的圖像編碼器可以用來(lái)作為其他高級(jí)任務(wù)的初始化。他們?cè)谡Z(yǔ)意分割、實(shí)例分割和人體解析等任務(wù)中相比以往自監(jiān)督學(xué)習(xí)方法獲得了較大提升。
經(jīng)過(guò)分析,作者發(fā)現(xiàn)條件運(yùn)動(dòng)傳播任務(wù)從運(yùn)動(dòng)中學(xué)習(xí)到了物體的剛體性、運(yùn)動(dòng)學(xué)屬性和一部分現(xiàn)實(shí)世界中的物理規(guī)律。利用這些特性,他們將它應(yīng)用到交互式視頻生成和半自動(dòng)實(shí)例標(biāo)注,獲得了令人滿意的效果;而整個(gè)過(guò)程,沒(méi)有用到任何人工的標(biāo)注。
Open-MMLab計(jì)劃,推動(dòng)學(xué)術(shù)生態(tài)建設(shè)
現(xiàn)代AI系統(tǒng)日趨復(fù)雜,涉及很多的關(guān)鍵細(xì)節(jié),這些細(xì)節(jié)的優(yōu)化和調(diào)節(jié)需要長(zhǎng)時(shí)間的專注和積累。因此,AI研究的未來(lái)推進(jìn),也將需要越來(lái)越多不同研究背景的團(tuán)隊(duì)共同參與,讓每個(gè)團(tuán)隊(duì)專注于某一個(gè)方面的開(kāi)拓與探索。
所以商湯科技啟動(dòng)Open-MMLab計(jì)劃,希望在一個(gè)統(tǒng)一的代碼架構(gòu)上,逐步開(kāi)放實(shí)驗(yàn)室積累的算法和模型。目前,商湯科技和香港中文大學(xué)多媒體實(shí)驗(yàn)室(MMLab)聯(lián)合開(kāi)源了兩個(gè)重要的純學(xué)術(shù)代碼庫(kù)MMDetection和MMAction。
MMDetection
MMDetection是一個(gè)基于PyTorch的開(kāi)源物體檢測(cè)工具包。該工具包采用模塊化設(shè)計(jì),支持多種流行的物體檢測(cè)和實(shí)例分割算法,并且可以靈活地進(jìn)行拓展,在速度和顯存消耗上也具有優(yōu)勢(shì)。(https://github.com/open-mmlab/mmdetection)
目前已經(jīng)支持單階段檢測(cè)器如SSD/RetinaNet/FCOS/FSAF,兩階段檢測(cè)器如Faster R-CNN/Mask R-CNN,多階段檢測(cè)器如Cascade R-CNN/Hybrid Task Cascade等,另外支持許多相關(guān)模塊如DCN/Soft-NMS/OHEM等,也支持混合精度訓(xùn)練。有很多最新的工作也在MMDetection上開(kāi)源。
商湯團(tuán)隊(duì)還提供了完整的訓(xùn)練和測(cè)試框架,以及超過(guò)200個(gè)訓(xùn)練好的模型及其測(cè)試結(jié)果,希望能為社區(qū)提供統(tǒng)一的開(kāi)發(fā)平臺(tái)和測(cè)試基準(zhǔn),助力物體檢測(cè)的相關(guān)研究。
MMAction
MMAction是一個(gè)基于Pytorch的開(kāi)源視頻動(dòng)作理解工具包,囊括了視頻動(dòng)作分類、時(shí)域動(dòng)作檢測(cè)(定位)、時(shí)空動(dòng)作檢測(cè)等視頻理解的基礎(chǔ)任務(wù)。(https://github.com/open-mmlab/mmaction)
目前已經(jīng)支持雙流、TSN、SSN等動(dòng)作分類和動(dòng)作檢測(cè)框架和基于Fast R-CNN的時(shí)空動(dòng)作檢測(cè)基線模型,支持Plain 2D/Inflated 3D/Non-local等流行的網(wǎng)絡(luò)結(jié)構(gòu),支持UCF-101、Something-Something、Kinetics、THUMOS14、ActivityNet、AVA等視頻數(shù)據(jù)集,并提供相關(guān)的預(yù)訓(xùn)練模型。
作為Open-MMLab系統(tǒng)開(kāi)源項(xiàng)目的一部分,團(tuán)隊(duì)希望MMAction可以成為視頻研究人員的測(cè)試平臺(tái),促進(jìn)視頻動(dòng)作理解領(lǐng)域更上新臺(tái)階。
-
論文
+關(guān)注
關(guān)注
1文章
103瀏覽量
14944 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5464瀏覽量
120891 -
商湯科技
+關(guān)注
關(guān)注
8文章
489瀏覽量
36037
原文標(biāo)題:商湯62篇論文入選CVPR 2019,一覽五大方向最新研究進(jìn)展
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論