用圖神經(jīng)網(wǎng)絡(luò)(GNN)做CV的研究有不少,但通常是圍繞點(diǎn)云數(shù)據(jù)做文章,少有直接處理圖像數(shù)據(jù)的。其實(shí)與CNN把一張圖片看成一個(gè)網(wǎng)格、Transformer把圖片拉直成一個(gè)序列相比,圖方法更適合學(xué)習(xí)不規(guī)則和復(fù)雜物體的特征。
近期中科院與華為諾亞方舟實(shí)驗(yàn)室等提出一種全新的骨干網(wǎng)絡(luò),把圖片表示成圖結(jié)構(gòu)數(shù)據(jù),讓GNN也能完成經(jīng)典CV三大任務(wù)。
該論文引起GNN學(xué)者廣泛關(guān)注。有人認(rèn)為GNN領(lǐng)域積累多年的技巧都將涌入這一新方向,帶來(lái)一波研究熱潮。
在研究團(tuán)隊(duì)看來(lái),圖結(jié)構(gòu)是一種更通用的數(shù)據(jù)結(jié)構(gòu)。甚至網(wǎng)格和序列可以當(dāng)作圖結(jié)構(gòu)的特例,用圖結(jié)構(gòu)來(lái)做視覺(jué)感知會(huì)更加靈活。圖數(shù)據(jù)由節(jié)點(diǎn)和邊組成,如果把每個(gè)像素都看作節(jié)點(diǎn)計(jì)算難度過(guò)于大了,因此研究團(tuán)隊(duì)采用了切塊(patch)方法。
對(duì)于224x224分辨率的圖像,每16x16像素為一個(gè)Patch,也就是圖數(shù)據(jù)中的一個(gè)節(jié)點(diǎn),總共有196個(gè)節(jié)點(diǎn)。對(duì)每個(gè)節(jié)點(diǎn)搜索他們距離最近的節(jié)點(diǎn)構(gòu)成邊,邊的數(shù)量隨網(wǎng)絡(luò)深度而增加。接下來(lái),網(wǎng)絡(luò)架構(gòu)分為兩部分:一個(gè)圖卷積網(wǎng)絡(luò)(GCN),負(fù)責(zé)處理圖數(shù)據(jù)、聚合相鄰節(jié)點(diǎn)中的特征。一個(gè)前饋神經(jīng)網(wǎng)絡(luò)(FFN),結(jié)構(gòu)比較簡(jiǎn)單是兩個(gè)全連接層的MLP,負(fù)責(zé)特征的轉(zhuǎn)換。
傳統(tǒng)GCN會(huì)出現(xiàn)過(guò)度平滑現(xiàn)象,為解決這個(gè)問(wèn)題,團(tuán)隊(duì)在圖卷積層前后各增加一個(gè)線性層,圖卷積層后再增加一個(gè)激活函數(shù)。
實(shí)驗(yàn)表明,用上新方法,當(dāng)層數(shù)較多時(shí)ViG學(xué)習(xí)到的特征會(huì)比傳統(tǒng)ResGCN更為多樣。
為了更準(zhǔn)確評(píng)估ViG的性能,研究團(tuán)隊(duì)設(shè)計(jì)了ViT常用的同質(zhì)結(jié)構(gòu)(isotropic)和CNN常用的金字塔結(jié)構(gòu)(Pyramid)兩種ViG網(wǎng)絡(luò),來(lái)分別做對(duì)比實(shí)驗(yàn)。同質(zhì)架構(gòu)ViG分為下面三種規(guī)格。
與常見(jiàn)的同質(zhì)結(jié)構(gòu)CNN、ViT與MLP網(wǎng)絡(luò)相比,ViG在同等算力成本下ImageNet圖像分類的表現(xiàn)更好。金字塔結(jié)構(gòu)的ViG網(wǎng)絡(luò)具體設(shè)置如下。
同等算力成本下,ViG也與最先進(jìn)的CNN、ViT和MLP相比,性能也能超越或表現(xiàn)相當(dāng)。
在目標(biāo)檢測(cè)和實(shí)例分割測(cè)試上,ViG表現(xiàn)也與同等規(guī)模的Swin Transformer相當(dāng)。
最后,研究團(tuán)隊(duì)希望這項(xiàng)工作能作為GNN在通用視覺(jué)任務(wù)上的基礎(chǔ)架構(gòu),Pytorch版本和Mindspore版本代碼都會(huì)分別開(kāi)源。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4717瀏覽量
100002 -
cnn
+關(guān)注
關(guān)注
3文章
349瀏覽量
21962 -
圖卷積網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
7瀏覽量
1498
原文標(biāo)題:?圖神經(jīng)網(wǎng)絡(luò)(GNN)直接處理圖像數(shù)據(jù)
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論