圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)是近年來逐漸流行的一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。不同于只能用于網(wǎng)格結(jié)構(gòu)(grid-based)數(shù)據(jù)的傳統(tǒng)網(wǎng)絡(luò)模型 LSTM 和 CNN,圖卷積網(wǎng)絡(luò)能夠處理具有廣義拓?fù)鋱D結(jié)構(gòu)的數(shù)據(jù),并深入發(fā)掘其特征和規(guī)律,例如 PageRank 引用網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、蛋白質(zhì)分子結(jié)構(gòu)等一系列具有空間拓?fù)鋱D結(jié)構(gòu)的不規(guī)則數(shù)據(jù)。相比于一般的拓?fù)鋱D而言,人體骨骼拓?fù)鋱D具有更加良好的穩(wěn)定性和不變性,因此從2018年開始,就有許多學(xué)者嘗試將圖卷積網(wǎng)絡(luò)應(yīng)用到基于人體骨骼的行為識別領(lǐng)域來,也取得了不錯的成果。下面就讓我們來深入了解一下什么是圖卷積網(wǎng)絡(luò),以及它在行為識別領(lǐng)域的最新工作進(jìn)展吧!
什么是圖(graph)?為什么要研究GCN?
我們知道,CNN 在處理圖像數(shù)據(jù)時具有很強(qiáng)的特征抽取能力和整合能力,這得益于卷積核(kernel ,or filter)的參數(shù)共享機(jī)制和加權(quán)平均機(jī)制。卷積本質(zhì)上就是一種加權(quán)求和的過程,而卷積核的參數(shù)就是不同像素點(diǎn)對應(yīng)的權(quán)重,并且不同的圖片都共享同一個卷積核,這使得CNN能夠通過對卷積核參數(shù)的迭代更新來隱式的學(xué)習(xí)圖像中具有的像素排列規(guī)律,進(jìn)而學(xué)習(xí)到不同的形狀特征和空間特征。
但值得注意的一點(diǎn)是,CNN 所處理的數(shù)據(jù)都具有規(guī)則的網(wǎng)格結(jié)構(gòu),也就是排列很整齊的矩陣,具有 Euclidean Structure,例如 RGB 圖片(圖1)。如果要將CNN應(yīng)用于非圖像領(lǐng)域,就必須將數(shù)據(jù)組合為規(guī)整的網(wǎng)絡(luò)結(jié)構(gòu),才能作為CNN的輸入。例如在 18 年之前的行為識別研究中,常用的方法就是以一定的順序?qū)⒁粋€動作的關(guān)節(jié)坐標(biāo)序列轉(zhuǎn)換為一張 RGB 圖片,從而將動作識別工作轉(zhuǎn)化為圖像識別工作。
圖1 規(guī)則空間結(jié)構(gòu)數(shù)據(jù)
然而現(xiàn)實(shí)生活和科學(xué)研究中有很多數(shù)據(jù)都不具備完整的矩陣結(jié)構(gòu),相反,更多的是以一定的連接關(guān)系聚合在一起,如圖2所示。社交網(wǎng)絡(luò),通信網(wǎng)絡(luò),互聯(lián)網(wǎng)絡(luò)等都具有類似的結(jié)構(gòu)。
圖2 社交網(wǎng)絡(luò)拓?fù)鋱D
類似這樣的網(wǎng)絡(luò)結(jié)構(gòu)就是圖論中所定義的拓?fù)鋱D。更一般的,圖就是指圖論中用頂點(diǎn)和邊建立相應(yīng)關(guān)系的拓?fù)鋱D。我們可以用一個點(diǎn)和邊的集合來表示圖:G=(E,V);其中E表示邊的集合,V表示頂點(diǎn)的集合。
那么對于這種具有拓?fù)鋱D結(jié)構(gòu)的數(shù)據(jù)而言,CNN 處理起來是非常困難的(但也不是沒有辦法哦),而且通常不能很好的抽取節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接關(guān)系信息(是否相連),這也是我們研究 GCN 的重要原因。當(dāng)然,根本的原因還是在于數(shù)據(jù)的多樣性,廣義上來講,任何數(shù)據(jù)在賦范空間內(nèi)都可以建立拓?fù)潢P(guān)聯(lián),譜聚類就是應(yīng)用了這樣的思想。所以說拓?fù)溥B接是一種廣義的數(shù)據(jù)結(jié)構(gòu),GCN 有很大的應(yīng)用空間。
圖卷積操作如何進(jìn)行呢?
目前有兩種類型的圖卷積操作,一種是基于空域的圖卷積,另一種是基于譜域的圖卷積,這里著重介紹第一種。
前面我們提到,卷積操作的本質(zhì)意義就是對一個范圍內(nèi)的像素點(diǎn)進(jìn)行加權(quán)求平均,這能有助于提取空間特征,那么如何將這種思想應(yīng)用到拓?fù)鋱D上呢?我們可以換一種方式來理解卷積操作,如圖3,對于feature map(藍(lán)色部分)中的一個點(diǎn)(紅色),其特征值實(shí)際上是周圍所有像素點(diǎn)將特征值傳播到中心點(diǎn)后進(jìn)行加權(quán)平均,這種操作等效于傳統(tǒng)的卷積操作,只不過我們?nèi)藶榈臑樘卣魈砑恿艘粋€傳播方向(邊),將每個像素點(diǎn)當(dāng)成頂點(diǎn),從而在圖結(jié)構(gòu)上再次定義了卷積操作。
圖3 卷積操作的另一種理解
進(jìn)一步的,對于廣義拓?fù)鋱D結(jié)構(gòu)的數(shù)據(jù),也可以按照這種思想來定義卷積操作,如圖4所示,將每個節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的特征傳播到該節(jié)點(diǎn),再進(jìn)行加權(quán)平均,就可以得到該點(diǎn)的聚合特征值,只不過在 CNN 中,我們將這個聚合特征值當(dāng)做了 feature map 中的一個點(diǎn),而在 GCN 中沒有 feature map 的概念,我們直接將這個聚合特征值作為傳播到下一層的特征值。藍(lán)色部分就是圖卷積操作對應(yīng)的 kernel,這里是為了理解才畫出這個藍(lán)色區(qū)域,在 GCN 中也沒有 kernel 的概念,這也是因為圖是不規(guī)則的。
類似于 CNN,圖卷積也采用共享權(quán)重,不過不同于 CNN 中每個 kernel 的權(quán)重都是規(guī)則的矩陣,按照對應(yīng)位置分配,圖卷積中的權(quán)重通常是一個集合。在對一個節(jié)點(diǎn)計算聚合特征值時,按一定規(guī)律將參與聚合的所有點(diǎn)分配為多個不同的子集,同一個子集內(nèi)的節(jié)點(diǎn)采用相同的權(quán)重,從而實(shí)現(xiàn)權(quán)重共享。例如對于圖4,我們可以規(guī)定和紅色點(diǎn)距離為 1 的點(diǎn)為 1 鄰域子集,距離為 2 的點(diǎn)為 2 鄰域子集。當(dāng)然,也可以采用更加復(fù)雜的策略,例如按照距離圖重心的遠(yuǎn)近來分配權(quán)重。權(quán)重的分配策略有時也稱為 label 策略,對鄰接節(jié)點(diǎn)分配 label,label 相同節(jié)點(diǎn)的共享一個權(quán)重。
到這里想必你已經(jīng)發(fā)現(xiàn)了,其實(shí)圖卷積操作就是傳統(tǒng)的卷積操作在拓?fù)鋱D上的概念延伸和轉(zhuǎn)移,通過對比二者,你能更好的學(xué)習(xí)到圖卷積網(wǎng)絡(luò)的精髓。
圖4 拓?fù)鋱D上的卷積操作
特征在層與層之間的傳播方式可以用公式表示如下:
其中 Hi 是第 i 層的特征矩陣,當(dāng) i=0時,H0 就表示輸入圖的節(jié)點(diǎn)特征矩陣。A是輸入圖的鄰接矩陣,Wi表示第i層的權(quán)重矩陣。σ表示激活函數(shù)。通過鄰接矩陣左乘特征矩陣,可以實(shí)現(xiàn)特征的聚合操作,然后再右乘權(quán)重矩陣,可以實(shí)現(xiàn)加權(quán)操作。權(quán)重矩陣W和鄰接矩陣H是用圖卷積做行為識別工作時的重點(diǎn)研究對象。鄰接矩陣的示例如下圖:
圖5 鄰接矩陣示例
如果兩個節(jié)點(diǎn)相鄰,那么在矩陣中對應(yīng)位置為1,否則為0。這是一種非?;A(chǔ)的定義,不同的行為識別工作會在此基礎(chǔ)上設(shè)計不同的變體定義。
概括的來說,圖卷積操作就是將每個節(jié)點(diǎn)的特征與其鄰居節(jié)點(diǎn)的特征加權(quán)平均后傳播到下一層。這種圖卷積操作稱為在空域上的圖卷積,有如下幾個特點(diǎn):
1. 隨著層數(shù)的加深,每個節(jié)點(diǎn)能聚合到的特征越遠(yuǎn),也就是感受野越大。
2. 權(quán)重是共享的,不會具體到每個節(jié)點(diǎn),這和傳統(tǒng)CNN相同。(直觀的理解,如果權(quán)重是因節(jié)點(diǎn)而不同的,那么一旦圖結(jié)構(gòu)發(fā)生變化,權(quán)重就會立刻失效)
3.每個頂點(diǎn)的鄰居節(jié)點(diǎn)數(shù)可能不同,這導(dǎo)致鄰居節(jié)點(diǎn)多的頂點(diǎn)的特征值更顯著。
4.鄰接矩陣在計算時無法將節(jié)點(diǎn)自身的特征包含到聚合特征值中。
此外,為了克服空域圖卷積的缺點(diǎn),學(xué)者們提出了譜域上的圖卷積,大概思想是利用圖的拉普拉斯矩陣和傅里葉變換來進(jìn)行卷積操作。基于譜域的圖卷積目前在行為識別中應(yīng)用較少,并且原理非常復(fù)雜,這里不做詳細(xì)介紹,有興趣的同學(xué)可以閱讀相關(guān)文章。
GCN在行為識別領(lǐng)域的應(yīng)用
行為識別的主要任務(wù)是分類識別,對給定的一段動作信息(例如視頻,圖片,2D骨骼序列,3D骨骼序列),通過特征抽取分類來預(yù)測其類別。目前(18年過后)基于視頻和RGB圖片的主流方法是two-stream雙流網(wǎng)絡(luò),而基于骨骼數(shù)據(jù)的主流方法就是圖卷積網(wǎng)絡(luò)了。
人體的骨骼圖本身就是一個拓?fù)鋱D,因此將GCN運(yùn)用到動作識別上是一個非常合理的想法。但不同于傳統(tǒng)的圖結(jié)構(gòu)數(shù)據(jù),人體運(yùn)動數(shù)據(jù)是一連串的時間序列,在每個時間點(diǎn)上具有空間特征,而在幀于幀之間則具有時間特征,如何通過圖卷積網(wǎng)絡(luò)來綜合性的發(fā)掘運(yùn)動的時空特征,是目前的行為識別領(lǐng)域的研究熱點(diǎn)。筆者選取了自18年以來將GCN和行為識別相結(jié)合的代表性工作,用于討論并分析這些工作的核心思想,以及在此基礎(chǔ)上可以嘗試的idea。
[1]SpatialTemporal Graph Convolutional Networks for Skeleton-Based Action Recognition(AAAI,2018)(cv,88.3%,表示在NTU RGB+D數(shù)據(jù)集上cross-view驗證結(jié)果,下同)
主要貢獻(xiàn):
1.將圖卷積網(wǎng)絡(luò)擴(kuò)展到時空域,稱為時空圖卷積網(wǎng)絡(luò)(ST-GCN)。對于每個關(guān)節(jié)而言,不僅考慮它在空間上的相鄰關(guān)節(jié),還要考慮它在時間上的相鄰關(guān)節(jié),也就是說將鄰域的概念擴(kuò)展到了時間上。
2.新的權(quán)重分配策略,文章中提到了三種不同的權(quán)重分配策略:
圖(b)唯一劃分,將節(jié)點(diǎn)和其1鄰域節(jié)點(diǎn)劃分到相同的子集中,使他們具有相同的label,自然也就具有相同的權(quán)重。這樣的話每個kernel中的權(quán)重實(shí)際上就是一個1*N的向量,N是節(jié)點(diǎn)的特征維數(shù)。
圖(c)按距離劃分,將節(jié)點(diǎn)自身劃分為一個子集,1領(lǐng)域劃分到一個子集。每個kernel的權(quán)重是一個2*N的向量。
圖(d)按節(jié)點(diǎn)與重心距離劃分,距離重心更近(相對于中心節(jié)點(diǎn))的1鄰域節(jié)點(diǎn)為一個子集,距離重心更遠(yuǎn)的1鄰域節(jié)點(diǎn)為一個子集,中心節(jié)點(diǎn)自身為1個子集。每個kernel的權(quán)重是一個3*N的向量。
經(jīng)過測試發(fā)現(xiàn)第三種策略效果最好,這是因為第三種策略實(shí)際上也包含了對末肢關(guān)節(jié)賦予更多關(guān)注的思想,通常距離重心越近,運(yùn)動幅度越小,同時能更好的區(qū)分向心運(yùn)動和離心運(yùn)動。
核心思想:
1.將圖卷積擴(kuò)展到了時域上,從而更好的發(fā)掘動作的運(yùn)動特征,而不僅僅是空間特征。
2.設(shè)計了新的權(quán)重分配策略,能更加差異化地學(xué)習(xí)不同節(jié)點(diǎn)的特征。
3.合理的運(yùn)用先驗知識,對運(yùn)動幅度大的關(guān)節(jié)給予更多的關(guān)注,潛在的體現(xiàn)在權(quán)重分配策略中。
[2]DeepProgressive Reinforcement Learning for Skeleton-based Action Recognition(CVPR,2018)(cv,89.8%)
主要貢獻(xiàn):
1.首先通過深度漸進(jìn)式強(qiáng)化學(xué)習(xí)(DPRL),用類似蒸餾的方法逐步得從輸入的動作幀序列中挑選最具識別力的幀,并忽略掉那些模棱兩可的幀,這是一種類似于lstem中的attention的機(jī)制,只不過注意力只放在了時域上。對應(yīng)的網(wǎng)絡(luò)是frame distillation network(FDNet)。
2.將FDNet的輸出作為GCN的輸入,用于動作識別。不同于傳統(tǒng)的骨骼圖,本文還定義了一些特殊的骨骼連接,如下圖:
不僅包含了骨架的肢節(jié)連接(實(shí)線),為了發(fā)掘那些沒有直接連接的關(guān)節(jié)之間的關(guān)系,還定義了一些重要關(guān)節(jié)之間的間接連接(虛線)。例如系鞋帶,手部關(guān)節(jié)和腳部關(guān)節(jié)會有親密合作,但他們并沒有在骨骼圖中直接相連,距離較遠(yuǎn),需要經(jīng)過多層的圖卷積兩個關(guān)節(jié)的特征才會相互傳播給對方,因此可以通過額外建立間接連接來發(fā)掘其中的關(guān)系。這個思想體現(xiàn)在鄰接矩陣上,就是將鄰接矩陣中一部分原本值為0的元素改為其他大于0的值。此外,觀察上圖你會發(fā)現(xiàn),定義了虛線連接的那些關(guān)節(jié)大都是距離重心較遠(yuǎn)的關(guān)節(jié),這是因為在大部分動作中,距重心越遠(yuǎn)的關(guān)節(jié)運(yùn)動幅度越大,其蘊(yùn)含的信息越多。
核心思想:
1.attention機(jī)制,在時域上選擇具有代表性,識別能力更強(qiáng)的幀。
2.對鄰接矩陣進(jìn)行改進(jìn),不再是單一的0-1布爾矩陣,對沒有直接連接的節(jié)點(diǎn)之間也賦予一定的權(quán)重。
3.合理運(yùn)用先驗知識,對末肢關(guān)節(jié)賦予更多的關(guān)注,體現(xiàn)在鄰接矩陣上。
[3]Part-based Graph ConvolutionalNetwork for Action Recognition(BMVC,2018)(cv,93.2)
主要貢獻(xiàn):
1.用幾何特征(Geometric Features)和運(yùn)動特征(Kinematic Features)來代替原始的空間三維坐標(biāo),作為每個節(jié)點(diǎn)的原始特征。如上圖中的圖(a)。
2.將人體骨架圖按一定的原則劃分為多個不同的子圖。對每個子圖分別進(jìn)行圖卷積操作,然后再通過一個融合函數(shù)將結(jié)果融合。具體思想是:首先對于一個節(jié)點(diǎn),計算該節(jié)點(diǎn)與所屬子圖內(nèi)的鄰接節(jié)點(diǎn)的卷積值,我們稱之為基本卷積值。而對于所屬子圖外的鄰接節(jié)點(diǎn)(屬于相鄰的另一個子圖),首先計算該鄰接節(jié)點(diǎn)的基本卷積值,然后將二者的基本卷積值以一定的權(quán)重融合。這么做可以在很大程度上提高每個子圖邊緣節(jié)點(diǎn)的感受野(直接覆蓋到相鄰子圖),同時對于每個子圖的非邊緣節(jié)點(diǎn)(于其他子圖不相連),則需要多次傳播才能獲取到其他子圖節(jié)點(diǎn)的特征。
本文測試了三種不同的劃分策略,分別是:
圖(b):按距離重心的距離,分為中軸關(guān)節(jié)和末肢關(guān)節(jié)兩個部分。
圖(c):在圖(b)的基礎(chǔ)上進(jìn)一步細(xì)化,按照關(guān)節(jié)的上下位置分為4個部分。
圖(d):在(c)的基礎(chǔ)上加入了左右關(guān)節(jié)的概念,按左右再細(xì)分為6個部分。
實(shí)驗證明,圖(c)的劃分方法結(jié)果最好,這是因為如果子圖數(shù)量過多,會導(dǎo)致特征值得傳播更困難,而數(shù)量過少,則無法差異化地對待不同類型的關(guān)節(jié)。
3.時空域卷積。不同于文章[1],本文采用的時空卷積策略是:先對每一幀,按照子圖特征融合的方法進(jìn)行卷積,得到空域卷積結(jié)果,然后在將空域卷積結(jié)果作為時域上的特征值,再進(jìn)行時域上的卷積。這么做實(shí)際上是擴(kuò)大了計算量和復(fù)雜度,但能發(fā)掘的時空信息也更全面,不再局限于局部關(guān)節(jié)范圍。
核心思想:
1.定義了更加復(fù)雜的卷積策略,不再是簡單的鄰域特征融合,而是擴(kuò)大了鄰域的概念,從而提高了節(jié)點(diǎn)的感受野。
2.采用了分圖策略,有助于挖掘局部范圍內(nèi)的關(guān)節(jié)聯(lián)系。通常這種策略我們稱為part-based或part-aware。
3.定義了范圍更廣的時空卷積操作,代價是計算量更大了。
4.傳統(tǒng)方法使用關(guān)節(jié)原始的坐標(biāo)信息作為GCN的輸入,而這里采用更具代表性的兩種不同類型特征作為輸入,可以進(jìn)一步提高識別能力。
[4]Actional-Structural Graph Convolutional Networksfor Skeleton-based Action Recognition(arXiv,2019)(cv,94.2)
頂會的文章真的是一年比一年復(fù)雜,雖然說效果越做越好,但是特征工程和網(wǎng)絡(luò)結(jié)構(gòu)都非常復(fù)雜,有時候純粹是靠堆復(fù)雜度來提升結(jié)果,作者并不能合理解釋自己的網(wǎng)絡(luò)結(jié)構(gòu),而且這種工作也很難follow
主要貢獻(xiàn):
提出了AS-GCN,主要涉及了兩種網(wǎng)絡(luò)結(jié)構(gòu):Action-link和Structural-link。通過Action-link來發(fā)掘潛在的關(guān)節(jié)之間的聯(lián)系,通過structual-link來發(fā)掘骨骼圖的高階關(guān)系。
1.Action-Link提取關(guān)節(jié)連接信息
如圖(c),Action-Link實(shí)際上就是每個關(guān)節(jié)和其他所有關(guān)節(jié)的連接,通過一個編碼-解碼器來學(xué)習(xí)這些連接的權(quán)重,進(jìn)而發(fā)掘關(guān)節(jié)之間的潛在聯(lián)系,如下圖:
具體細(xì)節(jié)(理解難度較大,如果不深入研究可以忽略):
上圖中左側(cè)黃色和紫色分別代表某一幀的原始的joints features和links features,將兩種類型的特征反復(fù)迭代更新(encoder),可以實(shí)現(xiàn)特征在關(guān)節(jié)和邊中的流動傳播,最終得到一個概率權(quán)重矩陣。將這個矩陣和該幀之前的所有時刻的幀信息結(jié)合起來,通過一個decoder來預(yù)測下一時刻的關(guān)節(jié)位置。這樣就能通過反向傳播的方式來不斷的迭代更新網(wǎng)絡(luò)參數(shù),實(shí)現(xiàn)對網(wǎng)絡(luò)的訓(xùn)練。在網(wǎng)絡(luò)得到初步的訓(xùn)練后,將decoder去掉,只使用前半部分抽取A-link特征,用于動作分類任務(wù)的進(jìn)一步訓(xùn)練。
2.Structural-link擴(kuò)大節(jié)點(diǎn)感受野
傳統(tǒng)的圖卷積網(wǎng)絡(luò)中,每個節(jié)點(diǎn)只將自己的信息傳播給鄰居節(jié)點(diǎn),這會導(dǎo)致節(jié)點(diǎn)感受野較小,不利于獲取長距離的連接信息。通過對鄰接矩陣取一定次數(shù)的冪,可以擴(kuò)大感受野,如圖(b)。
3.多任務(wù)處理
將A-Link和S-link加權(quán)結(jié)合起來作為GCN的輸入。將GCN和Temporal-GCN結(jié)合,得到AS-GCN,作為基本網(wǎng)絡(luò)(Backbone)。接不同的后端網(wǎng)絡(luò),可以分別實(shí)現(xiàn)分類功能和預(yù)測功能,如下圖:
核心思想:
1.從原始的坐標(biāo)信息中提取出A-links特征信息作為輸入特征,具有更高的可識別度,類似于工作[3]。
2.通過對鄰接矩陣取多次冪來擴(kuò)大節(jié)點(diǎn)的感受域。
3.多個block疊加,通過提高復(fù)雜度來提高識別能力。
[5] An AttentionEnhanced Graph Convolutional LSTM Network for Skeleton-Based ActionRecognition(CVPR,2019)(cv,95%,目前最好)
主要貢獻(xiàn):
不同于前面介紹的工作,本文沒有采用GCN,而是將骨骼圖作為LSTM的輸入,通過注意力增強(qiáng)型圖卷積LSTM網(wǎng)絡(luò)(AGC-LSTM)來抽取圖中具有的空間和時間特征,并且設(shè)計了專門的損失函數(shù)和特殊的學(xué)習(xí)方法。
核心思想:
探究不同的圖處理方式,LSTM具有很強(qiáng)的時序特征獲取能力,將其于圖結(jié)構(gòu)結(jié)合起來,可以實(shí)現(xiàn)對時空特征的獲取。
[6] SemanticGraph Convolutional Networks for 3D Human Pose Regression(arXiv,2019)
本文的工作不是行為識別,而是姿態(tài)估計。但筆者認(rèn)為其中用到的一些方法非常有道理,可以遷移到行為識別任務(wù)中。
主要貢獻(xiàn):
在我們之前介紹的圖卷積工作中,GCN網(wǎng)絡(luò)需要學(xué)習(xí)的通常都只有基本的權(quán)重矩陣(上面公式中的W),而對于鄰接矩陣都是通過一些先驗知識提前設(shè)置好的,不會隨著網(wǎng)絡(luò)進(jìn)行迭代變化。然而事實(shí)上,鄰接矩陣的本質(zhì)也是權(quán)重,只不過通常這個權(quán)重是我們根據(jù)一些先驗的知識或者規(guī)律提前設(shè)置好的,因此,本文作者提出,如果能通過網(wǎng)絡(luò)來學(xué)習(xí)鄰接矩陣的權(quán)重,也就是公式中的M,是否能更好的做到對特征的抽取呢?
按照這個思路,網(wǎng)絡(luò)就需要學(xué)習(xí)兩個不同的權(quán)重,其中基本權(quán)重W在不同的圖卷積層有不同的值,那么鄰接矩陣的權(quán)重M也應(yīng)該是在不同的層有不同的值??赡苡行』锇闀枺瑸槭裁床话袽和W結(jié)合到一起呢?讀一讀原文,你就能找到答案了,這里只提供一種思路。
核心思想:
額外添加一個針對鄰接矩陣的權(quán)重,讓網(wǎng)絡(luò)自己去學(xué)習(xí)自己的鄰接矩陣。
總結(jié)
總的來說,在基于圖卷積的行為識別工作和類似的工作中,研究重點(diǎn)在以下幾個方面:
1.如何設(shè)計GCN的輸入,用一些更加具有識別能力的特征來代替空間坐標(biāo),作為網(wǎng)絡(luò)輸入。
2.如何根據(jù)問題來定義卷積操作,這是非常硬核的問題。
3.如何設(shè)計鄰接矩陣。
4.如何確定權(quán)重分配策略。
Idea可是無價之寶,不過還是分享出來,有興趣的同學(xué)可以和我一起探討。
從前面的文章中我們可以發(fā)現(xiàn),鄰接矩陣和權(quán)重矩陣在GCN中非常重要,其中權(quán)重矩陣通常情況下是不隨圖的結(jié)構(gòu)變化的,也就是說不僅在不同的節(jié)點(diǎn)之間共享,還會在不同的圖結(jié)構(gòu)中共享,這樣GCN就能在不同結(jié)構(gòu)的圖上訓(xùn)練和測試。但是行為識別工作是比較特殊的,因為人的骨架通常不會發(fā)生變化,而且同一個數(shù)據(jù)集提供的骨架也是固定不變的,這樣的話,我們就不用考慮GCN的在不同結(jié)構(gòu)上的通用性,轉(zhuǎn)而將權(quán)重直接指派到每個關(guān)節(jié),也就是說,現(xiàn)在每個節(jié)點(diǎn)都有一個只屬于自己的權(quán)重,而不再依賴于label策略和其他節(jié)點(diǎn)共享。這么做能讓網(wǎng)絡(luò)能更加差異化地對待每一個關(guān)節(jié),從而對那些具有更強(qiáng)識別能力的關(guān)節(jié)賦予更多的關(guān)注。此外,自動學(xué)習(xí)鄰接矩陣也是一個不錯的思路,只不過在代碼實(shí)現(xiàn)上面難度會比較大。
基于空域的圖卷積網(wǎng)絡(luò)目前在NTU RGB+D數(shù)據(jù)集[7]上已經(jīng)達(dá)到了前所未有的高度,要想再有所提升恐怕會很困難,不過南洋理工大學(xué)rose lab已經(jīng)發(fā)布了新的NTU 120+數(shù)據(jù)集[8],而且越來越多的工作聚焦于基于2D骨骼的姿態(tài)識別,與之相對應(yīng)的Kinetic數(shù)據(jù)集也更有挑戰(zhàn)性,所以這個領(lǐng)域還是非常有研究價值和前景的。此外,譜圖卷積在近年也得到了很大的關(guān)注,但就目前來看筆者只發(fā)現(xiàn)了一篇與姿態(tài)識別有關(guān)的文章是使用了譜圖卷積的,筆者認(rèn)為主要是譜圖卷積相對于空域圖卷積而言復(fù)雜程度太高,導(dǎo)致很多人望而卻步,但越是復(fù)雜的東西其性能相對也越好,因此在下一篇文章中,筆者將為大家詳細(xì)剖析譜圖卷積的原理,以及相關(guān)的行為識別工作!
從目前頂會文章的發(fā)展趨勢來看,工作都是越來越復(fù)雜的,如果考慮沖擊頂會,就要重點(diǎn)研究第1個和第2個思路,如果是次級一些的會議,就可以從第3和第4個思路入手。此外,盡量follow一些已經(jīng)在頂會上發(fā)表了的,被同行檢查過的文章,以及有源代碼的文章,這樣可以有效降低工作難度。
-
圖卷積網(wǎng)絡(luò)
+關(guān)注
關(guān)注
0文章
7瀏覽量
1500 -
GCN
+關(guān)注
關(guān)注
0文章
5瀏覽量
2274
原文標(biāo)題:入門學(xué)習(xí) | 什么是圖卷積網(wǎng)絡(luò)?行為識別領(lǐng)域新星
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論