一性一交一伦一片,无码片久久久天堂中文字幕

清華大學(xué)、Google AI 和斯坦福大學(xué)李飛飛團(tuán)隊(duì)提出了一種具有強(qiáng)記憶力的 E3D-LSTM 網(wǎng)絡(luò)，強(qiáng)化了 LSTM 的長時(shí)記憶能力，這為視頻預(yù)測(cè)、動(dòng)作分類等相關(guān)問題提供了新思路，是一項(xiàng)非常具有啟發(fā)性的工作。如何對(duì)時(shí)間序列進(jìn)行時(shí)空建模及特征抽取，是 RGB 視頻預(yù)測(cè)分類，動(dòng)作識(shí)別，姿態(tài)估計(jì)等相關(guān)領(lǐng)域的研究熱點(diǎn)。清華大學(xué)、Google AI 和斯坦福大學(xué)李飛飛團(tuán)隊(duì)提出了一種具有強(qiáng)記憶力的 E3D-LSTM 網(wǎng)絡(luò)，用 3D 卷積代替 2D 卷積作為 LSTM 網(wǎng)絡(luò)的基礎(chǔ)計(jì)算操作，并加入自注意力機(jī)制，使網(wǎng)絡(luò)能同時(shí)兼顧長時(shí)和短時(shí)信息依賴以及局部時(shí)空特征抽取。這為視頻預(yù)測(cè)、動(dòng)作分類等相關(guān)問題提供了新思路，是一項(xiàng)非常具有啟發(fā)性的工作。

時(shí)間序列的時(shí)空建模問題現(xiàn)實(shí)生活中許多數(shù)據(jù)都同時(shí)具有時(shí)間特征和空間特征，例如人體的運(yùn)動(dòng)軌跡，連續(xù)幀的視頻等，每個(gè)時(shí)間點(diǎn)都對(duì)應(yīng)一組數(shù)據(jù)，而數(shù)據(jù)往往又具有一定的空間特征。因此要在這樣的時(shí)間序列數(shù)據(jù)上開展分類，預(yù)測(cè)等工作，就必須在時(shí)間（temporal）和空間 (spatial) 上對(duì)其進(jìn)行建模和特征抽取。常用的時(shí)間建模工具是循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）相關(guān)模型（LSTM 等），由于其特有的門結(jié)構(gòu)設(shè)計(jì)，對(duì)時(shí)間序列特征具有強(qiáng)大的抽取能力，因此被廣泛應(yīng)用于預(yù)測(cè)問題并取得了良好的成果，但是 RNN 并不能很好的學(xué)習(xí)到原始特征的高階表示，這不利于對(duì)空間信息的提取。空間建模則當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò)（CNN），其具有強(qiáng)大的空間特征抽取能力，其中3D-CNN又能將卷積核可控范圍擴(kuò)大到時(shí)域上，相對(duì)于 2D 卷積靈活性更高，能學(xué)習(xí)到更多的運(yùn)動(dòng)信息（motion 信息），相對(duì)于 RNN 則更有利于學(xué)習(xí)到信息的高級(jí)表示（層數(shù)越深，信息越高級(jí)），是目前動(dòng)作識(shí)別領(lǐng)域的流行方法。當(dāng)然 3D 卷積的時(shí)間特征抽取能力并不能和 RNN 媲美。得益于 3D 卷積和 RNN 在各自領(lǐng)域的成功，如何進(jìn)一步將二者結(jié)合起來使用也成為了研究熱點(diǎn)，常見的簡單方法是將二者串聯(lián)堆疊或者并聯(lián)結(jié)合（在圖卷積網(wǎng)絡(luò)出現(xiàn)之前，動(dòng)作識(shí)別領(lǐng)域的最優(yōu)方法就是將 CNN 和 RNN 并聯(lián)），但測(cè)試發(fā)現(xiàn)這么做并不能帶來太大的提升，這是因?yàn)槎叩墓ぷ鳈C(jī)制差距太大，簡單的結(jié)合并不能很好的實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。本文提出用 3D 卷積代替原始 LSTM 中的門更新操作，使 LSTM 不僅能在時(shí)間層面，也能在空間層面上進(jìn)行短期依賴的表象特征和運(yùn)動(dòng)特征的抽取，從而在更深的機(jī)制層面實(shí)現(xiàn)兩種網(wǎng)絡(luò)的結(jié)合。此外，在 LSTM 中引入自注意力（self-attention）機(jī)制，進(jìn)一步強(qiáng)化了 LSTM 的長時(shí)記憶能力，使其對(duì)長距離信息作用具有更好的感知力。作者將這種網(wǎng)絡(luò)稱為Eidetic 3D LSTM（E3D-LSTM），Eidetic 意思是具有逼真記憶，強(qiáng)調(diào)網(wǎng)絡(luò)的強(qiáng)記憶能力。 E3D-LSTM 網(wǎng)絡(luò)結(jié)構(gòu)

圖 1：三種不同的 3D 卷積和 LSTM 的結(jié)合方法圖中每個(gè)顏色的模塊都代表了多層相應(yīng)的網(wǎng)絡(luò)。圖（a）和圖（b）是兩種 3D 卷積和 LSTM 結(jié)合的基線方法，3D 卷積和 LSTM 線性疊加，主要起到了編碼（解碼器）的作用，并沒有和 RNN 有機(jī)制上的結(jié)合。圖（a）中 3D 卷積作為編碼器，輸入是一段視頻幀，圖（b）中作為解碼器，得到每個(gè)單元的最終輸出。這兩個(gè)方法中的綠色模塊使用的是時(shí)空長短時(shí)記憶網(wǎng)絡(luò)（ST-LSTM）[1]，這種 LSTM 獨(dú)立的維護(hù)兩個(gè)記憶狀態(tài) M 和 C，但由于記憶狀態(tài) C 的遺忘門過于響應(yīng)具有短期依賴的特征，因此容易忽略長時(shí)依賴信息，因此 E3D-LSTM 在 ST-LSTM 的基礎(chǔ)添加了自注意力機(jī)制和 3D 卷積操作，在一定程度上解決了這個(gè)問題。具體單元結(jié)構(gòu)下一節(jié)介紹。圖（c）是 E3D-LSTM 網(wǎng)絡(luò)的結(jié)構(gòu)，3D 卷積作為編碼 - 解碼器（藍(lán)色模塊），同時(shí)和 LSTM 結(jié)合（橙色模塊）。E3D-LSTM 既可用于分類任務(wù)，也可用于預(yù)測(cè)任務(wù)。分類時(shí)將所有 LSTM 單元的輸出結(jié)合，預(yù)測(cè)時(shí)則利用 3D 卷積解碼器的輸出作為預(yù)測(cè)值。 E3D-LSTM 單元結(jié)構(gòu)設(shè)計(jì)

圖 2：標(biāo)準(zhǔn) LSTM 單元結(jié)構(gòu) 首先簡要介紹一下標(biāo)準(zhǔn) LSTM 結(jié)構(gòu)，和 RNN 相比 LSTM 增加了更復(fù)雜的門結(jié)構(gòu)（圖中黃色模塊），主要解決 RNN 中存在的梯度消失問題，從而提高網(wǎng)絡(luò)對(duì)長時(shí)依賴（long-term dependency）的記憶感知能力。LSTM 有兩個(gè)輸入門，一個(gè)輸出門和遺忘門。 ?

圖 2：ST-LSTM 網(wǎng)絡(luò)結(jié)構(gòu)和單元結(jié)構(gòu) 和標(biāo)準(zhǔn) LSTM 相比，ST-LSTM 還增加了不同層間對(duì)應(yīng)位置的 cell 連接，如圖 2 左側(cè)，水平灰色連接線表示標(biāo)準(zhǔn) LSTM 的單元連接，豎直黃色連接線表示層間同一時(shí)刻的單元連接，通過張量 M 傳播，注意當(dāng) l=1 時(shí)，（作者認(rèn)為 t 時(shí)刻的頂層信息對(duì) t+1 時(shí)刻的底層信息影響很大），這樣記憶信息就能同時(shí)在層內(nèi)和層間傳播。 ?

圖 3 E3D-LSTM 單元結(jié)構(gòu) 圖 3 是本文提出的 E3D-LSTM 模型的單元結(jié)構(gòu)，是一個(gè)維度為的五維張量，代表之前個(gè)時(shí)間步的所有隱狀態(tài)。表示召回門（代替遺忘門），和 ST-LSTM 相比，主要有以下改進(jìn)： ?

1、輸入數(shù)據(jù)是的四維張量，對(duì)應(yīng)時(shí)刻的連續(xù)幀序列，因此現(xiàn)在每個(gè)單元時(shí)間步都對(duì)應(yīng)一段視頻，而不是單幀視頻。?

2、針對(duì)幀序列數(shù)據(jù)額外添加了一個(gè)召回門（recall gate）以及相關(guān)結(jié)構(gòu)，用于實(shí)現(xiàn)長時(shí)依賴學(xué)習(xí)，也就是自注意力機(jī)制。這部分對(duì)應(yīng)網(wǎng)絡(luò)名稱中的 Eidetic。

3、由于輸入數(shù)據(jù)變成了四維張量，因此在更新公式中采用 3D 卷積操作而不是 2D 卷積。大部分門結(jié)構(gòu)的更新公式和 ST-LSTM 相同，額外添加了召回門更新公式：

上面介紹的機(jī)制用于同一層不同時(shí)間步連接，作者將這種機(jī)制也用在了不同層同一時(shí)間步的連接，但效果并不好，這是因?yàn)椴煌瑢釉谕粫r(shí)刻學(xué)習(xí)到的信息并沒有太好的依賴性。基于 E3D-LSTM 的半監(jiān)督輔助學(xué)習(xí) 在許多監(jiān)督學(xué)習(xí)任務(wù)，例如視頻動(dòng)作識(shí)別中，沒有足夠的監(jiān)督信息和標(biāo)注信息來幫助訓(xùn)練一個(gè)令人滿意的 RNN，因此可以將視頻預(yù)測(cè)作為一個(gè)輔助的表征學(xué)習(xí)方法，來幫助網(wǎng)絡(luò)更好的理解視頻特征，并提高時(shí)間域上的監(jiān)督性。具體的，讓視頻預(yù)測(cè)和動(dòng)作識(shí)別任務(wù)共享相同的主干網(wǎng)絡(luò)（圖 1），只不過損失函數(shù)不同，在視頻預(yù)測(cè)任務(wù)中，目標(biāo)函數(shù)為：

帶上標(biāo)的 X 表示預(yù)測(cè)值，不帶上標(biāo)的表示真值，F(xiàn) 表示 Frobenius 歸一化。在動(dòng)作識(shí)別任務(wù)中，目標(biāo)函數(shù)為：

其中 Y 和是預(yù)測(cè)值和幀值，這樣通過將預(yù)測(cè)任務(wù)的損失函數(shù)嵌入到識(shí)別任務(wù)中，以及主干網(wǎng)絡(luò)的共享，能在一定程度上幫助識(shí)別任務(wù)學(xué)習(xí)到更多的時(shí)序信息。為了保證過渡平滑，額外添加了一個(gè)權(quán)重因子，會(huì)隨著迭代次數(shù)的增加而線性衰減： ? ? 作者將這種方法稱為半監(jiān)督輔助學(xué)習(xí)。 ? 實(shí)驗(yàn)結(jié)果 ? 視頻預(yù)測(cè)任務(wù)，在 Moving MINIST 數(shù)據(jù)集上的結(jié)果： ?

為了驗(yàn)證 E3D-LSTM 中不同模塊對(duì)性能的影響，作者還在該數(shù)據(jù)集上進(jìn)行了燒蝕研究：

可以看到不管是添加 3D 卷積還是自注意力機(jī)制，網(wǎng)絡(luò)性能相對(duì)于基線方法都有提升。視頻預(yù)測(cè)任務(wù)，在 KTH 人體動(dòng)作數(shù)據(jù)集上的結(jié)果：

接下來在一個(gè)實(shí)際視頻預(yù)測(cè)任務(wù)：交通流預(yù)測(cè)中，與其他方法進(jìn)行了對(duì)比：

動(dòng)作識(shí)別任務(wù)，在 Something-Something 數(shù)據(jù)集上進(jìn)行了測(cè)試：

同樣在該數(shù)據(jù)集上進(jìn)行了燒蝕研究：

以及不同的半監(jiān)督輔助學(xué)習(xí)策略帶來的性能提升：

總結(jié) 本文對(duì) ST-LSTM 進(jìn)行了改進(jìn)，將流行的 3D 卷積操作作為其基本張量操作，同時(shí)添加了自注意力模塊，進(jìn)一步強(qiáng)化了網(wǎng)絡(luò)對(duì)長距離依賴信息的刻畫能力，不僅能用于預(yù)測(cè)任務(wù)，還能通過輔助學(xué)習(xí)的方法拓展到其他任務(wù)上，是非常具有啟發(fā)性的工作。 [1] Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, and S Yu Philip. Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms. In NIPS, 2017. （本文經(jīng)授權(quán)轉(zhuǎn)載自AI科技大本營，ID: rgznai100)

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴