隨著 RNN,尤其是 LSTM 架構(gòu)(第 10.1 節(jié))在 2010 年代迅速流行,許多論文開始嘗試簡化架構(gòu),希望保留結(jié)合內(nèi)部狀態(tài)和乘法門機(jī)制的關(guān)鍵思想,但目的是加快速度上計(jì)算。門控循環(huán)單元 (GRU) (Cho等人,2014 年) 提供了 LSTM 記憶單元的簡化版本,通常可實(shí)現(xiàn)相當(dāng)?shù)男阅?,但具有?jì)算速度更快的優(yōu)勢(shì)(Chung等人,2014 年)。
import tensorflow as tf
from d2l import tensorflow as d2l
10.2.1。重置門和更新門
在這里,LSTM 的三個(gè)門被兩個(gè)替換:重置門和更新門。與 LSTM 一樣,這些門被賦予 sigmoid 激活,迫使它們的值位于區(qū)間內(nèi)(0,1). 直覺上,重置門控制著我們可能還想記住多少之前的狀態(tài)。同樣,更新門將允許我們控制新狀態(tài)中有多少只是舊狀態(tài)的副本。 圖 10.2.1說明了 GRU 中重置門和更新門的輸入,給定當(dāng)前時(shí)間步的輸入和前一時(shí)間步的隱藏狀態(tài)。兩個(gè)門的輸出由兩個(gè)具有 sigmoid 激活函數(shù)的全連接層給出。
在數(shù)學(xué)上,對(duì)于給定的時(shí)間步長t,假設(shè)輸入是一個(gè)小批量Xt∈Rn×d(示例數(shù)量:n, 輸入數(shù):d) 而前一個(gè)時(shí)間步的隱藏狀態(tài)是 Ht?1∈Rn×h(隱藏單元的數(shù)量:h). 然后,復(fù)位門 Rt∈Rn×h和更新門 Zt∈Rn×h計(jì)算如下:
在哪里 Wxr,Wxz∈Rd×h和 Whr,Whz∈Rh×h是權(quán)重參數(shù)和 br,bz∈R1×h是偏置參數(shù)。
10.2.2。候選隱藏狀態(tài)
接下來,我們集成復(fù)位門Rt使用(9.4.5)中的定期更新機(jī)制,導(dǎo)致以下候選隱藏狀態(tài) H~t∈Rn×h在時(shí)間步 t:
評(píng)論
查看更多