久热香蕉aV在线爽青青,99久久无码热线,国产成人精品无码三区八戒

1. 摘要

對于RNN解決了之前信息保存的問題，例如，對于閱讀一篇文章，RNN網(wǎng)絡(luò)可以借助前面提到的信息對當前的詞進行判斷和理解，這是傳統(tǒng)的網(wǎng)絡(luò)是不能做到的。但是，對于RNN網(wǎng)絡(luò)存在長期依賴問題，比如看電影的時候，某些細節(jié)需要依賴很久以前的一些信息，而RNN網(wǎng)絡(luò)并不能很好的保存很久之前的信息，隨著時間間隔不斷增大，RNN網(wǎng)絡(luò)會喪失學(xué)習(xí)到很遠的信息能力，也就是說記憶容量是有限的。例如，對于閱讀一本書，從頭到尾一字不漏的閱讀，肯定是越遠的東西忘得越多。所以引入了LSTM網(wǎng)絡(luò)，對于LSTM來解決梯度消失梯度爆炸問題。

LSTM其實也是RNN的一種變體，大體結(jié)構(gòu)幾乎是一樣的，但他們又有區(qū)別他的“記憶細胞”被改造過，該記憶的信息會一直傳遞下去，而不該記憶的東西會被“門”截斷。

2. LSTM網(wǎng)絡(luò)

對于RNN網(wǎng)絡(luò)都是具有重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈式形式，在一個標準RNN中這個重復(fù)的模塊只要一個非常簡單的結(jié)構(gòu)，例如一個tanh層。

對于LSTM同樣是這樣的結(jié)構(gòu)，但是重復(fù)的模塊變得復(fù)雜了。

對于圖中的一些細節(jié)，

在LSTM網(wǎng)絡(luò)的圖中，每一條黑線表示向量的傳輸，從一個節(jié)點的輸出傳入其它節(jié)點的輸出。對于粉紅色的圈代表著節(jié)點的操作，如向量的求和等。黃色的矩陣是學(xué)習(xí)到的網(wǎng)絡(luò)層。Concatenate的線表示向量的連接，Copy的線表示內(nèi)容復(fù)制，然后輸出到不同的位置。

3. LSTM的關(guān)鍵點

對于LSTM的關(guān)鍵是細胞狀態(tài)，細胞的狀態(tài)類似于傳送帶，直接在整個鏈路上運行，只有一些少量的線性交互。

4. 細胞狀態(tài)的控制

LSTM是通過“門”來控制細胞狀態(tài)的，通過“門”來選擇性通過，去除或者增加信息到細胞狀態(tài)。它包含一個sigmoid網(wǎng)絡(luò)層和一個pointwise乘法操作。Sigmoid層輸入0到1之間的概率值，藐視每個部分有多少量可以通過，0代表不允許任何量通過，1代表允許任何量通過。LSTM是擁有三個門，來保護和控制細胞狀態(tài)的。

5. LSTM幾個關(guān)鍵“門”與操作

STEP 1: 決定從“細胞狀態(tài)”中丟棄什么信息即“忘記門”。比如一篇小說的推導(dǎo)，小說中可能有幾個人物，在讀小說時候我們都會記住，但有些是不重要的這時候我就選擇忘掉，而把重要的東西記住?？傊绻獩Q定之前的記憶以多大的程度被忘掉或者需要被保留，我們需要通過sigmoid函數(shù)去參考上一次的結(jié)果與當前考到的內(nèi)容。

ft是輸出0到1的概率，表示已多大的程度忘記之前的信息。h表示上一次輸出的結(jié)果，x表示當前輸入的信息。

STEP 2: 決定放什么信息到“細胞狀態(tài)”中。從step 1中我們在傳送帶上忘記了一些東西，那我們應(yīng)該補充點東西，對細胞轉(zhuǎn)態(tài)進行更新。也就是說哪些東西要記住，這一步就是君頂放什么心信息到“細胞狀態(tài)”中。

這里的Sigmoid層是決定什么值需要更新，也就是這一時刻我們新學(xué)到我們學(xué)到的東西哪些應(yīng)該要記住，以多大的程度選擇記??；Tanh層創(chuàng)建了一個新的候選值Ct，表示我們新學(xué)到的東西。

STEP 3: 更新細胞狀態(tài)。前面兩步就是為細胞狀態(tài)的更新做準備的，更新C(t-1)為Ct。也就是把舊狀態(tài)與ft相乘，丟掉我們確定需要丟棄的信息，加上it*Ct。這就是新的候選值，根據(jù)我們決定更新每個狀態(tài)的程度進行變化。

從數(shù)學(xué)的角度來看，與RNN相比，在求偏導(dǎo)的時候RNN是進行鏈式相乘的，有一個效果不好，那么就會影響整個系統(tǒng)，效果影響到整個網(wǎng)絡(luò)。而在LSTM中，從以上的公式可看出，做完Tanh后沒在進行求和，所以再求偏導(dǎo)的時候，就算有一個效果不好也不會影響到整個網(wǎng)絡(luò)，因為這里是進行加法運算的，所以很大程度上解決了梯度消失梯度爆炸問題。

STEP 4: 基于“細胞狀態(tài)”輸出。首先運行一個Sigmoid層來確定細胞狀態(tài)的哪個部分將輸出，接著用Tanh來處理細胞狀態(tài)，這是一個從-1到1的值。然后再講它和Sigmoid門的輸出相乘，輸出我們確定輸出的那個部分。比如我們可能需要單復(fù)數(shù)信息來確定輸出“他”還是“他們”。最終輸出我們想要輸出的部分。

6. LSTM主要變體

變種1：通過使用coupled忘記和輸出門，之前是分開確定需要忘記和添加的信息，這里是一同作出決定。

變種二：Gated Recurrent Unit (GRU)，2014年提出的，他將忘記門和輸出門合成一個單一的更新門，同樣還混合了細胞狀態(tài)和隱藏轉(zhuǎn)態(tài)，和其他一起改動，與標準的LSTM簡單。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴