0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LSTM的工作原理究竟是什么?深入了解LSTM

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-05-04 11:36 ? 次閱讀

長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(RNN),適合被用于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件,經(jīng)多年實(shí)驗(yàn)證實(shí),它通常比RNN和HMM效果更好。那么LSTM的工作原理究竟是什么?為了講述這個(gè)概念,搬運(yùn)了chrisolah的一篇經(jīng)典文章,希望能給各位讀者帶來幫助。

遞歸神經(jīng)網(wǎng)絡(luò)

當(dāng)人類接觸新事物時(shí),他們不會(huì)從頭開始思考。就像你在閱讀這篇文章時(shí),你會(huì)根據(jù)以前的知識(shí)理解每個(gè)單詞,而不是舍棄一切,從字母開始重新學(xué)習(xí)。換句話說,你的思維有延續(xù)性。

神經(jīng)網(wǎng)絡(luò)的出現(xiàn)旨在賦予計(jì)算機(jī)人腦的機(jī)能,但在很長(zhǎng)一段時(shí)間內(nèi),傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)并不能模仿到這一點(diǎn)。而這似乎是個(gè)很嚴(yán)峻的缺點(diǎn),因?yàn)樗馕吨窠?jīng)網(wǎng)絡(luò)無法從當(dāng)前發(fā)生的事推斷之后將要發(fā)生的事,也就是無法分類電影中流暢發(fā)生的各個(gè)事件。

后來,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的出現(xiàn)解決了這個(gè)問題,通過在網(wǎng)絡(luò)中添加循環(huán),它能讓信息被“記憶”地更長(zhǎng)久。

RNN有循環(huán)

上圖是一個(gè)大型神經(jīng)網(wǎng)絡(luò)A,輸入一些數(shù)據(jù)xt后,它會(huì)輸出最終值ht。循環(huán)允許信息從當(dāng)前步驟傳遞到下一個(gè)步驟。

這些循環(huán)使它看起來有些神秘。但如果仔細(xì)一想,你會(huì)發(fā)現(xiàn)其實(shí)它和普通的神經(jīng)網(wǎng)絡(luò)并沒有太大區(qū)別:一個(gè)RNN就相當(dāng)于是一個(gè)神經(jīng)網(wǎng)絡(luò)的多個(gè)副本,每個(gè)副本都會(huì)把自己收集到的信息傳遞給后繼者。如果我們把它展開,它是這樣的:

展開的RNN

這種鏈?zhǔn)叫再|(zhì)揭示了RNN和序列、列表之間的密切關(guān)系。從某種程度上來說,它就是專為這類數(shù)據(jù)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)自然架構(gòu)。

實(shí)踐也證實(shí),RNN確實(shí)有用!過去幾年里,它在各類任務(wù)中取得了令人難以置信的成功:語音識(shí)別、語言建模、機(jī)器翻譯、圖像字幕……應(yīng)用場(chǎng)景十分廣闊。幾年前,現(xiàn)任特斯拉AI總監(jiān)Andrej Karpathy寫了一篇名為The Unreasonable Effectiveness of Recurrent Neural Networks的博客,專門介紹了RNN“不合理”的適用性,有興趣的讀者可以前去一讀。

在文章中我們可以發(fā)現(xiàn),這種適用性的關(guān)鍵是“LSTM”的使用。這是一種非常特殊的RNN,所有能用RNN實(shí)現(xiàn)的東西,LSTM都能做,而且相較于普通版,它在許多任務(wù)中還會(huì)有更優(yōu)秀的表現(xiàn)。所以下文我們就來看看什么是LSTM。

長(zhǎng)期依賴問題

RNN最具吸引力的一點(diǎn)是它能把之前的信息連接到當(dāng)前的任務(wù)上,比如我們可以用之前的視頻圖像理解這一幀的圖像。如果能建立起這種聯(lián)系,它的前途將不可限量。所以它真的能做到嗎?答案是:不一定。

有時(shí)候,我們只需要查看最近的信息就能執(zhí)行當(dāng)前任務(wù),如構(gòu)建一個(gè)能根據(jù)前一個(gè)詞預(yù)測(cè)下一個(gè)詞的語言模型。如果我們要預(yù)測(cè)“天空中漂浮著云朵,”這個(gè)句子的最后一個(gè)詞語,模型不需要任何進(jìn)一步的語義背景——很明顯,最后一個(gè)詞是“云朵”。在這種情況下,如果相關(guān)信息和目標(biāo)位置差距不大,RNN完全能學(xué)著去用以前的知識(shí)。

但有時(shí)我們也會(huì)希望模型能聯(lián)系下上文進(jìn)行理解,比如預(yù)測(cè)“我在法國長(zhǎng)大......我會(huì)說流利的法語?!边@句話的最后一個(gè)詞。最近的信息提示是這個(gè)詞很可能是一種語言的名稱,如果要精確到是哪種語言,我們就需要結(jié)合句子開頭的“法國”來理解。這時(shí)兩個(gè)相關(guān)信息之間間隔的距離就非常遠(yuǎn)。

不幸的是,隨著距離不斷拉大,RNN會(huì)逐漸難以學(xué)習(xí)其中的連接信息。

從理論上看,RNN絕對(duì)有能力去處理這種長(zhǎng)期依賴性,我們可以不斷調(diào)參來解決各種玩具問題,但在實(shí)踐中,RNN卻徹頭徹尾地失敗了。關(guān)于這個(gè)問題,之前Hochreiter(1991)和Bengio等人(1994)已經(jīng)做了深入探討,此處不再贅述。

謝天謝地,LSTM沒有這些問題。

LSTM網(wǎng)絡(luò)

長(zhǎng)期短期記憶網(wǎng)絡(luò)——通常被稱為“LSTM”——是一種特殊的RNN,能學(xué)習(xí)長(zhǎng)期依賴性。它最早由Hochreiter&Schmidhuber于1997年提出,后經(jīng)眾多專家學(xué)者提煉和推廣,現(xiàn)在因性能出色已經(jīng)被廣泛使用。

LSTM的設(shè)計(jì)目的非常明確:避免長(zhǎng)期依賴性問題。對(duì)LSTM來說,長(zhǎng)時(shí)間“記住”信息是一種默認(rèn)的行為,而不是難以學(xué)習(xí)的東西。

之前我們提到了,RNN是一個(gè)包含大量重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问?,在?biāo)準(zhǔn)RNN里,這些重復(fù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)往往也非常簡(jiǎn)單,比如只包含單個(gè)tanh層:

標(biāo)準(zhǔn)RNN中只包含單個(gè)tanh層的重復(fù)模塊

LSTM也有與之相似的鏈?zhǔn)浇Y(jié)構(gòu),但不同的是它的重復(fù)模塊結(jié)構(gòu)不同,是4個(gè)以特殊方式進(jìn)行交互的神經(jīng)網(wǎng)絡(luò)。

LSTM示意圖

這里我們先來看看圖中的這些符號(hào):

在示意圖中,從某個(gè)節(jié)點(diǎn)的輸出到其他節(jié)點(diǎn)的輸入,每條線都傳遞一個(gè)完整的向量。粉色圓圈表示pointwise操作,如節(jié)點(diǎn)求和,而黃色框則表示用于學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)層。合并的兩條線表示連接,分開的兩條線表示信息被復(fù)制成兩個(gè)副本,并將傳遞到不同的位置。

LSTMs背后的核心理念

LSTMs的關(guān)鍵是cell的狀態(tài),即貫穿示意圖頂部的水平線。

cell狀態(tài)有點(diǎn)像傳送帶,它只用一些次要的線性交互就能貫穿整個(gè)鏈?zhǔn)浇Y(jié)構(gòu),這其實(shí)也就是信息記憶的地方,因此信息能很容易地以不變的形式從中流過。

為了增加/刪除cell中的信息,LSTM中有一些控制門(gate)。它們決定了信息通過的方式,包含一個(gè)sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)pointwise點(diǎn)乘操作。

sigmoid層輸出0到1之間的數(shù)字,點(diǎn)乘操作決定多少信息可以傳送過去,當(dāng)為0時(shí),不傳送;當(dāng)為1時(shí),全部傳送。

像這樣的控制門,LSTM共有3個(gè),以此保護(hù)和控制cell狀態(tài)。

深入了解LSTM

我們先來看看cell該刪除哪些信息,做這個(gè)決定的是包含sigmoid層的遺忘門。對(duì)于輸入xt和ht-1,遺忘門會(huì)輸出一個(gè)值域?yàn)閇0, 1]的數(shù)字,放進(jìn)細(xì)胞狀態(tài)Ct?1中。當(dāng)為0時(shí),全部刪除;當(dāng)為1時(shí),全部保留。

以之前預(yù)測(cè)下一個(gè)詞的語言模型為例,對(duì)于“天空中漂浮著云朵,”這個(gè)句子,LSTM的cell狀態(tài)會(huì)記住句子主語“云朵”的詞性,這之后才能判斷正確的代詞。等下次再遇到新主語時(shí),cell會(huì)“忘記”“云朵”的詞性。

我們?cè)賮砜纯碿ell該如何增加新信息。這可以分為兩步,首先,LSTM會(huì)用一個(gè)包含sigmoid層的輸入門決定哪些信息該保留,其次,它會(huì)用一個(gè)tanh層為這些信息生成一個(gè)向量C~t,用來更新細(xì)胞狀態(tài)。

在語言模型例子中,如果句子變成了“天空中漂浮著云朵,草地上奔跑著駿馬”。那LSTM就會(huì)用“駿馬”的詞性代替正在被遺忘的“云朵”的詞性。

有了遺忘門和輸入門,現(xiàn)在我們就能把細(xì)胞狀態(tài)Ct?1更新為Ct了。如下圖所示,其中ft×Ct?1表示希望刪除的信息,it×Ct表示新增的信息。

最后就是決定LSTM輸出內(nèi)容的輸出門。它的信息基于cell狀態(tài),但還要經(jīng)過一定過濾。我們先用sigmoid層決定將要輸出的cell內(nèi)容,再用tanh層把cell狀態(tài)值推到-1和1之間,并將其乘以sigmoid層的輸出,以此做到只輸出想要輸出的部分。

LSTM的變體

以上介紹的是一個(gè)非常常規(guī)的LSTM,但在實(shí)踐中我們也會(huì)遇到很多很不一樣的神經(jīng)網(wǎng)絡(luò),因?yàn)橐坏┥婕笆褂?,人們就?huì)不可避免地要用到一些DIY版本。雖然它們差異不大,但其中有一部分值得一提。

2000年的時(shí)候,Gers&Schmidhuber提出了一種添加了“peephole connections”的LSTM變體。它意味著我們能在相應(yīng)控制門內(nèi)觀察cell狀態(tài)。下圖為每個(gè)門都添加了窺視孔,我們也可以只加一處或兩處。

第二種變體是耦合遺忘門和輸入門,讓一個(gè)模塊同時(shí)決定該增加/刪除什么信息。

第三種稍具戲劇化的變體是Cho等人于2014年提出的帶有GRU的LSTM。它把遺忘門和輸入門組合成一個(gè)“更新門”,合并了cell狀態(tài)和隱藏狀態(tài),并做了一些其他的修改。這個(gè)模型的優(yōu)點(diǎn)是更簡(jiǎn)單,也更受歡迎。

以上只是幾個(gè)最知名的LSTM變體,還有很多其他的,比如Yao等人的Depth Gated RNN。此外一些人也一直在嘗試用完全不同的方法來解決長(zhǎng)期依賴問題,比如Koutnik等人的Clockwork RNN。

小結(jié)

如果只是列一大堆數(shù)學(xué)公式,LSTM看起來會(huì)非常嚇人。因此為了讓讀者更容易理解掌握,本文制作了大量可視化圖片,它們也一直深受業(yè)內(nèi)人士認(rèn)可,在各類文章中被廣泛引用。

LSTM是完善RNN的重要內(nèi)容,雖然它到現(xiàn)在已經(jīng)成果累累,但我們以此為起點(diǎn),探索RNN身上的其他研究方向,如近兩年非常紅火的注意力機(jī)制(Attention Mechanism)、在GAN中使用RNN等。過去幾年對(duì)神經(jīng)網(wǎng)絡(luò)來說是激動(dòng)人心的一段時(shí)光,相信未來會(huì)更加如此!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4733

    瀏覽量

    100420
  • rnn
    rnn
    +關(guān)注

    關(guān)注

    0

    文章

    76

    瀏覽量

    6868

原文標(biāo)題:一文詳解LSTM網(wǎng)絡(luò)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    圖解:IGBT究竟是什么?

    圖解:IGBT究竟是什么? IGBT究竟是什么?
    發(fā)表于 08-10 08:01

    什么是LSTM神經(jīng)網(wǎng)絡(luò)

    簡(jiǎn)單理解LSTM神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 01-28 07:16

    S參數(shù)究竟是什么?

    S參數(shù)究竟是什么?起決定性作用的S參數(shù)將S參數(shù)擴(kuò)展到多端口器件和差分器件
    發(fā)表于 03-01 11:46

    我們仿真DDR究竟是仿真什么

    我們仿真DDR究竟是仿真什么?
    發(fā)表于 03-04 07:32

    電感飽和究竟是什么

    電感飽和究竟是什么
    發(fā)表于 03-11 08:13

    真正軟件定義無線電究竟是怎樣的?

    真正軟件定義無線電究竟是怎樣的?
    發(fā)表于 05-14 06:47

    分貝究竟是什么?如何去理解它?

    分貝究竟是什么?如何去理解它?
    發(fā)表于 05-31 07:05

    一文讀懂eMMC究竟是啥?

    eMMC究竟是啥?eMMC長(zhǎng)什么樣?eMMC用在哪?主要是干嘛用的?eMMC究竟是如何工作的呢?
    發(fā)表于 06-18 06:04

    SLC、MLC、Parallel NOR Flash等究竟是什么意思?

    什么是Flash Memory?Flash Memory主要可以分為哪幾類?SLC、MLC、Parallel NOR Flash等究竟是什么意思?它們又有什么不同?
    發(fā)表于 06-18 09:11

    spec究竟是什么?有誰可以分享一下嗎

    spec究竟是什么?哪位同行可以幫忙分享下DFI 5.0的spec?
    發(fā)表于 06-21 07:16

    無片外電容LDO究竟是什么?

    無片外電容LDO究竟是什么?有誰清楚嗎
    發(fā)表于 06-22 08:07

    retain,copy與assign究竟是有什么區(qū)別呢

    retain,copy與assign究竟是有什么區(qū)別呢?
    發(fā)表于 09-30 09:25

    深度解析LSTM的全貌

    原來,LSTM是神經(jīng)網(wǎng)絡(luò)的擴(kuò)展,非常簡(jiǎn)單。深度學(xué)習(xí)在過去的幾年里取得了許多驚人的成果,均與LSTM息息相關(guān)。因此,在本篇文章中我會(huì)用盡可能直觀的方式為大家介紹LSTM——方便大家日后自己進(jìn)行相關(guān)的探索。
    的頭像 發(fā)表于 02-02 10:39 ?1w次閱讀
    深度解析<b class='flag-5'>LSTM</b>的全貌

    S參數(shù)究竟是什么?

    S參數(shù)究竟是什么?
    發(fā)表于 11-01 08:24 ?2次下載
    S參數(shù)<b class='flag-5'>究竟是</b>什么?

    計(jì)算機(jī)究竟是如何理解并執(zhí)行我們所寫的代碼的呢?

    在編寫了大量代碼之后,不禁讓人思考,計(jì)算機(jī)究竟是如何理解并執(zhí)行我們所寫的代碼的呢?這個(gè)問題將引導(dǎo)我們深入了解計(jì)算機(jī)的內(nèi)部工作原理,從二進(jìn)制到邏輯電路,再到運(yùn)算器和控制器的協(xié)同工作,探究
    發(fā)表于 09-05 09:54 ?393次閱讀
    計(jì)算機(jī)<b class='flag-5'>究竟是</b>如何理解并執(zhí)行我們所寫的代碼的呢?