Dropout?是用于神經(jīng)網(wǎng)絡防止過擬合的正則化技術(shù)。它通過在每次訓練迭代中,隨機設置神經(jīng)元中的一小部分為0 來阻止神經(jīng)元共適應(co-adapting)。Dropout可以通過多種方式進行解讀,例如,從不同網(wǎng)絡的指數(shù)數(shù)字中隨機取樣。Dropout 層通過它們在卷積神經(jīng)網(wǎng)絡中的應用而得到普及,也被應用到了其它層上,包括輸入嵌入或循環(huán)網(wǎng)絡。
論文:Dropout: 一種防止神經(jīng)網(wǎng)絡過擬合的簡單方法
Dropout: A Simple Way to Prevent Neural Networks fromOverfitting
論文:循環(huán)神經(jīng)網(wǎng)絡正則化
Recurrent Neural Network Regularization
二十一、嵌入(Embedding)
一個嵌入映射到一個輸入表征,例如一個詞或一句話映射到一個矢量。一種流行的嵌入是詞語嵌入(word embedding,國內(nèi)常用的說法是:詞向量),如 word2vec 或 GloVe。也可以嵌入句子、段落或圖像。例如,把圖像和他們的文本描述映射到一個共同的嵌入空間,并最小化它們之間的距離,就可以將標簽和圖像進行匹配。嵌入也可作為監(jiān)督任務的一部分,例如情感分析(Sentiment Analysis)。一般地,一個網(wǎng)絡的輸入層通過預先訓練的嵌入進行初始化,然后根據(jù)當前任務進行微調(diào)(fine-tuned)。
二十二、梯度爆炸問題(Exploding Gradient Problem)
梯度爆炸問題是梯度消失問題(Vanishing Gradient Problem)的對立面。在深度神經(jīng)網(wǎng)絡中,梯度可能會在反向傳播過程中爆炸,導致數(shù)字溢出。解決梯度爆炸的一個常見技術(shù)是梯度裁剪(Gradient Clipping)。
論文:訓練循環(huán)神經(jīng)網(wǎng)絡的困難之處
On the difficulty of training Recurrent Neural Networks
二十三、微調(diào)(Fine-Tuning)
Fine-Tuning使用來自另一個任務(例如一個無監(jiān)督訓練網(wǎng)絡)的參數(shù)初始化網(wǎng)絡,再基于當前任務更新這些參數(shù)。例如,自然語言處理架構(gòu)通常使用 word2vec 這樣的預訓練的詞向量(word embeddings),然后這些詞向量會在訓練過程中基于特定的任務(如情感分析)進行更新。
二十四、梯度裁剪(Gradient Clipping)
梯度裁剪是一種在深度較高的網(wǎng)絡(通常是循環(huán)神經(jīng)網(wǎng)絡)中用于防止梯度爆炸(exploding gradient)的技術(shù)。執(zhí)行梯度裁剪的方法有很多,常見的一種是,當參數(shù)矢量的 L2 范數(shù)(L2 norm)超過一個特定閾值時,對參數(shù)矢量的梯度進行標準化,這個特定閾值根據(jù)以下函數(shù)確定:新梯度=梯度*閾值/L2范數(shù)(梯度){new_gradients = gradients * threshold / l2_norm(gradients)}。
論文:訓練循環(huán)神經(jīng)網(wǎng)絡的困難之處
On the difficulty of training Recurrent Neural Networks
二十五、GloVe
GloVe?是一種為話語獲取矢量表征(嵌入)的無監(jiān)督學習算法。GloVe 的使用目的和 word2vec 一樣,但 GloVe 具有不同的矢量表征,因為它是在共現(xiàn)(co-occurrence)統(tǒng)計數(shù)據(jù)上訓練的。
論文:GloVe:用于詞匯表征(WordRepresentation)的全局矢量(Global Vector)
GloVe: Global Vectors for Word Representation
二十六、GoogleLeNet
GoogleLeNet?是一種卷積神經(jīng)網(wǎng)絡架構(gòu),曾贏得2014 年 ILSVRC 挑戰(zhàn)賽。這種網(wǎng)絡使用 Inception 模塊(Inception Module)以減少參數(shù)和提高網(wǎng)絡中計算資源的利用率。
論文:使用卷積獲得更深
Going Deeper with Convolutions
二十七、GRU
GRU(Gated Recurrent Unit:門控循環(huán)單元)是一種 LSTM 單元的簡化版本,擁有更少的參數(shù)。和LSTM cell一樣,它使用門控機制,通過防止梯度消失問題(vanishing gradient problem)讓循環(huán)神經(jīng)網(wǎng)絡可以有效學習長程依賴(long-range dependency)。GRU 包含一個復位和更新門,它們可以根據(jù)當前時間步驟的新值決定舊記憶中哪些部分需要保留或更新。
論文:為統(tǒng)計機器翻譯使用 RNN 編碼器-解碼器學習短語表征
Learning Phrase Representations using RNN Encoder-Decoder forStatistical Machine Translation
二十八、Highway Layer
Highway Layer 是使用門控機制控制通過層的信息流的一種神經(jīng)網(wǎng)絡層。堆疊多個 HighwayLayer 層可讓訓練非常深的網(wǎng)絡成為可能。Highway Layer 的基本公式是 T * h(x) + (1 - T) * x。其中, T 是學習過的門控函數(shù),取值在 0 到 1 之間;h(x) 是一個任意的輸入變換;x 是輸入。
? ? ? ? 論文:Highway Networks
二十九、ICML
即國際機器學習大會(International Conference for Machine Learning),一個頂級的機器學習會議。
三十、ILSVRC
評論
查看更多