您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

機(jī)器學(xué)習(xí)論文簡析

大?。?/span>0.7 MB 人氣: 2017-09-30 需要積分:1

  人工智能機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)論文汗牛充棟。每年的各大頂級會議、研討班錄用好幾千篇論文,即便是親臨現(xiàn)場也很難追蹤到所有的前沿信息。在時間精力有限的情況下,選擇精讀哪些論文,學(xué)習(xí)哪些熱門技術(shù)就成為了AI學(xué)者和從業(yè)人員所頭痛的問題。本欄目旨在要幫助大家篩選出有意思的論文,解讀出論文的核心思想,為精讀提供閱讀指導(dǎo)。

  NIPS(Neural Information Processing Systems,神經(jīng)信息處理系統(tǒng)進(jìn)展大會)是每年12月由NIPS基金會主辦的人工智能和機(jī)器學(xué)習(xí)頂級會議,每年大會都吸引了機(jī)器學(xué)習(xí)、人工智能、統(tǒng)計等領(lǐng)域的眾多國際專家前來參與。筆者從NIPS 2016會議文章中精選出10篇有意思的文章,為讀者解惑。

  Using Fast Weights to Attend to the Recent

  亮點:在Short-Term Memory、Long-Term Memory以及LSTM之外,有什么更好的Attention機(jī)制呢?

  本文作者陣容豪華,有來自多倫多大學(xué)的Jimmy Ba、Google DeepMind的Volodymyr Mnih、Joel Leibo以及Catalin Ionescu,外加Geoffrey Hinton坐鎮(zhèn)。文章一開始講明了現(xiàn)在的問題,在傳統(tǒng)的Recurrent Neural Networks(RNN)領(lǐng)域,有兩種形式的Memory。這兩種Memory形式有不一樣的結(jié)構(gòu)、目的和容量(Capacity)。Short-Term Memory直接通過Hidden Vector來存放信息,容量是O(H),這里H是Hidden Units的數(shù)量。而另一方面,Long-Term Memory通過現(xiàn)在的輸入信息和Hidden Vector,來得到下一步的輸出信息以及新的Hidden Vector,總共的容量是O(H2)+O(IH)+O(HO),這里I和O是輸入單元以及輸出單元的數(shù)量。另外一種比較傳統(tǒng)的Long Short-Term Memory Networks(LSTM)依然只擁有O(H)的處理Short-Term Memory的能力。文章的核心是想提出一種能夠更加有效地提供記憶的機(jī)制。當(dāng)然,文章用了一小節(jié)從生理學(xué)的角度來講如何有這樣的啟發(fā),不過這恐怕主要想把文章的立意拔高,其實和后面的主要模型部分并沒有直接的聯(lián)系。簡單說來,這篇文章提出的模型基于傳統(tǒng)的RNN進(jìn)行了這樣的改進(jìn):

  下一步的Hidden Vector來自于兩個因素:

  當(dāng)前的Hidden Vector和當(dāng)前的輸入信息;

  一個類似Attention機(jī)制的但這篇文章叫做Fast Weights的Matrix作用于之前的Hidden Vector。

  這個Fast Weights隨著時間的推移,會有一個衰減信息。

  如何理解Fast Weights呢?直觀來說, Fast Weights是一個Attention機(jī)制,把現(xiàn)在的Hidden Vector和過去的任意Hidden Vector進(jìn)行比較,通過Outer Product的結(jié)果來決定Attention的強度。有了這么一種Attention機(jī)制,整個模型就能夠?qū)^去類似的記憶進(jìn)行回憶,產(chǎn)生一個可以對近期的信息進(jìn)行綜合反應(yīng)的效果。在穩(wěn)定Fast Weights的目的下,文章還使用了Layer Normalization技術(shù)。文章的一些實驗結(jié)果驚人,比如在一個人造的數(shù)據(jù)集上,模型效果能夠很容易達(dá)到0錯誤率。而在MNIST的數(shù)據(jù)上做Visual Attention,提出的模型也能有非常不錯的效果。總之,這篇文章值得泛讀。對于研究Attention機(jī)制的讀者來說,是一個精讀的材料。

  Learning Structured Sparsity in Deep Neural Networks

  亮點:如何把前幾年盛行的Structured Sparisity和DNN結(jié)合?這篇文章給出了思路。

  這篇文章來自匹茲堡大學(xué)的研究人員,核心內(nèi)容非常清晰,那就是要引入Structured Sparsity到DNN來,使得最終的DNN有一個比較緊湊的表示,加快運算速度,同時能夠得到硬件友善的表現(xiàn)形式,讓硬件能夠比較快地執(zhí)行。雖然之前已經(jīng)有了一些工作來對DNN進(jìn)行壓縮,但這篇文章的作者認(rèn)為,這些壓縮方法(比如直接使用L1 Regularization),可能會讓網(wǎng)絡(luò)得到一些隨機(jī)(Random)的鏈接,使得內(nèi)存訪問變得不常規(guī)(Iregular)。在這樣的情況下,新的模型,雖然表面上有很大的Sparsity,但是并沒有加快運算速度,有時候甚至還有減少。另外一種最近的思路,就是最近采用的Low-Rank Approximation方法。簡單說來這種方法為先訓(xùn)練DNN,然后每層得到的Tensor被分解,并且被更小的Factor所替代逼近。這種方法的好處是能夠達(dá)到加速,壞處則是需要最終重新Fine-Tune模型的精度。顯然,這篇文章就是要解決上述缺點。文章作者把前幾年火熱的Structured Sparisty Learning(SSL)和DNN相結(jié)合。具體說來,就是采用了Group Lasso的方法來讓DNN的參數(shù)能夠結(jié)構(gòu)化置0。在這篇文章里,作者采用了三種方法:

  懲罰(Penalizing)不重要的Filter和Channel:把一些Filter和Channel置0;

  學(xué)習(xí)任意形狀的Filter:在2D空間上學(xué)習(xí)通過置0,達(dá)到學(xué)習(xí)任意形狀的要求;

  縮短DNN的層數(shù):徹底移除整個層,通過增加Shortcut的方法來達(dá)到不產(chǎn)生斷層的情況。

  文章并沒有提供在SSL和DNN相結(jié)合的情況下的Learning算法。實驗部分非常詳實,用LeNet在MNIST、ConvNet和ResNet在CIFAR-10以及AlexNet在ImageNet上都做了實驗??傮w的感覺是,在很多例子的情況下,更加Sparsity的DNN反而帶來了精度的提高。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?