0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

將線性Transformer作為快速權(quán)重系統(tǒng)進(jìn)行分析和改進(jìn)

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:通信信號(hào)處理研究所 ? 作者:通信信號(hào)處理研究 ? 2021-03-31 15:10 ? 次閱讀

Transformer 在深度學(xué)習(xí)中占據(jù)主導(dǎo)地位,但二次存儲(chǔ)和計(jì)算需求使得 Transformer 的訓(xùn)練成本很高,而且很難使用。許多研究都嘗試線性化核心模塊:以 Performer 為例,使用帶核的注意力機(jī)制。然而,這種方法還存在很多缺點(diǎn),例如它們依賴于隨機(jī)特征。 本文中,來自瑞士人工智能實(shí)驗(yàn)室(IDSIA)、亞琛工業(yè)大學(xué)的研究者建立起了線性(核)注意力與 90 年代深度學(xué)習(xí)之父 Jürgen Schmidhuber 推廣的更古老的快速權(quán)重存儲(chǔ)系統(tǒng)之間的內(nèi)在聯(lián)系,不僅指出了這些算法的基本局限性,還提出了新的更新規(guī)則和新的核來解決這些問題。在關(guān)鍵的綜合實(shí)驗(yàn)和實(shí)際任務(wù)中,所得到的模型優(yōu)于 Performers。

9f348e0a-8d23-11eb-8b86-12bb97331649.png

論文鏈接:https://arxiv.org/abs/2102.11174

代碼地址:https://github.com/ischlag/fast-weight-transformers

具體而言,該研究推測(cè)線性化的 softmax 注意力變量存在存儲(chǔ)容量限制。在有限存儲(chǔ)的情況下,快速權(quán)重存儲(chǔ)模型的一個(gè)理想行為是操縱存儲(chǔ)的內(nèi)容并與之動(dòng)態(tài)交互。 受過去對(duì)快速權(quán)重研究的啟發(fā),研究者建議用產(chǎn)生這種行為的替代規(guī)則替換更新規(guī)則。此外,該研究還提出了一個(gè)新的核函數(shù)來線性化注意力,平衡簡(jiǎn)單性和有效性。他們進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)內(nèi)容包括合成檢索問題、標(biāo)準(zhǔn)機(jī)器翻譯以及語言建模。實(shí)驗(yàn)結(jié)果證明了該研究方法的益處。 將線性 Transformer 作為快速權(quán)重系統(tǒng)進(jìn)行分析和改進(jìn) 將線性 Transformer 變量視為快速權(quán)重系統(tǒng),研究者給出了兩個(gè)見解:作為關(guān)聯(lián)存儲(chǔ)容量的限制;無法編輯以前存儲(chǔ)的關(guān)聯(lián)內(nèi)容。 容量限制 不斷地將新的關(guān)聯(lián)添加到有限大小的存儲(chǔ)中,如下公式 17 所示,這樣不可避免地會(huì)達(dá)到極限。在線性注意力中,信息存儲(chǔ)在矩陣中,并使用矩陣乘法進(jìn)行檢索(如下公式 19)。因此,為了防止關(guān)聯(lián)在檢索時(shí)相互干擾,各個(gè)鍵(keys)需要正交。否則,點(diǎn)積將處理多個(gè)鍵并返回值的線性組合。對(duì)于嵌入在 d_dot 空間中的鍵,則不能有多余 d_dot 正交向量。

9fba1f8e-8d23-11eb-8b86-12bb97331649.png

也就是說,存儲(chǔ)多個(gè) d_dot 關(guān)聯(lián)將導(dǎo)致檢索誤差。在線性 Transformer 中,當(dāng)序列長(zhǎng)度大于 d_dot 時(shí),模型可能處于這樣一種容量過剩狀態(tài)。 改進(jìn)與更新 受快速權(quán)重存儲(chǔ)研究(Schlag 等人,2021 年)的啟發(fā),研究者提出了以下存儲(chǔ)更新規(guī)則。 給定新的輸入鍵 - 值對(duì) (k^ (i) , v ^(i) ),模型首先訪問存儲(chǔ)的當(dāng)前狀態(tài) W^(i?1),并檢索當(dāng)前與鍵 k^(i) 配對(duì)的值a020773e-8d23-11eb-8b86-12bb97331649.png。然后,該模型存儲(chǔ)檢索值a020773e-8d23-11eb-8b86-12bb97331649.png和輸入 v^(i) 的凸組合a08e2130-8d23-11eb-8b86-12bb97331649.png,使用插值權(quán)重 0≤β^(i)≤1 的輸入 v ^(i) 也由該模型生成。因此,該模型按順序?qū)⑤斎胄蛄?img src="https://file.elecfans.com/web1/M00/E8/98/pIYBAGBkIOCATKXpAAAY5ZSjWHA829.png" alt="a0ee1c16-8d23-11eb-8b86-12bb97331649.png" />轉(zhuǎn)化為輸出序列a14a9af4-8d23-11eb-8b86-12bb97331649.png,如下所示: ?

a171de98-8d23-11eb-8b86-12bb97331649.png

歸一化:在以上等式中,檢索的值沒有應(yīng)用歸一化。通過推導(dǎo)可以得到一個(gè)簡(jiǎn)單的歸一化,即通過引入累加器(accumulator):

a1b366ce-8d23-11eb-8b86-12bb97331649.png

將公式 20、25 分別替換為:

a20e70aa-8d23-11eb-8b86-12bb97331649.png

然而,這種方法也有缺陷。首先,公式 26 中正值的累積總是隨著步數(shù)的增加而增加,并且可能導(dǎo)致不穩(wěn)定;其次,特別是對(duì)于該研究提出的更新規(guī)則,這種歸一化不足以平衡公式 23 中寫入和刪除運(yùn)算之間的權(quán)重(參見附錄 A.2 中的推導(dǎo))。 在這里,研究者提出了一種基于簡(jiǎn)單歸一化的更好方法,將有效值和查詢向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,對(duì)于查詢:

a249b1ba-8d23-11eb-8b86-12bb97331649.png

線性注意力函數(shù)Katharopoulos 線性注意力 Katharopoulos 等人提出使用簡(jiǎn)單的逐元素 ELU + 1 函數(shù)(Clevert 等人, 2016):

a2748a84-8d23-11eb-8b86-12bb97331649.png

選擇 ELU 而不是 ReLU 的動(dòng)機(jī)是因?yàn)樨?fù)數(shù)部分的非零梯度。重要的是,作為一個(gè)簡(jiǎn)單的函數(shù),這個(gè)Φ函數(shù)保留了輸入鍵向量(d_key=d_dot)的維數(shù),而不需要修改第 4.1 節(jié)中討論的存儲(chǔ)容量。 DPFP 前面兩小節(jié)強(qiáng)調(diào)了現(xiàn)有Φ函數(shù)的次優(yōu)性。采樣會(huì)給 FAVOR + 增加額外的復(fù)雜度,而線性 Transformer 缺乏投影點(diǎn)積維數(shù)的能力。因此,研究者提出了一種稱為確定性無參數(shù)投影(deterministic parameter-free projection, DPFP) 的替代方法。它是確定性的,并像線性 Transformer 一樣易于計(jì)算,同時(shí)增加點(diǎn)積維數(shù),而不需要 FAVOR + 的隨機(jī)特性。 下圖中四維空間的元素被顯示為四個(gè)彩色表面的 z 分量,以及 2d 平面中的每個(gè)向量如何在 4d 空間中具有單個(gè)非零分量,并將輸入空間平均分割為在投影空間中正交的四個(gè)區(qū)域。

實(shí)驗(yàn) 該研究從三個(gè)方面進(jìn)行了實(shí)驗(yàn):合成檢索問題、機(jī)器翻譯和語言模型。 合成檢索問題 所有模型都以最小批次 32 進(jìn)行訓(xùn)練,直到評(píng)估損失降到 0.001 以下,或者進(jìn)行了 1000 訓(xùn)練步。下圖 2 展示了模型的最佳驗(yàn)證集性能以及對(duì)不同 S 的顯示。唯一鍵的數(shù)量初始值 S=20,然后每次遞增 20,直到 S=600 為止。實(shí)驗(yàn)對(duì)以下模型進(jìn)行對(duì)比:Softmax、線性注意力、具有 64、128 和 512 個(gè)隨機(jī)特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。

a2e099a4-8d23-11eb-8b86-12bb97331649.png

下圖 3 展示了學(xué)習(xí)曲線。實(shí)驗(yàn)結(jié)果表明,該研究提出的更新規(guī)則優(yōu)于其他變體。正如預(yù)期的那樣,基線總和更新規(guī)則失敗。

a311ff9e-8d23-11eb-8b86-12bb97331649.png

機(jī)器翻譯 下表 1 顯示了 BLEU 得分結(jié)果。當(dāng)樣本數(shù) m 足夠大時(shí)(當(dāng) d_dot=512,m=256),Performer 與基礎(chǔ) Transformer 性能相當(dāng)。實(shí)際上,當(dāng) d_key=64 時(shí),m 的推薦值是 d_dot log(d_dot)=266。當(dāng) d_dot 相對(duì)較小時(shí),該研究的 DPFP 模型優(yōu)于線性 Transformer 和 Performer;在簡(jiǎn)單性和性能之間提供了一個(gè)很好的折衷。

a3233192-8d23-11eb-8b86-12bb97331649.png

語言模型 該研究使用標(biāo)準(zhǔn) WikiText-103(Merity 等,2017)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。WikiText-103 數(shù)據(jù)集由維基百科的長(zhǎng)文組成;訓(xùn)練集包含大約 28K 篇文章、總共 103M 個(gè)單詞。這將產(chǎn)生約 3600 個(gè)單詞的上下文文本塊。驗(yàn)證集和測(cè)試集也包含類似的長(zhǎng)依賴關(guān)系,分別有 218K 和 246K 個(gè)運(yùn)行單詞,對(duì)應(yīng) 60 篇文章,詞匯量約為 268K 個(gè)單詞。下表 2 展示了在該研究更新規(guī)則下,WikiText-103 語言模型的困惑度結(jié)果。

a363af9c-8d23-11eb-8b86-12bb97331649.png

在下表 3 中,使用該研究更新規(guī)則下的 Transformer(medium 配置),在 WikiText-103 語言模型的困惑度結(jié)果。

a3a4d38c-8d23-11eb-8b86-12bb97331649.png

在下表 4 中,WikiText-103 語言模型在沒有截?cái)嗌舷挛牡那闆r下訓(xùn)練和評(píng)估模型的困惑度,這與上表 2 中上下文窗口受到限制的情況相反。medium 配置既不用于位置編碼,也不用于注意力標(biāo)準(zhǔn)化。

a4065152-8d23-11eb-8b86-12bb97331649.png

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    235018
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120593
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    135

    瀏覽量

    5944

原文標(biāo)題:LSTM之父重提30年前的「快速權(quán)重存儲(chǔ)系統(tǒng)」:線性Transformer只是它的一種變體

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    數(shù)學(xué)建模(1)--層次分析

    。 分析系統(tǒng)中各因素之間的關(guān)系,建立系統(tǒng)的遞階層次結(jié)構(gòu)。 權(quán)重表格 指標(biāo)權(quán)重 蘇杭 北戴河 桂林 景色 花費(fèi) 居住
    發(fā)表于 09-06 10:39

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來,已經(jīng)在自然語言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer
    的頭像 發(fā)表于 07-12 14:07 ?241次閱讀

    Transformer語言模型簡(jiǎn)介與實(shí)現(xiàn)過程

    任務(wù),隨后迅速擴(kuò)展到其他NLP任務(wù)中,如文本生成、語言理解、問答系統(tǒng)等。本文詳細(xì)介紹Transformer語言模型的原理、特點(diǎn)、優(yōu)勢(shì)以及實(shí)現(xiàn)過程。
    的頭像 發(fā)表于 07-10 11:48 ?648次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    在深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)化、管理以及應(yīng)用等多個(gè)方面,深入探討深度學(xué)習(xí)
    的頭像 發(fā)表于 07-04 11:49 ?418次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)
    的頭像 發(fā)表于 07-02 11:41 ?1066次閱讀

    為什么要進(jìn)行調(diào)制?常見的線性調(diào)制方式有哪些?

    線性調(diào)制和非線性調(diào)制是在通信系統(tǒng)中用于原始信號(hào)轉(zhuǎn)換為調(diào)制信號(hào)的兩種不同方法。
    發(fā)表于 02-05 10:43 ?3748次閱讀
    為什么要<b class='flag-5'>進(jìn)行</b>調(diào)制?常見的<b class='flag-5'>線性</b>調(diào)制方式有哪些?

    UPS電源蓄電池快速充電的改進(jìn)方法

    充電速度慢、效率低等問題。因此,我們需要進(jìn)行改進(jìn),以實(shí)現(xiàn)UPS電源蓄電池的快速充電。本文詳細(xì)探討一些可以采取的改進(jìn)方法。 首先,我們可以考
    的頭像 發(fā)表于 01-10 16:50 ?694次閱讀

    Spring Boot和飛騰派融合構(gòu)建的農(nóng)業(yè)物聯(lián)網(wǎng)系統(tǒng)-改進(jìn)自適應(yīng)加權(quán)融合算法

    規(guī)則為:傳感器的方差越小,分得的權(quán)值越大。X為融合后最優(yōu)輸出結(jié)果。 其中輸出結(jié)果x與各傳感器和傳感器權(quán)重 wi 滿足如下關(guān)系。 根據(jù)上式中條件構(gòu)造拉格朗日函數(shù)最終可得 三、實(shí)驗(yàn)分析
    發(fā)表于 01-06 12:18

    降低Transformer復(fù)雜度O(N^2)的方法匯總

    首先來詳細(xì)說明為什么Transformer的計(jì)算復(fù)雜度是 。Transformer中標(biāo)準(zhǔn)的Attention稱為Softmax Attention。令 為長(zhǎng)度為 的序列, 其維度為 , 。 可看作Softmax Attenti
    的頭像 發(fā)表于 12-04 15:31 ?882次閱讀
    降低<b class='flag-5'>Transformer</b>復(fù)雜度O(N^2)的方法匯總

    光纖傳輸性能分析:非線性噪聲來源簡(jiǎn)述

    光纖傳輸性能分析中,應(yīng)該先確定非線性噪聲來源,這是一個(gè)基礎(chǔ)問題。非線性噪聲來源都相對(duì)比較復(fù)雜,其計(jì)算更比較復(fù)雜,由于系統(tǒng)的復(fù)雜性,一種計(jì)算可能只能實(shí)用于有限場(chǎng)景,但是不能說該計(jì)算是錯(cuò)誤
    的頭像 發(fā)表于 11-22 10:12 ?1495次閱讀
    光纖傳輸性能<b class='flag-5'>分析</b>:非<b class='flag-5'>線性</b>噪聲來源簡(jiǎn)述

    求助,AD8132諧波測(cè)試電路中的transformer有沒有推薦型號(hào)?

    AD8132諧波測(cè)試電路中的transformer有沒有推薦型號(hào)?
    發(fā)表于 11-16 06:15

    MOSFET線性電源頻域與時(shí)域分析

    主要內(nèi)容:利用運(yùn)放環(huán)路穩(wěn)定性判據(jù)對(duì)MOSFET線性電源進(jìn)行頻域與時(shí)域工作特性分析
    的頭像 發(fā)表于 11-07 15:38 ?671次閱讀
    MOSFET<b class='flag-5'>線性</b>電源頻域與時(shí)域<b class='flag-5'>分析</b>

    快速充電器的改進(jìn)與設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《快速充電器的改進(jìn)與設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 10-27 11:25 ?0次下載
    <b class='flag-5'>快速</b>充電器的<b class='flag-5'>改進(jìn)</b>與設(shè)計(jì)

    基于ARM與線性CCD的高速數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)

    本文介紹了一個(gè)基于ARM的線性CCD高速采集系統(tǒng),系統(tǒng)中選擇了高速線性CCD和高速ADC,因?yàn)锳DC的采祥速度相對(duì)ARM的工作時(shí)鐘頻率較慢,所以使用CPLD和FIFO
    發(fā)表于 09-26 07:41

    為什么transformer性能這么好?Transformer的上下文學(xué)習(xí)能力是哪來的?

    的主導(dǎo)模型,但人們對(duì)于它卓越性能的理論基礎(chǔ)卻一直研究不足。 最近,來自 Google AI、蘇黎世聯(lián)邦理工學(xué)院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中,他們對(duì) transformer 進(jìn)行了逆向工程,尋找到了一些優(yōu)化方法。論文《Un
    的頭像 發(fā)表于 09-25 12:05 ?1200次閱讀
    為什么<b class='flag-5'>transformer</b>性能這么好?<b class='flag-5'>Transformer</b>的上下文學(xué)習(xí)能力是哪來的?