0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

cosFormer:重新思考注意力機(jī)制中的Softmax

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué) ? 作者:多模態(tài)研究組 - 商 ? 2022-03-30 16:18 ? 次閱讀

導(dǎo)讀:Transformer在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)音頻處理方面取得了巨大成功。作為其核心組成部分之一,Softmax Attention模塊能夠捕捉長(zhǎng)距離的依賴(lài)關(guān)系,但由于Softmax算子關(guān)于序列長(zhǎng)度的二次空間和時(shí)間復(fù)雜性,使其很難擴(kuò)展。

針對(duì)這點(diǎn),研究者提出利用核方法以及稀疏注意力機(jī)制的方法來(lái)近似Softmax算子,從而降低時(shí)間空間復(fù)雜度。但是,由于誤差的存在,效果往往不盡如人意。

商湯多模態(tài)研究組認(rèn)為,近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點(diǎn)是,與其近似Softmax,不如設(shè)計(jì)一種方式代替Softmax,并且同時(shí)降低時(shí)間空間復(fù)雜度。

因此,本文提出了名為cosFormer的方法,在時(shí)間空間復(fù)雜度關(guān)于序列長(zhǎng)度為線(xiàn)性復(fù)雜度的同時(shí),其性能接近或者超越Softmax Attention,并在LRA benchmark上取得SOTA結(jié)果。我們的設(shè)計(jì)核心理念基于兩點(diǎn),首先是注意力矩陣的非負(fù)性,其次是對(duì)局部注意力的放大(非極大值抑制)。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

06f3c082-afe8-11ec-aa7f-dac502259ad0.jpg

070b788a-afe8-11ec-aa7f-dac502259ad0.png

Part 1

背景

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. Softmax Attention

為了引出我們的方法,對(duì)Softmax Attention的計(jì)算方式進(jìn)行一定的推廣:

073c17f6-afe8-11ec-aa7f-dac502259ad0.png

其中表示相似度計(jì)算函數(shù),如果,上式即變?yōu)镾oftmax Attention(不考慮除以的縮放操作)。注意到計(jì)算的時(shí)間復(fù)雜度為,的時(shí)間復(fù)雜度為,所以總時(shí)間復(fù)雜度為,即關(guān)于序列長(zhǎng)度是二次的。

2. 線(xiàn)性 Attention

通過(guò)分析我們發(fā)現(xiàn),性能瓶頸的主要原因是操作,如果相似度函數(shù)可以表示為:

0750d6dc-afe8-11ec-aa7f-dac502259ad0.png

那么:

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

根據(jù)矩陣運(yùn)算的結(jié)合律:

077434e2-afe8-11ec-aa7f-dac502259ad0.png

上式可以變換為(編者修正:下方公式未變換,請(qǐng)參照論文):

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

經(jīng)過(guò)計(jì)算后可以得到該方法的時(shí)間復(fù)雜度為,即關(guān)于序列長(zhǎng)度是一次的。

Softmax Attention和線(xiàn)性Attention的計(jì)算方式可以用下圖概括:

07a1f260-afe8-11ec-aa7f-dac502259ad0.png

所以接下來(lái)將介紹的選擇,以及核心的reweighting操作。

3. Softmax 的兩大性質(zhì)

我們經(jīng)過(guò)分析以及實(shí)驗(yàn),歸納出Softmax Attention中比較重要的性質(zhì),這兩個(gè)性質(zhì)可以指導(dǎo)我們的模型設(shè)計(jì):

1. 注意力矩陣的非負(fù)性

2. 局部注意力的放大(非極大值抑制)

對(duì)于第一點(diǎn),我們有如下實(shí)驗(yàn)進(jìn)行驗(yàn)證(模型結(jié)構(gòu)為RoBERTa):

07bdb856-afe8-11ec-aa7f-dac502259ad0.png

這里L(fēng)oss表示驗(yàn)證集損失(越低越好),其余指標(biāo)均為準(zhǔn)確率(越高越好)??梢钥吹?,當(dāng)保證了注意力矩陣的非負(fù)性之后,可以達(dá)到較好的效果?;谠搶?shí)驗(yàn),我們選擇為ReLU函數(shù)。

對(duì)于第二點(diǎn),我們的方式是在注意力矩陣中引入先驗(yàn)locality信息,觀察Softmax注意力矩陣,如下圖所示,我們發(fā)現(xiàn)其注意力矩陣的權(quán)重在對(duì)角線(xiàn)附近很集中:

07ce07ce-afe8-11ec-aa7f-dac502259ad0.png

所以我們的方法需要在加了reweighting操作后也更加集中在對(duì)角線(xiàn)附近。注意并非所有的有類(lèi)似權(quán)重的函數(shù)均適用,這個(gè)reweighting的函數(shù)需要跟前面的QK一樣可以拆分成兩個(gè)矩陣的乘法的形式。

至此,就可以引入我們的cosFormer了。

Part 2

cosFormer

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. 方法

我們的方法基于線(xiàn)性Attention,首先給出符號(hào)定義:

08068432-afe8-11ec-aa7f-dac502259ad0.png

根據(jù)之前的分析,我們選擇了:

081836fa-afe8-11ec-aa7f-dac502259ad0.png

可得:

08299756-afe8-11ec-aa7f-dac502259ad0.png

為了進(jìn)行reweighting操作,并且同時(shí)保證線(xiàn)性Attention的計(jì)算方式依然成立,我們選擇了cos函數(shù):

0846632c-afe8-11ec-aa7f-dac502259ad0.png

展開(kāi)可得:

085b3eaa-afe8-11ec-aa7f-dac502259ad0.png

為了便于展示,我們把它記作:

0872566c-afe8-11ec-aa7f-dac502259ad0.png

最終得到:

088c78ee-afe8-11ec-aa7f-dac502259ad0.png

上式和線(xiàn)性Attention的計(jì)算方式一致,經(jīng)過(guò)分析不難得出時(shí)間復(fù)雜度依然是。

2. 實(shí)驗(yàn)結(jié)果

我們?cè)趩蜗蚰P汀㈦p向模型以及LRA benchmark上測(cè)試了我們的方法,均取得了非常不錯(cuò)的效果。

單向語(yǔ)言模型,指標(biāo)表示困惑度(越低越好):

08a330ac-afe8-11ec-aa7f-dac502259ad0.png

雙向語(yǔ)言模型,指標(biāo)表示準(zhǔn)確率(越高越好):

08be1890-afe8-11ec-aa7f-dac502259ad0.png

LRA benchmark:

1)性能實(shí)驗(yàn),指標(biāo)表示準(zhǔn)確率(越高越好):

08d4c996-afe8-11ec-aa7f-dac502259ad0.png

2)內(nèi)存速度實(shí)驗(yàn),指標(biāo)表示速度(越高越好,如果內(nèi)存溢出,則標(biāo)記為叉):

08f4b97c-afe8-11ec-aa7f-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4286

    瀏覽量

    62336
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    8

    文章

    1694

    瀏覽量

    45905
  • Softmax
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    2496

原文標(biāo)題:ICLR'22 | cosFormer:重新思考注意力機(jī)制中的Softmax

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)數(shù)據(jù)驅(qū)動(dòng)故障檢測(cè)模型的性能和可解釋性。引入了一種混合因果發(fā)現(xiàn)算法來(lái)發(fā)現(xiàn)監(jiān)測(cè)變量之間的繼承因果關(guān)系。順序連接因果變量的因果路徑用作接收?qǐng)?,使用多尺度卷積來(lái)提取特征?;诜謱?b class='flag-5'>注意力機(jī)制來(lái)聚合
    的頭像 發(fā)表于 11-12 09:52 ?72次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)

    2024 年 19 種最佳大型語(yǔ)言模型

    ,當(dāng)時(shí)一篇題為“通過(guò)聯(lián)合學(xué)習(xí)對(duì)齊和翻譯的神經(jīng)機(jī)器翻譯”的研究論文中引入了注意力機(jī)制(一種旨在模仿人類(lèi)認(rèn)知注意力的機(jī)器學(xué)習(xí)技術(shù))。2017年,另一篇論文“注意力就是你
    的頭像 發(fā)表于 08-30 12:56 ?466次閱讀
    2024 年 19 種最佳大型語(yǔ)言模型

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    并捕捉長(zhǎng)距離依賴(lài)關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過(guò)編碼器(Encoder)和解碼器(Decoder)兩部分實(shí)現(xiàn)語(yǔ)言的編碼和解碼。 注意力機(jī)制:Transformer注意力
    發(fā)表于 08-02 11:03

    Transformer模型在語(yǔ)音識(shí)別和語(yǔ)音生成的應(yīng)用優(yōu)勢(shì)

    隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別和語(yǔ)音生成作為人機(jī)交互的重要組成部分,正逐漸滲透到我們生活的各個(gè)方面。而Transformer模型,自其誕生以來(lái),憑借其獨(dú)特的自注意力機(jī)制和并行計(jì)算能力,在
    的頭像 發(fā)表于 07-03 18:24 ?928次閱讀

    【大規(guī)模語(yǔ)言模型:從理論到實(shí)踐】- 閱讀體驗(yàn)

    再次感謝電子發(fā)燒友提供的書(shū)籍試讀機(jī)會(huì)。今天來(lái)分享下我在學(xué)習(xí)大模型訓(xùn)練 注意力機(jī)制 的心得體會(huì)。 雖然注意力機(jī)制可以顯著提高模型處理長(zhǎng)序列數(shù)
    發(fā)表于 06-07 14:44

    浪潮信息發(fā)布源2.0-M32開(kāi)源大模型,模算效率大幅提升

    5月28日,浪潮信息發(fā)布“源2.0-M32”開(kāi)源大模型?!霸?.0-M32”在基于”源2.0”系列大模型已有工作基礎(chǔ)上,創(chuàng)新性地提出和采用了“基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)”技術(shù)
    的頭像 發(fā)表于 05-29 09:34 ?374次閱讀
    浪潮信息發(fā)布源2.0-M32開(kāi)源大模型,模算效率大幅提升

    浪潮信息發(fā)布“源2.0-M32”開(kāi)源大模型

    浪潮信息近日推出了革命性的“源2.0-M32”開(kāi)源大模型。該模型在源2.0系列基礎(chǔ)上,引入了“基于注意力機(jī)制的門(mén)控網(wǎng)絡(luò)”技術(shù),構(gòu)建了一個(gè)包含32個(gè)專(zhuān)家的混合專(zhuān)家模型(MoE),有效提升了模型算效率。
    的頭像 發(fā)表于 05-29 09:08 ?591次閱讀

    采用單片超構(gòu)表面與元注意力網(wǎng)絡(luò)實(shí)現(xiàn)快照式近紅外光譜成像

    日前,北京理工大學(xué)王涌天教授、黃玲玲教授團(tuán)隊(duì)聯(lián)合張軍院士、邊麗蘅教授團(tuán)隊(duì),采用單片超構(gòu)表面與元注意力網(wǎng)絡(luò)實(shí)現(xiàn)快照式近紅外光譜成像。
    的頭像 發(fā)表于 04-25 09:08 ?984次閱讀
    采用單片超構(gòu)表面與元<b class='flag-5'>注意力</b>網(wǎng)絡(luò)實(shí)現(xiàn)快照式近紅外光譜成像

    阿里巴巴發(fā)布AtomoVideo,兼容多款文生圖模型的高保真圖像視頻框架

    AtomoVideo運(yùn)用預(yù)設(shè)的 T2I 模型,在每個(gè)空間卷積層和注意力層后新增一維時(shí)空卷積和注意力模塊?,F(xiàn)有的 T2I 模型參數(shù)固定不變,它們只會(huì)訓(xùn)練新增的時(shí)空層,而輸入的串聯(lián)圖像信息由 VAE 編碼解析
    的頭像 發(fā)表于 03-07 11:22 ?729次閱讀

    【研究動(dòng)態(tài)】萬(wàn)物縱橫楊帆博士在Applied Soft Computing發(fā)表石化生產(chǎn)異常工況預(yù)警的人工智能算法研究成果

    近日,計(jì)算機(jī)科學(xué)領(lǐng)域著名期刊《Applied Soft Computing》(SCI一區(qū), Top期刊)刊載了四川萬(wàn)物縱橫 楊帆博士 與四川大學(xué)合作的最新工業(yè)智能研究成果《基于注意力機(jī)制的催化裂化裝置異常工況預(yù)警》
    的頭像 發(fā)表于 01-23 13:32 ?506次閱讀
    【研究動(dòng)態(tài)】萬(wàn)物縱橫楊帆博士在Applied Soft Computing發(fā)表石化生產(chǎn)異常工況預(yù)警的人工智能算法研究成果

    OneFlow Softmax算子源碼解讀之BlockSoftmax

    寫(xiě)在前面:筆者這段時(shí)間工作太忙,身心俱疲,博客停更了一段時(shí)間,現(xiàn)在重新撿起來(lái)。本文主要解讀 OneFlow 框架的第二種 Softmax 源碼實(shí)現(xiàn)細(xì)節(jié),即 block 級(jí)別的 Softmax。
    的頭像 發(fā)表于 01-08 09:26 ?643次閱讀
    OneFlow <b class='flag-5'>Softmax</b>算子源碼解讀之BlockSoftmax

    OneFlow Softmax算子源碼解讀之WarpSoftmax

    寫(xiě)在前面:近來(lái)筆者偶然間接觸了一個(gè)深度學(xué)習(xí)框架 OneFlow,所以這段時(shí)間主要在閱讀 OneFlow 框架的 cuda 源碼。官方源碼基于不同場(chǎng)景分三種方式實(shí)現(xiàn) Softmax,本文主要介紹其中一種的實(shí)現(xiàn)過(guò)程,即 Warp 級(jí)別 Softmax,適用于矩陣寬度不超過(guò) 1
    的頭像 發(fā)表于 01-08 09:24 ?722次閱讀
    OneFlow <b class='flag-5'>Softmax</b>算子源碼解讀之WarpSoftmax

    理解KV cache的作用及優(yōu)化方法

    MQA (Multi Query Attention,多查詢(xún)注意力) 是多頭注意力的一種變體。其主要區(qū)別在于,在 MQA 不同的注意力頭共享一個(gè)K和V的集合,每個(gè)頭只單獨(dú)保留了一份查
    的頭像 發(fā)表于 12-04 15:24 ?6466次閱讀
    理解KV cache的作用及優(yōu)化方法

    深入理解BigBird的塊稀疏高效實(shí)現(xiàn)方案

    使用 BigBird。但是,在更深入之前,一定記住 BigBird 注意力只是 BERT 完全注意力的一個(gè)近似,因此我們并不糾結(jié)于讓它比 BERT 完全注意力 更好,而是致力于讓它更有效率。
    的頭像 發(fā)表于 11-29 11:02 ?519次閱讀
    深入理解BigBird的塊稀疏高效實(shí)現(xiàn)方案

    全新近似注意力機(jī)制HyperAttention:對(duì)長(zhǎng)上下文友好、LLM推理提速50%

    本文介紹了一項(xiàng)近似注意力機(jī)制新研究,耶魯大學(xué)、谷歌研究院等機(jī)構(gòu)提出了 HyperAttention,使 ChatGLM2 在 32k 上下文長(zhǎng)度上的推理時(shí)間快了 50%。 Transformer
    的頭像 發(fā)表于 11-20 09:15 ?548次閱讀
    全新近似<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>HyperAttention:對(duì)長(zhǎng)上下文友好、LLM推理提速50%