0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LLM中的大規(guī)模激活

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2024-03-01 11:38 ? 次閱讀

Massive Activations in Large Language Models摘要:我們?cè)诖笮驼Z(yǔ)言模型(LLM)中觀察到一種經(jīng)驗(yàn)現(xiàn)象-很少有激活表現(xiàn)出比其他激活大得多的值(例如,100,000倍)。我們稱(chēng)之為大規(guī)模激活。首先,我們證明了廣泛存在的大規(guī)模激活在各種LLM和表征他們的位置。其次,我們發(fā)現(xiàn)它們的值在很大程度上保持不變,無(wú)論輸入,它們作為不可或缺的偏置項(xiàng)在LLM中。第三,這些大規(guī)模的激活導(dǎo)致注意概率集中到它們相應(yīng)的標(biāo)記上,并進(jìn)一步導(dǎo)致自我注意輸出中的隱式偏差項(xiàng)。最后,我們還研究了Vision Transformers中的大規(guī)模激活。

f31164ee-d6ef-11ee-a297-92fbcf53809c.png

https://arxiv.org/abs/2402.17762

Q1: 這篇論文試圖解決什么問(wèn)題?

A: 這篇論文主要研究了大型語(yǔ)言模型(LLMs)中的一個(gè)現(xiàn)象,即在模型的隱藏狀態(tài)中存在極少數(shù)激活值(activations)遠(yuǎn)大于其他激活值的情況,這些被稱(chēng)為“massive activations”。論文試圖解決的問(wèn)題包括:

1.現(xiàn)象的普遍性:作者首先展示了這種massive activations在不同LLMs中的普遍存在,并對(duì)其進(jìn)行了特征定位。

2.功能角色:研究這些massive activations在LLMs中的功能角色,即它們是否對(duì)模型性能有實(shí)質(zhì)性影響,還是僅僅是無(wú)關(guān)緊要的異常值。

3.與自注意力機(jī)制的關(guān)聯(lián):探討massive activations與自注意力機(jī)制之間的關(guān)系,以及它們如何影響模型的注意力分布。

4.作為固定偏差的作用:分析massive activations如何在LLMs中充當(dāng)固定但重要的偏差項(xiàng),并探究這種偏差對(duì)模型性能的影響。

5.在視覺(jué)變換器(Vision Transformers, ViTs)中的應(yīng)用:將研究擴(kuò)展到ViTs,觀察是否也存在類(lèi)似的massive activations現(xiàn)象,并分析其在ViTs中的作用。

6.消除massive activations的可能性:通過(guò)實(shí)驗(yàn),作者探索了通過(guò)在自注意力中顯式引入偏差項(xiàng)來(lái)消除massive activations的可能性。

總的來(lái)說(shuō),這篇論文試圖深入理解LLMs內(nèi)部表示中massive activations的本質(zhì)、功能和影響,以及它們?nèi)绾闻c模型的自注意力機(jī)制相互作用。這些發(fā)現(xiàn)有助于我們更好地理解大型模型的內(nèi)部工作機(jī)制,可能對(duì)改進(jìn)模型設(shè)計(jì)和訓(xùn)練方法具有重要意義。

Q2: 有哪些相關(guān)研究?

A: 論文中提到了與massive activations現(xiàn)象相關(guān)的一些研究領(lǐng)域和具體工作,包括:

自回歸Transformers的有趣屬性:

Timkey和Schijndel (2021) 觀察到GPT-2的倒數(shù)第二層中存在特征維度,其激活值高達(dá)3000,這些維度在評(píng)估表示相似性的標(biāo)準(zhǔn)度量中占主導(dǎo)地位。

Heimersheim和Turner (2023) 發(fā)現(xiàn)GPT-2中初始token的特征范數(shù)比其他token增長(zhǎng)得更快。

Kovaleva等人 (2021) 和 Zhao等人 (2023) 展示了GPT-2和LLaMA2-13B中LayerNorm的異常權(quán)重的存在,并表明將它們?cè)O(shè)置為零會(huì)導(dǎo)致模型性能的災(zāi)難性下降。

異常特征(Outlier Features):

Dettmers等人 (2022) 展示了LLMs中異常特征的存在,這些特征在大多數(shù)序列維度中具有較大的激活值。盡管massive activations和異常特征在表面上看似相似,但論文中討論了它們的根本區(qū)別,并表明massive activations不能歸因于異常特征的存在。

注意力集中模式(Attention Concentration Patterns):

Clark等人 (2019b)、Kovaleva等人 (2019) 和 Bondarenko等人 (2021) 發(fā)現(xiàn)BERT中的注意力傾向于集中在“separate”token [SEP]上。

Xiao等人 (2023b) 展示了LLMs將大部分注意力分配給起始詞token。

Darcet等人 (2023) 揭示了ViTs中注意力的異?,F(xiàn)象。

Robinson等人 (2023) 發(fā)現(xiàn)ViTs中的稀疏激活模式,這些模式將注意力吸引到特定token上。

自注意力中的偏差(Biases in Self-Attention):

Namazifar等人 (2023) 提出了在自注意力的線(xiàn)性層中使用簡(jiǎn)單的加性偏差項(xiàng)。

Su等人 (2021) 和 Press等人 (2021) 引入了位置偏差來(lái)編碼每個(gè)token的位置信息。

Evan (2023) 和 Bondarenko等人 (2023) 提出了具有手動(dòng)設(shè)計(jì)的softmax操作符的偏差變體。

Vision Transformers(ViTs)中的massive activations:

Darcet等人 (2023) 提出了在標(biāo)準(zhǔn)ViTs中引入額外的可學(xué)習(xí)token(稱(chēng)為register tokens),并展示了訓(xùn)練帶有register tokens的ViTs可以導(dǎo)致平滑的注意力圖,從而提高了下游任務(wù)的性能。

這些相關(guān)研究為理解LLMs和ViTs的內(nèi)部機(jī)制提供了背景知識(shí),并且與本文研究的massive activations現(xiàn)象有著直接或間接的聯(lián)系。

Q3: 論文如何解決這個(gè)問(wèn)題?

A: 論文通過(guò)以下步驟來(lái)解決大型語(yǔ)言模型(LLMs)中massive activations的問(wèn)題:

現(xiàn)象觀察:首先,作者在不同的LLMs中觀察并確認(rèn)了massive activations的普遍存在。他們通過(guò)可視化技術(shù)展示了這些激活值在特定特征維度上的異常高值。

特征定位:作者確定了massive activations在模型的哪些層和特征維度上出現(xiàn),以及它們與序列中的哪些token相關(guān)聯(lián)。他們發(fā)現(xiàn)這些激活通常出現(xiàn)在模型的起始token和分隔符token(如句點(diǎn)或換行符)

功能分析:通過(guò)干預(yù)實(shí)驗(yàn)(例如,將massive activations設(shè)置為零或其均值),作者分析了這些激活對(duì)模型性能的影響。他們發(fā)現(xiàn),massive activations對(duì)模型性能至關(guān)重要,且其值在輸入變化時(shí)保持相對(duì)恒定,類(lèi)似于固定偏差。

自注意力機(jī)制的深入研究:作者探討了massive activations如何影響自注意力機(jī)制,特別是它們?nèi)绾螌?dǎo)致注意力集中在與這些激活相關(guān)的token上。他們通過(guò)分解注意力輸出來(lái)展示這些token如何作為隱含的注意力偏差項(xiàng)。

顯式偏差的引入:為了消除massive activations,作者嘗試在自注意力中顯式引入偏差項(xiàng)。他們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)在自注意力中添加額外的鍵(key)和值(value)嵌入作為顯式偏差時(shí),模型不再需要學(xué)習(xí)massive activations。

視覺(jué)變換器(ViTs)的擴(kuò)展研究:作者還將研究擴(kuò)展到ViTs,觀察這些模型是否也存在類(lèi)似的massive activations現(xiàn)象,并分析它們?cè)赩iTs中的作用。他們發(fā)現(xiàn)ViTs中的某些模型也表現(xiàn)出massive activations,并且這些激活在功能上類(lèi)似于LLMs中的massive activations。

替代方法的探索:作者還探索了其他可能的方法來(lái)引入自注意力中的偏差,例如通過(guò)修改softmax操作符或添加額外的特征維度。

通過(guò)這些步驟,論文不僅揭示了massive activations在LLMs中的作用,還提出了可能的解決方案來(lái)調(diào)整或消除這些激活,從而可能改善模型的訓(xùn)練和性能。

Q4: 論文做了哪些實(shí)驗(yàn)?

A: 論文中進(jìn)行了一系列實(shí)驗(yàn)來(lái)研究大型語(yǔ)言模型(LLMs)中的massive activations現(xiàn)象,以及它們?cè)谀P椭械淖饔煤陀绊憽R韵率侵饕膶?shí)驗(yàn)內(nèi)容:

存在性驗(yàn)證:作者在多個(gè)LLMs中觀察massive activations,包括LLaMA2-7B、LLaMA2-13B和Mixtral-8x7B等,通過(guò)可視化技術(shù)展示了這些激活在特定特征維度上的異常高值。

位置和特性分析:對(duì)于LLaMA2-7B模型,作者分析了massive activations在不同層和特征維度上的位置,以及它們與序列中特定token(如起始token和句點(diǎn)token)的關(guān)系。

干預(yù)實(shí)驗(yàn):作者通過(guò)將massive activations設(shè)置為零或其均值,來(lái)評(píng)估這些激活對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果表明,massive activations對(duì)模型性能至關(guān)重要。

自注意力分析:作者研究了massive activations如何影響自注意力機(jī)制,特別是它們?nèi)绾螌?dǎo)致注意力集中在與這些激活相關(guān)的token上。他們通過(guò)分析注意力logits和注意力概率來(lái)展示這一點(diǎn)。

顯式偏差引入實(shí)驗(yàn):為了消除massive activations,作者嘗試在自注意力中引入顯式偏差項(xiàng)。他們訓(xùn)練了GPT-2模型,并在自注意力中添加了額外的鍵(key)和值(value)嵌入作為顯式偏差。實(shí)驗(yàn)結(jié)果顯示,這種方法可以消除massive activations。

Vision Transformers(ViTs)的實(shí)驗(yàn):作者在ViTs中也觀察到了massive activations現(xiàn)象,并分析了它們?cè)赩iTs中的作用。他們研究了CLIP、MAE和DINOv2等模型,并探討了register tokens在ViTs中的功能。

替代方法的探索:作者探索了其他可能的方法來(lái)引入自注意力中的偏差,例如通過(guò)修改softmax操作符或添加額外的特征維度,并評(píng)估了這些方法對(duì)massive activations的影響。

這些實(shí)驗(yàn)不僅幫助作者深入理解了massive activations在LLMs中的作用,還為如何調(diào)整或消除這些激活提供了實(shí)驗(yàn)依據(jù)。通過(guò)這些實(shí)驗(yàn),作者能夠提出新的見(jiàn)解和可能的改進(jìn)方向。

Q5: 有什么可以進(jìn)一步探索的點(diǎn)?

A: 論文中提出了一些可以進(jìn)一步探索的點(diǎn),包括但不限于:

massive activations的深入理解:

研究massive activations在不同類(lèi)型和大小的LLMs中的普遍性和差異性。

探索massive activations在模型訓(xùn)練過(guò)程中的動(dòng)態(tài)變化,以及它們?nèi)绾斡绊懩P偷膶W(xué)習(xí)過(guò)程。

massive activations與模型性能的關(guān)系:

分析massive activations對(duì)模型泛化能力、魯棒性和可解釋性的具體影響。

研究在不同的下游任務(wù)中,massive activations的作用和重要性。

自注意力機(jī)制的改進(jìn):

設(shè)計(jì)新的自注意力機(jī)制,以減少或消除對(duì)massive activations的依賴(lài)。

探索其他類(lèi)型的顯式偏差項(xiàng),以替代或增強(qiáng)massive activations的功能。

ViTs中的massive activations:

在更廣泛的ViTs模型和任務(wù)中研究massive activations現(xiàn)象。

分析register tokens在ViTs中的作用,以及它們與massive activations的關(guān)系。

模型壓縮和優(yōu)化:

研究如何利用對(duì)massive activations的理解來(lái)優(yōu)化模型的壓縮和加速。

探索在模型部署時(shí),如何有效地處理massive activations以提高效率。

理論分析:

從理論角度分析massive activations的存在對(duì)模型表示能力的影響。

研究massive activations在模型的優(yōu)化過(guò)程中所扮演的角色。

跨領(lǐng)域應(yīng)用:

將對(duì)massive activations的研究擴(kuò)展到其他類(lèi)型的深度學(xué)習(xí)模型,如強(qiáng)化學(xué)習(xí)模型、序列生成模型等。

探索massive activations在多模態(tài)學(xué)習(xí)(如圖像和文本聯(lián)合處理)中的應(yīng)用。

倫理和社會(huì)影響:

研究massive activations可能對(duì)模型的公平性、透明度和可解釋性帶來(lái)的影響。

探討如何在設(shè)計(jì)和部署LLMs時(shí)考慮到這些因素,以促進(jìn)負(fù)責(zé)任的AI發(fā)展。

這些探索點(diǎn)不僅有助于提升我們對(duì)LLMs和ViTs內(nèi)部機(jī)制的理解,還可能對(duì)模型設(shè)計(jì)、訓(xùn)練策略和實(shí)際應(yīng)用產(chǎn)生重要影響。

Q6: 總結(jié)一下論文的主要內(nèi)容

A: 這篇論文主要研究了大型語(yǔ)言模型(LLMs)中的一個(gè)現(xiàn)象,即在模型的隱藏狀態(tài)中存在極少數(shù)激活值(activations)遠(yuǎn)大于其他激活值的情況,這些被稱(chēng)為“massive activations”。以下是論文的主要內(nèi)容總結(jié):

現(xiàn)象觀察:作者在多個(gè)LLMs中觀察到massive activations的存在,這些激活值在特定的特征維度上顯著高于其他激活值,且數(shù)量極少。

位置和特性分析:通過(guò)分析,作者發(fā)現(xiàn)massive activations通常出現(xiàn)在模型的起始token和分隔符token(如句點(diǎn)或換行符)上,且在模型的不同層中表現(xiàn)出不同的分布特征。

功能角色:實(shí)驗(yàn)表明,massive activations在LLMs中扮演著類(lèi)似固定偏差的角色,對(duì)模型性能至關(guān)重要。將它們?cè)O(shè)置為零會(huì)導(dǎo)致模型性能顯著下降,而將它們?cè)O(shè)置為均值則對(duì)性能影響不大。

與自注意力的關(guān)聯(lián):作者發(fā)現(xiàn)massive activations與自注意力機(jī)制密切相關(guān),它們導(dǎo)致注意力集中在相關(guān)token上,并在自注意力輸出中形成隱含的偏差項(xiàng)。

顯式偏差的引入:通過(guò)在自注意力中引入顯式偏差項(xiàng),作者展示了可以消除massive activations的需要,這表明massive activations可能是在預(yù)訓(xùn)練階段學(xué)習(xí)隱含偏差的一種方式。

Vision Transformers(ViTs)中的研究:作者還將研究擴(kuò)展到ViTs,發(fā)現(xiàn)在ViTs中也存在類(lèi)似的massive activations現(xiàn)象,這些激活在功能上類(lèi)似于LLMs中的massive activations。

未來(lái)工作:論文提出了一些未來(lái)研究方向,包括更深入地理解massive activations在模型中的作用,探索如何在模型設(shè)計(jì)中利用或消除這些激活,以及它們?cè)诓煌?lèi)型模型中的應(yīng)用。

總的來(lái)說(shuō),這篇論文揭示了LLMs中massive activations的普遍性和重要性,以及它們?nèi)绾斡绊懩P偷膬?nèi)部機(jī)制和性能。這些發(fā)現(xiàn)對(duì)于理解和改進(jìn)大型模型的設(shè)計(jì)具有重要意義。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2134

    瀏覽量

    1976

原文標(biāo)題:每日論文速遞 | LLM中的大規(guī)模激活

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Veloce平臺(tái)在大規(guī)模SOC仿真驗(yàn)證的應(yīng)用

    Graphics公司Veloce驗(yàn)證平臺(tái)在超大規(guī)模IC系統(tǒng)仿真驗(yàn)證的應(yīng)用。借助Veloce的高速和大容量的特性,極大的提高功能驗(yàn)證的效率,解決由于芯片規(guī)模大FPGA無(wú)法驗(yàn)證的問(wèn)題,保證芯片的按時(shí)投片
    發(fā)表于 05-28 13:41

    大規(guī)模FPGA設(shè)計(jì)的多點(diǎn)綜合技術(shù)

    大規(guī)模FPGA設(shè)計(jì)的多點(diǎn)綜合技術(shù)
    發(fā)表于 08-17 10:27

    大規(guī)模集成電路在信息系統(tǒng)的廣泛應(yīng)用

    集成電路。 數(shù)字信號(hào)處理作為信息系統(tǒng)的基本處理技術(shù)而受到關(guān)注,其應(yīng)用研究正在積極進(jìn)行。數(shù)字信號(hào)處理是用數(shù)字值得代數(shù)運(yùn)算來(lái)實(shí)現(xiàn)調(diào)制、解調(diào)、濾波、均衡等功能的一門(mén)技術(shù),而高速、高度集成的邏輯運(yùn)算等大規(guī)模
    發(fā)表于 09-11 11:27

    勻一枯大規(guī)模奪頂替

    頂替枯大規(guī)模奪頂替頂替
    發(fā)表于 01-05 18:50

    大規(guī)模特征構(gòu)建實(shí)踐總結(jié)

    Server相關(guān)的資料,但我們?cè)趯?shí)際實(shí)踐,發(fā)現(xiàn)大規(guī)模的特征預(yù)處理也有很多問(wèn)題需要解決。有一次和明風(fēng)(以前在阿里,后來(lái)去了騰訊做了開(kāi)源的PS:angel)交流過(guò)這部分的工作為何沒(méi)有人開(kāi)源,結(jié)論大致
    發(fā)表于 11-19 09:35

    大規(guī)模天線(xiàn)技術(shù)商用測(cè)試

    作為提升5G系統(tǒng)頻譜效率最直觀的物理層技術(shù)之一,大規(guī)模天線(xiàn)技術(shù)自問(wèn)世以來(lái),受到了來(lái)自學(xué)術(shù)界、工業(yè)界的廣泛關(guān)注。樣機(jī)測(cè)試為了克服信道信息獲取困難、解決導(dǎo)頻污染、以及計(jì)算復(fù)雜度大幅提升等問(wèn)題,測(cè)試
    發(fā)表于 06-13 07:49

    大規(guī)模MIMO的利弊

    IEEE Transactions on Information Forensics and Security上的一篇論文探討了這種類(lèi)型的攻擊。他們發(fā)現(xiàn),在某些情況下,當(dāng)使用大規(guī)模多入多出技術(shù)
    發(fā)表于 06-18 07:54

    大規(guī)模MIMO的性能

    列,可能包含成百上千的收發(fā)器。此概念稱(chēng)為大規(guī)模MIMO。的確,大規(guī)模MIMO 脫離了當(dāng)前的網(wǎng)絡(luò)拓補(bǔ),可能是解決我們所面對(duì)的無(wú)線(xiàn)數(shù)據(jù)挑戰(zhàn)的關(guān)鍵;然而,在認(rèn)知大規(guī)模MIMO 廣泛部署的效能和/ 或可行性的過(guò)程
    發(fā)表于 07-17 07:54

    大規(guī)模天線(xiàn)陣列介紹

    解讀5G通信的殺手锏大規(guī)模天線(xiàn)陣列
    發(fā)表于 01-06 07:11

    怎么實(shí)現(xiàn)大規(guī)模電動(dòng)汽車(chē)的生產(chǎn)

    大規(guī)模電動(dòng)汽車(chē)生產(chǎn)需要先進(jìn)的電池化成和測(cè)試系統(tǒng)
    發(fā)表于 01-27 06:59

    構(gòu)建大規(guī)模MIMO的難點(diǎn)在哪?

    構(gòu)建大規(guī)模MIMO的難點(diǎn)在哪?高功率硅開(kāi)關(guān)的應(yīng)用案列分析
    發(fā)表于 03-11 07:05

    請(qǐng)教大神如何去管理大規(guī)模數(shù)據(jù)?

    請(qǐng)教大神如何去管理大規(guī)模數(shù)據(jù)?
    發(fā)表于 05-11 06:56

    請(qǐng)問(wèn)一下大規(guī)模MIMO的原型怎么制作?

    大規(guī)模MIMO的原型怎么制作?
    發(fā)表于 05-24 06:25

    如何去推進(jìn)FTTH大規(guī)模建設(shè)?

    如何去推進(jìn)FTTH大規(guī)模建設(shè)?影響FTTH大規(guī)模建設(shè)的原因有哪些?
    發(fā)表于 05-27 06:58

    大規(guī)模FPGA設(shè)計(jì)的多點(diǎn)綜合技術(shù)

    本文介紹了在大規(guī)模FPGA設(shè)計(jì)可以提高綜合效率和效果的多點(diǎn)綜合技術(shù),本文適合大規(guī)模FPGA的設(shè)計(jì)者和Synplify pro的用戶(hù)閱讀。
    發(fā)表于 01-17 10:36 ?38次下載
    <b class='flag-5'>大規(guī)模</b>FPGA設(shè)計(jì)<b class='flag-5'>中</b>的多點(diǎn)綜合技術(shù)