Transformer自誕生以來(lái)就席卷了NLP領(lǐng)域,因?yàn)樗哂袑?duì)序列中復(fù)雜依賴關(guān)系進(jìn)行建模的優(yōu)越能力。盡管基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型(PLM)在幾乎所有NLP任務(wù)中都取得了巨大成功,但它們都有預(yù)設(shè)的長(zhǎng)度限制,因此很難將這種成功擴(kuò)展到見(jiàn)過(guò)數(shù)據(jù)以外的更長(zhǎng)的序列,即長(zhǎng)度外推問(wèn)題。為了增強(qiáng)Transformer的長(zhǎng)度外推,人們提出了大量的可外推的位置編碼。
作者:cola
論文:Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding
地址:https://arxiv.org/abs/2312.17044
介紹
在有限的學(xué)習(xí)資源下,人類可以通過(guò)理解它們的組成部分和結(jié)構(gòu)來(lái)理解潛在無(wú)限長(zhǎng)度的話語(yǔ)。在NLP中,這種能力稱為模型的長(zhǎng)度外推,即在較短的上下文窗口上進(jìn)行訓(xùn)練,在較長(zhǎng)的上下文窗口上進(jìn)行推理。盡管神經(jīng)網(wǎng)絡(luò)在各種任務(wù)上取得了驚人的進(jìn)展,但長(zhǎng)度外推對(duì)它們來(lái)說(shuō)仍然是一個(gè)重大挑戰(zhàn)。Transformer被用來(lái)環(huán)節(jié)這一問(wèn)題。
然而,Transformer的優(yōu)勢(shì)容量是以相對(duì)于輸入序列長(zhǎng)度的二次計(jì)算和內(nèi)存復(fù)雜度為代價(jià)的,這導(dǎo)致了基于Transformer的模型的預(yù)定義上下文長(zhǎng)度限制,通常是512或1024個(gè)token。因此,利用Transformer處理長(zhǎng)序列是極其困難的。此外,人們普遍認(rèn)為,用更長(zhǎng)的上下文窗口對(duì)現(xiàn)有模型進(jìn)行微調(diào)要么是有害的,要么是昂貴的。更糟糕的是,由于高質(zhì)量長(zhǎng)文本數(shù)據(jù)的稀缺和不可負(fù)擔(dān)的二次成本,通過(guò)直接在長(zhǎng)序列上訓(xùn)練Transformer來(lái)擴(kuò)展上下文窗口是不可行的。因此,長(zhǎng)度外推似乎是減少訓(xùn)練開(kāi)銷、同時(shí)放松Transformer上下文長(zhǎng)度限制的最合適的方法。
最近,基于Transformer的LLMs,如Llama和GPT-4,在工業(yè)界和研究界引起了極大的興趣。但即使這些能力很強(qiáng)的LLMs仍然對(duì)上下文長(zhǎng)度有強(qiáng)制限制,并且在長(zhǎng)度推斷上失敗,這極大地阻礙了它們的廣泛采用。盡管GPT-4的上下文窗口達(dá)到了驚人的32k,但實(shí)際上,這個(gè)上下文長(zhǎng)度遠(yuǎn)遠(yuǎn)不夠。一方面,隨著LLM能力的增長(zhǎng),我們對(duì)它們的期望也在增長(zhǎng)。另一方面,現(xiàn)有有效利用LLM的技術(shù)也對(duì)上下文窗口的長(zhǎng)度提出了更高的要求。
預(yù)備知識(shí)
Transformer最初是作為一個(gè)編碼器-解碼器架構(gòu)引入的,其中編碼器和解碼器都由個(gè)相同的層組成。每個(gè)編碼器層由兩個(gè)子層組成,self-attention層和位置全連接前饋網(wǎng)絡(luò)。而對(duì)于每個(gè)解碼器層,還有第三個(gè)子層執(zhí)行交叉注意力,即對(duì)編碼器輸出的注意力。我們?cè)谶@里給出了編碼器層的形式化描述。給定輸入矩陣為個(gè)維度為的嵌入序列,的編碼器層定義為:
其中,,是所謂的query、key和value,其中,,是投影矩陣。首先,兼容性分?jǐn)?shù)被計(jì)算為具有縮放因子的query和key之間的點(diǎn)積。然后,利用逐行softmax函數(shù)將兼容性分?jǐn)?shù)轉(zhuǎn)換為權(quán)重,值的加權(quán)和正是注意力子層的輸出。全連接的前饋網(wǎng)絡(luò)由兩個(gè)線性變換組成,中間由ReLU激活。為了提供可伸縮性,在每個(gè)子層周圍利用殘差連接,然后進(jìn)行層歸一化。
為了使模型能夠共同關(guān)注來(lái)自不同表示子空間不同位置的信息,通常使用多頭注意力。簡(jiǎn)而言之,個(gè)頭意味著用不同的投影矩陣, ,計(jì)算自注意力次,其中。然后將輸出矩陣沿著第二個(gè)維度連接起來(lái)以獲得最終的。從上面的描述中,不難看出整個(gè)編碼器層是置換等價(jià)或順序不變的,考慮到注意力子層和前饋?zhàn)訉佣际侵脫Q等價(jià)的。即,給定任意置換矩陣,得到。這種置換等價(jià)性質(zhì)與人類語(yǔ)言的順序性質(zhì)不一致,可以通過(guò)向Transformer中注入位置信息來(lái)減少。
位置編碼實(shí)現(xiàn)長(zhǎng)度外推
直觀地說(shuō),長(zhǎng)度外推與長(zhǎng)度和位置有很強(qiáng)的相關(guān)性。另一方面,在介紹Transformer時(shí),研究人員也提出了正弦位置嵌入,并聲稱它可以外推到訓(xùn)練之外的更長(zhǎng)的序列。這一說(shuō)法背后的想法,即只需改變位置表示方法就可以實(shí)現(xiàn)長(zhǎng)度外推,已得到廣泛支持和證明。因此,開(kāi)發(fā)更好的位置編碼方法已經(jīng)成為增強(qiáng)Transformer長(zhǎng)度外推的主要途徑。
有各種各樣的方法將位置信息集成到Transformer中,統(tǒng)稱為位置編碼(PEs)。表1給出了不同外推PE的特征。我們根據(jù)PE是絕對(duì)的還是相對(duì)的來(lái)劃分表格。使用絕對(duì)位置編碼(APE),每個(gè)位置都被映射到一個(gè)唯一的表示,而相對(duì)位置編碼(RPE)基于兩個(gè)token之間的相對(duì)距離來(lái)表示位置。
絕對(duì)位置編碼
考慮到Transformer的置換等價(jià)性質(zhì),提出了將位置信息融入其中的APE。具體來(lái)說(shuō),對(duì)于位置為的token,位置嵌入定義為:
其中是位置嵌入的維數(shù),表示模型維數(shù)。然后,將每個(gè)位置嵌入與對(duì)應(yīng)的token嵌入相加,并將之和輸入到Transformer中,從而將查詢與鍵之間的兼容性得分形式化為:
這是許多不同PE的基礎(chǔ)和重點(diǎn)。此外,比較了所提出的正弦APE和完全可學(xué)習(xí)的位置嵌入的性能,其中位置嵌入是在訓(xùn)練期間隨機(jī)初始化和更新的。盡管具有類似的性能,但研究人員聲稱正弦位置嵌入可能能夠推斷出比所看到的更長(zhǎng)的序列。然而,研究人員隨后發(fā)現(xiàn),正弦APE很難外推。因此,人們提出了各種APEs和RPEs,以增強(qiáng)正弦位置編碼,從而增強(qiáng)Transformer的外推。
研究人員推測(cè)優(yōu)異的外推性能來(lái)自PE的平移不變性,即即使輸入發(fā)生移動(dòng),函數(shù)也不會(huì)改變其輸出的特性。為了結(jié)合正弦APE中移位不變性的優(yōu)點(diǎn),他們只是對(duì)每個(gè)序列和訓(xùn)練期間的每次迭代,通過(guò)從離散均勻分布中提取的隨機(jī)偏移量移動(dòng)每個(gè)位置索引,其中是最大偏移量。也就是說(shuō),他們只是用代替了,這阻止了模型使用絕對(duì)位置,而是鼓勵(lì)使用相對(duì)位置。
遵循類似的想法,進(jìn)一步利用連續(xù)信號(hào)來(lái)增強(qiáng)正弦APE。除了用相同的隨機(jī)偏移量移動(dòng)APE的每個(gè)位置索引(為全局偏移)外,還引入了局部偏移和全局縮放。這三種增廣方法的形式如下:
其中為位置索引向量,, 分別為源序列和目標(biāo)序列的嵌入向量。全局位移將每個(gè)嵌入轉(zhuǎn)換為一個(gè)從的全局隨機(jī)位移序列。
除了這些基于正弦APE的相對(duì)簡(jiǎn)單的方法外,還有一些APE采取了完全不同的理論途徑。例如將每個(gè)詞嵌入擴(kuò)展為自變量上的連續(xù)函數(shù),即位置,以便詞表示隨著位置的增加而平滑移動(dòng)。通過(guò)數(shù)學(xué)上合理的推導(dǎo),將單詞在位置上的一般復(fù)數(shù)嵌入定義為:注意,振幅向量,頻率矢量權(quán)值和初始相位向量都是可訓(xùn)練的參數(shù)。振幅只取決于單詞wj和向量可以被視為“purely”的位置嵌入。
研究人員也試圖直接捕捉位置表示之間的依賴關(guān)系或動(dòng)態(tài)關(guān)系。引入了一個(gè)動(dòng)態(tài)系統(tǒng)來(lái)對(duì)這些位置表示進(jìn)行建模,其特征可以表示為:
正弦APE作為Transformer的第一個(gè)PE,對(duì)以后的PE有重要影響。然而,發(fā)現(xiàn)它的外推性很差。為了增強(qiáng)Transformer的外推性,研究人員要么利用隨機(jī)移位將移位不變性納入正弦APE中,要么生成隨位置平滑變化的位置嵌入。這些方法確實(shí)比正弦APE具有更好的外推性能,但只能勉強(qiáng)趕上RPEs的外推能力。
相對(duì)位置編碼
已經(jīng)提出了許多新的RPE加強(qiáng)Transformer的外推。在我們深入討論之前,我們重新制定兼容性得分,如下所示,以幫助闡明RPEs的視角:其中是編碼相對(duì)位置信息的術(shù)語(yǔ)。RPEs傾向于直接修改注意力機(jī)制來(lái)融合相對(duì)位置信息。因此,這種位置信息通常在每一層都重復(fù)出現(xiàn),而不是像APE那樣只在第一層之前出現(xiàn)。此外,這種修改獨(dú)立于值向量,使它們不與位置信息糾纏。這些差異如圖1所示。
研究人員在此公式的基礎(chǔ)上引入了RPE的思想。具體來(lái)說(shuō),他們將公式具體化為:其中是可訓(xùn)練的相對(duì)位置嵌入,表示關(guān)系位置關(guān)系。通過(guò)在確定的范圍內(nèi)裁剪相對(duì)位置,減少了要學(xué)習(xí)的位置嵌入數(shù)量,增強(qiáng)了長(zhǎng)度外推。同樣,在計(jì)算值時(shí),他們還引入了,將其添加到詞嵌入中。再此基礎(chǔ)上,研究人員又增加了一個(gè)項(xiàng)來(lái)同時(shí)建模鍵嵌入和相對(duì)位置嵌入的交互:
然而,一些研究人員采取了完全相反的方法,將其簡(jiǎn)化為極其簡(jiǎn)單的形式。利用可學(xué)習(xí)的標(biāo)量來(lái)表示相對(duì)位置信息:為了使Transformer能夠有效利用真實(shí)的token距離信息,研究人員提出了一種更復(fù)雜的方法:其中ReLU被用于確保兼容性分?jǐn)?shù)的非負(fù)性,是通過(guò)可學(xué)習(xí)的sigmoid函數(shù)從加權(quán)相對(duì)距離映射而來(lái)的重新縮放系數(shù):同樣為了利用真實(shí)距離信息來(lái)增強(qiáng)上下文建模,另一種更簡(jiǎn)單的方法來(lái)表示相對(duì)位置信息:其中標(biāo)量是訓(xùn)練前固定的特定頭部斜率。值得注意的是,該方法不需要額外的可學(xué)習(xí)參數(shù),因此效率更高,也有助于更好地推斷不在場(chǎng)證明。另一種方法建議按照以下方式計(jì)算兼容性:
類似地,研究人員認(rèn)為位置嵌入和詞嵌入對(duì)不同的概念進(jìn)行編碼,因此應(yīng)該對(duì)不同的信息應(yīng)用不同的投影。因此,他們建議用:其中為正弦位置嵌入。他們發(fā)現(xiàn)他們的方法結(jié)合T5偏差可以有效地降低預(yù)訓(xùn)練成本,并提高GLUE基準(zhǔn)上的性能。
同樣受到正弦APE的啟發(fā),研究人員提出通過(guò)正弦嵌入將鍵和查詢相乘,而不是將它們相加。他們將相容性分?jǐn)?shù)重新表述為:
這種方法稱為旋轉(zhuǎn)位置嵌入(RoPE),因?yàn)橹庇^地說(shuō),它根據(jù)位置索引旋轉(zhuǎn)鍵和值嵌入,該索引形式化為。值得注意的是,盡管這是一個(gè)絕對(duì)的旋轉(zhuǎn)過(guò)程,但兼容性分?jǐn)?shù)以及注意力機(jī)制僅依賴于查詢與鍵之間的相對(duì)距離,這有助于長(zhǎng)度外推。
盡管之前提出了大量的PEs,但在最近的LLMs中,只有ALiBi和RoPE被廣泛采用。因此,LLM時(shí)代提出的PEs大多衍生自這兩種方法,試圖使ALiBi更具表現(xiàn)力或使RoPE更具外推性。
研究人員意識(shí)到正弦APE的過(guò)擬合問(wèn)題,提出通過(guò)將正弦APE簡(jiǎn)化為一種新的RPE Sandwich來(lái)克服它。具體來(lái)說(shuō),他們刪除了交叉項(xiàng),但保留了兩個(gè)位置嵌入的內(nèi)積:值得注意的是,在這種形式化中,成為與ALiBi具有相同衰減與距離模式的時(shí)間偏差項(xiàng)。此外,由于這里的位置嵌入只需要與自己交互,作者將它們的維度作為超參數(shù),以進(jìn)一步改善推斷。
FIRE采用與T5 bias完全相同的形式,將位置信息與Transformer集成:其中,它們的偏差使用可學(xué)習(xí)的連續(xù)函數(shù),例如MLP。為了避免輸入在函數(shù)訓(xùn)練域之外時(shí)的泛化問(wèn)題,提出了通過(guò)查詢位置索引對(duì)距離進(jìn)行歸一化的漸進(jìn)式插值方法。請(qǐng)注意,在因果注意中,相對(duì)距離總是在[0,1]之間有界,對(duì)于任何序列長(zhǎng)度,這將使推理域與訓(xùn)練域?qū)R,從而帶來(lái)更好的長(zhǎng)度泛化。
由于RoPE在流行的LLM中被廣泛使用,也有人提出一些變體來(lái)改進(jìn)它。研究人員首先定義了兩個(gè)特定距離上的token之間的注意力得分期望和進(jìn)一步的注意力分辨率,作為Transformer編碼位置能力的指標(biāo)。他們將繩子外推性能較差的原因歸結(jié)為注意期望的劇烈振蕩,并提出引入平衡項(xiàng)來(lái)懲罰不穩(wěn)定維度的振蕩,保持穩(wěn)定維度的分布。他們的方法可以簡(jiǎn)化為:
LLMs時(shí)代的長(zhǎng)度外推
LLM徹底改變了NLP領(lǐng)域,并對(duì)長(zhǎng)度外推提出了很大的要求,以更好地理解長(zhǎng)文檔,利用更多的演示,處理多輪對(duì)話,增強(qiáng)智能體的長(zhǎng)期記憶等。因此,在LLM的長(zhǎng)度推斷方面付出了大量努力,導(dǎo)致了許多新的和新穎的PE的出現(xiàn)。除了這些方法,也有一些研究嘗試分析LLM的外推,并試圖揭示PE對(duì)長(zhǎng)度外推的影響。
位置插值
盡管有大量具有更好外推性的PE,但RoPE由于其優(yōu)越的分布性能,在最近的LLM中得到了最廣泛的采用。因此,人們提出了許多方法來(lái)增強(qiáng)現(xiàn)有的用RoPE進(jìn)行預(yù)訓(xùn)練的LLM的外推,其中最流行的是位置插值方法?;趯LM外推到更長(zhǎng)的序列的簡(jiǎn)單想法,引入了RoPE的位置插值,這是將線性縮放降低該位置索引的比例,以便在預(yù)訓(xùn)練期間最大位置索引匹配之前的長(zhǎng)度限制。形式上,這個(gè)方法將RoPE替換為,定義如下:其中是預(yù)訓(xùn)練期間的長(zhǎng)度限制,是推理時(shí)較長(zhǎng)的上下文窗口。注意,這里的比例是,將位置轉(zhuǎn)換為位置。該方法將絕對(duì)位置索引從減少到以匹配原始范圍,這也減少了從到的最大相對(duì)距離。因此,位置插值通過(guò)對(duì)齊位置索引的范圍和擴(kuò)展前后的相對(duì)距離,減輕了由于上下文窗口擴(kuò)展對(duì)注意力分?jǐn)?shù)計(jì)算的影響。
然而,從神經(jīng)切線核(Neural Tangent Kernel, NTK)理論的角度來(lái)看,簡(jiǎn)單地線性插值RoPE的傅里葉空間會(huì)造成高頻信息的丟失,會(huì)阻止模型區(qū)分附近的位置。為了解決這個(gè)問(wèn)題,提出了NTK-Aware Scaling RoPE算法,通過(guò)修改基底來(lái)代替RoPE的尺度:其中是原始基底,κ仍然是比例,兩者都可以看作是超參數(shù)。這里的核心思想是減少高頻的縮放,增加低頻的縮放,以減少高頻的信息損失。由于NTK-Aware插值不直接對(duì)傅里葉特征進(jìn)行縮放,因此所有位置都是可以區(qū)分的。此外,該方法不需要對(duì)上下文窗口進(jìn)行任何微調(diào)。
已經(jīng)提出了幾種改進(jìn)NTK-Aware插值的變體。Dynamic-NTK插值在預(yù)訓(xùn)練的上下文窗口中為token使用精確的位置值,以防止性能下降,并隨著當(dāng)前序列長(zhǎng)度的增加動(dòng)態(tài)增加縮放比,以適應(yīng)預(yù)訓(xùn)練的上下文窗口以外的位置:
其中是當(dāng)前序列的長(zhǎng)度,每一步都會(huì)增加。
無(wú)論是縮放位置索引還是修改基地,所有token都變得彼此更接近,這將損害LLM區(qū)分相近token的位置順序的能力。結(jié)合他們對(duì)RoPE的波長(zhǎng)的觀察,存在一些波長(zhǎng)比預(yù)訓(xùn)練的上下文窗口長(zhǎng)的維度,NTK-by-parts插值的作者建議完全不插值較高的頻率維度,而總是插值較低的頻率維度。除了這種方法之外,在Softmax之前引入一個(gè)兼容性分?jǐn)?shù)的溫度可以持續(xù)降低困惑度,他們將其稱為注意力縮放。具體來(lái)說(shuō):請(qǐng)注意,該方法與上面的插值方法是正交的,這促使作者將YaRN作為注意力擴(kuò)展和NTK-by-parts插值的組合,以進(jìn)一步提高性能,并在微調(diào)和非微調(diào)場(chǎng)景中超越所有基于NTK-Aware插值的方法。
研究人員在此基礎(chǔ)上提出了一種更簡(jiǎn)單的方法。不難看出,在訓(xùn)練過(guò)程中,模型已經(jīng)看到了全范圍的高頻分量,而低頻分量則沒(méi)有。這種不平衡使得模型對(duì)低頻進(jìn)行外推是一項(xiàng)特別困難的任務(wù)。因此,他們建議使用apply給出的截?cái)嗷?
其中ρ是一個(gè)相對(duì)較小的固定值,和是選定的截?cái)嘀怠_@樣,模型將通過(guò)選擇適當(dāng)?shù)慕財(cái)嘀?,在微調(diào)期間使用的上下文長(zhǎng)度中體驗(yàn)所有基值,并被認(rèn)為在推理過(guò)程中進(jìn)行更好的推斷。
隨機(jī)化位置編碼
對(duì)于沒(méi)有clipping機(jī)制的APE和RPE,長(zhǎng)度外推意味著位置表示超出了訓(xùn)練期間觀察到的位置表示,導(dǎo)致分布外位置表示,從而性能下降。為了解決這個(gè)問(wèn)題,最直觀的方法之一是使模型在訓(xùn)練期間觀察所有可能的位置表示,這正是隨機(jī)PEs背后的核心思想。
作為這一想法的具體化,研究人員提出模擬更長(zhǎng)的序列的位置,并隨機(jī)選擇一個(gè)有序子集來(lái)適應(yīng)訓(xùn)練上下文窗口。具體來(lái)說(shuō),的長(zhǎng)度遠(yuǎn)大于訓(xùn)練和評(píng)估過(guò)程中的最大長(zhǎng)度。對(duì)于每個(gè)訓(xùn)練步驟,長(zhǎng)度為的序列的隨機(jī)位置是較大范圍位置的升序子樣本,該范圍大小為,且不包含重復(fù)。因此,通過(guò)充分的訓(xùn)練,可以確保模型遇到足夠的唯一位置,并且在推理之前已經(jīng)充分訓(xùn)練了從1到的所有位置,從而在token中的任何序列上實(shí)現(xiàn)一致的性能。
基于相同的想法,PoSE也試圖通過(guò)在固定的預(yù)訓(xùn)練上下文窗口內(nèi)操縱位置索引來(lái)模擬更長(zhǎng)的輸入。然而,PoSE是將原始序列劃分為幾個(gè)塊,并通過(guò)添加不同的skip偏差項(xiàng)來(lái)調(diào)整每個(gè)塊的位置索引。這樣,PoSE保持了每個(gè)塊中的連續(xù)位置,這與預(yù)訓(xùn)練非常相似,同時(shí)允許模型適應(yīng)更長(zhǎng)的上下文窗口中的所有位置。
本質(zhì)上,隨機(jī)PE只是通過(guò)在訓(xùn)練過(guò)程中引入隨機(jī)位置,將預(yù)訓(xùn)練的上下文窗口與較長(zhǎng)的推理長(zhǎng)度解耦,從而提高了較長(zhǎng)的上下文窗口中所有位置的暴露。
討論
評(píng)估和基準(zhǔn)
在早期階段,研究人員通過(guò)有意在具有長(zhǎng)度限制的序列上訓(xùn)練模型并在稍長(zhǎng)的序列上測(cè)試來(lái)評(píng)估長(zhǎng)度外推。在此期間,訓(xùn)練和測(cè)試的長(zhǎng)度限制都只有幾十個(gè)token和樣本,指標(biāo)通常來(lái)自各種不同的下游任務(wù),如機(jī)器翻譯,文本分類和問(wèn)答。然后,由于PLM已經(jīng)被證明是通用的,并且其他NLP任務(wù)可以很容易地轉(zhuǎn)換為語(yǔ)言建模,語(yǔ)言建模和困惑度成為測(cè)試和評(píng)估長(zhǎng)度外推的標(biāo)準(zhǔn)做法。然而,人們?cè)絹?lái)越認(rèn)識(shí)到,作為唯一的指標(biāo),復(fù)雜度不能說(shuō)明下游任務(wù)的性能,而且非常不充分。
理論基礎(chǔ)
早期的方法大多是經(jīng)驗(yàn)的,并聲稱通過(guò)下游性能進(jìn)行外推。最近,有一種量化外推能力的趨勢(shì),如累積歸一化梯度和注意力分辨率。對(duì)數(shù)衰減時(shí)間偏差模式被認(rèn)為是成功的長(zhǎng)度外推的秘密,而沒(méi)有PE的僅解碼器模型在小規(guī)模合成任務(wù)中有更好的長(zhǎng)度外推。盡管取得了這些進(jìn)展,但仍然需要建立一個(gè)堅(jiān)實(shí)的理論基礎(chǔ),什么真正導(dǎo)致更好的長(zhǎng)度外推仍然是一個(gè)開(kāi)放的問(wèn)題。
其他方法
除了上述方法外,還有幾種采取不同思維方式的方法來(lái)提高長(zhǎng)度外推性能,如暫存器或思維鏈,Λ-shaped注意力掩碼和streamingLLM。此外,長(zhǎng)度外推還適用于更大的任務(wù),即上下文窗口擴(kuò)展或長(zhǎng)上下文LLM。
總結(jié)
本文對(duì)從Transformer誕生到LLM時(shí)代關(guān)于Transformer長(zhǎng)度外推的研究工作進(jìn)行了全面和有組織的概述,重點(diǎn)是外推PE和相關(guān)方法,包括位置插值和隨機(jī)PE。
審核編輯:黃飛
?
評(píng)論
查看更多