0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer深度學(xué)習(xí)架構(gòu)的應(yīng)用指南介紹

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室 ? 作者:易顯維 桂安春 ? 2021-05-06 11:32 ? 次閱讀

近年來(lái),自然語(yǔ)言處理(Natural Language Processing, NLP)模型在文本分類(lèi)、機(jī)器翻譯、認(rèn)知對(duì)話(huà)系統(tǒng)、自然語(yǔ)言理解(Natural Language Understanding, NLU)信息檢索和自然語(yǔ)言生成(Natural Language Generation, NLG)等語(yǔ)言和語(yǔ)義任務(wù)中取得了顯著的成功。這一壯舉主要?dú)w功于開(kāi)創(chuàng)性的Transformer架構(gòu),導(dǎo)致了諸如BERT、GPT (I、II、III)等設(shè)計(jì)。盡管這些大尺寸模型取得了前所未有的性能,但它們的計(jì)算成本很高。因此,一些最近的NLP架構(gòu)已經(jīng)使用了遷移學(xué)習(xí)、剪枝、量化和知識(shí)蒸餾的概念來(lái)實(shí)現(xiàn)適度的模型規(guī)模,同時(shí)保持與前人取得的性能幾乎相似。此外,為了從知識(shí)抽取的角度緩解語(yǔ)言模型帶來(lái)的數(shù)據(jù)量挑戰(zhàn),知識(shí)檢索器已經(jīng)被構(gòu)建,以更高的效率和準(zhǔn)確性從大型數(shù)據(jù)庫(kù)語(yǔ)料庫(kù)中提取顯式數(shù)據(jù)文檔。最近的研究也集中在通過(guò)對(duì)較長(zhǎng)的輸入序列提供有效注意的高級(jí)推理上。在本文中,我們總結(jié)并檢驗(yàn)了目前最先進(jìn)的(SOTA) NLP模型,這些模型已被用于許多NLP任務(wù),以獲得最佳的性能和效率。我們提供了對(duì)不同體系結(jié)構(gòu)的詳細(xì)理解和功能、NLP設(shè)計(jì)的分類(lèi)、比較評(píng)估和NLP的未來(lái)發(fā)展方向。

I.導(dǎo)言自然語(yǔ)言處理(NLP)是機(jī)器學(xué)習(xí)的一個(gè)領(lǐng)域,處理建立和發(fā)展語(yǔ)言模型的語(yǔ)言學(xué)。語(yǔ)言建模(LM)通過(guò)概率和統(tǒng)計(jì)技術(shù)確定單詞序列在句子中出現(xiàn)的可能性。由于人類(lèi)語(yǔ)言涉及單詞序列,最初的語(yǔ)言模型是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)。由于rnn會(huì)導(dǎo)致長(zhǎng)序列的消失和爆炸梯度,因此改進(jìn)的循環(huán)網(wǎng)絡(luò)(如lstm和gru)被用來(lái)提高性能。盡管lstm有增強(qiáng)作用,但研究發(fā)現(xiàn),當(dāng)涉及相對(duì)較長(zhǎng)的序列時(shí),lstm缺乏理解。這是由于稱(chēng)為上下文的整個(gè)歷史是由單個(gè)狀態(tài)向量處理的。然而,更大的計(jì)算資源導(dǎo)致新的架構(gòu)的涌入,導(dǎo)致基于深度學(xué)習(xí)[1]的NLP模型迅速崛起。2017年,突破性的Transformer[2]架構(gòu)通過(guò)注意力機(jī)制克服了LSTM的上下文限制。此外,它提供了更大的吞吐量,因?yàn)檩斎胧遣⑿刑幚淼?,沒(méi)有順序依賴(lài)關(guān)系。隨后在2018年推出的基于改進(jìn)的Transformer模型,如GPT-I[3]和BERT[4],成為了NLP世界的轉(zhuǎn)折點(diǎn)。這些架構(gòu)是在大型數(shù)據(jù)集上訓(xùn)練的,以創(chuàng)建預(yù)訓(xùn)練模型。

隨后,遷移學(xué)習(xí)被用于針對(duì)特定任務(wù)特征的微調(diào)這些模型,從而顯著提高了幾個(gè)NLP任務(wù)[5],[6],[7],[8],[9],[10]的性能。這些任務(wù)包括但不限于語(yǔ)言建模、情感分析、問(wèn)答和自然語(yǔ)言推理。這一成就未能實(shí)現(xiàn)遷移學(xué)習(xí)的主要目標(biāo),即用最小的微調(diào)樣本實(shí)現(xiàn)高模型精度。此外,模型性能需要跨多個(gè)數(shù)據(jù)集通用,而不是特定于任務(wù)或數(shù)據(jù)集的[11]、[12]、[13]。然而,由于越來(lái)越多的數(shù)據(jù)被用于訓(xùn)練前和微調(diào)目的,高泛化和遷移學(xué)習(xí)的目標(biāo)受到了影響。這使得是否應(yīng)該合并更多的訓(xùn)練數(shù)據(jù)或改進(jìn)的體系結(jié)構(gòu)來(lái)構(gòu)建更好的SOTA語(yǔ)言模型的決定變得模糊。例如,隨后的XLNet[14]體系結(jié)構(gòu)擁有新穎而復(fù)雜的語(yǔ)言建模,這比僅用XLNet數(shù)據(jù)的10% (113GB)進(jìn)行訓(xùn)練的簡(jiǎn)單BERT體系結(jié)構(gòu)提供了微小的改進(jìn)。之后,通過(guò)引入RoBERTa[15],一個(gè)大型的基于BERT的模型訓(xùn)練了比BERT (160GB)更多的數(shù)據(jù),表現(xiàn)優(yōu)于XLNet。因此,一個(gè)更一般化的體系結(jié)構(gòu),并在更大的數(shù)據(jù)上進(jìn)行進(jìn)一步訓(xùn)練,就會(huì)產(chǎn)生NLP基準(zhǔn)測(cè)試。

上述架構(gòu)主要是語(yǔ)言理解模型,其中自然方言被映射到正式解釋。這里的初始目標(biāo)是將輸入用戶(hù)的話(huà)語(yǔ)翻譯成傳統(tǒng)的短語(yǔ)表示。對(duì)于自然語(yǔ)言理解(NLU),上述模型的最終目標(biāo)的中間表示由下游任務(wù)決定。與此同時(shí),對(duì)于NLU模型中的特定任務(wù)角色來(lái)說(shuō),微調(diào)逐漸成為一種挑戰(zhàn),因?yàn)樗枰蟮臉颖救萘縼?lái)學(xué)習(xí)特定的任務(wù),這使得這種模型從泛化[16]中失去了。這引發(fā)了自然語(yǔ)言生成(NLG)模型的出現(xiàn),與NLU訓(xùn)練相反,它從相應(yīng)的被掩蓋或損壞的輸入語(yǔ)義中學(xué)習(xí)生成方言話(huà)語(yǔ)。這種模型與常規(guī)的粗略語(yǔ)言理解的下游方法不同,對(duì)于序列到序列的生成任務(wù)(如語(yǔ)言翻譯)是最優(yōu)的。T5[17]、BART[18]、mBART[19]、T-NLG[20]等模型在大量的損壞文本語(yǔ)料上進(jìn)行預(yù)訓(xùn)練,并通過(guò)去噪目標(biāo)[21]生成相應(yīng)的凈化文本。這種轉(zhuǎn)換很有用,因?yàn)镹LU任務(wù)的額外微調(diào)層對(duì)于NLG來(lái)說(shuō)并不需要。

這進(jìn)一步提高了預(yù)測(cè)能力,通過(guò)零或幾次射擊學(xué)習(xí)(one-shot learning),使序列生成與最小或沒(méi)有微調(diào)。例如,如果一個(gè)模型的語(yǔ)義嵌入空間預(yù)先訓(xùn)練了動(dòng)物識(shí)別“貓”、“獅子”和“黑猩猩”,它仍然可以正確預(yù)測(cè)“狗”,而無(wú)需微調(diào)。盡管NLG具有優(yōu)越的序列生成能力,但隨著GPT-III[22]的后續(xù)發(fā)布,NLG的模型規(guī)模呈指數(shù)級(jí)增長(zhǎng),這是GShard[23]發(fā)布之前最大的模型。由于NLU和NLG的超大型模型需要加載幾個(gè)gpu,這在大多數(shù)實(shí)際情況下變得昂貴和資源限制。此外,當(dāng)在GPU集群上訓(xùn)練幾天或幾周時(shí),這些巨大的模型需要耗費(fèi)大量的能量。為了減少計(jì)算成本[24],我們引入了基于知識(shí)蒸餾(KD)[25]的模型,如蒸餾BERT[26]、TinyBERT[27]、MobileBERT[28],并降低了推理成本和規(guī)模。

這些較小的學(xué)生模型(student model)利用較大的教師模型(teacher model,如:BERT)的歸納偏見(jiàn)來(lái)實(shí)現(xiàn)更快的培訓(xùn)時(shí)間。類(lèi)似地,剪枝和量化[29]技術(shù)在建立經(jīng)濟(jì)規(guī)模模型方面得到了廣泛的應(yīng)用。剪枝可以分為3類(lèi):權(quán)重剪枝、層剪枝和頭部剪枝,即將其中某些最小貢獻(xiàn)的權(quán)重、層和注意頭從模型中刪除。像剪枝一樣,訓(xùn)練感知的量化被執(zhí)行以實(shí)現(xiàn)不到32位的精度格式,從而減少模型的大小。為了獲得更高的性能,需要更多的學(xué)習(xí),這將導(dǎo)致更大的數(shù)據(jù)存儲(chǔ)和模型大小。

由于模型的龐大和隱性知識(shí)存儲(chǔ),其學(xué)習(xí)能力在有效獲取信息方面存在缺陷。當(dāng)前的知識(shí)檢索模型,如ORQA[30]、REALM[31]、RAG[32]、DPR[33],通過(guò)提供對(duì)可解釋模塊知識(shí)的外部訪問(wèn),試圖減輕語(yǔ)言模型的隱式存儲(chǔ)問(wèn)題。這是通過(guò)用“知識(shí)檢索器”來(lái)補(bǔ)充語(yǔ)言模型的預(yù)訓(xùn)練來(lái)實(shí)現(xiàn)的,它有助于模型從像維基百科這樣的大型語(yǔ)料庫(kù)中有效地檢索和參與明確的目標(biāo)文檔。此外,Transformer模型無(wú)法處理超出固定標(biāo)記范圍的輸入序列,這限制了它們從整體上理解大型文本主體。當(dāng)相關(guān)單詞的間隔大于輸入長(zhǎng)度時(shí),這一點(diǎn)尤其明顯。因此,為了增強(qiáng)對(duì)語(yǔ)境的理解,我們引入了Transformer-XL[34]、Longformer[35]、ETC[36]、Big Bird[37]等架構(gòu),并修改了注意機(jī)制,以處理更長(zhǎng)的序列。此外,由于對(duì)NLP模型的需求激增,以實(shí)現(xiàn)經(jīng)濟(jì)上的可行性和隨時(shí)可用的邊緣設(shè)備,創(chuàng)新的壓縮模型推出了基于通用技術(shù)。這些是前面描述的蒸餾、修剪和量化技術(shù)之外的技術(shù)。這些模型部署了廣泛的計(jì)算優(yōu)化程序,從散列[38]、稀疏注意[39]、因式嵌入參數(shù)化[40]、替換標(biāo)記檢測(cè)[41]、層間參數(shù)共享[42],或上述的組合。

II. 相關(guān)綜述/分類(lèi)我們提出了一種新的基于NLP的分類(lèi)法,從六個(gè)不同的角度對(duì)當(dāng)前的NLP模型進(jìn)行了獨(dú)特的分類(lèi):(一)NLU模型:NLU善于分類(lèi),結(jié)構(gòu)化預(yù)測(cè)或查詢(xún)生成任務(wù)。這是通過(guò)由下游任務(wù)驅(qū)動(dòng)的預(yù)培訓(xùn)和微調(diào)來(lái)完成的。(二)NLG模型:與NLU模型不同,NLG模型在順序生成任務(wù)中表現(xiàn)突出。他們通過(guò)少量的、一次性的學(xué)習(xí),從相應(yīng)的錯(cuò)誤話(huà)語(yǔ)中生成干凈的文本。(三)減少模型尺寸:采用KD、剪枝、量化等基于壓縮的技術(shù),使大型模型更經(jīng)濟(jì)實(shí)用。它對(duì)于在邊緣設(shè)備上操作的大型語(yǔ)言模型的實(shí)時(shí)部署很有用。(四)信息檢索(Information Retrieval, IR):上下文開(kāi)放域問(wèn)答(Contextual open domain question answer, QA)依賴(lài)于有效、高效的文檔檢索。因此,IR系統(tǒng)通過(guò)優(yōu)越的詞匯和語(yǔ)義提取物理來(lái)自大型文本語(yǔ)料庫(kù)的文檔在QA領(lǐng)域中創(chuàng)建SOTA,其性能優(yōu)于當(dāng)代語(yǔ)言模型。(五)長(zhǎng)序列模型:基于注意力的Transformers模型的計(jì)算復(fù)雜度與輸入長(zhǎng)度成二次關(guān)系,因此通常固定為512個(gè)tokens。這對(duì)于受益于較小輸入長(zhǎng)度[43]的共引用解析任務(wù)來(lái)說(shuō)是可以接受的,但是對(duì)于需要跨多個(gè)冗長(zhǎng)文檔(例如HotpotQA數(shù)據(jù)集[44])進(jìn)行推理的問(wèn)答(QA)任務(wù)來(lái)說(shuō)是不夠的。(六)有效率的計(jì)算架構(gòu):為了減少大型語(yǔ)言模型的高訓(xùn)練時(shí)間,我們構(gòu)建了精度與大型語(yǔ)言模型相當(dāng)?shù)膬?nèi)存效率架構(gòu)。

上述分類(lèi)是一種廣義分類(lèi),而不是硬分類(lèi),一些模型可以互換使用,可能有雙重目的,但有明確的劃分,盡管不具有普遍性。圖1描述了這種分類(lèi)法,給出了屬于不同類(lèi)別的重要模型及其發(fā)布年份的可視化分類(lèi)。

III.現(xiàn)代NLP體系結(jié)構(gòu)的雛形傳統(tǒng)的RNN編碼器-解碼器模型[45]由兩個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)組成,其中一個(gè)生成輸入序列的編碼版本,另一個(gè)生成其解碼版本到一個(gè)不同的序列。為了使輸入序列的目標(biāo)條件概率最大化,該模型與以下語(yǔ)言建模聯(lián)合訓(xùn)練:

89112632-ac05-11eb-9728-12bb97331649.png

通過(guò)在機(jī)器翻譯、序列到序列映射或文本摘要任務(wù)中實(shí)現(xiàn)相位對(duì)的條件概率,這種系統(tǒng)得到了優(yōu)于普通rnn、lstm[46]或gru[47]的結(jié)果。

在上述架構(gòu)(圖2)中,編碼器的最后一層 +1從其最終隱藏的 +1層向解碼器傳輸信息,該層包含了通過(guò)概率分布對(duì)之前所有單詞的整個(gè)上下文理解。所有單詞的組合抽象表示被輸入到解碼器,以計(jì)算所需的基于語(yǔ)言的任務(wù)。就像它的前一層一樣,最后一層是相應(yīng)的可學(xué)習(xí)參數(shù)為 +1和 +1在輸入和輸出分別在編碼器和 ‘ +1, ’ +1在解碼器。結(jié)合隱含狀態(tài)和偏差的權(quán)重矩陣,可以用數(shù)學(xué)表示為:

897c1848-ac05-11eb-9728-12bb97331649.png

此后,在2014-15年注意力[48],[49]的導(dǎo)入克服了RNN編碼器-解碼器的限制,即先前的輸入依賴(lài),使其難以推斷更長(zhǎng)的序列,并遭受消失和爆炸梯度[50]。注意機(jī)制通過(guò)最后一個(gè)Encoder節(jié)點(diǎn)禁用整個(gè)輸入上下文來(lái)消除RNN依賴(lài)關(guān)系。它單獨(dú)權(quán)衡提供給解碼器的所有輸入,以創(chuàng)建目標(biāo)序列。這導(dǎo)致了更大的上下文理解,也導(dǎo)致更好的預(yù)測(cè)目標(biāo)序列的生成。首先,對(duì)齊決定了 th輸入和 th輸出之間的匹配程度,可以將其確定為

89abd470-ac05-11eb-9728-12bb97331649.png

更準(zhǔn)確地說(shuō),對(duì)齊得分以所有編碼器輸出狀態(tài)和之前解碼的隱藏狀態(tài)為輸入,表示為:

89bac0b6-ac05-11eb-9728-12bb97331649.png解碼器的隱藏狀態(tài)和編碼器輸出通過(guò)它們各自的線(xiàn)性層及其可訓(xùn)練權(quán)值傳遞。每個(gè)編碼的隱藏表示h 的權(quán)重 計(jì)算為

89c6f3a4-ac05-11eb-9728-12bb97331649.png

這一注意機(jī)制中產(chǎn)生的上下文向量由以下因素決定:

89d50bd8-ac05-11eb-9728-12bb97331649.png

注意機(jī)制本質(zhì)上是根據(jù)不同位置的對(duì)齊分?jǐn)?shù)計(jì)算出上下文向量的生成,如圖3所示。Luong的注意機(jī)制在對(duì)齊得分計(jì)算方面與上述的Bahdanau不同。它同時(shí)使用全局和局部注意,其中全局注意使用所有編碼器輸出狀態(tài),而局部注意關(guān)注單詞的一個(gè)小子集。這有助于實(shí)現(xiàn)較長(zhǎng)的序列的高級(jí)翻譯。這些注意力設(shè)計(jì)導(dǎo)致了現(xiàn)代Transformer架構(gòu)的開(kāi)發(fā),該架構(gòu)使用了一種增強(qiáng)的注意力機(jī)制,如下一節(jié)所述。

IV.NLU架構(gòu)NLU的神經(jīng)語(yǔ)言表征傳輸方法表明,與從頭學(xué)習(xí)[51],[52]相比,預(yù)訓(xùn)練的嵌入可以改善下游任務(wù)的結(jié)果。隨后的研究工作加強(qiáng)了學(xué)習(xí),以捕獲上下文化的單詞表示,并將它們轉(zhuǎn)移到神經(jīng)模型[53],[54]。最近的努力不僅限于[55]、[56]和[57],通過(guò)為下游任務(wù)添加端到端語(yǔ)言模型微調(diào),以及提取上下文單詞表示,進(jìn)一步構(gòu)建了這些思想。這種工程進(jìn)展,加上大量計(jì)算的可用性,使得NLU的最先進(jìn)的方法從轉(zhuǎn)移詞嵌入到轉(zhuǎn)移整個(gè)數(shù)十億參數(shù)語(yǔ)言模型,在NLP任務(wù)中取得了前所未有的成果?,F(xiàn)代NLU模型利用Transformer進(jìn)行建模任務(wù),并根據(jù)需求專(zhuān)門(mén)使用基于編碼器或解碼器的方法。這樣的模型將在下一節(jié)中進(jìn)行生動(dòng)的解釋。

IV-A TRANSFORMERSIV-A.1. The Architecture最初的Transformer是一個(gè)6層的編碼器-解碼器模型,它通過(guò)編碼器從源序列中通過(guò)解碼器生成目標(biāo)序列。編碼器和解碼器在較高的層次上由自注意層和前饋層組成。在Decoder中,中間的額外關(guān)注層使其能夠?qū)⑾嚓P(guān)標(biāo)記映射到Encoder,以實(shí)現(xiàn)轉(zhuǎn)換目的。“自我注意”可以在不同的位置查找剩余的輸入單詞,以確定當(dāng)前處理的單詞的相關(guān)性。這是為所有輸入的單詞執(zhí)行的,這有助于實(shí)現(xiàn)一個(gè)高級(jí)編碼和上下文理解所有單詞。在RNN和LSTM的順序數(shù)據(jù)中,輸入標(biāo)記被即時(shí)輸入,并通過(guò)編碼器同時(shí)生成相應(yīng)的嵌入,構(gòu)建了Transformer架構(gòu)來(lái)引入并行性。這種嵌入將一個(gè)單詞(標(biāo)記)映射到一個(gè)可以實(shí)時(shí)預(yù)訓(xùn)練的向量,或者為了節(jié)省時(shí)間,實(shí)現(xiàn)了一個(gè)類(lèi)似GloVe的預(yù)訓(xùn)練嵌入空間。但是,不同序列中的類(lèi)似標(biāo)記可能有不同的解釋?zhuān)@些解釋通過(guò)一個(gè)位置編碼器來(lái)解決,該編碼器生成關(guān)于其位置的基于上下文的單詞信息。然后,將增強(qiáng)的上下文表示反饋給注意層,注意層通過(guò)生成注意向量來(lái)進(jìn)一步語(yǔ)境化,注意向量決定了 h單詞在一個(gè)與其他單詞相關(guān)的序列中的相關(guān)性。然后這些注意向量被輸入前饋神經(jīng)網(wǎng)絡(luò),在那里它們被轉(zhuǎn)換成更容易理解的形式,用于下一個(gè)“編碼器”或解碼器的“編碼器-解碼器注意”塊。后者與編碼器輸出和解碼器輸入嵌入,執(zhí)行注意兩者之間。當(dāng)解碼器在源和目標(biāo)映射之間建立實(shí)際的向量表示時(shí),這將確定Transformer的輸入標(biāo)記與其目標(biāo)標(biāo)記的相關(guān)性。解碼器通過(guò)softmax預(yù)測(cè)下一個(gè)單詞,softmax在多個(gè)時(shí)間步長(zhǎng)內(nèi)執(zhí)行,直到生成句子標(biāo)記的末尾。在每個(gè)Transformer層,有剩余連接,然后進(jìn)行層歸一化[58]步,以加快反向傳播過(guò)程中的訓(xùn)練。圖4展示了所有Transformer體系結(jié)構(gòu)的細(xì)節(jié)。

IV-A.2. Queries, Keys, and ValuesTransformer的注意機(jī)制的輸入是目標(biāo)tokens查詢(xún)向量 ,其對(duì)應(yīng)的源tokens密鑰向量 和值 ,它們都是嵌入矩陣。在機(jī)器翻譯中,源標(biāo)記和目標(biāo)標(biāo)記的映射可以通過(guò)內(nèi)點(diǎn)積來(lái)量化每個(gè)標(biāo)記在序列中的相似程度。因此,要實(shí)現(xiàn)準(zhǔn)確的翻譯,關(guān)鍵字應(yīng)與其對(duì)應(yīng)的查詢(xún),通過(guò)兩者之間的高點(diǎn)積值。假設(shè) ?{ , }和 ?{ , },其中 , 表示目標(biāo)長(zhǎng)度和源長(zhǎng)度, 表示單詞嵌入維度。Softmax的實(shí)現(xiàn)是為了實(shí)現(xiàn)一個(gè)概率分布,其中所有查詢(xún),密鑰相似點(diǎn)加起來(lái)為一個(gè),并使注意力更集中于最佳匹配的密鑰。

8a048bba-ac05-11eb-9728-12bb97331649.png

查詢(xún)?yōu)殒I分配匹配的概率,值通常與鍵相似,因此

8a0e8368-ac05-11eb-9728-12bb97331649.png

IV-A.3. Multi-Headed Attention (MHA) and MaskingMHA通過(guò)多次并行實(shí)現(xiàn)注意力,增強(qiáng)了模型強(qiáng)調(diào)序列不同標(biāo)記位置的能力。由此產(chǎn)生的個(gè)人注意輸出或頭部通過(guò)一個(gè)線(xiàn)性層連接和轉(zhuǎn)換到預(yù)期的維度。每個(gè)頭部都可以從不同的角度參與序列部分,為每個(gè)標(biāo)記提供類(lèi)似的表示形式。這是執(zhí)行,因?yàn)槊總€(gè)標(biāo)記的自我注意向量可能權(quán)衡它所代表的詞比其他由于高的結(jié)果點(diǎn)積。這是沒(méi)有效率的,因?yàn)槟繕?biāo)是實(shí)現(xiàn)與所有tokens進(jìn)行類(lèi)似的評(píng)估交互。因此,計(jì)算8次不同的自我注意,得到8次單獨(dú)的注意用于計(jì)算最終結(jié)果的每個(gè)標(biāo)記的向量注意向量通過(guò)所有8個(gè)向量的加權(quán)和tokens。由此產(chǎn)生的多重注意力載體是并行計(jì)算,饋給前饋層。每個(gè)后續(xù)目標(biāo)tokens 都使用 +1生成編碼器中的許多源標(biāo)記( 0,。。., + )。然而,在自回歸解碼器中,只有前一個(gè)時(shí)間步進(jìn)考慮目標(biāo)tokens( 0,。 。, t),為未來(lái)目標(biāo)0 預(yù)測(cè)的目的被稱(chēng)為因果掩蔽。提供此功能是為了最大限度地學(xué)習(xí)隨后轉(zhuǎn)換的目標(biāo)標(biāo)記。因此,在通過(guò)矩陣運(yùn)算進(jìn)行并行化的過(guò)程中,保證了后續(xù)的目標(biāo)詞被屏蔽為零,從而使注意網(wǎng)絡(luò)無(wú)法預(yù)見(jiàn)未來(lái)。上面描述的Transformer導(dǎo)致了NLP領(lǐng)域的顯著改進(jìn)。這導(dǎo)致了我們將在后續(xù)部分中描述的大量高性能體系結(jié)構(gòu)。

IV-B EMBEDDINGS FROM LANGUAGE MODELS: ELMoELMo[59]的目標(biāo)是生成一個(gè)深度上下文的單詞表示,可以建模(i)單詞復(fù)雜的句法和語(yǔ)義特征(ii)一詞多義或詞匯歧義,發(fā)音相似的單詞在不同的上下文或位置可能有不同的含義。這些增強(qiáng)帶來(lái)了上下文豐富的單詞嵌入,這在以前的SOTA模型(如GloVe)中是不可用的。與使用預(yù)先確定的嵌入的模型不同,ELMo考慮所有 個(gè)tokens的出現(xiàn)( 1, 2,。 。 )為每個(gè)token 在創(chuàng)建嵌入之前的整個(gè)序列。作者假設(shè)該模型可以通過(guò)任務(wù)特定的雙向LSTM提取其體系結(jié)構(gòu)頂層的抽象語(yǔ)言屬性。這可以通過(guò)組合正向和反向語(yǔ)言模型實(shí)現(xiàn)。在時(shí)間步 ?1時(shí),前向語(yǔ)言模型根據(jù)(13)所示的輸入序列的前一個(gè)觀察到的標(biāo)記,預(yù)測(cè)下一個(gè)標(biāo)記 _ 。同樣,在(14)中,倒序后向語(yǔ)言模型在給定未來(lái)標(biāo)記的情況下預(yù)測(cè)之前的標(biāo)記。

8a1b2d48-ac05-11eb-9728-12bb97331649.png

這是通過(guò)最終LSTM層之上的softmax進(jìn)一步實(shí)現(xiàn)的,如圖5所示。

ELMo對(duì)每個(gè)令符表示 _ 在LSTM模型的每一層 上計(jì)算其中間雙向向量表示h_ , 為:

8a35fb1e-ac05-11eb-9728-12bb97331649.png

數(shù)學(xué)上h^{ }_{k,o}= _k將是最低級(jí)別的標(biāo)記表示,可以概括為:

8a3fd5ee-ac05-11eb-9728-12bb97331649.png

ELMo通過(guò)softmax ^{ }_{j}學(xué)習(xí)關(guān)于L層的歸一化權(quán)重層表示。這就產(chǎn)生了一個(gè)特定于任務(wù)的超參數(shù) ^ ,它支持任務(wù)的可伸縮性?xún)?yōu)化。因此,對(duì)于一個(gè)特定的任務(wù),不同層中的單詞表示差異表示為:

8a4bab08-ac05-11eb-9728-12bb97331649.png

IV-B GENERATIVE PRE-TRAINING MODEL: GPT-I在第一階段,通過(guò)無(wú)監(jiān)督學(xué)習(xí),基于解碼器的GPT-I在一個(gè)大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。這促進(jìn)了原始數(shù)據(jù)計(jì)算,消除了監(jiān)督學(xué)習(xí)的數(shù)據(jù)標(biāo)注瓶頸。第二階段在具有邊際輸入變化的相當(dāng)小的監(jiān)督數(shù)據(jù)集上執(zhí)行任務(wù)特定的微調(diào)。結(jié)果表明,與ELMo、ULMFiT[60]等SOTA模型相比,該模型在更復(fù)雜的任務(wù)(如常識(shí)推理、語(yǔ)義相似性和閱讀理解)中表現(xiàn)出更強(qiáng)的性能。GPT-I的預(yù)訓(xùn)練可以被建模為一個(gè)無(wú)監(jiān)督標(biāo)記的最大化函數(shù){ ,…, }。

8a57f7f0-ac05-11eb-9728-12bb97331649.png

其中 為上下文窗口大小,條件概率通過(guò) 參數(shù)化。利用多頭注意和前饋層,通過(guò)softmax生成了基于目標(biāo)標(biāo)記的概率分布。

8a64967c-ac05-11eb-9728-12bb97331649.png

這里( = ? ,。 。, ?1)為上下文標(biāo)記向量集, 為層數(shù), 和 分別為標(biāo)記和位置嵌入矩陣。訓(xùn)練后,對(duì)監(jiān)督結(jié)束任務(wù)進(jìn)行參數(shù)調(diào)整。這里輸入序列( ^1,。 。, ^ ),將標(biāo)記數(shù)據(jù)集 輸入到先前的預(yù)訓(xùn)練模型,以獲得Transformer塊最終激活h^{ }_{l},輸入到參數(shù)化( _y)線(xiàn)性輸出層進(jìn)行預(yù)測(cè) 。另外,目標(biāo) 2( )是最大化如下

8d8fb89a-ac05-11eb-9728-12bb97331649.png

在微調(diào)過(guò)程中結(jié)合二級(jí)語(yǔ)言建模目標(biāo),通過(guò)更好地泛化監(jiān)督模型來(lái)增強(qiáng)學(xué)習(xí),并加速收斂:

8dda55d0-ac05-11eb-9728-12bb97331649.png

GPT執(zhí)行分類(lèi)、蘊(yùn)涵、相似度指數(shù)、選擇題(MCQ)等任務(wù),如圖6所示。提取階段從文本主體中提取特征,然后在文本預(yù)處理過(guò)程中通過(guò)‘ Delimiter ’標(biāo)記將文本分離。分類(lèi)任務(wù)不需要這個(gè)tokens,因?yàn)樗恍枰獪y(cè)量多個(gè)序列之間的關(guān)系。此外,問(wèn)答或文本蘊(yùn)涵任務(wù)涉及定義輸入,如文檔中的有序句子對(duì)或三聯(lián)體。對(duì)于MCQ任務(wù),需要在輸入時(shí)更改上下文以獲得正確的結(jié)果。這是通過(guò)基于Transformer的Decoder訓(xùn)練目標(biāo)來(lái)實(shí)現(xiàn)的,其中輸入轉(zhuǎn)換針對(duì)各自的答案進(jìn)行了微調(diào)。

IV-C BIDIRECTIONAL ENCODER REPRESENTATIONS FROM TRANSFORMER: BERTBERT是一組預(yù)訓(xùn)練的Transformer編碼器克服了先前模型的限制性表達(dá),如:GPT缺乏雙向語(yǔ)境和ELMo的淺薄雙重上下文的連接。BERT的更深層次的模型提供具有多個(gè)上下文的tokens層和雙向模型提供了更豐富的學(xué)習(xí)環(huán)境。然而,雙向性引起了人們的關(guān)注,認(rèn)為tokens可以隱式地預(yù)見(jiàn)未來(lái)的tokens在訓(xùn)練期間,從而導(dǎo)致最少的學(xué)習(xí)和導(dǎo)致瑣碎預(yù)測(cè)。為了有效地訓(xùn)練這樣一個(gè)模型,BERT實(shí)現(xiàn)掩碼語(yǔ)言建模(MLM)每個(gè)輸入序列中隨機(jī)輸入標(biāo)記的15%。這種掩碼詞的預(yù)測(cè)是新要求不一樣的在單向LM中重建整個(gè)輸出序列。BERT在訓(xùn)練前的掩碼,因此[MASK]標(biāo)記在微調(diào)期間不顯示,從而產(chǎn)生不匹配的“masked”tokens不會(huì)被替換。為了克服這個(gè)差異,精細(xì)的建模修改被執(zhí)行在訓(xùn)練前階段。如果一個(gè)token _i 被選擇為掩碼,那么80%的情況下它會(huì)被[MASK]替換token,10%的情況下選擇一個(gè)隨機(jī)token,剩下的10%沒(méi)有改變。此后 _i的交叉熵?fù)p失會(huì)預(yù)測(cè)原始的tokens,使用不變的token步長(zhǎng)來(lái)保持對(duì)正確預(yù)測(cè)的偏差。這種方法為T(mén)ransformer編碼器創(chuàng)造了一種隨機(jī)和不斷學(xué)習(xí)的狀態(tài),它必須維護(hù)每個(gè)token的分布式上下文表示。此外,由于隨機(jī)替換僅占所有tokens的1.5%(15%中的10%),這似乎不會(huì)損害語(yǔ)言模型的理解能力。語(yǔ)言建模不能明確地理解多個(gè)序列之間的關(guān)聯(lián);因此,它被認(rèn)為是推理和問(wèn)答任務(wù)的次優(yōu)選擇。為了克服這一問(wèn)題,我們使用單語(yǔ)語(yǔ)料庫(kù)對(duì)BERT進(jìn)行了預(yù)訓(xùn)練,以完成二值化的下一句預(yù)測(cè)(NSP)任務(wù)。如圖7所示,句子 (He came [MASK] from home)和 (Earth [MASK] around Sun)沒(méi)有形成任何連續(xù)性或關(guān)系。由于 不是 后面實(shí)際的下一個(gè)句子,輸出分類(lèi)標(biāo)簽[NotNext]將被激活,而[IsNext]將在序列一致時(shí)被激活。

IV-D GENERALIZED AUTOREGRESSIVE PRETRAINING FOR LANGUAGE UNDERSTANDING: XLNeTXLNet在這兩個(gè)方面都取得了最好的效果,它保留了自回歸(AR)建模和雙向上下文捕獲的優(yōu)點(diǎn)。為了更好地理解XLNet為什么優(yōu)于BERT,請(qǐng)考慮5-tokens的序列(San, Francisco, is, a, city)。這兩個(gè)標(biāo)記選擇預(yù)測(cè)(圣弗朗西斯科),因此BERT和XLNet最大化 ( | )如下:

8df3731c-ac05-11eb-9728-12bb97331649.png

對(duì)于目標(biāo)( )和非目標(biāo)標(biāo)記集( ),以上可進(jìn)一步一般化,BERT和XLNet將最大化日志 ( | ),并具有以下不同的可解釋性:

8e29d60a-ac05-11eb-9728-12bb97331649.png

XLNet考慮用于預(yù)測(cè)的目標(biāo)標(biāo)記和其余標(biāo)記,而B(niǎo)ERT只考慮非目標(biāo)標(biāo)記。因此,XLNet捕獲對(duì)間依賴(lài)[San, Francisco],這與BERT不同,在BERT中[San]或[Francisco]都會(huì)導(dǎo)致正確的預(yù)測(cè)。此外,通過(guò)AR XLNet對(duì)所有可能的tokens排列執(zhí)行因式排序( ?。? 5)的序列長(zhǎng)度 設(shè)置即{(1、2、3、4、5),(1、2、5、4、3 ],。 。 。, [ 5、4、3、2、1]}?[,城市,圣弗朗西斯科)等。

8e34d35c-ac05-11eb-9728-12bb97331649.png

其中set _ 包含所有長(zhǎng)度的置換序列 [1,2,。 。, ], _ 是引用標(biāo)記。因此,目標(biāo)學(xué)習(xí)從無(wú)數(shù)的組合獲得更豐富更符合實(shí)際的學(xué)習(xí)。此外,對(duì)于所有可置換的因子分解順序,模型參數(shù)被共享,以從所有因子中構(gòu)建知識(shí)和雙向上下文,如公式27所示。

IV-D.1. Masking由于不考慮決定自回歸的標(biāo)記( _ ),因此很難確定序列中的詞序。這個(gè)詞序部分是通過(guò)位置編碼實(shí)現(xiàn)的,但是為了上下文理解XLNet使用了屏蔽??紤]一個(gè)在3-token序列中生成的排列[2,1,3],其中第一個(gè)token(即,2)沒(méi)有上下文,因此所有屏蔽結(jié)果都在3×3屏蔽矩陣的第二行[0,0,0]中。類(lèi)似地,第2和第3個(gè)掩碼將導(dǎo)致查詢(xún)流(QS)掩碼矩陣的第1行和第3行中[0,1,0]和[1,1,0],tokens不能看到自己。帶有一個(gè)對(duì)角包含的QS矩陣構(gòu)成了內(nèi)容流(CS)屏蔽矩陣,每個(gè)標(biāo)記都可以看到自己。這個(gè)3-token序列屏蔽如下面的圖8所示。

8e3d5888-ac05-11eb-9728-12bb97331649.jpg

第一個(gè)引用‘ 2 ’沒(méi)有上下文,它是從對(duì)應(yīng)的‘mem塊’中收集的,這是一個(gè)基于transformer-xl的擴(kuò)展緩存內(nèi)存訪問(wèn)。此后,它從tokens‘ 3 ’和‘ 1 ’,‘ 3 ’接收上下文,用于后續(xù)排序。

IV-D.2. Model Architecture圖9展示了模型的雙流注意框架,它由內(nèi)容和查詢(xún)流注意過(guò)程組成,通過(guò)上下文實(shí)現(xiàn)更好的理解。這個(gè)過(guò)程是通過(guò)目標(biāo)感知的表示開(kāi)始的,其中目標(biāo)位置被烘烤到輸入中,用于后續(xù)的tokens生成目的。

(i)目標(biāo)感知表示:一種普通的實(shí)現(xiàn)基于參數(shù)化的Transformer是不夠的復(fù)雜的基于排列的語(yǔ)言建模。這是因?yàn)橄乱粋€(gè)記號(hào)分布 ( ∣ )是 《 獨(dú)立于目標(biāo)位置,即 。隨后,產(chǎn)生冗余分布,無(wú)法發(fā)現(xiàn)有效表示,因此,我們提出了下一個(gè)tokens分布的目標(biāo)位置感知重參數(shù)化方法:

8e5a1f22-ac05-11eb-9728-12bb97331649.png

其中 (x 《 , )是一個(gè)修改過(guò)的表示,它另外將目標(biāo)位置 視為輸入。(ii)two stream自我注意:盡管有上述解決方案,但 的表述仍然是一個(gè)挑戰(zhàn),因?yàn)槟繕?biāo)是依靠目標(biāo)位置 通過(guò)注意來(lái)收集語(yǔ)境信息 《 ,因此:預(yù)測(cè)其他token _ ,其中 》 , 應(yīng)該編碼上下文 _ 提供完整的語(yǔ)境理解。為了進(jìn)一步解決上述沖突,作者提出了以下兩組隱含表示:1)該隱藏內(nèi)容表示h ( 《 )?h that對(duì)上下文和內(nèi)容進(jìn)行編碼2)查詢(xún)表示 ( 《 , )? 哪個(gè)單獨(dú)訪問(wèn)上下文信息 《 和位置 ,沒(méi)有內(nèi)容以上兩個(gè)注意課程對(duì)每個(gè)自我注意層進(jìn)行參數(shù)化共享和更新 為:

8e64d0d4-ac05-11eb-9728-12bb97331649.png

這種雙重關(guān)注如圖9所示。為簡(jiǎn)單起見(jiàn),考慮不允許從上一層訪問(wèn)其對(duì)應(yīng)嵌入的tokens 的預(yù)測(cè)。然而,為了預(yù)測(cè) +1,tokens 需要訪問(wèn)其嵌入,并且這兩個(gè)操作必須在一次傳遞中發(fā)生。因此,實(shí)現(xiàn)了兩個(gè)隱藏表示,其中h_ ( )通過(guò)令幣嵌入初始化, _ ( )通過(guò)加權(quán)轉(zhuǎn)換初始化。由上式h( )可以訪問(wèn)包括當(dāng)前位置在內(nèi)的歷史,而gzt(m)只能訪問(wèn)以前的hzt(m)位置。tokens預(yù)測(cè)通過(guò) ( )發(fā)生在最后一層。為了進(jìn)行更大的序列長(zhǎng)度處理,內(nèi)存塊來(lái)自Transformer-xl,它可以處理比標(biāo)準(zhǔn)Transformer輸入序列長(zhǎng)度更長(zhǎng)的數(shù)據(jù)。上面提到的隱藏表示也存儲(chǔ)在內(nèi)存塊中。

IV-E A Robustly Optimized BERT Pretraining Approach: RoBERTa這篇論文聲稱(chēng),BERT是相當(dāng)缺乏訓(xùn)練,因此,RoBERTa入了一個(gè)更大的訓(xùn)練密集制度。這是為基于bert的模型,可以匹配或超過(guò)以前的方法。他們的改進(jìn)包括:(i)更長(zhǎng)的訓(xùn)練時(shí)間和更大的數(shù)據(jù)和批量(ii)消除BERT的NSP目標(biāo)(iii)更長(zhǎng)的序列訓(xùn)練(iv)動(dòng)態(tài)修改的訓(xùn)練數(shù)據(jù)掩蔽模式。作者聲稱(chēng),對(duì)于更多樣化和更大量的CC-News數(shù)據(jù)集,下游任務(wù)的性能優(yōu)于BERT。此外,BERT實(shí)現(xiàn)了一個(gè)低效的靜態(tài)屏蔽實(shí)現(xiàn),以避免冗余屏蔽。例如,在40個(gè)訓(xùn)練時(shí)期,一個(gè)序列以10種不同的方式被掩蔽,訓(xùn)練數(shù)據(jù)重復(fù)10次,每個(gè)訓(xùn)練序列用相同的掩蔽被看到4次。RoBERTa通過(guò)合并動(dòng)態(tài)掩蔽提供了略微增強(qiáng)的結(jié)果,在預(yù)訓(xùn)練更大的數(shù)據(jù)集時(shí),每次給模型輸入一個(gè)序列時(shí)都會(huì)生成一個(gè)掩蔽模式。最近的研究質(zhì)疑BERT的NSP[61]角色,該角色被推測(cè)在語(yǔ)言推理和問(wèn)答任務(wù)中發(fā)揮關(guān)鍵作用。RoBERTa合并了這兩種假設(shè),并提供了許多類(lèi)似BERT的補(bǔ)充訓(xùn)練格式,并且在不考慮NSP損失的完整句子訓(xùn)練中表現(xiàn)優(yōu)于BERT。在GLUE基準(zhǔn)測(cè)試以及RACE和SQUAD數(shù)據(jù)集上,RoBERTa提供的結(jié)果與BERT類(lèi)似,但稍好于BERT,而無(wú)需對(duì)多個(gè)任務(wù)進(jìn)行微調(diào)。

IV-E MEGATRON LANGUAGE MODEL (LM)Megatron在發(fā)布時(shí)是最大的模型,尺寸為24 × BERT和5.6 × GPT-2,不適合單獨(dú)的GPU。因此,關(guān)鍵的工程實(shí)現(xiàn)是歸納其8和64路模型,以及參數(shù)在(~512)gpu上拆分的數(shù)據(jù)并行版本。它保持了高性能(15.1千萬(wàn)億次)和可伸縮效率(76%),而B(niǎo)ERT則導(dǎo)致性能隨尺寸增長(zhǎng)而下降。這一壯舉主要?dú)w功于層的規(guī)范化和Transformer層內(nèi)剩余連接的重新排序。這導(dǎo)致在增加模型規(guī)模的下游任務(wù)上單調(diào)地優(yōu)越性能。Megatron通過(guò)將模型拆分到幾個(gè)加速器上,克服了先前模型的內(nèi)存限制。這不僅解決了內(nèi)存使用問(wèn)題,而且增強(qiáng)了模型的并行性,與批處理大小無(wú)關(guān)。

它將分布式張量計(jì)算集成到涌流模型的大小或加速度中,并將注意頭計(jì)算并行化。這不需要新的編譯器或重寫(xiě)代碼,并且可以通過(guò)一些參數(shù)實(shí)現(xiàn)。首先,多層感知器(Multi-Layer Perceptron, MLP)塊在兩列中并行劃分GEMM,使GeLU非線(xiàn)性獨(dú)立應(yīng)用于每個(gè)劃分的GEMM。這個(gè)GeLU輸出被直接發(fā)送到行并行化的GEMM, GEMM的輸出在傳遞到dropout層之前通過(guò)一個(gè)前進(jìn)和后退的all-reduce算子(g和f)來(lái)減少。自我關(guān)注塊中的并行性是通過(guò)按列為每個(gè)鍵、查詢(xún)和值集劃分GEMMs來(lái)實(shí)現(xiàn)的。因此,由于每個(gè)注意力頭在單個(gè)GPU上執(zhí)行矩陣乘法,工作負(fù)載被分散到所有GPU上。生成的GEMM輸出,像MLP一樣,經(jīng)過(guò)了全reduce操作,并跨行并行化,如圖10所示。這種技術(shù)消除了MLP和注意塊gem之間的同步需求。

V. NLG ARCHITECTURES在NLU模型中,學(xué)習(xí)大量經(jīng)過(guò)訓(xùn)練的“微調(diào)”任務(wù)所需要的大量數(shù)據(jù)計(jì)算在參數(shù)上是低效的,因?yàn)槊總€(gè)任務(wù)都需要一個(gè)全新的模型。這些模型可以作為狹隘的專(zhuān)家而不是精通的多面手的例證。因此,NLG模型提供了一個(gè)向構(gòu)建通用系統(tǒng)的過(guò)渡,它可以完成幾個(gè)任務(wù),而不必為每個(gè)任務(wù)手動(dòng)創(chuàng)建和標(biāo)記一個(gè)訓(xùn)練數(shù)據(jù)集。此外,NLU模型中的傳銷(xiāo)不能捕獲多個(gè)序列之間的豐富關(guān)系。此外,最有效的NLU模型從傳銷(xiāo)模型變體中派生出其方法,傳銷(xiāo)模型變體是經(jīng)過(guò)文本重構(gòu)訓(xùn)練的去噪自動(dòng)編碼器,其中單詞的隨機(jī)子集被屏蔽掉。因此,在過(guò)去的幾年中,NLG模型在文本翻譯和摘要、問(wèn)答、NLI、會(huì)話(huà)參與、圖片描述等方面取得了巨大的進(jìn)展,其準(zhǔn)確性達(dá)到了前所未有的水平。

V-A LANGUAGE MODELS ARE UNSUPERVISED MULTI- TASK LEARNERS: GPT-IIGPT-II[62]可能是隨著NLG模型的興起而出現(xiàn)的第一個(gè)模型。它在無(wú)監(jiān)督的情況下接受訓(xùn)練,能夠?qū)W習(xí)包括機(jī)器翻譯、閱讀理解和摘要在內(nèi)的復(fù)雜任務(wù),而無(wú)需進(jìn)行明確的微調(diào)。其數(shù)據(jù)集對(duì)應(yīng)的任務(wù)特異性訓(xùn)練是當(dāng)前模型泛化不足的核心原因。因此,健壯的模型可能需要各種任務(wù)領(lǐng)域的培訓(xùn)和績(jī)效衡量標(biāo)準(zhǔn)。GPT-II集成了一個(gè)通用的概率模型,在該模型中可以執(zhí)行與 ( | , )相同的輸入的多個(gè)任務(wù)。隨著模型規(guī)模的擴(kuò)大,訓(xùn)練和測(cè)試集的性能得到了提高,結(jié)果,它在巨大的WebText數(shù)據(jù)集上得到了匹配。在前面提到的零射擊環(huán)境下的任務(wù)中,具有15億個(gè)參數(shù)的GPT-2在大多數(shù)數(shù)據(jù)集上都優(yōu)于它的前輩。它是GPT-I解碼器體系結(jié)構(gòu)的擴(kuò)展,訓(xùn)練了更大的數(shù)據(jù)。

V-B BIDIRECTIONAL AND AUTOREGRESSIVE TRANSFORMERS: BART去噪自動(dòng)編碼器BART是一個(gè)序列到序列[63]模型,它包含兩個(gè)階段的預(yù)處理訓(xùn)練:(1)通過(guò)隨機(jī)噪聲函數(shù)破壞原始文本,(2)通過(guò)訓(xùn)練模型重建文本。噪聲的靈活性是該模型的主要好處,其中不限于對(duì)原始文本的長(zhǎng)度更改的隨機(jī)轉(zhuǎn)換應(yīng)用。兩個(gè)這樣的噪聲變化是原始句子的隨機(jī)順序重組和填充方案,其中任何長(zhǎng)度的文本被隨機(jī)替換為一個(gè)mask標(biāo)記。BART部署了所有可能的文檔損壞方案,如圖11所示,其中最嚴(yán)重的情況是所有源信息丟失,BART的行為就像一個(gè)語(yǔ)言模型。

這迫使模型在整個(gè)序列長(zhǎng)度上開(kāi)發(fā)更大的推理,從而實(shí)現(xiàn)更大的輸入轉(zhuǎn)換,從而得到比BERT更好的泛化。BART是通過(guò)優(yōu)化被破壞的輸入文檔上的重構(gòu)損失來(lái)進(jìn)行預(yù)訓(xùn)練的,即解碼器的輸出和原始文檔之間的交叉熵。對(duì)于機(jī)器翻譯任務(wù),BART的編碼器嵌入層被替換為一個(gè)任意初始化的編碼器,該編碼器使用預(yù)先訓(xùn)練的模型進(jìn)行端到端訓(xùn)練,如圖12所示。這個(gè)編碼器將它的外語(yǔ)詞匯映射到BART的輸入,然后去噪到它的目標(biāo)語(yǔ)言英語(yǔ)。源編碼器的訓(xùn)練分為兩個(gè)階段,這兩個(gè)階段共享BART輸出的交叉熵?fù)p失的反向傳播。首先,對(duì)大部分BART參數(shù)進(jìn)行凍結(jié),僅對(duì)任意初始化的編碼器、BART的位置嵌入以及編碼器的自注意輸入投影矩陣進(jìn)行更新;其次,對(duì)所有模型參數(shù)進(jìn)行聯(lián)合訓(xùn)練,迭代次數(shù)較少;BART在幾個(gè)文本生成任務(wù)上取得了最先進(jìn)的性能,為NLG模型的進(jìn)一步探索提供了動(dòng)力。與RoBERTa相比,它在區(qū)分性任務(wù)上取得了比較結(jié)果。

V-C MULTILINGUAL DENOISING PRE-TRAINING FOR NEURAL MACHINE TRANSLATION: mBART

V-C.1. Supervised Machine TranslationmBART表明,通過(guò)自回歸預(yù)處理訓(xùn)練BART,通過(guò)從公共爬行(CC-25)語(yǔ)料庫(kù)中對(duì)25種語(yǔ)言的去噪目標(biāo)進(jìn)行序列重構(gòu),與之前的技術(shù)相比,取得了相當(dāng)大的性能增益[64]。mBART的參數(shù)微調(diào)可以是有監(jiān)督的,也可以是無(wú)監(jiān)督的,適用于任何沒(méi)有特定任務(wù)修改的語(yǔ)言對(duì)。例如,對(duì)語(yǔ)言對(duì)進(jìn)行微調(diào),即(德語(yǔ)-英語(yǔ)),使模型能夠從單語(yǔ)訓(xùn)練前集中的任何語(yǔ)言,即(法語(yǔ)-英語(yǔ))進(jìn)行翻譯,而無(wú)需進(jìn)一步訓(xùn)練。由于每種語(yǔ)言都包含具有顯著數(shù)字變化的標(biāo)記,語(yǔ)料庫(kù)通過(guò)對(duì)每種語(yǔ)言 進(jìn)行文本上/下采樣,其比例為 來(lái)進(jìn)行平衡

8f7c79a4-ac05-11eb-9728-12bb97331649.png

其中 是數(shù)據(jù)集中每一種語(yǔ)言的百分比平滑參數(shù) = 0.7。培訓(xùn)數(shù)據(jù)包含 語(yǔ)言: ={ 1,?, },其中每個(gè) 是 h語(yǔ)言的單語(yǔ)文檔集合??紤]一個(gè)文本破壞噪聲函數(shù) ( ),其中訓(xùn)練模型預(yù)測(cè)原始文本 ,因此損失L 最大為:

8f858d0a-ac05-11eb-9728-12bb97331649.png

其中語(yǔ)言 有一個(gè)實(shí)例 和以上的分布 是通過(guò)序列到序列模型定義的。

V-C.2. Unsupervised Machine TranslationmBART是在目標(biāo)雙文本或文本對(duì)在這三種不同格式中不可用的任務(wù)上進(jìn)行評(píng)估的。1)沒(méi)有任何形式的雙文本是可用的,這里后面-翻譯(BT)[67],[68]是一個(gè)熟悉的解決方案。mBART提供了一個(gè)干凈而有效的初始化方案這樣的技術(shù)。2)目標(biāo)對(duì)的雙文本是不可用的,然而,在目標(biāo)語(yǔ)言的bi-text中可以找到這一對(duì)其他語(yǔ)言對(duì)的文本語(yǔ)料庫(kù)。3)bi-text文本對(duì)目標(biāo)pair是不可用的可從不同語(yǔ)言翻譯到目標(biāo)語(yǔ)言。這一新的評(píng)價(jià)方案顯示了mBART在缺乏源語(yǔ)言雙文本的情況下的遷移學(xué)習(xí)能力mBART是針對(duì)所有25種語(yǔ)言進(jìn)行的預(yù)培訓(xùn),并針對(duì)目標(biāo)語(yǔ)言進(jìn)行了微調(diào),如圖13所示。

V-D EXPLORING THE LIMITS OF TRANSFER LEARNING WITH A TEXT-TO-TEXT TRANSFORMER: T5該模型是通過(guò)對(duì)最有效的遷移學(xué)習(xí)實(shí)踐的調(diào)查和應(yīng)用建立的。在這里,所有的NLP任務(wù)都安排在同一個(gè)模型中,超參數(shù)被重新定義為一個(gè)統(tǒng)一的文本到文本設(shè)置,其中文本字符串是輸入和輸出。需要一個(gè)高質(zhì)量的、多樣化的、龐大的數(shù)據(jù)集來(lái)測(cè)量在110億個(gè)參數(shù)T5中訓(xùn)練前的放大效果。因此,開(kāi)發(fā)了巨型清潔爬行語(yǔ)料庫(kù)(C4),是維基百科的兩倍大。作者的結(jié)論是,因果掩蔽限制了模型的能力,只在 _ h輸入一個(gè)序列,這是有害的。因此,T5在序列的前綴部分(前綴LM)包含完全可見(jiàn)掩蔽,而因果掩蔽則用于訓(xùn)練目標(biāo)的預(yù)測(cè)。通過(guò)對(duì)遷移學(xué)習(xí)現(xiàn)狀的調(diào)查,我們得出以下結(jié)論。1)模型配置:通常帶有編碼器-解碼器架構(gòu)的模型優(yōu)于基于解碼器的語(yǔ)言模型。2)預(yù)訓(xùn)練目標(biāo):去噪對(duì)于填空的角色是最有效的,在這個(gè)角色中,模型被預(yù)先訓(xùn)練以一個(gè)可接受的計(jì)算成本來(lái)檢索輸入的遺漏詞域內(nèi)數(shù)據(jù)集:域內(nèi)數(shù)據(jù)訓(xùn)練是有效的,但是預(yù)處理小數(shù)據(jù)集通常會(huì)導(dǎo)致過(guò)擬合。3)訓(xùn)練方法:一個(gè)訓(xùn)練前的、微調(diào)的多任務(wù)學(xué)習(xí)方法可能是有效的,但是,每個(gè)任務(wù)的訓(xùn)練頻率需要被監(jiān)控。4)經(jīng)濟(jì)縮放:為了有效地訪問(wèn)有限的計(jì)算資源,對(duì)模型尺寸縮放、訓(xùn)練時(shí)間和集成模型數(shù)量進(jìn)行了評(píng)估。

V-E TURING NATURAL LANGUAGE GENERATION: T- NLGT-NLG是一個(gè)基于78層變形器的生成語(yǔ)言模型,擁有170億個(gè)可訓(xùn)練參數(shù),比T5更大。它擁有比英偉達(dá)的威震天(Megatron)更快的速度,威震天是基于通過(guò)低延遲總線(xiàn)互連多臺(tái)機(jī)器。T-NLG是一個(gè)逐漸變大的模型,它預(yù)先訓(xùn)練了更多種類(lèi)和數(shù)量的數(shù)據(jù)。它通過(guò)較少的微調(diào)示例在通用下游任務(wù)中提供優(yōu)越的結(jié)果。因此,它的作者概念化訓(xùn)練一個(gè)巨大的集中多任務(wù)模型,它的資源在不同的任務(wù)之間共享,而不是為一個(gè)任務(wù)分配每個(gè)模型。因此,該模型可以在沒(méi)有背景的情況下有效地進(jìn)行問(wèn)答,從而增強(qiáng)了零射擊學(xué)習(xí)。零冗余優(yōu)化器(Zero)同時(shí)實(shí)現(xiàn)了模型和數(shù)據(jù)并行,這可能是訓(xùn)練T-NLG高吞吐量的主要原因。

V-F LANGUAGE MODELS ARE FEW-SHOT LEARNERS: GPT-IIIGPT族(I、II和III)是基于Transformer解碼器塊的自回歸語(yǔ)言模型,不像基于去噪自編碼器的BERT。GPT-3從用于生成模型訓(xùn)練示例的3000億個(gè)文本標(biāo)記的數(shù)據(jù)集中訓(xùn)練1750億個(gè)參數(shù)。由于GPT-3的大小是以前任何語(yǔ)言模型的10倍,并且對(duì)于所有任務(wù)和目的,它采用了通過(guò)文本界面的少量學(xué)習(xí),沒(méi)有梯度更新或微調(diào),它實(shí)現(xiàn)了任務(wù)競(jìng)爭(zhēng)。它采用無(wú)監(jiān)督的預(yù)訓(xùn)練,語(yǔ)言模型獲得廣泛的技能和模式識(shí)別能力。這些都是在運(yùn)行中實(shí)現(xiàn)的,以快速適應(yīng)或識(shí)別所需的任務(wù)。GPT-3在幾個(gè)NLP任務(wù)中實(shí)現(xiàn)了SOTA,盡管它的幾次學(xué)習(xí)在其他任務(wù)中無(wú)法復(fù)制類(lèi)似的結(jié)果。

V-G SCALING GIANT MODELS WITH CONDITIONAL COMPUTATION AND AUTOMATIC SHARDING: GShardGShard允許擴(kuò)展超過(guò)6000億個(gè)參數(shù)通過(guò)稀疏門(mén)控混合的多語(yǔ)言機(jī)器翻譯在低計(jì)算的情況下,采用自動(dòng)分片的方法對(duì)專(zhuān)家(MoE)進(jìn)行分類(lèi)成本和編譯時(shí)間。變形金剛的規(guī)模很小引入一個(gè)由 前饋網(wǎng)絡(luò) ,。, E組成的位置混合專(zhuān)家層,通過(guò)其Transformer得到

8ffb3712-ac05-11eb-9728-12bb97331649.png

其中 和 是MoE層的標(biāo)記化輸入和平均加權(quán)輸出, 和 是專(zhuān)家(前饋層)的輸入和輸出投影矩陣。門(mén)控網(wǎng)絡(luò)通過(guò)矢量 , 表示專(zhuān)家對(duì)最終輸出的貢獻(xiàn)。這將獲取tokens的非零值,這些tokens被分派給最多兩個(gè)專(zhuān)家,這些專(zhuān)家在稀疏矩陣中為非零值做出貢獻(xiàn)。為了實(shí)現(xiàn)跨TPU集群的高效并行化:(i)并行化的關(guān)注層沿著批處理維度被分割,權(quán)重被復(fù)制到所有設(shè)備上。(ii)由于大小的限制,不可能在所有設(shè)備上復(fù)制MoE層專(zhuān)家,因此專(zhuān)家需要在多個(gè)設(shè)備上分片,如下圖所示。

決定模型質(zhì)量的兩個(gè)因素是(i)具有大量訓(xùn)練數(shù)據(jù)的高資源語(yǔ)言(ii)對(duì)數(shù)據(jù)有限的低資源語(yǔ)言的增強(qiáng)。在翻譯模型中,增加任務(wù)或語(yǔ)言對(duì)會(huì)對(duì)低資源語(yǔ)言產(chǎn)生積極的語(yǔ)言遷移[69]。對(duì)大量語(yǔ)言進(jìn)行合理的培訓(xùn)時(shí)間和效率的三個(gè)方面的策略是:(i)通過(guò)堆疊更多層來(lái)增加網(wǎng)絡(luò)深度(ii)通過(guò)復(fù)制專(zhuān)家來(lái)增加網(wǎng)絡(luò)寬度(iii)通過(guò)學(xué)習(xí)到的路由模塊將tokens稀疏地分配給專(zhuān)家。在一個(gè)12層的深度模型中,當(dāng)每層的專(zhuān)家數(shù)量從128增加到512時(shí),在100種語(yǔ)言的BLEU評(píng)分中發(fā)現(xiàn)了3.3的顯著性能提升。此外,寬度從512增加四倍到2048會(huì)導(dǎo)致BLEU增益減少1.3。將前面提到的專(zhuān)家寬度的層深度進(jìn)一步增加三倍,從12到36,可以顯著提高低資源語(yǔ)言和高資源語(yǔ)言的性能。

然而,除非模型的容量約束(MoE寬度)不放松,否則增加模型深度并沒(méi)有效果。VI. MODEL SIZE REDUCTIONVI-A DISTILLATION知識(shí)蒸餾(KD)的目標(biāo)是在一個(gè)更大、更準(zhǔn)確的教師模型的監(jiān)督下,通過(guò)修正的損失函數(shù)訓(xùn)練一個(gè)較小的學(xué)生模型,以在未標(biāo)記樣本中實(shí)現(xiàn)類(lèi)似的準(zhǔn)確性。我們提供了預(yù)測(cè)的教師模型樣本,使學(xué)生能夠通過(guò)較軟的班級(jí)概率分布進(jìn)行學(xué)習(xí),同時(shí)通過(guò)一個(gè)單獨(dú)的損失函數(shù)通過(guò)硬目標(biāo)分類(lèi)進(jìn)行預(yù)測(cè)。這種硬標(biāo)簽到軟標(biāo)簽的轉(zhuǎn)換使學(xué)生學(xué)習(xí)的信息變化更大,例如,硬目標(biāo)將狗分類(lèi)為{ , , , ∈0,1,0,0},軟目標(biāo)為{10?6,0.9,0.1,10?9}。對(duì)于硬分類(lèi)計(jì)算,深度神經(jīng)網(wǎng)絡(luò)的最后一個(gè)完全連接層是一個(gè)logits 向量,其中 是 h類(lèi)的logit。因此,可以通過(guò)(35)中的softmax函數(shù)評(píng)估輸入符合 h類(lèi)的概率 ,并引入溫度元件 來(lái)影響(36)中要轉(zhuǎn)移到學(xué)生模型學(xué)習(xí)中的每個(gè)軟目標(biāo)的重要性。

9ae4af96-ac05-11eb-9728-12bb97331649.png

對(duì)于類(lèi)上較軟的概率分布,需要較高的溫度( = )。實(shí)驗(yàn)發(fā)現(xiàn),除了教師的軟標(biāo)簽外,對(duì)學(xué)生模型進(jìn)行正確(硬/地面真理)標(biāo)簽的訓(xùn)練是有效的。雖然學(xué)生模型不能完全匹配軟目標(biāo),但硬標(biāo)簽訓(xùn)練進(jìn)一步幫助它不絆倒在不正確的預(yù)測(cè)。軟目標(biāo)精餾損失( = )的計(jì)算方法是將教師模型與學(xué)生模型的對(duì)數(shù)匹配為:

9af1f624-ac05-11eb-9728-12bb97331649.png

其中 和 分別表示教師模型和學(xué)生模型的對(duì)數(shù)。蒸餾機(jī)理如圖15所示。ground truth label 和學(xué)生模型的軟對(duì)數(shù)之間的交叉熵構(gòu)成了學(xué)生損失:

9afd0898-ac05-11eb-9728-12bb97331649.png

知識(shí)蒸餾的標(biāo)準(zhǔn)模型將蒸餾物和學(xué)生損失結(jié)合起來(lái),如下圖所示,

9b26b094-ac05-11eb-9728-12bb97331649.png

其中 ∈student參數(shù) 。在最初的平均用于 和 ,即 =1? ,為了得到最好的結(jié)果,觀察到 ? 。

VI-A.1. DistilBERTBERT的老師版本保留了BERT 97%的語(yǔ)言理解能力,推理時(shí)間更輕、更快,所需的培訓(xùn)成本更低。通過(guò)KD,蒸餾BERT將BERT大小減少了40%,速度提高了60%,壓縮后的模型足夠小,可以在邊緣設(shè)備上運(yùn)行。與BERT相比,蒸餾BERT的層深度被削減了一半,因?yàn)閮烧呔哂邢嗤木S度,并且通常具有相同的架構(gòu)。將其歸一化后進(jìn)行層約簡(jiǎn),最終層線(xiàn)性?xún)?yōu)化計(jì)算無(wú)效。為了最大化大型預(yù)訓(xùn)練模型的歸納偏差,蒸餾器引入了三重?fù)p失函數(shù),將蒸餾(L )與監(jiān)督訓(xùn)練(L )或掩體語(yǔ)言建模損失線(xiàn)性結(jié)合。我們觀察到用嵌入余弦損失(L )來(lái)補(bǔ)充先前的損失是有益的,因?yàn)樗梢远ㄏ驅(qū)R教師和學(xué)生的隱狀態(tài)向量。VI-A.2. TinyBERT為了克服訓(xùn)練前-微調(diào)范式的提煉復(fù)雜性,TinyBERT引入了一個(gè)清晰的知識(shí)轉(zhuǎn)移過(guò)程,通過(guò)引入3個(gè)損失函數(shù):(i)嵌入層輸出(ii)注意矩陣,(ii)Transformer的隱藏狀態(tài)(iii)輸出Logits這不僅使得TinyBERT在大幅縮減尺寸的情況下保留了BERT的96%以上的性能,而且在所有基于BERT的精餾模型中只部署了28%的參數(shù)和31%的推理時(shí)間。此外,它利用了BERT的已學(xué)習(xí)注意力權(quán)重中未挖掘的可提取潛力[70],對(duì)于( + 1) h層,通過(guò)最小化:

9b385c36-ac05-11eb-9728-12bb97331649.png

L 是Transformer或an的損耗函數(shù)嵌入層和超參數(shù) 表示 h層精餾的重要性。在TinyBERT中,BERT基于注意力的語(yǔ)言理解增強(qiáng)可以被合并為:

9b42fd1c-ac05-11eb-9728-12bb97331649.png

其中h表示正面次數(shù), 表示注意力矩陣對(duì)應(yīng)學(xué)生或老師的 h頭, 表示輸入文本長(zhǎng)度和均方誤差(MSE)損失函數(shù)。此外,TinyBERT提煉了知識(shí)從Transformer輸出層,可以表示為:

9b4e45d2-ac05-11eb-9728-12bb97331649.png

在這里 隱藏的狀態(tài)的學(xué)生和教師 ( )分別隱藏大小的教師模型和學(xué)生模型是通過(guò)標(biāo)量值 ‘和 表示, 是一個(gè)可學(xué)習(xí)的h將學(xué)生網(wǎng)絡(luò)的隱藏狀態(tài)轉(zhuǎn)化為教師網(wǎng)絡(luò)的空間狀態(tài)。同樣,TinyBERT還對(duì)埋層進(jìn)行蒸餾:

9b5a69de-ac05-11eb-9728-12bb97331649.png

其中 和 分別是學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的嵌入矩陣。除了模擬中間層的行為,TinyBERT通過(guò)學(xué)生和教師的對(duì)數(shù)之間的交叉熵?fù)p失實(shí)現(xiàn)KD來(lái)擬合教師模型的預(yù)測(cè)。

9b700b86-ac05-11eb-9728-12bb97331649.png

這里 和 分別是教師和學(xué)生模型預(yù)測(cè)的logit。

VI-A.3. MobileBERT與之前的蒸餾模型不同,MobileBERT從BERT中實(shí)現(xiàn)任務(wù)不可知壓縮,通過(guò)預(yù)測(cè)和蒸餾損失實(shí)現(xiàn)訓(xùn)練收斂。為了訓(xùn)練這樣一個(gè)非常瘦的模型,設(shè)計(jì)了一個(gè)獨(dú)特的倒置瓶頸教師模型,該模型結(jié)合了BERT (IB- BERT),知識(shí)轉(zhuǎn)移從BERT提煉到MobileBERT。它比BERT小4.3倍,快5.5倍,在基于glue的推理任務(wù)中,其競(jìng)爭(zhēng)分?jǐn)?shù)比BERT低0.6個(gè)單位。此外,Pixel 4手機(jī)上62毫秒的低延遲可歸因于用更簡(jiǎn)單的Hadamard乘積(薄膜)線(xiàn)性轉(zhuǎn)換取代層歸一化和gelu激活。

9b82274e-ac05-11eb-9728-12bb97331649.png

對(duì)于知識(shí)轉(zhuǎn)移,均方誤差之間將MobileBERT和bert的特征映射實(shí)現(xiàn)為遷移目標(biāo)。

9b8ba86e-ac05-11eb-9728-12bb97331649.png

其中 是層索引, 是序列長(zhǎng)度, 是特征地圖的大小。為了讓TinyBERT利用BERT的注意力能力,兩種模型的人均分布之間的KL-divergence最小,其中 表示注意頭的數(shù)量。

9b97f8bc-ac05-11eb-9728-12bb97331649.png

或者,在MobileBERT的預(yù)訓(xùn)練過(guò)程中,通過(guò)BERT的傳銷(xiāo)和NSP損失的線(xiàn)性組合,可以實(shí)現(xiàn)新的KD損失,其中 是(0,1)之間的超參數(shù)。

9ba2f348-ac05-11eb-9728-12bb97331649.png為實(shí)現(xiàn)上述目標(biāo),現(xiàn)提出3項(xiàng)培訓(xùn)戰(zhàn)略:(i)輔助知識(shí)轉(zhuǎn)移:通過(guò)所有層轉(zhuǎn)移損失和蒸餾前訓(xùn)練損失的線(xiàn)性組合進(jìn)行中間轉(zhuǎn)移。(ii)聯(lián)合知識(shí)轉(zhuǎn)移:為了獲得更好的結(jié)果,提出了2個(gè)單獨(dú)的損失,其中MobileBERT與所有層聯(lián)合轉(zhuǎn)移損失并進(jìn)行預(yù)先訓(xùn)練的蒸餾。(iii)漸進(jìn)式知識(shí)轉(zhuǎn)移:為了最大限度地減少自上而下的錯(cuò)誤轉(zhuǎn)移,提出將知識(shí)轉(zhuǎn)移分為 分層 階段,每一層逐步訓(xùn)練。

VI-B PRUNING修剪[71]是一種將不再是模型反向傳播的一部分的某些權(quán)重、偏差、層和激活置零的方法。這引入了這些元素的稀疏性,它們是可見(jiàn)的后ReLU層,將負(fù)值轉(zhuǎn)換為零(( ( ): (0, ))。迭代剪枝學(xué)習(xí)關(guān)鍵權(quán)值,根據(jù)閾值消除最不關(guān)鍵的權(quán)值,并重新訓(xùn)練模型,使其能夠通過(guò)適應(yīng)剩余的權(quán)值從剪枝中恢復(fù)。像BERT、RoBERTa、XLNet這樣的NLP模型被修剪了40%,并保留了98%的性能,這與蒸餾BERT相當(dāng)。

VI-B.1 LAYER PRUNINGVI-B.1-A STRUCTURED DROPOUT該體系結(jié)構(gòu)[72]在訓(xùn)練和測(cè)試時(shí)隨機(jī)丟棄層,使子網(wǎng)絡(luò)能夠選擇任何期望的深度,因?yàn)榫W(wǎng)絡(luò)已經(jīng)被訓(xùn)練為具有修剪健壯性。這是對(duì)當(dāng)前技術(shù)的升級(jí),需要重新訓(xùn)練一個(gè)新模型,而不是訓(xùn)練一個(gè)網(wǎng)絡(luò),從中提取多個(gè)淺層模型。這種子網(wǎng)絡(luò)抽樣,如Dropout[73]和DropConnect[74],如果聰明地選擇了同時(shí)權(quán)值組,就會(huì)構(gòu)建一個(gè)高效的健壯修剪網(wǎng)絡(luò)。形式上,正則化網(wǎng)絡(luò)的修剪魯棒性可以通過(guò)伯努利分布獨(dú)立地降低每個(gè)權(quán)值來(lái)實(shí)現(xiàn),其中參數(shù)p 》 0控制著跌落率。這相當(dāng)于權(quán)矩陣 與任意采樣的{0,1)掩碼矩陣 , = ? 的點(diǎn)積。最有效的降層策略是每隔一層降一層,其中修剪率為 ,降層深度為 ,使 ≡0( ?1/ ?)。對(duì)于具有固定跌落比率 的 組,網(wǎng)絡(luò)訓(xùn)練期間所利用的平均組數(shù)為 (1? ),因此對(duì)于 組的修剪大小,理想跌落率將為 ?= 1? / 。這種方法在許多NLP任務(wù)中都非常有效,并且已經(jīng)產(chǎn)生了與BERT精餾版本相當(dāng)?shù)哪P?,并且表現(xiàn)出更好的性能。

VI-B.1-B POOR MAN’S BERT由于深度神經(jīng)網(wǎng)絡(luò)的過(guò)度參數(shù)化,在推理時(shí)不需要所有參數(shù)的可用性,因此策略性地減少了幾個(gè)層,導(dǎo)致下游任務(wù)的競(jìng)爭(zhēng)結(jié)果[75]。在所有任務(wù)中,奇數(shù)替代刪除策略的結(jié)果優(yōu)于頂部,甚至在間隔為 = 2的情況下進(jìn)行替換。例如,在一個(gè)12層網(wǎng)絡(luò)中,刪除:top - {11,12};偶數(shù)交替- {10,12};奇交替-{9,11},得出的結(jié)論是(i)連續(xù)丟棄最后兩層比消除交替層更有害(ii)保留最后一層比保留頂層其他層更重要。

在 的較高值處,交替刪除方法表示性能下降很大,假設(shè)這是由于消除了較低的層造成的。對(duì)稱(chēng)的方法強(qiáng)調(diào)頂層和底層的守恒,而中間層被去掉。這對(duì)BERT的影響很小,但卻大大降低了XLNet的性能,從而導(dǎo)致BERT的次優(yōu)策略即使去掉4層后也能給出健壯的結(jié)果。通過(guò)觀察,XLNet顯示出比BERT更大的修剪魯棒性,因?yàn)樗膶W(xué)習(xí)在接近其第7層時(shí)變得成熟,而B(niǎo)ERT則一直學(xué)習(xí)到第11層。因此(i)與BERT相比,XLNet在較低的層收集面向任務(wù)的知識(shí),(ii) XLNet的最終層可能會(huì)變得相當(dāng)冗余,容易在性能沒(méi)有顯著下降的情況下被刪除。作者進(jìn)一步對(duì)蒸餾器進(jìn)行了下降實(shí)驗(yàn),在這里下降30%的層導(dǎo)致了最小的性能下降。像以前的模型一樣,頂層下降被證明是最可靠的,因?yàn)镽oBERTa被證明比BERT更健壯,因?yàn)?層的RoBERTa表現(xiàn)出了與蒸餾RoBERTa相似的性能。所有的棄層策略都可以從上面的圖16中可視化。

VI-B.2 WEIGHT PRUNING先前的工作主要集中在非結(jié)構(gòu)化的個(gè)體權(quán)剪枝[76],[77],盡管其產(chǎn)生的有效的非結(jié)構(gòu)化稀疏矩陣在傳統(tǒng)硬件上處理具有挑戰(zhàn)性。這使得盡管模型減小了,但仍難以保證推理加速。相反,結(jié)構(gòu)化剪枝強(qiáng)制高度結(jié)構(gòu)化的權(quán)矩陣,當(dāng)通過(guò)密集線(xiàn)性代數(shù)實(shí)現(xiàn)優(yōu)化時(shí),會(huì)導(dǎo)致顯著的加速,但由于更大的約束,性能低于非結(jié)構(gòu)化剪枝。

VI-B.2-A STRUCTURED PRUNING為了克服上述缺點(diǎn),本文采用了新穎的結(jié)構(gòu)引入了低秩剪枝范式[78]因式分解保留了稠密矩陣的結(jié)構(gòu)和 0規(guī)范,放松了通過(guò)結(jié)構(gòu)化強(qiáng)制執(zhí)行的約束修剪。權(quán)重矩陣被分解成乘積兩個(gè)小矩陣的對(duì)角掩模修剪而訓(xùn)練通過(guò) 0正則化控制模型的末端稀疏性。這個(gè)泛型方法FLOP(Factorized 0 Pruning)可用于任何矩陣乘法。對(duì)于神經(jīng)網(wǎng)絡(luò) (; )參數(shù)化 ={ } ,其中每個(gè) 表示單個(gè)重量 =1 或者一個(gè)權(quán)重塊(例如,列矩陣), 表示塊的數(shù)量。考慮一個(gè)精簡(jiǎn)二值化變量 = ??{ }其中 ∈{0,1}, ={ }表示模型 =1 參數(shù)集,通過(guò) 0規(guī)范化后修剪。

9bbd6516-ac05-11eb-9728-12bb97331649.png考慮一個(gè)矩陣 被分解成兩個(gè)的乘積較小的矩陣 和 ,其中 = 。和 表示 列數(shù)或 行數(shù)。每個(gè)組件的結(jié)構(gòu)化剪枝是通過(guò)剪枝變量 實(shí)現(xiàn)的

9bc742a2-ac05-11eb-9728-12bb97331649.png9bd777da-ac05-11eb-9728-12bb97331649.pngVI-B.3 HEAD PRUNING雖然某些模型在多頭注意力環(huán)境中對(duì)多頭注意力有更大的依賴(lài)性,但最近的研究表明,可以刪除相當(dāng)一部分注意力頭,從而形成一個(gè)具有更高記憶效率、速度和準(zhǔn)確性的精簡(jiǎn)模型。在之前的研究中[79],[80]通過(guò)對(duì)特定位置所有頭部的注意力權(quán)重進(jìn)行平均,或者根據(jù)最大注意力權(quán)重值來(lái)判斷頭部的重要性。然而,這兩種方法都沒(méi)有明確考慮不同頭部的波動(dòng)意義。

VI-B.3-A Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, Rest Can Be Pruned這個(gè)模型[81]發(fā)現(xiàn)了三個(gè)不同層次的頭部角色:(i)位置頭:用于處理相鄰標(biāo)記(ii)句法頭:注意那些有句法的人(iii)稀有詞頭:最少指示序列中頻繁的標(biāo)記?;谏鲜鼋巧?1]這些總結(jié)為:(a)頭的一小部分是翻譯的關(guān)鍵(b)關(guān)鍵頭擁有一個(gè)單一,通常更專(zhuān)門(mén)化和可解釋的模型功能(c)頭部角色對(duì)應(yīng)于相鄰標(biāo)志的注意在顯式語(yǔ)法依賴(lài)關(guān)系中。高水頭基于層次關(guān)聯(lián)傳播(LRP)的可信度[82]與標(biāo)記的注意力定義的比例有關(guān)作為其最大關(guān)注權(quán)值的中值計(jì)算總的來(lái)說(shuō),這對(duì)于任務(wù)來(lái)說(shuō)是至關(guān)重要的。通過(guò)每個(gè)產(chǎn)品修改的Transformer架構(gòu)磁頭的計(jì)算表示h 和標(biāo)量門(mén) , ( , )= ( .h ) ,這里 是輸入獨(dú)立頭部特定參數(shù), 0正則化適用于 ,用于較不重要的頭需要被禁用,h∈( h )。

9be9df42-ac05-11eb-9728-12bb97331649.png

然而, 0 norm是不可微的;因此,它不能作為目標(biāo)函數(shù)中的正則項(xiàng)歸納。因此,應(yīng)用隨機(jī)松弛,每個(gè)門(mén) 從頭分布中隨機(jī)選取,頭分布是通過(guò)拉伸(0,1)到(?∈,1+∈),并將概率分布(?∈,1)坍塌到[1,1 +∈)到奇異點(diǎn)0和1得到的。這種修正的拉伸結(jié)果在[0,1]上的分布是離散-連續(xù)混合的。頭像非零的概率和可以實(shí)現(xiàn)為一個(gè)寬松的L0范數(shù)。

9c02b148-ac05-11eb-9728-12bb97331649.png

修改后的訓(xùn)練方案可以表示為L(zhǎng)( ,?)= L ( ,?)+ L (?),其中 為原Transformer參數(shù),L ( ,?)為平移模型的交叉熵?fù)p失,L (?)為正則器。

VI-B.3-B ARE 16 HEADS REALLY BETTER THAN ONE?在多頭注意力(MHA)中,考慮 的序列 -dimensional vectors = 1,。 。, ∈R ,查詢(xún)向量 ∈R 。MHA層參數(shù) h, h h h∈R h× 和 h∈R × h,當(dāng) = 。h為了掩蔽注意頭,原Transformer方程修改為:

9c13f61a-ac05-11eb-9728-12bb97331649.png

其中 h用值介于{0,1}之間的變量屏蔽, h( )是輸入 的頭h的輸出。以下實(shí)驗(yàn)在測(cè)試時(shí)間修剪不同的頭數(shù)上獲得了最好的結(jié)果[83]:(i)僅修剪一個(gè)頭部:如果模型在屏蔽頭部h時(shí)性能顯著下降,則h為關(guān)鍵頭部,否則在給定模型的其余部分時(shí),它是冗余的。當(dāng)被從模型中移除時(shí),僅僅8次(總共96次)正面就會(huì)引起表現(xiàn)的顯著變化,其中一半的結(jié)果是更高的BLEU分?jǐn)?shù)。(ii)除1個(gè)注意頭外的所有注意頭修剪:在測(cè)試時(shí)間內(nèi),大多數(shù)層只修剪一個(gè)注意頭就足夠了,即使對(duì)于有12或16個(gè)注意頭的網(wǎng)絡(luò),也會(huì)導(dǎo)致顯著的參數(shù)減少。然而,多個(gè)注意頭是特定層的需求,即編碼器-解碼器注意的最后一層,在單個(gè)注意頭上性能會(huì)降低13.5個(gè)BLEU點(diǎn)。模型對(duì)掩蔽的期望敏感性 被評(píng)估為頭部顯著性的代理評(píng)分。

9c1e9e08-ac05-11eb-9728-12bb97331649.png

其中 為數(shù)據(jù)分布,L( )為樣本 上的損失。如果 h很高,那么修改 h可能會(huì)對(duì)模型產(chǎn)生顯著影響,因此,對(duì) h值較低的頭進(jìn)行迭代修剪。

VI-C QUANTIZATION32位浮點(diǎn)數(shù)(FP32)一直是深度學(xué)習(xí)的主要數(shù)字格式,然而當(dāng)前減少帶寬和計(jì)算資源的浪潮推動(dòng)了更低精度格式的實(shí)現(xiàn)。已經(jīng)證明通過(guò)8位整數(shù)(INT8)的權(quán)值和激活表示不會(huì)導(dǎo)致明顯的精度損失。例如,BERT量化為16/8位權(quán)值格式導(dǎo)致4×模型壓縮,精度損失最小,因此,一個(gè)擴(kuò)展的BERT每天服務(wù)十億CPU請(qǐng)求。

VI-C.1 LQ-NETS該模型[84]通過(guò)深度神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練引入了簡(jiǎn)單的網(wǎng)絡(luò)權(quán)值和激活機(jī)制。它具有可變比特精度的量化能力,這與固定或手動(dòng)方案不同[85],[86]。一般來(lái)說(shuō),一個(gè)量化函數(shù)可以用幾個(gè)比特來(lái)表示浮點(diǎn)權(quán)重 ,激活 :

9c358bae-ac05-11eb-9728-12bb97331649.png

這里 和( , )是量化級(jí)別和區(qū)間, +1分別。為了保持快速的推理時(shí)間,量化函數(shù)需要與位操作兼容,這是通過(guò)均勻分布來(lái)實(shí)現(xiàn)的用規(guī)范化因子將浮點(diǎn)數(shù)映射到它們最近的定點(diǎn)整數(shù)。LQ可學(xué)習(xí)量化函數(shù)可以表示為:

9c42e128-ac05-11eb-9728-12bb97331649.png

其中 ∈R 為可學(xué)浮點(diǎn)基, ∈{?1,1} for =(1,。 。)。, )枚舉 -bit二進(jìn)制編碼從[?1,。。?1],[1 。 。 1]。量化權(quán)值和激活值的內(nèi)積計(jì)算由以下權(quán)值位寬為 的按位操作來(lái)計(jì)算。

9c4c34c6-ac05-11eb-9728-12bb97331649.png

, ∈R 由向量編碼 , ∈{?1,1} , = 1,……, and = 1,…, 和 ∈R , ∈R ,?表示位內(nèi)積 操作。

VI-C.2 QBERTQBERT[87]通過(guò)基于交叉熵的損失函數(shù)部署了輸入 ∈ 的雙向BERT量化,其對(duì)應(yīng)的標(biāo)號(hào)y∈

9c5bef24-ac05-11eb-9728-12bb97331649.png

在這里 是嵌入表,編碼器層 , … 和分類(lèi)器 。分配相同的位大小12 對(duì)不同結(jié)構(gòu)[5]不同編碼層不同靈敏度的表示是次優(yōu)的,對(duì)于要求超低精度的小目標(biāo)尺寸(2/4位),它變得復(fù)雜。因此,通過(guò)Hessian Aware quantification (HAWQ),更多的比特被分配到更大的敏感層,以保持性能。Hessian矩陣是通過(guò)計(jì)算經(jīng)濟(jì)的無(wú)矩陣迭代技術(shù)計(jì)算的,其中第一層編碼器梯度 1為任意向量 :

9c65d746-ac05-11eb-9728-12bb97331649.png

其中 1為第一個(gè)編碼器的Hessian矩陣, 獨(dú)立于 1,該方法確定不同層的頂部特征值,對(duì)特征值較小的層進(jìn)行更積極的量化。為了進(jìn)一步利用分組量化的方法進(jìn)行優(yōu)化,將每個(gè)密集矩陣作為一個(gè)分組,并根據(jù)其量化范圍對(duì)每個(gè)連續(xù)輸出神經(jīng)元進(jìn)行劃分。VI-C.3 Q8BERT為了將權(quán)值和激活量化為8位,實(shí)施了對(duì)稱(chēng)線(xiàn)性量化[88],其中 是輸入 的量化縮放因子,( = 2 ?1?1)是量化為 位時(shí)的最高量化值。

9c70ff68-ac05-11eb-9728-12bb97331649.png

實(shí)現(xiàn)偽量化[89]和直通式估計(jì)器(STE)[90],推斷時(shí)間在訓(xùn)練過(guò)程中以完全精度實(shí)現(xiàn)量化反向傳播使FP32權(quán)值克服錯(cuò)誤。? 這里 = 1,其中 是虛假量化 的結(jié)果。

VII. INFORMATION RETRIEVAL對(duì)于高效的數(shù)據(jù)更新和檢索等知識(shí)密集型任務(wù),需要大量的隱性知識(shí)存儲(chǔ)。標(biāo)準(zhǔn)語(yǔ)言模型不擅長(zhǎng)這些任務(wù),也不匹配特定任務(wù)的架構(gòu),而這些架構(gòu)對(duì)于開(kāi)放領(lǐng)域的問(wèn)答是至關(guān)重要的。例如,BERT可以預(yù)測(cè)句子中缺失的單詞,“the __ is the currency of the US”(答案是“dollar”)。然而,由于這些知識(shí)隱式地存儲(chǔ)在其參數(shù)中,因此大小會(huì)大幅增加,以存儲(chǔ)更多的數(shù)據(jù)。由于網(wǎng)絡(luò)的大小限制,存儲(chǔ)空間有限,因此這種約束會(huì)增加網(wǎng)絡(luò)延遲,并且存儲(chǔ)信息的代價(jià)非常昂貴。

VII-A GOLDEN RETRIEVER傳統(tǒng)的基于多跳的開(kāi)放域QA涉及問(wèn)題 和包含相關(guān)上下文 (gold)文檔 1,。 。,通過(guò)文本相似性形成一系列推理,最終得到首選答案 。然而,GoldEn retriver[91]的第一個(gè)跳生成一個(gè)搜索查詢(xún) 1,該查詢(xún)?yōu)榻o定的問(wèn)題 檢索文檔 ,然后進(jìn)行后續(xù)推理步驟( = 2,。 。)。查詢(xún) 由問(wèn)題( )和可用上下文( 1,。 。)生成。, ?1)。GoldEn迭代地檢索上下文更大的文檔,同時(shí)將檢索到的上下文連接起來(lái),以供QA模型回答。它獨(dú)立于數(shù)據(jù)集和特定于任務(wù)的IR模型,在這些模型中,對(duì)附加文檔或問(wèn)題類(lèi)型的索引會(huì)導(dǎo)致效率低下。采用輕量級(jí)RNN模型,從上下文數(shù)據(jù)中提取文本范圍,以潛在地減少龐大的查詢(xún)空間。目標(biāo)是生成一個(gè)搜索查詢(xún) ,它可以根據(jù)上下文的文本跨度為下面的推理步驟檢索 , 是從受過(guò)訓(xùn)練的文檔讀者中選擇的。h = ( )[ ](65), ( )= h h(66)其中 和 矩陣將BERT輸出投射到 128 -維的向量。類(lèi)似地,讀者是BERT的閱讀模型的跨度變體。h = ( )[ ( )],(67)H = ( , )[ ( )],(68)( , , ) ([h ;h ])(69)檢索模型使用反向完形任務(wù)(ICT)進(jìn)行預(yù)先訓(xùn)練,其中句子上下文在語(yǔ)義上是相關(guān)的,并用于推斷序列 中缺失的數(shù)據(jù)。( | )= exp( ( , ))(70)∑ ’∈ exp( ( ‘, ))其中 被視為偽問(wèn)題, 是包圍 的文本, 是用于抽樣否定的一組證據(jù)塊。除了學(xué)習(xí)單詞匹配特征外,它還學(xué)習(xí)抽象表示,比如偽問(wèn)題可能會(huì)出現(xiàn)在證據(jù)中,也可能不會(huì)。ICT之后,學(xué)習(xí)被定義為在答案推導(dǎo)上的分布。( | )=exp( ( ))∑ ‘∈ ( )∑ ‘∈ 的exp( ( ”、 ” ))(71)= ( )(62), + 1 = ( )在 查詢(xún)生成器和 ( )檢索文檔通過(guò) 。

VII-B ORQA組件讀取器和檢索器以端到端方式聯(lián)合訓(xùn)練,其中實(shí)現(xiàn)BERT參數(shù)評(píng)分。它可以從開(kāi)放的語(yǔ)料庫(kù)中檢索任何文本,而且不受像典型的IR模型那樣返回固定的文檔集的限制。檢索分?jǐn)?shù)的計(jì)算是問(wèn)題的 與證據(jù)塊 的密集內(nèi)積。

9c82a150-ac05-11eb-9728-12bb97331649.png9c8b8a86-ac05-11eb-9728-12bb97331649.png其中 和 矩陣將BERT輸出投射到 128 -維的向量。類(lèi)似地,讀者是BERT的閱讀模型的跨度變體。

9c987e3a-ac05-11eb-9728-12bb97331649.png

檢索模型使用反向完形任務(wù)(ICT)進(jìn)行預(yù)先訓(xùn)練,其中句子上下文在語(yǔ)義上是相關(guān)的,并用于推斷序列 中缺失的數(shù)據(jù)。

9ca1c74c-ac05-11eb-9728-12bb97331649.png

其中 被視為偽問(wèn)題, 是包圍 的文本, 是用于抽樣否定的一組證據(jù)塊。除了學(xué)習(xí)單詞匹配特征外,它還學(xué)習(xí)抽象表示,比如偽問(wèn)題可能會(huì)出現(xiàn)在證據(jù)中,也可能不會(huì)。ICT之后,學(xué)習(xí)被定義為在答案推導(dǎo)上的分布。

9cd6b024-ac05-11eb-9728-12bb97331649.png

這里, ( )高級(jí)檢索模塊基于 。在這個(gè)框架中,從完整的維基百科中檢索證據(jù)是作為一個(gè)潛在變量來(lái)實(shí)現(xiàn)的,這是不可能從頭開(kāi)始訓(xùn)練的,因此使用ICT對(duì)檢索犬進(jìn)行預(yù)先訓(xùn)練

VII-C REALM這個(gè)框架明確地關(guān)注像Wikipedia這樣的龐大語(yǔ)料庫(kù),然而,它的檢索器通過(guò)反向傳播學(xué)習(xí),并通過(guò)余弦相似度執(zhí)行最大內(nèi)積搜索(MIPS)來(lái)選擇合適的文檔。檢索器的設(shè)計(jì)目的是緩存和異步更新每個(gè)文檔,以克服檢索候選文檔的數(shù)百萬(wàn)次訂單的計(jì)算挑戰(zhàn)。在訓(xùn)練前,模型需要通過(guò) 和 (MIPS)之間向量嵌入的內(nèi)積,即知識(shí)檢索相關(guān)度 ( , )來(lái)預(yù)測(cè)隨機(jī)隱藏token。為了實(shí)現(xiàn)基于知識(shí)的編碼器,將輸入 和來(lái)自語(yǔ)料庫(kù)?的檢索文檔 組合為一個(gè)序列,以對(duì)Transformer ( ∣ , )進(jìn)行微調(diào),如圖17所示。這使得 和 之間能夠完全交叉關(guān)注,從而能夠預(yù)測(cè)輸出y在哪里:

9ce02834-ac05-11eb-9728-12bb97331649.png

與ORQA一樣,BERT也是為嵌入而實(shí)現(xiàn)的:

9ceb05ce-ac05-11eb-9728-12bb97331649.png在BERT掩碼語(yǔ)言建模任務(wù)的預(yù)訓(xùn)練中,需要將tokens 中的每個(gè)掩碼預(yù)測(cè)為:

9cfb2a76-ac05-11eb-9728-12bb97331649.png

在 ( )代表了Transformer輸出對(duì)應(yīng)于 h屏蔽tokens的向量。是總數(shù)[ ]符號(hào)的數(shù)量在 , 是學(xué)習(xí)詞 嵌入tokens 。對(duì)于開(kāi)放式的Q&A微調(diào)任務(wù),答案 以目標(biāo)文檔 中的跨標(biāo)記序列的形式出現(xiàn)。匹配 中 的span集 ( , )可以被建模為:

9d1c23d4-ac05-11eb-9728-12bb97331649.png

在 ,跨度 和 的起始標(biāo)記和結(jié)束標(biāo)記對(duì)應(yīng)的Transformer輸出向量表示前饋神經(jīng)網(wǎng)絡(luò)。

VII-D RETRIEVAL AUGMENTED GENERATION: RAGRAG是“閉卷”(即參數(shù)化模型)和“開(kāi)卷”(即檢索模型)方法的靈活組合,優(yōu)于當(dāng)前的語(yǔ)言模型。參數(shù)記憶是一個(gè)序列到序列的預(yù)訓(xùn)練模型,而維基百科表示通過(guò)一個(gè)密集的向量索引構(gòu)成非參數(shù)記憶,它是通過(guò)一個(gè)預(yù)訓(xùn)練的神經(jīng)檢索器訪問(wèn)。由于RAG是作為兩者的頂點(diǎn)而構(gòu)建的,它不需要預(yù)先訓(xùn)練,因?yàn)榕c以前的非參數(shù)結(jié)構(gòu)不同,知識(shí)可以通過(guò)檢索的預(yù)先訓(xùn)練數(shù)據(jù)獲得[92]。為了在輸出序列中實(shí)現(xiàn)更大的上下文( )生成,通用的RAG將檢索到的文本段落 用于給定的輸入 ,這涉及兩個(gè)主要組件:( )獵犬 ?( ∣ ),通過(guò)?參數(shù)化,它返回最匹配的文本段落的內(nèi)容查詢(xún) 這 檢索架構(gòu)的通道作為潛變量邊緣達(dá)到最大概率 ( ∣ )在top-K近似。

9d3e4694-ac05-11eb-9728-12bb97331649.png

( )發(fā)電機(jī) ( ∣ , , 1: ?1),通過(guò)θ參數(shù)化,生成當(dāng)前tokens 之前的基于上下文表示 ?1tokens 1: ?1,輸入通道 和檢索。模型基于不同的潛在通道預(yù)測(cè)每個(gè)目標(biāo)tokens,同時(shí)使生成器能夠從各種文檔中選擇主題。

9d48d62c-ac05-11eb-9728-12bb97331649.png

檢索模塊 ?( ∣ )基于密集通道檢索(DPR),其中 ( )是通過(guò)BERT生成的文檔密集表示, ( )是通過(guò)另一個(gè)BERT生成的查詢(xún)表示。

9d7b8072-ac05-11eb-9728-12bb97331649.png

有效計(jì)算 ? ( ?(。∣ )元素 with the highest probability ?( ∣ )DPR采用MIPS指數(shù)在巴特用作發(fā)電機(jī) ( ∣ , , 1: ?1)。檢索器和生成器結(jié)合訓(xùn)練,以半無(wú)監(jiān)督的方式檢索目標(biāo)文檔。

VII-D DENSE PASSAGE RETRIEVAL: DPRDPR使用雙編碼器方法增強(qiáng)開(kāi)放域QA檢索,不像計(jì)算密集型ICT。它的密集編碼器 (·)在一個(gè)連續(xù)的、低維的( )空間中索引所有 段落,可以在運(yùn)行時(shí)有效地檢索查詢(xún)的頂級(jí)相關(guān)段落。部署了一個(gè)單獨(dú)的編碼器 (·),用于在運(yùn)行時(shí)映射查詢(xún)和d維向量,它檢索與問(wèn)題向量最相關(guān)的 段落。查詢(xún)和段落之間的點(diǎn)積計(jì)算決定了它們的相似度。( , )= ( ) 。( )。目標(biāo)是通過(guò)訓(xùn)練編碼器學(xué)習(xí)更優(yōu)的嵌入函數(shù),該編碼涉及到創(chuàng)建向量空間,其中相關(guān)的問(wèn)題,通道對(duì)具有更小的距離,即比不相關(guān)的更大的相似性。假設(shè)訓(xùn)練數(shù)據(jù)與 實(shí)例 ={? , + ?,??, ??} ,1 , =1每個(gè)實(shí)例包含一個(gè)查詢(xún) ,一個(gè)積極的(相關(guān)的)段落 +和 消極的(無(wú)關(guān)的)段落 ?。損耗函數(shù)可優(yōu)化為正通道的負(fù)對(duì)數(shù)似然。

9d9688f4-ac05-11eb-9728-12bb97331649.png

VIII. LONG SEQUENCE MODELS這種64層的Transformer[93]是基于對(duì)更長(zhǎng)的序列具有更大的字符級(jí)建模的發(fā)現(xiàn)而建立的。與RNN的一元階躍級(jí)數(shù)相比,該信息在隨機(jī)距離上快速傳輸。然而,以下三個(gè)支持損耗參數(shù)被添加到普通的Transformer,加速收斂并提供訓(xùn)練更深的網(wǎng)絡(luò)的能力。

(i) :一般因果預(yù)測(cè)發(fā)生在最后一層的一個(gè)位置,然而在這種情況下,所有的位置都是用于預(yù)測(cè)。這些輔助損失迫使模型在較小的背景下進(jìn)行預(yù)測(cè),并在沒(méi)有權(quán)重衰減的情況下加速訓(xùn)練。(ii) :除最后一層外,對(duì)給定序列添加所有中間層的預(yù)測(cè),隨著訓(xùn)練的進(jìn)行,較低層的權(quán)重逐漸減少。對(duì)于 層,在完成培訓(xùn) /2 后, h中間層的貢獻(xiàn)不再存在。(iii) :對(duì)模型進(jìn)行修改,以生成兩個(gè)或更大的未來(lái)字符預(yù)測(cè),其中每個(gè)新目標(biāo)引入一個(gè)單獨(dú)的分類(lèi)器。在添加到相應(yīng)的層損失之前,額外的目標(biāo)損失被稱(chēng)量一半。上述3種實(shí)現(xiàn)如圖19所示。為序列長(zhǎng)度 ,語(yǔ)言模型計(jì)算聯(lián)合標(biāo)記序列上的概率自回歸分布。

9dce46b8-ac05-11eb-9728-12bb97331649.png

VIII-B TRANSFORMER-XL為了減輕普通transformer中的上下文碎片,XL集成了更長(zhǎng)的依賴(lài)關(guān)系,在這些依賴(lài)關(guān)系中,它重用并緩存了先前的隱藏狀態(tài),數(shù)據(jù)從這些狀態(tài)通過(guò)遞歸傳播。給定標(biāo)記語(yǔ)料庫(kù) =( 1, 2…), ),一個(gè)語(yǔ)言模型自回歸計(jì)算聯(lián)合概率 ( ),其中上下文 《 被編碼成一個(gè)固定大小的隱藏狀態(tài)。

9dd974c0-ac05-11eb-9728-12bb97331649.png

假設(shè)兩個(gè)連續(xù)的句子長(zhǎng)度為 , =[ 1…, , ]and +1 =[ +1,1,…], +1, ]其中 h層由 h段 as產(chǎn)生的隱藏狀態(tài)序列H ? × ,其中 是隱藏的維度。的 h 段 +1的隱藏層狀態(tài)計(jì)算為如下:

9deb5604-ac05-11eb-9728-12bb97331649.png

其中 (·)表示停止梯度,[h?h]是兩個(gè) 隱藏序列拼接,并將 作為模型參數(shù)。與原始Transformer的主要區(qū)別在于對(duì)密鑰 和價(jià)值 +1 +1進(jìn)行建模關(guān)于擴(kuò)展上下文h~ ?1,因此在前面 +1 h ?1被緩存。這可以從圖20 中演示出來(lái)在上面,后者緩存了先前的注意廣度形成一個(gè)延長(zhǎng)的緩存機(jī)制。這種遞

歸適用于每?jī)蓚€(gè)連續(xù)段創(chuàng)建段級(jí)遞歸通過(guò)隱藏州。在原來(lái)的Transformer注意力得分內(nèi)查詢(xún)( )和鍵向量( )之間的相同段是:

9e88257e-ac05-11eb-9728-12bb97331649.png

從相對(duì)位置編碼的角度來(lái)看,以上方程以以下方式重新構(gòu)造

9e93b1b4-ac05-11eb-9728-12bb97331649.png

VIII-C LONGFORMER該體系結(jié)構(gòu)在識(shí)別相互關(guān)注的輸入位置對(duì)時(shí)提供了完整注意矩陣的稀疏性,并實(shí)現(xiàn)了三種注意配置:(i) :對(duì)于一個(gè)固定的窗口大小 ,每個(gè)tokens關(guān)注每一邊 /2的序列長(zhǎng)度(n)。這導(dǎo)致 ( × )的計(jì)算復(fù)雜性隨輸入序列長(zhǎng)度線(xiàn)性擴(kuò)展,為了提高效率, 《 。一個(gè)堆疊的“ ”分層Transformer使大小為“ × ”的接收能力超過(guò)整個(gè)輸入“ ”跨越所有層??梢愿鶕?jù)效率或性能選擇不同的“ ”值。(ii) :為了節(jié)省計(jì)算和擴(kuò)展接受域大小的 × × ’,‘ 大小可變的差距在哪里引入窗口大小“ ”相呼應(yīng)。增強(qiáng)的性能是通過(guò)允許少數(shù)無(wú)膨脹頭(較小的窗口大?。╆P(guān)注本地上下文(較低的層)和其余膨脹頭(增加窗口大小)關(guān)注較長(zhǎng)的上下文(較高的層)來(lái)實(shí)現(xiàn)的。(iii) :前面的兩種實(shí)現(xiàn)對(duì)任務(wù)精確學(xué)習(xí)沒(méi)有足夠的靈活性。因此,“ ”是在少數(shù)預(yù)先指定的輸入tokens( )上實(shí)現(xiàn)的,其中tokens關(guān)注所有序列tokens,所有此類(lèi)tokens也關(guān)注它。這使得本地和全球?qū)?( )的關(guān)注更加復(fù)雜。它的注意復(fù)雜度是局部和全局注意與RoBERTa的二次復(fù)雜度的總和,二次復(fù)雜度可以用下面的數(shù)學(xué)表達(dá)式來(lái)解釋。

9eaae15e-ac05-11eb-9728-12bb97331649.png

全局關(guān)注使無(wú)塊文檔處理成為可能,但是,如果序列長(zhǎng)度超過(guò)了窗口大小,那么它的時(shí)空復(fù)雜性將大于RoBERTa。

9ebe250c-ac05-11eb-9728-12bb97331649.png

VIII-D EXTENDED TRANSFORMER CONSTRUCTION: ETCETC是Longformer設(shè)計(jì)的改良版,可接受全球( )和長(zhǎng)( )輸入,其中 ? 。它計(jì)算四種全球-本地注意力變體:從全球到全球( 2 )、從全球到長(zhǎng)( 2 )、從長(zhǎng)到全球( 2 )和從長(zhǎng)到長(zhǎng)( 2 ),以實(shí)現(xiàn)長(zhǎng)序列處理。全局輸入和其他三種變化具有無(wú)限的關(guān)注,以補(bǔ)償 2 ’ 固定半徑跨度,以實(shí)現(xiàn)性能和計(jì)算成本之間的平衡。此外,它用相對(duì)位置編碼取代了絕對(duì)編碼,后者提供有關(guān)彼此的輸入標(biāo)記的信息。

VIII-E BIG BIRD在數(shù)學(xué)上,大鳥(niǎo)證明了隨機(jī)稀疏注意可以是圖靈完備的,并且表現(xiàn)得像一個(gè)輔助隨機(jī)注意的朗格爾人。它被設(shè)計(jì)為(i)一個(gè)全局tokens組 關(guān)注所有序列部分(ii)存在一組 隨機(jī)鍵,每個(gè)查詢(xún) 關(guān)注(iii)一個(gè)本地鄰居窗口 塊,每個(gè)本地節(jié)點(diǎn)關(guān)注。Big Bird的全局tokens是使用一種雙重方法構(gòu)造的(i) Big Bird-ITC:實(shí)現(xiàn)內(nèi)部Transformer構(gòu)造(ITC),其中當(dāng)前tokens在整個(gè)序列中都是全局的。(ii) Big Bird-ETC:實(shí)現(xiàn)擴(kuò)展Transformer構(gòu)造(ETC),關(guān)鍵的額外全球tokens 包括[ ],涉及所有現(xiàn)有tokens。它的最終關(guān)注過(guò)程包括以下屬性:查詢(xún)關(guān)注 隨機(jī)鍵,每個(gè)查詢(xún)關(guān)注 /2tokens在其位置的左右,并有 全局tokens,它從當(dāng)前tokens派生或在需要時(shí)可以補(bǔ)充。

IX. COMPUTATIONALLY EFFICIENT ARCHITECTURESIX-A SPARSE TRANSFORMER該模型的經(jīng)濟(jì)性能是由于從完全自我注意程序的異化,該程序通過(guò)幾個(gè)注意步驟進(jìn)行修改。模型的輸出結(jié)果來(lái)自完整輸入數(shù)組的一個(gè)因子,即(√ ),其中 ? h如圖22所示。這導(dǎo)致了與Transformer的 ( 2)相比, ( √ )的關(guān)注復(fù)雜性更低。此外,它能破譯的序列比之前的長(zhǎng)30倍。它的因子化自我關(guān)注由 不同的頭組成“ h頭”的實(shí)質(zhì)是注意力指數(shù)的一個(gè)子集 ( )的實(shí)質(zhì)是“ ∶ ≤ ”的實(shí)質(zhì)?!癆i(m)”的實(shí)質(zhì)是“Ai(m)”的實(shí)質(zhì)是“ ”的實(shí)質(zhì)??缭绞阶⒁庠趦蓚€(gè)維度上實(shí)現(xiàn)其中一個(gè)負(fù)責(zé)人負(fù)責(zé)以前的 地點(diǎn)和另一個(gè)關(guān)注每一個(gè) h地點(diǎn),在那里步幅 價(jià)值接近√ 。這表示為 (1)={ , + 1,。。, }for = (0, ? )和 (1)={ :( ? ) = 0}。這 線(xiàn)性變換導(dǎo)致了這種密集的注意:

9ef3363e-ac05-11eb-9728-12bb97331649.png

其中 是post - attention矩陣。同樣, 實(shí)現(xiàn)因子化注意頭,一種注意類(lèi)型交替使用每個(gè)殘留塊或交錯(cuò)或超參數(shù)決定比率。

9efc4634-ac05-11eb-9728-12bb97331649.png

其中 是當(dāng)前剩余塊索引, 是映像員工。另一種合并磁頭的方法包括一個(gè)磁頭處理兩個(gè)因數(shù)分解的磁頭處理的目標(biāo)位置。這種方法在計(jì)算上要貴一個(gè)常數(shù)因子。

9f149766-ac05-11eb-9728-12bb97331649.png

第三種選擇是使用多頭注意力,其中注意力產(chǎn)品( )是并行計(jì)算的,并沿特征維度連接。

9f1ff642-ac05-11eb-9728-12bb97331649.png

多個(gè)頭給出了更好的結(jié)果,而對(duì)于注意力決定計(jì)算的較長(zhǎng)的序列,順序注意力是首選。

IX-B REFORMERReformer通過(guò)局部敏感散列(LSH)將Transformer的注意復(fù)雜度降低到 (L log L)。這將每個(gè)向量 賦值給一個(gè)哈希h( ),其中相鄰的向量在大小相似且概率高的哈希桶中獲得相同的哈希,而遠(yuǎn)程的向量則不會(huì)。修正的LSH注意方程:

9f705b00-ac05-11eb-9728-12bb97331649.png

屬于 h職位查詢(xún)關(guān)注的集合, 是 一種配分函數(shù),它包含一個(gè)查詢(xún)要處理的鄰近鍵的范圍。為了進(jìn)行批處理,注意 ={0,1? }? ,其中 是~ 的子集,不在 中的元素被屏蔽。

9f82ef7c-ac05-11eb-9728-12bb97331649.png

解碼器實(shí)現(xiàn)屏蔽,以防止訪問(wèn)未來(lái)的查詢(xún)位置。通過(guò)在單個(gè)散列桶中啟用關(guān)注,設(shè)置的 目標(biāo)項(xiàng)只能由位于 h位置的查詢(xún)參與。為了進(jìn)一步降低相似項(xiàng)落在不同桶中的概率,使用不同的哈希函數(shù){h(1), h(2), 。 。進(jìn)行多次并行哈希( )。}

9fb4f68e-ac05-11eb-9728-12bb97331649.png

注意力集中在已排序的鍵查詢(xún)塊和要批量處理的鍵

9fc1d30e-ac05-11eb-9728-12bb97331649.png

從(96)和(97)我們可以得到

9fd5b27a-ac05-11eb-9728-12bb97331649.png

a0027a6c-ac05-11eb-9728-12bb97331649.png

下面圖23的例子全面地展示了改革者的各種工作機(jī)制??赡鏆埐罹W(wǎng)絡(luò)[94]是Reformer經(jīng)濟(jì)內(nèi)存消耗背后的另一個(gè)驅(qū)動(dòng)力,其中激活值是在反向傳播期間動(dòng)態(tài)重建的,不包括存儲(chǔ)中保存激活的要求。從圖24中,下面每一層的可逆塊從下一層的激活重新計(jì)算為:

IX-C A LITE BERT: ALBERTALBERT在一個(gè)單一模型中集成了以下兩參數(shù)縮減技術(shù),結(jié)果僅得到12M參數(shù),如圖25所示。與BERT-base相比,這幾乎減少了90%的參數(shù),同時(shí)保持了具有競(jìng)爭(zhēng)力的基準(zhǔn)性能。(i) :為獲得最佳的結(jié)果,NLP任務(wù)需要大量詞匯 ,(嵌入大?。?≡ (隱層)和嵌入矩陣 × 大小可以規(guī)模數(shù)十億參數(shù)。ALBERT將嵌入空間 分解為兩個(gè)更小的矩陣,其中嵌入?yún)?shù)從 ( × )導(dǎo)出為 ( × + × )。(ii) ? h :阿爾BERT是建立跨層通過(guò)前饋網(wǎng)絡(luò)共享注意參數(shù)(FFN)。因此,它的層間過(guò)渡相當(dāng)平滑,因?yàn)榻Y(jié)果表明權(quán)值共享對(duì)網(wǎng)絡(luò)參數(shù)的穩(wěn)定作用。

與BERT的NSP一樣,ALBERT的句子順序預(yù)測(cè)(SOP)損失包含了從兩個(gè)正的連續(xù)文本片段中進(jìn)行的雙分叉學(xué)習(xí),其中也包括其相應(yīng)的順序顛倒的負(fù)樣本,如圖26所示。這影響了模型在上下文中學(xué)習(xí)任何話(huà)語(yǔ)中更細(xì)粒度的差異,從而獲得更好的連貫性能。它的傳銷(xiāo)目標(biāo)實(shí)現(xiàn) -gram掩蔽,包括多達(dá)3個(gè)字符序列,如“世界杯足球”或“自然語(yǔ)言處理”。

a06ee2c4-ac05-11eb-9728-12bb97331649.pngIX-D ELECTRA它的優(yōu)勢(shì)在于通過(guò)有效的區(qū)分來(lái)進(jìn)行情境學(xué)習(xí),從所有的事物中學(xué)習(xí)。不同于BERT的輸入標(biāo)記,BERT只從15%的屏蔽子集學(xué)習(xí)。ELCTRA實(shí)現(xiàn)了“被替換的tokens檢測(cè)”,如圖27所示,通過(guò)Generator( ),一個(gè)小的“屏蔽語(yǔ)言模型”,用有概率意義的替換替換少數(shù)隨機(jī)tokens,從而發(fā)生污染。

同時(shí),通過(guò)二值分類(lèi),聯(lián)合預(yù)訓(xùn)練一個(gè)更大的模型Discriminator( )來(lái)預(yù)測(cè)每個(gè)標(biāo)記是否通過(guò)生成器正確恢復(fù)。

a3907832-ac05-11eb-9728-12bb97331649.png

這兩個(gè)基于編碼器的網(wǎng)絡(luò)( , )轉(zhuǎn)換輸入tokens序列 =[ 1,。 。]h = [h1, 。 。]。h ]。通過(guò)Softmax, 產(chǎn)生 h位置令符 的可能性,其中 =[ ]。

a39e3850-ac05-11eb-9728-12bb97331649.png

在一個(gè)大語(yǔ)料 上的聯(lián)合損失最小化為:

a3bf93f6-ac05-11eb-9728-12bb97331649.png

IX-E LINFORMER證明了[95],注意權(quán)值由少數(shù)關(guān)鍵項(xiàng)支配,通過(guò)低秩自注意將序列長(zhǎng)度投影到目標(biāo)輸出矩陣,實(shí)現(xiàn)了線(xiàn)性的時(shí)間和空間復(fù)雜度 (1)。在鍵和值的計(jì)算過(guò)程中,兩個(gè)線(xiàn)性投影矩陣相加 , ∈R × ,其中( × )? 尺寸鍵,值層 和 被投影 進(jìn)入( × )?維度鍵,值層,之后結(jié)果( × )-維度上下文計(jì)算使用縮放的點(diǎn)積注意力。

a3c8d9e8-ac05-11eb-9728-12bb97331649.png

如果 《《 ,則內(nèi)存和空間顯著減少消費(fèi)是實(shí)現(xiàn)。為了進(jìn)一步有效優(yōu)化,投影之間的參數(shù)共享在3處執(zhí)行(i) Headwise Sharing:每一層有兩個(gè)投影矩陣 和 通過(guò) = , = 共享所有頭 。(ii)鍵值共享:包括(i)鍵值投影是共享的,每一層的單一投影為每個(gè)鍵值投影 創(chuàng)建矩陣 = =(iii)層共享:一個(gè)單一的投影矩陣 實(shí)現(xiàn)所有層,頭,鍵和值。對(duì)于12層12頭Transformer(i), (ii), (iii)將分別包含24,12,1個(gè)不同的線(xiàn)性投影矩陣。

IX-E PERFORMER結(jié)果優(yōu)于 ( 2 ),其中 ? 。然而,在實(shí)現(xiàn)了softmax非線(xiàn)性函數(shù)后,將查詢(xún)鍵產(chǎn)品的注意力分解為原始形式是不可能的。然而,通過(guò)近似較低級(jí)別的查詢(xún)和鍵啟用,pre softmax注意力分解是可能的更高的效率,特別是‘ ? ( )? √ exp( )。通過(guò)核近似函數(shù) ( , )=?( ) ?( ),高維特征圖點(diǎn)積?。與增加維度的內(nèi)核技巧相反,Performer[96]分解注意力矩陣 ( , )= ( , )= ( , )?映射到低維特征。

X. MODELING CLASSIFICATION OF LMs從建模的角度來(lái)看,基于Transformer的語(yǔ)言模型(LM)可以分為3類(lèi)[97]:(i)自回歸:這些是預(yù)先訓(xùn)練的前饋模型,可以根據(jù)token的歷史預(yù)測(cè)未來(lái)的token。這里的輸出 依賴(lài)于即時(shí) 的輸入和以前的時(shí)間步長(zhǎng)輸入 《 。這些主要是基于解碼器的變形金剛,合并了因果掩蔽,注意頭被阻止關(guān)注未來(lái)的代幣。這種模型通常用于文本生成目的進(jìn)行微調(diào),并在GPT系列中部署零目標(biāo)學(xué)習(xí)。(ii)自動(dòng)編碼:這些基于編碼器的模型可以完全訪問(wèn)輸入數(shù)組,沒(méi)有任何屏蔽。通過(guò)合并輸入tokens屏蔽方案對(duì)它們進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行微調(diào),以再現(xiàn)被屏蔽tokens作為輸出。這些模型(BERT)通常適用于序列或標(biāo)記分類(lèi)任務(wù)。(iii)序列到序列:這些基于編碼器-解碼器的生成模型從海量數(shù)據(jù)集創(chuàng)建數(shù)據(jù)后學(xué)習(xí)。與判別分布 ( | )不同,它們對(duì)輸入 和目標(biāo) 的聯(lián)合分布 ( , )建模,其中輸入可能在幾種方案上被破壞。基于解碼器的因果掩蔽被部署以最大化后續(xù)目標(biāo)生成的學(xué)習(xí)。像BART和T5這樣的模型在NMT、總結(jié)或QA任務(wù)上表現(xiàn)最好。圖29給出了上述建模分類(lèi)的全面概述。

XI. LANGUAGE MODEL PERFORMANCE COMPARISON基于Glue和SuperGlue基準(zhǔn)的少數(shù)幾個(gè)主要NLP模型的定量性能如圖28所示。這些基準(zhǔn)測(cè)試包含各種數(shù)據(jù)集,這些數(shù)據(jù)集可以在幾個(gè)NLP任務(wù)中判斷模型。GPT-3的可訓(xùn)練參數(shù)最多,是本次比較中最大的型號(hào)。因?yàn)镚PT-3是這里最新的模型,所以它不參與舊的Glue基準(zhǔn)測(cè)試。從定性的角度來(lái)看,同一模型中的T5在不同的任務(wù)中使用相同的損失函數(shù)和超參數(shù),從而形成一個(gè)多任務(wù)學(xué)習(xí)環(huán)境。這種可擴(kuò)展的文本到文本生成(NLG)模型在訓(xùn)練時(shí)將去噪目標(biāo)與大量的未標(biāo)記數(shù)據(jù)相結(jié)合,因此效果最好。相比于像RoBERTa這樣的NLU模型,這導(dǎo)致了更好的學(xué)習(xí)和更廣泛的表現(xiàn),而RoBERTa模型是在預(yù)處理后針對(duì)個(gè)別下游任務(wù)進(jìn)行微調(diào)的。

在NLU模型中進(jìn)行幾輪微調(diào)的主要?jiǎng)訖C(jī)是為了在多個(gè)任務(wù)上實(shí)現(xiàn)強(qiáng)大的性能。它的主要缺點(diǎn)是每個(gè)任務(wù)都需要一個(gè)新的、通常比較大的數(shù)據(jù)集。這放大了不合理的非分布泛化的可能性,導(dǎo)致與人類(lèi)水平的能力進(jìn)行不公平的比較。GPT-3不進(jìn)行微調(diào),因?yàn)樗闹攸c(diǎn)是提供任務(wù)不確定的執(zhí)行。然而,在GPT-3中有最小微調(diào)的范圍,這會(huì)導(dǎo)致一次或幾次學(xué)習(xí)。這個(gè)想法是在一個(gè)龐大的數(shù)據(jù)集上對(duì)一個(gè)巨大的模型進(jìn)行預(yù)訓(xùn)練后執(zhí)行零或最小的梯度更新。雖然GPT-3在SuperGlue基準(zhǔn)測(cè)試中排名不高,但關(guān)鍵是這個(gè)生成模型在推理時(shí)學(xué)習(xí)任何任務(wù)的速度都是最快的。在一些NLP任務(wù)中,它匹配了SOTA微調(diào)模型在零、一和幾鏡頭設(shè)置下的性能。它還生成高質(zhì)量的樣本,并在動(dòng)態(tài)定義的任務(wù)中提供可靠的定性性能。

XII. CONCLUSION AND FUTURE DIRECTIONS我們提供了導(dǎo)致當(dāng)前SOTA在NLP性能方面的主要語(yǔ)言模型的全面和詳細(xì)的總結(jié)。自從Attention機(jī)制和Transformer架構(gòu)推出以來(lái),NLP已經(jīng)取得了指數(shù)級(jí)的進(jìn)步。我們提出了一種通過(guò)分類(lèi)法進(jìn)行模型分類(lèi)的高級(jí)思維導(dǎo)圖。這些分類(lèi)主要基于Transformer派生架構(gòu),用于特殊任務(wù),如語(yǔ)言理解和生成、通過(guò)蒸餾、量化和剪枝縮小模型尺寸、信息檢索、長(zhǎng)序列建模和其他廣義模型縮減技術(shù)。最近的語(yǔ)言模型主要是為了獲得更高的NLP性能,這需要大量的計(jì)算資源。因此,模型縮放已經(jīng)成為工業(yè)上的自然途徑。這種指數(shù)級(jí)的擴(kuò)展加上更高的注意力復(fù)雜性使得這些模型無(wú)法在全球范圍內(nèi)訪問(wèn)。隨后,在設(shè)計(jì)合理規(guī)模的模型和高效注意力計(jì)算方面做出了重大努力,以加快模型收斂速度,降低模型延遲。結(jié)合Mixture of Expert (MoE)[98]方法是大型模型實(shí)現(xiàn)計(jì)算效率的有效方法,因?yàn)槊總€(gè)輸入只激活神經(jīng)網(wǎng)絡(luò)的一個(gè)子集。因此,這導(dǎo)致稀疏性,雖然稀疏性訓(xùn)練是一個(gè)活躍的研究領(lǐng)域,目前的gpu更適合密集矩陣計(jì)算。雖然MoE模型在訓(xùn)練稀疏矩陣方面已經(jīng)顯示出了前景,但它們的通信成本和復(fù)雜性阻礙了大規(guī)模部署。此外,較大的模型容易記憶訓(xùn)練數(shù)據(jù),導(dǎo)致過(guò)擬合和學(xué)習(xí)減少[99]。為了克服這一點(diǎn),模型只在巨大數(shù)據(jù)集上的重復(fù)數(shù)據(jù)刪除實(shí)例上訓(xùn)練一個(gè)epoch,因此顯示出最小的過(guò)擬合。因此,MoE設(shè)計(jì)與健壯的訓(xùn)練范式相結(jié)合,在未來(lái)可能會(huì)產(chǎn)生高度可伸縮和高效的模型。這些模型將具有優(yōu)越的語(yǔ)言理解能力,因?yàn)閿?shù)據(jù)記憶將被最小化。當(dāng)前的SOTA模型方法依賴(lài)于大型數(shù)據(jù)集的監(jiān)督學(xué)習(xí)。在未來(lái)的自然語(yǔ)言處理中,一個(gè)很有前途的改進(jìn)領(lǐng)域?qū)⑹窃跈C(jī)器翻譯、文本摘要和問(wèn)答任務(wù)中結(jié)合強(qiáng)化學(xué)習(xí)。

模型描述任務(wù)語(yǔ)言建模類(lèi)型

GPT-I, II, III?大型數(shù)據(jù)集的無(wú)監(jiān)督預(yù)訓(xùn)練?自回歸語(yǔ)言建模和因果掩蔽問(wèn)答,網(wǎng)絡(luò)機(jī)器翻譯,閱讀理解,文本總結(jié),常識(shí)推理,zero-shot基于Transformer的自回歸解碼器

XLNET?通過(guò)對(duì)輸入序列長(zhǎng)度進(jìn)行因式排序,提高語(yǔ)境學(xué)習(xí)效果?雙向上下文語(yǔ)言建模閱讀理解,自然語(yǔ)言推理,情感分析,問(wèn)答基于Transformer的自回歸解碼器

REFORMER?注意通過(guò)本地敏感散列減少內(nèi)存占用?通過(guò)可逆剩余網(wǎng)絡(luò)重新計(jì)算權(quán)重和激活,繞過(guò)各自的存儲(chǔ)減少注意復(fù)雜性,使對(duì)實(shí)用記憶需求進(jìn)行長(zhǎng)時(shí)間的序列處理基于Transformer的自回歸解碼器

LONGFORMER?注意矩陣的稀疏性用于長(zhǎng)序列加速和高效計(jì)算?對(duì)附近的tokens進(jìn)行本地化關(guān)注,并對(duì)少數(shù)預(yù)選tokens進(jìn)行全球化關(guān)注,以增強(qiáng)接受能力共引用決議,問(wèn)答,文件分類(lèi)。基于Transformer的自回歸解碼器

BERT?深度雙向語(yǔ)境化?用于持續(xù)學(xué)習(xí)的掩蔽語(yǔ)言建模(MLM)句子分類(lèi)、問(wèn)答、自然語(yǔ)言推理、基于Transformer的自動(dòng)編碼-解碼器

RoBERTa?通過(guò)動(dòng)態(tài)屏蔽的多樣化學(xué)習(xí),每個(gè)時(shí)間布的token都被不同的屏蔽?更大的訓(xùn)練前批量情感分析,問(wèn)答,自然語(yǔ)言推理基于Transformer的自動(dòng)編碼-解碼器

DistilBERT?生成與其較大的教師模型BERT相似的目標(biāo)概率分布?生成學(xué)生和教師模型的隱藏狀態(tài)之間的余弦相似度語(yǔ)義文本相似性,語(yǔ)義關(guān)聯(lián),問(wèn)答,文本蘊(yùn)涵基于Transformer的自動(dòng)編碼-解碼器

ALBERT?通過(guò)嵌入?yún)?shù)約簡(jiǎn),即因式參數(shù)化,更小、更高效的模型?通過(guò)跨層參數(shù)共享將層劃分為組,減少內(nèi)存占用閱讀理解,語(yǔ)義文本相似性,問(wèn)答,語(yǔ)言推理基于Transformer的自動(dòng)編碼-解碼器

ELECTRA?預(yù)測(cè)重新生成的損壞tokens是原始的還是通過(guò)預(yù)培訓(xùn)生成器替換?通過(guò)替換標(biāo)記檢測(cè),有效且低成本的區(qū)分學(xué)習(xí)在情感分析、自然語(yǔ)言推理任務(wù)中提供具有競(jìng)爭(zhēng)力的性能,計(jì)算效率為25%基于Transformer的自動(dòng)編碼-解碼器

BART/mBART?通過(guò)更大的噪聲變化,優(yōu)越的序列生成質(zhì)量?靈活的去噪自編碼器作為最嚴(yán)厲的噪聲方案的語(yǔ)言模型監(jiān)督和非監(jiān)督多語(yǔ)言機(jī)器翻譯,問(wèn)答,語(yǔ)義等價(jià)基于Transformer的生成式序列-序列模型

T5/mT5?在每一層學(xué)習(xí)位置編碼,以獲得更好的語(yǔ)義性能?以文本到文本的格式轉(zhuǎn)換所有任務(wù),以合并大多數(shù)NLP任務(wù)品種。更多樣化和更具挑戰(zhàn)性的參考,內(nèi)涵,問(wèn)答任務(wù)通過(guò)SuperGLUE基準(zhǔn)基于Transformer的生成式序列-序列模型

原文標(biāo)題:NLP實(shí)操手冊(cè): 基于Transformer的深度學(xué)習(xí)架構(gòu)的應(yīng)用指南(綜述)

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8353

    瀏覽量

    132315
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5466

    瀏覽量

    120891
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    486

    瀏覽量

    21987

原文標(biāo)題:NLP實(shí)操手冊(cè): 基于Transformer的深度學(xué)習(xí)架構(gòu)的應(yīng)用指南(綜述)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    自動(dòng)駕駛中一直說(shuō)的BEV+Transformer到底是個(gè)啥?

    (Bird’s Eye View)+Transformer”是兩個(gè)方向的技術(shù),BEV是一種全新的3D坐標(biāo)系,而Transformer則是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,BEV+
    的頭像 發(fā)表于 11-07 11:19 ?163次閱讀
    自動(dòng)駕駛中一直說(shuō)的BEV+<b class='flag-5'>Transformer</b>到底是個(gè)啥?

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?292次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :
    的頭像 發(fā)表于 10-23 15:25 ?308次閱讀

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來(lái)學(xué)習(xí)大語(yǔ)言模型在自然語(yǔ)言理解方面的原理以及問(wèn)答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。 大語(yǔ)言模型涉及以下幾個(gè)過(guò)程: 數(shù)據(jù)收集:大語(yǔ)言模型通過(guò)從互聯(lián)網(wǎng)、書(shū)籍、新聞、社交媒體等多種渠道
    發(fā)表于 08-02 11:03

    PyTorch深度學(xué)習(xí)開(kāi)發(fā)環(huán)境搭建指南

    PyTorch作為一種流行的深度學(xué)習(xí)框架,其開(kāi)發(fā)環(huán)境的搭建對(duì)于深度學(xué)習(xí)研究者和開(kāi)發(fā)者來(lái)說(shuō)至關(guān)重要。在Windows操作系統(tǒng)上搭建PyTorch環(huán)境,需要綜合考慮多個(gè)方面,包括軟件安裝、
    的頭像 發(fā)表于 07-16 18:29 ?703次閱讀

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來(lái),已經(jīng)在自然語(yǔ)言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer
    的頭像 發(fā)表于 07-12 14:07 ?355次閱讀

    深度學(xué)習(xí)中的時(shí)間序列分類(lèi)方法

    時(shí)間序列分類(lèi)(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動(dòng)識(shí)別、系統(tǒng)監(jiān)測(cè)、金融預(yù)測(cè)、醫(yī)療診斷等多個(gè)領(lǐng)域。隨著深度
    的頭像 發(fā)表于 07-09 15:54 ?654次閱讀

    Transformer架構(gòu)在自然語(yǔ)言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來(lái)了革命性的變革。本文將深入探討Transformer架構(gòu)
    的頭像 發(fā)表于 07-09 11:42 ?667次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。
    的頭像 發(fā)表于 07-05 09:47 ?749次閱讀

    TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

    學(xué)習(xí)框架,它們各自擁有獨(dú)特的特點(diǎn)和優(yōu)勢(shì)。本文將從背景介紹、核心特性、操作步驟、性能對(duì)比以及選擇指南等方面對(duì)TensorFlow和PyTorch進(jìn)行詳細(xì)比較,以幫助讀者了解這兩個(gè)框架的優(yōu)缺點(diǎn),并選擇最適合自己需求的框架。
    的頭像 發(fā)表于 07-02 14:04 ?848次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

    詳細(xì)介紹深度學(xué)習(xí)模型訓(xùn)練的全過(guò)程,包括數(shù)據(jù)預(yù)處理、模型構(gòu)建、損失函數(shù)定義、優(yōu)化算法選擇、訓(xùn)練過(guò)程以及模型的評(píng)估與調(diào)優(yōu)。
    的頭像 發(fā)表于 07-01 16:13 ?1023次閱讀

    深度學(xué)習(xí)的模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型在訓(xùn)練過(guò)程中,往往會(huì)遇到各種問(wèn)題和挑戰(zhàn),如過(guò)擬合、欠擬合、梯度消失或爆炸等。因此,對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化與調(diào)試是確保其性能優(yōu)越的關(guān)鍵步驟。本文將從數(shù)據(jù)預(yù)處理、模型設(shè)計(jì)、超參
    的頭像 發(fā)表于 07-01 11:41 ?649次閱讀

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    處理技術(shù)也可以通過(guò)深度學(xué)習(xí)來(lái)獲得更優(yōu)異的效果,比如去噪、超分辨率和跟蹤算法等。為了跟上時(shí)代的步伐,必須對(duì)深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)有所學(xué)習(xí)和研究
    的頭像 發(fā)表于 01-11 10:51 ?1840次閱讀
    詳解<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測(cè)方法分享

    鋪設(shè)異常檢測(cè)可以幫助減少數(shù)據(jù)存儲(chǔ)、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學(xué)習(xí)的新方法,有助于定位異常區(qū)域。
    的頭像 發(fā)表于 12-06 14:57 ?1382次閱讀
    基于<b class='flag-5'>transformer</b>和自監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>的路面異常檢測(cè)方法分享

    關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

    Transformer 本質(zhì)上是一個(gè) Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個(gè)部分:編碼組件和解碼組件。
    發(fā)表于 11-17 10:34 ?491次閱讀
    關(guān)于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>模型<b class='flag-5'>Transformer</b>模型的具體實(shí)現(xiàn)方案