作者:華為云開發(fā)者聯(lián)盟-碼上開花_Lancer
大規(guī)模語言模型(Large Language Models,LLM),也稱大規(guī)模語言模型或大型語言模型,是一種由包含數(shù)百億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語言模型,使用自監(jiān)督學(xué)習(xí)方法通過大量無標(biāo)注文本進(jìn)行訓(xùn)練。自 2018 年以來,Google、OpenAI、Meta、百度、華為等公司和研究機(jī)構(gòu)都相繼發(fā)布了包括 BERT,GPT 等在內(nèi)多種模型,并在幾乎所有自然語言處理任務(wù)中都表現(xiàn)出色。2019 年大模型呈現(xiàn)爆發(fā)式的增長(zhǎng),特別是 2022 年 11 月 ChatGPT(Chat Generative Pre-trained Transformer)發(fā)布后,更是引起了全世界的廣泛關(guān)注。用戶可以使用自然語言與系統(tǒng)交互,從而實(shí)現(xiàn)包括問答、分類、摘要、翻譯、聊天等從理解到生成的各種任務(wù)。大型語言模型展現(xiàn)出了強(qiáng)大的對(duì)世界知識(shí)掌握和對(duì)語言的理解。
一、大規(guī)模語言模型基本概念
語言是人類與其他動(dòng)物最重要的區(qū)別,而人類的多種智能也與此密切相關(guān)。邏輯思維以語言的形式表達(dá),大量的知識(shí)也以文字的形式記錄和傳播。如今,互聯(lián)網(wǎng)上已經(jīng)擁有數(shù)萬億以上的網(wǎng)頁資源,其中大部分信息都是以自然語言描述。因此,如果人工智能算法想要獲取知識(shí),就必須懂得如何理解人類使用的不太精確、可能有歧義、混亂的語言。語言模型(Language Model,LM)目標(biāo)就是建模自然語言的概率分布。詞匯表 V 上的語言模型,由函數(shù) P (w1w2...wm) 表示,可以形式化地構(gòu)建為詞序列 w1w2...wm 的概率分布,表示詞序列 w1w2...wm 作為一個(gè)句子出現(xiàn)的可能性大小。由于聯(lián)合概率 P (w1w2...wm) 的參數(shù)量十分巨大,直接計(jì)算 P (w1w2...wm) 非常困難。按照《現(xiàn)代漢語詞典(第七版)》包含 7 萬單詞,句子長(zhǎng)度按照 20 個(gè)詞計(jì)算,模型參數(shù)量達(dá)到 7.9792×1096 的天文數(shù)字。中文的書面語中超過 100 個(gè)單詞的句子也并不罕見,如果要將所有可能都納入考慮,模型的復(fù)雜度還會(huì)進(jìn)一步急劇增加,無法進(jìn)行存儲(chǔ)和計(jì)算。為了減少 P (w1w2...wm) 模型的參數(shù)空間,可以利用句子序列通常情況下從左至右的生成過程進(jìn)行分解,使用鏈?zhǔn)椒▌t得到:
由此,w1w2...wm 的生成過程可以看作單詞逐個(gè)生成的過程。首先生成 w1,之后根據(jù) w1 生成 w2,再根據(jù) w1 和 w2 生成 w3,以此類推,根據(jù)前 m? 1 個(gè)單詞生成最后一個(gè)單詞 wm。例如:對(duì)于句子 “把努力變成一種習(xí)慣” 的概率計(jì)算,使用上述公式可以轉(zhuǎn)化為:
通過上述過程將聯(lián)合概率 P (w1w2...wm) 轉(zhuǎn)換為了多個(gè)條件概率的乘積。但是,僅通過上述過程模型的參數(shù)空間依然沒有下降,P (wm|w1w2...wm.1) 的參數(shù)空間依然是天文數(shù)字。為了解決上述問題,可以進(jìn)一步假設(shè)任意單詞 wi 出現(xiàn)的概率只與過去 n ? 1 個(gè)詞相關(guān),即:
滿足上述條件的模型被稱為 n 元語法或 n 元文法 (n-gram) 模型。其中 n-gram 表示由 n 個(gè)連續(xù)單詞構(gòu)成的單元,也被稱為 n 元語法單元。盡管 n 元語言模型能緩解句子概率為 0 的問題,但語言是由人和時(shí)代創(chuàng)造的,具備無窮的可
能性,再龐大的訓(xùn)練語料也無法覆蓋所有的 n-gram,而訓(xùn)練語料中的零頻率并不代表零概率。因此,需要使用平滑技術(shù)(Smoothing)來解決這一問題,對(duì)所有可能出現(xiàn)的字符串都分配一個(gè)非零的概率值,從而避免零概率問題。平滑是指為了產(chǎn)生更合理的概率,對(duì)最大似然估計(jì)進(jìn)行調(diào)整的一類方法,也稱為數(shù)據(jù)平滑(Data Smoothing)。平滑處理的基本思想是提高低概率,降低高概率,使整體的概率分布趨于均勻。這類方法通常稱為統(tǒng)計(jì)語言模型(Statistical Language models,SLM)。n 語法模型整體上來看與訓(xùn)練語料規(guī)模和模型的階數(shù)有較大的關(guān)系,不同的平滑算法在不同情況下的表現(xiàn)有較大的差距。平滑算法雖然較好的解決了零概率問題,但是基于稀疏表示的 n 元語言模型仍然有三個(gè)較為明顯的缺點(diǎn):(1)無法建模長(zhǎng)度超過 n 的上下文;(2)依賴人工設(shè)計(jì)規(guī)則的平滑技術(shù);(3)當(dāng) n 增大時(shí),數(shù)據(jù)的稀疏性隨之增大,模型的參數(shù)量更是指數(shù)級(jí)增加,并且模型受到數(shù)據(jù)稀疏問題的影響,其參數(shù)難以被準(zhǔn)確的學(xué)習(xí)。此外,n 語法中單詞的離散表示也忽略了詞之間的相似性。
因此,基于分布式表示和神經(jīng)網(wǎng)絡(luò)的語言模型逐漸成為了研究熱點(diǎn)。Bengio 等人在 2000 年提出了使用前饋神經(jīng)網(wǎng)絡(luò)對(duì) P (wi|wi?n+1...wi?1) 進(jìn)行估計(jì)的語言模型。詞的獨(dú)熱編碼被映射為一個(gè)低維稠密的實(shí)數(shù)向量,稱為詞向量(Word Embedding)。此后,循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、端到端記憶網(wǎng)絡(luò)等神經(jīng)網(wǎng)絡(luò)方法都成功應(yīng)用于語言模型建模。相較于 n 元語言模型,神經(jīng)網(wǎng)絡(luò)方法可以在一定程度上避免數(shù)據(jù)稀疏問題,有些模型還可以避免對(duì)歷史長(zhǎng)度的限制,從而更好的建模長(zhǎng)距離依賴關(guān)系。這類方法通常稱為神經(jīng)語言模型(Neural Language Models,NLM)。深度神經(jīng)網(wǎng)絡(luò)需要采用有監(jiān)督方法,使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,因此,語言模型的訓(xùn)練過程也不可避免需要構(gòu)造訓(xùn)練語料。但是由于訓(xùn)練目標(biāo)可以通過無標(biāo)注文本直接獲得,從而使得模型的訓(xùn)練僅需要大規(guī)模無標(biāo)注文本即可語言模型也成為了典型的自監(jiān)督學(xué)習(xí)(Self-supervised Learning)任務(wù)。互聯(lián)網(wǎng)的發(fā)展,使得大規(guī)模文本非常容易獲取,因此訓(xùn)練超大規(guī)模的基于神經(jīng)網(wǎng)絡(luò)的語言模型也成為了可能。受到計(jì)算機(jī)視覺領(lǐng)域采用 ImageNet 對(duì)模型進(jìn)行一次預(yù)訓(xùn)練,使得模型可以通過海量圖像充分學(xué)習(xí)如何提取特征,然后再根據(jù)任務(wù)目標(biāo)進(jìn)行模型精調(diào)的范式影響,自然語言處理領(lǐng)域基于預(yù)訓(xùn)練語言模型的方法也逐漸成為主流。以 ELMo 為代表的動(dòng)態(tài)詞向量模型開啟了語言模型預(yù)訓(xùn)練的大門,此后以 GPT 和 BERT 為代表的基于 Transformer 模型的大規(guī)模預(yù)訓(xùn)練語言模型的出現(xiàn),使得自然語言處理全面進(jìn)入了預(yù)訓(xùn)練微調(diào)范式新時(shí)代。將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)時(shí),不需要了解太多的任務(wù)細(xì)節(jié),不需要設(shè)計(jì)特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),只需要 “微調(diào)” 預(yù)訓(xùn)練模型,即使用具體任務(wù)的標(biāo)注數(shù)據(jù)在預(yù)訓(xùn)練語言模型上進(jìn)行監(jiān)督訓(xùn)練,就可以取得顯著的性能提升。這類方法通常稱為預(yù)訓(xùn)練語言模型(Pre-trained Language Models,PLM)。2020 年 Open AI 發(fā)布了包含 1750 億參數(shù)的生成式大規(guī)模預(yù)訓(xùn)練語言模型 GPT-3(GenerativePre-trained Transformer 3)。開啟了大規(guī)模語言模型的時(shí)代。由于大規(guī)模語言模型的參數(shù)量巨大,如果在不同任務(wù)上都進(jìn)行微調(diào)需要消耗大量的計(jì)算資源,因此預(yù)訓(xùn)練微調(diào)范式不再適用于大規(guī)模語言模型。但是研究人員發(fā)現(xiàn),通過語境學(xué)習(xí)(Incontext Learning,ICL)等方法,直接使用大規(guī)模語言模型就可以在很多任務(wù)的少樣本場(chǎng)景下取得了很好的效果。此后,研究人員們提出了面向大規(guī)模語言模型的提示詞(Prompt)學(xué)習(xí)方法、模型即服務(wù)范式(Model as a Service,MaaS)、指令微調(diào)(Instruction Tuning)等方法,在不同任務(wù)上都取得了很好的效果。與此同時(shí),Google、Meta、百度、華為等公司和研究機(jī)構(gòu)都紛紛發(fā)布了包括 PaLM、LaMDA、T0 等為代表的不同大型語言模型。
2022 年底 ChatGPT 的出現(xiàn),將大規(guī)模語言模型的能力進(jìn)行了充分的展現(xiàn),也引發(fā)了大規(guī)模語言模型研究的熱潮。Kaplan 等人在文獻(xiàn)中提出了縮放法則(Scaling Laws),指出模型的性能依賴于模型的規(guī)模,包括:參數(shù)數(shù)量、數(shù)據(jù)集大小和計(jì)算量,模型的效果會(huì)隨著三者的指數(shù)增加而線性提高。如圖 1.1 所示,模型的損失(Loss)值隨著模型規(guī)模的指數(shù)增大而線性降低。這意味著模型的能力是可以根據(jù)這三個(gè)變量估計(jì)的,提高模型參數(shù)量,擴(kuò)大數(shù)據(jù)集規(guī)模都可以使得模型的性能可預(yù)測(cè)地提高。這為繼續(xù)提升大模型的規(guī)模給出了定量分析依據(jù)。
圖 1.1 大規(guī)模語言模型的縮放法則(Scaling Laws)
二、大規(guī)模語言模型發(fā)展歷程
大規(guī)模語言模型的發(fā)展歷程雖然只有短短不到五年的時(shí)間,但是發(fā)展速度相當(dāng)驚人,截止 2023 年 6 月,國(guó)內(nèi)外有超過百種大模型相繼發(fā)布。中國(guó)人民大學(xué)趙鑫教授團(tuán)隊(duì)在文獻(xiàn)按照時(shí)間線給出 2019 年至 2023 年 5 月比較有影響力并且模型參數(shù)量超過 100 億的大規(guī)模語言模型,如圖 2.1 所示。大規(guī)模語言模型的發(fā)展可以粗略的分為如下三個(gè)階段:基礎(chǔ)模型、能力探索、突破發(fā)展。
基礎(chǔ)模型階段主要集中于 2018 年至 2021 年,2017 年 Vaswani 等人提出了 Transformer [架構(gòu),在機(jī)器翻譯任務(wù)上取得了突破性進(jìn)展。2018 年 Google 和 Open AI 分別提出了 BERT [1] 和 GPT-1 模型,開啟了預(yù)訓(xùn)練語言模型時(shí)代。BERT-Base 版本參數(shù)量為 1.1 億,BERT-Large 的參數(shù)量為 3.4 億,GPT-1 的參數(shù)量 1.17 億。這在當(dāng)時(shí),相比其它深度神經(jīng)網(wǎng)絡(luò)的參數(shù)量已經(jīng)是有數(shù)量級(jí)上提升。2019 年 Open AI 又發(fā)布了 GPT-2,其參數(shù)量達(dá)到了 15 億。此后,Google 也發(fā)布了參數(shù)規(guī)模為 110 億的 T5 模型。2020 年 Open AI 進(jìn)一步將語言模型參數(shù)量擴(kuò)展到 1750 億,發(fā)布了 GPT-3。此后,國(guó)內(nèi)也相繼推出了一系列的大規(guī)模語言模型,包括清華大學(xué)ERNIE(THU)、百度ERNIE(Baidu)、華為盤古 -α 等。這個(gè)階段研究主要集中語言模型本身,包括僅編碼器(Encoder Only)、編碼器 - 解碼器(Encoder-Decoder)、僅解碼器(Decoder Only)等各種類型的模型結(jié)構(gòu)都有相應(yīng)的研究。模型大小與 BERT 相類似的算法,通常采用預(yù)訓(xùn)練微調(diào)范式,針對(duì)不同下游任務(wù)進(jìn)行微調(diào)。但是模型參數(shù)量在 10 億以上時(shí),由于微調(diào)的計(jì)算量很高,這類模型的影響力在當(dāng)時(shí)相較 BERT 類模型有不小的差距。
圖 2.1 大規(guī)模語言模型發(fā)展時(shí)間線
能力探索階段集中于 2019 年至 2022 年,由于大規(guī)模語言模型很難針對(duì)特定任務(wù)進(jìn)行微調(diào),研究人員們開始探索在不針對(duì)單一任務(wù)進(jìn)行微調(diào)的情況下如何能夠發(fā)揮大規(guī)模語言模型的能力。2019 年 Radford 等人 就使用 GPT-2 模型研究了大規(guī)模語言模型在零樣本情況下的任務(wù)處理能力。在此基礎(chǔ)上,Brown 等人在 GPT-3 模型上研究了通過語境學(xué)習(xí)(In-Context Learning)進(jìn)行少樣本學(xué)習(xí)的方法。將不同任務(wù)的少量有標(biāo)注的實(shí)例拼接到待分析的樣本之前輸入語言模型,用語言模型根據(jù)實(shí)例理解任務(wù)并給出正確結(jié)果。在包括 TriviaQA、WebQS、CoQA 等評(píng)測(cè)集合都展示出了非常強(qiáng)的能力,在有些任務(wù)中甚至超過了此前的有監(jiān)督方法。上述方法不需要修改語言模型的參數(shù),模型在處理不同任務(wù)時(shí)無需花費(fèi)的大量計(jì)算資源進(jìn)行模型微調(diào)。但是僅依賴基于語言模型本身,其性能在很多任務(wù)上仍然很難達(dá)到有監(jiān)督學(xué)習(xí)效果,因此研究人員們提出了指令微調(diào)(Instruction Tuning)方案,將大量各類型任務(wù),統(tǒng)一為生成式自然語言理解框架,并構(gòu)造訓(xùn)練語料進(jìn)行微調(diào)。
突破發(fā)展階段以 2022 年 11 月 ChatGPT 的發(fā)布為起點(diǎn)。ChatGPT 通過一個(gè)簡(jiǎn)單的對(duì)話框,利用一個(gè)大規(guī)模語言模型就可以實(shí)現(xiàn)問題回答、文稿撰寫、代碼生成、數(shù)學(xué)解題等過去自然語言處理系統(tǒng)需要大量小模型訂制開發(fā)才能分別實(shí)現(xiàn)的能力。它在開放領(lǐng)域問答、各類自然語言生成式任務(wù)以及對(duì)話上文理解上所展現(xiàn)出來的能力遠(yuǎn)超大多數(shù)人的想象。2023 年 3 月 GPT-4 發(fā)布,相較于 ChatGPT 又有了非常明顯的進(jìn)步,并具備了多模態(tài)理解能力。GPT-4 在多種基準(zhǔn)考試測(cè)試上的得分高于 88% 的應(yīng)試者,包括美國(guó)律師資格考試(Uniform Bar Exam)、法學(xué)院入學(xué)考試(Law School Admission Test)、學(xué)術(shù)能力評(píng)估(Scholastic Assessment Test,SAT)等。它展現(xiàn)了近乎 “通用人工智能(AGI)” 的能力。各大公司和研究機(jī)構(gòu)也相繼發(fā)布了此類系統(tǒng),包括 Google 推出的 Bard、百度的文心一言、科大訊飛的星火大模型、智譜 ChatGLM、復(fù)旦大學(xué) MOSS 等。表 1.1 給出了截止 2023 年 6 月典型開源和未開源大規(guī)模語言模型的基本情況??梢钥吹綇?2022 年開始大模型呈現(xiàn)爆發(fā)式的增長(zhǎng),各大公司和研究機(jī)構(gòu)都在發(fā)布各種不同類型的大模型。
三、 大規(guī)模語言模型構(gòu)建流程
根據(jù) OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 在微軟 Build 2023 大會(huì)上所公開的信息,OpenAI 所使用的大規(guī)模語言模型構(gòu)建流程如圖 2.2 所示。主要包含四個(gè)階段:預(yù)訓(xùn)練、有監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)。這四個(gè)階段都需要不同規(guī)模數(shù)據(jù)集合、不同類型的算法,產(chǎn)出不同類型的模型,所需要的資源也有非常大的差別。
圖 2.2 OpenAI 使用的大規(guī)模語言模型構(gòu)建流程
預(yù)訓(xùn)練(Pretraining)階段需要利用海量的訓(xùn)練數(shù)據(jù),包括互聯(lián)網(wǎng)網(wǎng)頁、維基百科、書籍、GitHub、論文、問答網(wǎng)站等,構(gòu)建包含數(shù)千億甚至數(shù)萬億單詞的具有多樣性的內(nèi)容。利用由數(shù)千塊高性能 GPU 和高速網(wǎng)絡(luò)組成超級(jí)計(jì)算機(jī),花費(fèi)數(shù)十天完成深度神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練,構(gòu)建基礎(chǔ)語言模型(Base Model)?;A(chǔ)大模型構(gòu)建了長(zhǎng)文本的建模能力,使得模型具有語言生成能力,根據(jù)輸入的提示詞(Prompt),模型可以生成文本補(bǔ)全句子。也有部分研究人員認(rèn)為,語言模型建模過程中也隱含的構(gòu)建了包括事實(shí)性知識(shí)(Factual Knowledge)和常識(shí)知識(shí)(Commonsense)在內(nèi)的世界知識(shí)(World Knowledge)。根據(jù)他們的文獻(xiàn)介紹,GPT-3 完成一次訓(xùn)練的總計(jì)算量是 3640PFlops,按照 NVIDIA A100 80G 和平均利用率達(dá)到 50% 計(jì)算,需要花費(fèi)近一個(gè)月時(shí)間使用 1000 塊 GPU 完成。
表 1.1 典型開源大規(guī)模語言模型匯總
表 1.2 典型閉源大規(guī)模語言模型匯總
有監(jiān)督微調(diào)(Supervised Finetuning),也稱為指令微調(diào)(Instruction Tuning),利用少量高質(zhì)量數(shù)據(jù)集合,包含用戶輸入的提示詞(Prompt)和對(duì)應(yīng)的理想輸出結(jié)果。用戶輸入包括問題、閑聊對(duì)話、任務(wù)指令等多種形式和任務(wù)。
例如:提示詞(Prompt):復(fù)旦大學(xué)有幾個(gè)校區(qū)?
理想輸出:復(fù)旦大學(xué)現(xiàn)有 4 個(gè)校區(qū),分別是邯鄲校區(qū)、新江灣校區(qū)、楓林校區(qū)和張江校區(qū)。其中邯鄲校區(qū)是復(fù)旦大學(xué)的主校區(qū),邯鄲校區(qū)與新江灣校區(qū)都位于楊浦區(qū),楓林校區(qū)位于徐匯區(qū),張江校區(qū)位于浦東新區(qū)。
利用這些有監(jiān)督數(shù)據(jù),使用與預(yù)訓(xùn)練階段相同的語言模型訓(xùn)練算法,在基礎(chǔ)語言模型基礎(chǔ)上再進(jìn)行訓(xùn)練,從而得到有監(jiān)督微調(diào)模型(SFT 模型)。經(jīng)過訓(xùn)練的 SFT 模型具備了初步的指令理解能力和上下文理解能力,能夠完成開放領(lǐng)域問題、閱讀理解、翻譯、生成代碼等能力,也具備了一定的對(duì)未知任務(wù)的泛化能力。由于有監(jiān)督微調(diào)階段的所需的訓(xùn)練語料數(shù)量較少,SFT 模型的訓(xùn)練過程并不需要消耗非常大量的計(jì)算。根據(jù)模型的大小和訓(xùn)練數(shù)據(jù)量,通常需要數(shù)十塊 GPU,花費(fèi)數(shù)天時(shí)間完成訓(xùn)練。SFT 模型具備了初步的任務(wù)完成能力,可以開放給用戶使用,很多類 ChatGPT 的模型都屬于該類型,包括:Alpaca、Vicuna、MOSS、ChatGLM-6B 等。很多這類模型效果也非常好,甚至在一些評(píng)測(cè)中達(dá)到了 ChatGPT 的 90% 的效果。當(dāng)前的一些研究表明有監(jiān)督微調(diào)階段數(shù)據(jù)選擇對(duì) SFT 模型效果有非常大的影響,因此如何構(gòu)造少量并且高質(zhì)量的訓(xùn)練數(shù)據(jù)是本階段有監(jiān)督微調(diào)階段的研究重點(diǎn)。
目標(biāo)是構(gòu)建一個(gè)文本質(zhì)量對(duì)比模型,對(duì)于同一個(gè)提示詞,SFT 模型給出的多個(gè)不同輸出結(jié)果的質(zhì)量進(jìn)行排序。獎(jiǎng)勵(lì)模型(RM 模型)可以通過二分類模型,對(duì)輸入的兩個(gè)結(jié)果之間的優(yōu)劣進(jìn)行判斷。RM 模型與基礎(chǔ)語言模型和 SFT 模型不同,RM 模型本身并不能單獨(dú)提供給用戶使用。獎(jiǎng)勵(lì)模型的訓(xùn)練通常和 SFT 模型一樣,使用數(shù)十塊 GPU,通過幾天時(shí)間完成訓(xùn)練。由于 RM 模型的準(zhǔn)確率對(duì)于強(qiáng)化學(xué)習(xí)階段的效果有著至關(guān)重要的影響,因此對(duì)于該模型的訓(xùn)練通常需要大規(guī)模的訓(xùn)練數(shù)據(jù)。Andrej Karpathy 在報(bào)告中指出,該部分需要百萬量級(jí)的對(duì)比數(shù)據(jù)標(biāo)注,而且其中很多標(biāo)注需要花費(fèi)非常長(zhǎng)的時(shí)間才能完成。圖 2.3 給出了 InstructGPT 系統(tǒng)中獎(jiǎng)勵(lì)模型訓(xùn)練樣本標(biāo)注示例??梢钥吹?,示例中文本表達(dá)都較為流暢,標(biāo)注其質(zhì)量排序需要制定非常詳細(xì)的規(guī)范,標(biāo)注人員也需要非常認(rèn)真的對(duì)標(biāo)規(guī)范內(nèi)容進(jìn)行標(biāo)注,需要消耗大量的人力,同時(shí)如何保持眾包標(biāo)注人員之間的一致性,也是獎(jiǎng)勵(lì)建模階段需要解決的難點(diǎn)問題之一。此外獎(jiǎng)勵(lì)模型的泛化能力邊界也在本階段需要重點(diǎn)研究的另一個(gè)問題。如果 RM 模型的目標(biāo)是針對(duì)所有提示詞系統(tǒng)所生成輸出都能夠高質(zhì)量的進(jìn)行判斷,該問題所面臨的難度在某種程度上與文本生成等價(jià),因此如何限定 RM 模型應(yīng)用的泛化邊界也是本階段難點(diǎn)問題。
圖 2.3 InstructGPT 系統(tǒng)中獎(jiǎng)勵(lì)模型訓(xùn)練樣本標(biāo)注示例
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)階段根據(jù)數(shù)十萬用戶給出的提示詞,利用在前一階段訓(xùn)練的 RM 模型,給出 SFT 模型對(duì)用戶提示詞補(bǔ)全結(jié)果的質(zhì)量評(píng)估,并與語言模型建模目標(biāo)綜合得到更好的效果。該階段所使用的提示詞數(shù)量與有監(jiān)督微調(diào)階段類似,數(shù)量在十萬量級(jí),并且不需要人工提前給出該提示詞所對(duì)應(yīng)的理想回復(fù)。使用強(qiáng)化學(xué)習(xí),在 SFT 模型基礎(chǔ)上調(diào)整參數(shù),使得最終生成的文本可以獲得更高的獎(jiǎng)勵(lì)(Reward)。該階段所需要的計(jì)算量相較預(yù)訓(xùn)練階段也少很多,通常也僅需要數(shù)十塊 GPU,經(jīng)過數(shù)天時(shí)間的即可完成訓(xùn)練。文獻(xiàn) [給出了強(qiáng)化學(xué)習(xí)和有監(jiān)督微調(diào)的對(duì)比,在模型參數(shù)量相同的情況下,強(qiáng)化學(xué)習(xí)可以得到相較于有監(jiān)督微調(diào)好得多的效果。關(guān)于為什么強(qiáng)化學(xué)習(xí)相比有監(jiān)督微調(diào)可以得到更好結(jié)果的問題,截止到 2023 年 9 月也還沒有完整和得到普遍共識(shí)的解釋。此外,Andrej Karpathy 也指出強(qiáng)化學(xué)習(xí)也并不是沒有問題的,它會(huì)使得基礎(chǔ)模型的熵降低,從而減少了模型輸出的多樣性。在經(jīng)過強(qiáng)化學(xué)習(xí)方法訓(xùn)練完成后的 RL 模型,就是最終提供給用戶使用具有理解用戶指令和上下文的類 ChatGPT 系統(tǒng)。由于強(qiáng)化學(xué)習(xí)方法穩(wěn)定性不高,并且超參數(shù)眾多,使得模型收斂難度大,再疊加 RM 模型的準(zhǔn)確率問題,使得在大規(guī)模語言模型如何能夠有效應(yīng)用強(qiáng)化學(xué)習(xí)非常困難。
大語言模型研究進(jìn)展之快,讓在自然語言處理領(lǐng)域開展了近三十年工作的我們也難以適從。其研究之火爆程度令人咋舌,自然語言處理領(lǐng)域重要國(guó)際會(huì)議 EMNLP,2022 年語言模型相關(guān)論文投稿占比只有不到 5%。然而,2023 年語言模型相關(guān)投稿則超過了 EMNLP 整體投稿的 20%。如何能夠兼顧大語言模型的基礎(chǔ)理論,又能夠在快速發(fā)展的各種研究中選擇最具有代表性的工作介紹給大家,是寫作中面臨的最大挑戰(zhàn)之一,受限于我們的認(rèn)知水平和所從事的研究工作的局限,對(duì)其中一些任務(wù)和工作的細(xì)節(jié)理解可能存在不少錯(cuò)誤,也懇請(qǐng)專家、讀者批評(píng)指正!
審核編輯:湯梓紅
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237073 -
語言模型
+關(guān)注
關(guān)注
0文章
501瀏覽量
10236 -
華為云
+關(guān)注
關(guān)注
3文章
2391瀏覽量
17244 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1546瀏覽量
7358
原文標(biāo)題:帶你了解大語言模型的前世今生
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論