性软件one致敬韩寒app成年,欧美又乱又伦观看,丁香色婷婷国产精品视频

作者：華為云開發(fā)者聯(lián)盟-碼上開花_Lancer

大規(guī)模語言模型（Large Language Models，LLM），也稱大規(guī)模語言模型或大型語言模型，是一種由包含數(shù)百億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語言模型，使用自監(jiān)督學(xué)習(xí)方法通過大量無標(biāo)注文本進(jìn)行訓(xùn)練。自 2018 年以來，Google、OpenAI、Meta、百度、華為等公司和研究機(jī)構(gòu)都相繼發(fā)布了包括 BERT，GPT 等在內(nèi)多種模型，并在幾乎所有自然語言處理任務(wù)中都表現(xiàn)出色。2019 年大模型呈現(xiàn)爆發(fā)式的增長(zhǎng)，特別是 2022 年 11 月 ChatGPT（Chat Generative Pre-trained Transformer）發(fā)布后，更是引起了全世界的廣泛關(guān)注。用戶可以使用自然語言與系統(tǒng)交互，從而實(shí)現(xiàn)包括問答、分類、摘要、翻譯、聊天等從理解到生成的各種任務(wù)。大型語言模型展現(xiàn)出了強(qiáng)大的對(duì)世界知識(shí)掌握和對(duì)語言的理解。

一、大規(guī)模語言模型基本概念

語言是人類與其他動(dòng)物最重要的區(qū)別，而人類的多種智能也與此密切相關(guān)。邏輯思維以語言的形式表達(dá)，大量的知識(shí)也以文字的形式記錄和傳播。如今，互聯(lián)網(wǎng)上已經(jīng)擁有數(shù)萬億以上的網(wǎng)頁資源，其中大部分信息都是以自然語言描述。因此，如果人工智能算法想要獲取知識(shí)，就必須懂得如何理解人類使用的不太精確、可能有歧義、混亂的語言。語言模型（Language Model，LM）目標(biāo)就是建模自然語言的概率分布。詞匯表 V 上的語言模型，由函數(shù) P (w1w2...wm) 表示，可以形式化地構(gòu)建為詞序列 w1w2...wm 的概率分布，表示詞序列 w1w2...wm 作為一個(gè)句子出現(xiàn)的可能性大小。由于聯(lián)合概率 P (w1w2...wm) 的參數(shù)量十分巨大，直接計(jì)算 P (w1w2...wm) 非常困難。按照《現(xiàn)代漢語詞典（第七版）》包含 7 萬單詞，句子長(zhǎng)度按照 20 個(gè)詞計(jì)算，模型參數(shù)量達(dá)到 7.9792×1096 的天文數(shù)字。中文的書面語中超過 100 個(gè)單詞的句子也并不罕見，如果要將所有可能都納入考慮，模型的復(fù)雜度還會(huì)進(jìn)一步急劇增加，無法進(jìn)行存儲(chǔ)和計(jì)算。為了減少 P (w1w2...wm) 模型的參數(shù)空間，可以利用句子序列通常情況下從左至右的生成過程進(jìn)行分解，使用鏈?zhǔn)椒▌t得到：

由此，w1w2...wm 的生成過程可以看作單詞逐個(gè)生成的過程。首先生成 w1，之后根據(jù) w1 生成 w2，再根據(jù) w1 和 w2 生成 w3，以此類推，根據(jù)前 m? 1 個(gè)單詞生成最后一個(gè)單詞 wm。例如：對(duì)于句子 “把努力變成一種習(xí)慣” 的概率計(jì)算，使用上述公式可以轉(zhuǎn)化為：

通過上述過程將聯(lián)合概率 P (w1w2...wm) 轉(zhuǎn)換為了多個(gè)條件概率的乘積。但是，僅通過上述過程模型的參數(shù)空間依然沒有下降，P (wm|w1w2...wm.1) 的參數(shù)空間依然是天文數(shù)字。為了解決上述問題，可以進(jìn)一步假設(shè)任意單詞 wi 出現(xiàn)的概率只與過去 n ? 1 個(gè)詞相關(guān)，即：

滿足上述條件的模型被稱為 n 元語法或 n 元文法 (n-gram) 模型。其中 n-gram 表示由 n 個(gè)連續(xù)單詞構(gòu)成的單元，也被稱為 n 元語法單元。盡管 n 元語言模型能緩解句子概率為 0 的問題，但語言是由人和時(shí)代創(chuàng)造的，具備無窮的可
能性，再龐大的訓(xùn)練語料也無法覆蓋所有的 n-gram，而訓(xùn)練語料中的零頻率并不代表零概率。因此，需要使用平滑技術(shù)（Smoothing）來解決這一問題，對(duì)所有可能出現(xiàn)的字符串都分配一個(gè)非零的概率值，從而避免零概率問題。平滑是指為了產(chǎn)生更合理的概率，對(duì)最大似然估計(jì)進(jìn)行調(diào)整的一類方法，也稱為數(shù)據(jù)平滑（Data Smoothing）。平滑處理的基本思想是提高低概率，降低高概率，使整體的概率分布趨于均勻。這類方法通常稱為統(tǒng)計(jì)語言模型（Statistical Language models，SLM）。n 語法模型整體上來看與訓(xùn)練語料規(guī)模和模型的階數(shù)有較大的關(guān)系，不同的平滑算法在不同情況下的表現(xiàn)有較大的差距。平滑算法雖然較好的解決了零概率問題，但是基于稀疏表示的 n 元語言模型仍然有三個(gè)較為明顯的缺點(diǎn)：（1）無法建模長(zhǎng)度超過 n 的上下文；（2）依賴人工設(shè)計(jì)規(guī)則的平滑技術(shù)；（3）當(dāng) n 增大時(shí)，數(shù)據(jù)的稀疏性隨之增大，模型的參數(shù)量更是指數(shù)級(jí)增加，并且模型受到數(shù)據(jù)稀疏問題的影響，其參數(shù)難以被準(zhǔn)確的學(xué)習(xí)。此外，n 語法中單詞的離散表示也忽略了詞之間的相似性。

因此，基于分布式表示和神經(jīng)網(wǎng)絡(luò)的語言模型逐漸成為了研究熱點(diǎn)。Bengio 等人在 2000 年提出了使用前饋神經(jīng)網(wǎng)絡(luò)對(duì) P (wi|wi?n+1...wi?1) 進(jìn)行估計(jì)的語言模型。詞的獨(dú)熱編碼被映射為一個(gè)低維稠密的實(shí)數(shù)向量，稱為詞向量（Word Embedding）。此后，循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、端到端記憶網(wǎng)絡(luò)等神經(jīng)網(wǎng)絡(luò)方法都成功應(yīng)用于語言模型建模。相較于 n 元語言模型，神經(jīng)網(wǎng)絡(luò)方法可以在一定程度上避免數(shù)據(jù)稀疏問題，有些模型還可以避免對(duì)歷史長(zhǎng)度的限制，從而更好的建模長(zhǎng)距離依賴關(guān)系。這類方法通常稱為神經(jīng)語言模型（Neural Language Models，NLM）。深度神經(jīng)網(wǎng)絡(luò)需要采用有監(jiān)督方法，使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，因此，語言模型的訓(xùn)練過程也不可避免需要構(gòu)造訓(xùn)練語料。但是由于訓(xùn)練目標(biāo)可以通過無標(biāo)注文本直接獲得，從而使得模型的訓(xùn)練僅需要大規(guī)模無標(biāo)注文本即可語言模型也成為了典型的自監(jiān)督學(xué)習(xí)（Self-supervised Learning）任務(wù)。互聯(lián)網(wǎng)的發(fā)展，使得大規(guī)模文本非常容易獲取，因此訓(xùn)練超大規(guī)模的基于神經(jīng)網(wǎng)絡(luò)的語言模型也成為了可能。受到計(jì)算機(jī)視覺領(lǐng)域采用 ImageNet 對(duì)模型進(jìn)行一次預(yù)訓(xùn)練，使得模型可以通過海量圖像充分學(xué)習(xí)如何提取特征，然后再根據(jù)任務(wù)目標(biāo)進(jìn)行模型精調(diào)的范式影響，自然語言處理領(lǐng)域基于預(yù)訓(xùn)練語言模型的方法也逐漸成為主流。以 ELMo 為代表的動(dòng)態(tài)詞向量模型開啟了語言模型預(yù)訓(xùn)練的大門，此后以 GPT 和 BERT 為代表的基于 Transformer 模型的大規(guī)模預(yù)訓(xùn)練語言模型的出現(xiàn)，使得自然語言處理全面進(jìn)入了預(yù)訓(xùn)練微調(diào)范式新時(shí)代。將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)時(shí)，不需要了解太多的任務(wù)細(xì)節(jié)，不需要設(shè)計(jì)特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，只需要 “微調(diào)” 預(yù)訓(xùn)練模型，即使用具體任務(wù)的標(biāo)注數(shù)據(jù)在預(yù)訓(xùn)練語言模型上進(jìn)行監(jiān)督訓(xùn)練，就可以取得顯著的性能提升。這類方法通常稱為預(yù)訓(xùn)練語言模型（Pre-trained Language Models，PLM）。2020 年 Open AI 發(fā)布了包含 1750 億參數(shù)的生成式大規(guī)模預(yù)訓(xùn)練語言模型 GPT-3（GenerativePre-trained Transformer 3）。開啟了大規(guī)模語言模型的時(shí)代。由于大規(guī)模語言模型的參數(shù)量巨大，如果在不同任務(wù)上都進(jìn)行微調(diào)需要消耗大量的計(jì)算資源，因此預(yù)訓(xùn)練微調(diào)范式不再適用于大規(guī)模語言模型。但是研究人員發(fā)現(xiàn)，通過語境學(xué)習(xí)（Incontext Learning，ICL）等方法，直接使用大規(guī)模語言模型就可以在很多任務(wù)的少樣本場(chǎng)景下取得了很好的效果。此后，研究人員們提出了面向大規(guī)模語言模型的提示詞（Prompt）學(xué)習(xí)方法、模型即服務(wù)范式（Model as a Service，MaaS）、指令微調(diào)（Instruction Tuning）等方法，在不同任務(wù)上都取得了很好的效果。與此同時(shí)，Google、Meta、百度、華為等公司和研究機(jī)構(gòu)都紛紛發(fā)布了包括 PaLM、LaMDA、T0 等為代表的不同大型語言模型。

2022 年底 ChatGPT 的出現(xiàn)，將大規(guī)模語言模型的能力進(jìn)行了充分的展現(xiàn)，也引發(fā)了大規(guī)模語言模型研究的熱潮。Kaplan 等人在文獻(xiàn)中提出了縮放法則（Scaling Laws），指出模型的性能依賴于模型的規(guī)模，包括：參數(shù)數(shù)量、數(shù)據(jù)集大小和計(jì)算量，模型的效果會(huì)隨著三者的指數(shù)增加而線性提高。如圖 1.1 所示，模型的損失（Loss）值隨著模型規(guī)模的指數(shù)增大而線性降低。這意味著模型的能力是可以根據(jù)這三個(gè)變量估計(jì)的，提高模型參數(shù)量，擴(kuò)大數(shù)據(jù)集規(guī)模都可以使得模型的性能可預(yù)測(cè)地提高。這為繼續(xù)提升大模型的規(guī)模給出了定量分析依據(jù)。

圖 1.1 大規(guī)模語言模型的縮放法則（Scaling Laws）

二、大規(guī)模語言模型發(fā)展歷程

大規(guī)模語言模型的發(fā)展歷程雖然只有短短不到五年的時(shí)間，但是發(fā)展速度相當(dāng)驚人，截止 2023 年 6 月，國(guó)內(nèi)外有超過百種大模型相繼發(fā)布。中國(guó)人民大學(xué)趙鑫教授團(tuán)隊(duì)在文獻(xiàn)按照時(shí)間線給出 2019 年至 2023 年 5 月比較有影響力并且模型參數(shù)量超過 100 億的大規(guī)模語言模型，如圖 2.1 所示。大規(guī)模語言模型的發(fā)展可以粗略的分為如下三個(gè)階段：基礎(chǔ)模型、能力探索、突破發(fā)展。

基礎(chǔ)模型階段主要集中于 2018 年至 2021 年，2017 年 Vaswani 等人提出了 Transformer [架構(gòu)，在機(jī)器翻譯任務(wù)上取得了突破性進(jìn)展。2018 年 Google 和 Open AI 分別提出了 BERT [1] 和 GPT-1 模型，開啟了預(yù)訓(xùn)練語言模型時(shí)代。BERT-Base 版本參數(shù)量為 1.1 億，BERT-Large 的參數(shù)量為 3.4 億，GPT-1 的參數(shù)量 1.17 億。這在當(dāng)時(shí)，相比其它深度神經(jīng)網(wǎng)絡(luò)的參數(shù)量已經(jīng)是有數(shù)量級(jí)上提升。2019 年 Open AI 又發(fā)布了 GPT-2，其參數(shù)量達(dá)到了 15 億。此后，Google 也發(fā)布了參數(shù)規(guī)模為 110 億的 T5 模型。2020 年 Open AI 進(jìn)一步將語言模型參數(shù)量擴(kuò)展到 1750 億，發(fā)布了 GPT-3。此后，國(guó)內(nèi)也相繼推出了一系列的大規(guī)模語言模型，包括清華大學(xué)ERNIE(THU)、百度ERNIE(Baidu)、華為盤古 -α 等。這個(gè)階段研究主要集中語言模型本身，包括僅編碼器（Encoder Only）、編碼器 - 解碼器（Encoder-Decoder）、僅解碼器（Decoder Only）等各種類型的模型結(jié)構(gòu)都有相應(yīng)的研究。模型大小與 BERT 相類似的算法，通常采用預(yù)訓(xùn)練微調(diào)范式，針對(duì)不同下游任務(wù)進(jìn)行微調(diào)。但是模型參數(shù)量在 10 億以上時(shí)，由于微調(diào)的計(jì)算量很高，這類模型的影響力在當(dāng)時(shí)相較 BERT 類模型有不小的差距。

圖 2.1 大規(guī)模語言模型發(fā)展時(shí)間線

能力探索階段集中于 2019 年至 2022 年，由于大規(guī)模語言模型很難針對(duì)特定任務(wù)進(jìn)行微調(diào)，研究人員們開始探索在不針對(duì)單一任務(wù)進(jìn)行微調(diào)的情況下如何能夠發(fā)揮大規(guī)模語言模型的能力。2019 年 Radford 等人就使用 GPT-2 模型研究了大規(guī)模語言模型在零樣本情況下的任務(wù)處理能力。在此基礎(chǔ)上，Brown 等人在 GPT-3 模型上研究了通過語境學(xué)習(xí)（In-Context Learning）進(jìn)行少樣本學(xué)習(xí)的方法。將不同任務(wù)的少量有標(biāo)注的實(shí)例拼接到待分析的樣本之前輸入語言模型，用語言模型根據(jù)實(shí)例理解任務(wù)并給出正確結(jié)果。在包括 TriviaQA、WebQS、CoQA 等評(píng)測(cè)集合都展示出了非常強(qiáng)的能力，在有些任務(wù)中甚至超過了此前的有監(jiān)督方法。上述方法不需要修改語言模型的參數(shù)，模型在處理不同任務(wù)時(shí)無需花費(fèi)的大量計(jì)算資源進(jìn)行模型微調(diào)。但是僅依賴基于語言模型本身，其性能在很多任務(wù)上仍然很難達(dá)到有監(jiān)督學(xué)習(xí)效果，因此研究人員們提出了指令微調(diào)（Instruction Tuning）方案，將大量各類型任務(wù)，統(tǒng)一為生成式自然語言理解框架，并構(gòu)造訓(xùn)練語料進(jìn)行微調(diào)。

突破發(fā)展階段以 2022 年 11 月 ChatGPT 的發(fā)布為起點(diǎn)。ChatGPT 通過一個(gè)簡(jiǎn)單的對(duì)話框，利用一個(gè)大規(guī)模語言模型就可以實(shí)現(xiàn)問題回答、文稿撰寫、代碼生成、數(shù)學(xué)解題等過去自然語言處理系統(tǒng)需要大量小模型訂制開發(fā)才能分別實(shí)現(xiàn)的能力。它在開放領(lǐng)域問答、各類自然語言生成式任務(wù)以及對(duì)話上文理解上所展現(xiàn)出來的能力遠(yuǎn)超大多數(shù)人的想象。2023 年 3 月 GPT-4 發(fā)布，相較于 ChatGPT 又有了非常明顯的進(jìn)步，并具備了多模態(tài)理解能力。GPT-4 在多種基準(zhǔn)考試測(cè)試上的得分高于 88% 的應(yīng)試者，包括美國(guó)律師資格考試（Uniform Bar Exam）、法學(xué)院入學(xué)考試（Law School Admission Test）、學(xué)術(shù)能力評(píng)估（Scholastic Assessment Test，SAT）等。它展現(xiàn)了近乎 “通用人工智能（AGI）” 的能力。各大公司和研究機(jī)構(gòu)也相繼發(fā)布了此類系統(tǒng)，包括 Google 推出的 Bard、百度的文心一言、科大訊飛的星火大模型、智譜 ChatGLM、復(fù)旦大學(xué) MOSS 等。表 1.1 給出了截止 2023 年 6 月典型開源和未開源大規(guī)模語言模型的基本情況?？梢钥吹綇?2022 年開始大模型呈現(xiàn)爆發(fā)式的增長(zhǎng)，各大公司和研究機(jī)構(gòu)都在發(fā)布各種不同類型的大模型。

三、大規(guī)模語言模型構(gòu)建流程

根據(jù) OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 在微軟 Build 2023 大會(huì)上所公開的信息，OpenAI 所使用的大規(guī)模語言模型構(gòu)建流程如圖 2.2 所示。主要包含四個(gè)階段：預(yù)訓(xùn)練、有監(jiān)督微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)。這四個(gè)階段都需要不同規(guī)模數(shù)據(jù)集合、不同類型的算法，產(chǎn)出不同類型的模型，所需要的資源也有非常大的差別。

圖 2.2 OpenAI 使用的大規(guī)模語言模型構(gòu)建流程

預(yù)訓(xùn)練（Pretraining）階段需要利用海量的訓(xùn)練數(shù)據(jù)，包括互聯(lián)網(wǎng)網(wǎng)頁、維基百科、書籍、GitHub、論文、問答網(wǎng)站等，構(gòu)建包含數(shù)千億甚至數(shù)萬億單詞的具有多樣性的內(nèi)容。利用由數(shù)千塊高性能 GPU 和高速網(wǎng)絡(luò)組成超級(jí)計(jì)算機(jī)，花費(fèi)數(shù)十天完成深度神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練，構(gòu)建基礎(chǔ)語言模型（Base Model）?；A(chǔ)大模型構(gòu)建了長(zhǎng)文本的建模能力，使得模型具有語言生成能力，根據(jù)輸入的提示詞（Prompt），模型可以生成文本補(bǔ)全句子。也有部分研究人員認(rèn)為，語言模型建模過程中也隱含的構(gòu)建了包括事實(shí)性知識(shí)（Factual Knowledge）和常識(shí)知識(shí)（Commonsense）在內(nèi)的世界知識(shí)（World Knowledge）。根據(jù)他們的文獻(xiàn)介紹，GPT-3 完成一次訓(xùn)練的總計(jì)算量是 3640PFlops，按照 NVIDIA A100 80G 和平均利用率達(dá)到 50% 計(jì)算，需要花費(fèi)近一個(gè)月時(shí)間使用 1000 塊 GPU 完成。

表 1.1 典型開源大規(guī)模語言模型匯總

表 1.2 典型閉源大規(guī)模語言模型匯總

有監(jiān)督微調(diào)（Supervised Finetuning），也稱為指令微調(diào)（Instruction Tuning），利用少量高質(zhì)量數(shù)據(jù)集合，包含用戶輸入的提示詞（Prompt）和對(duì)應(yīng)的理想輸出結(jié)果。用戶輸入包括問題、閑聊對(duì)話、任務(wù)指令等多種形式和任務(wù)。

例如：提示詞（Prompt）：復(fù)旦大學(xué)有幾個(gè)校區(qū)？

理想輸出：復(fù)旦大學(xué)現(xiàn)有 4 個(gè)校區(qū)，分別是邯鄲校區(qū)、新江灣校區(qū)、楓林校區(qū)和張江校區(qū)。其中邯鄲校區(qū)是復(fù)旦大學(xué)的主校區(qū)，邯鄲校區(qū)與新江灣校區(qū)都位于楊浦區(qū)，楓林校區(qū)位于徐匯區(qū)，張江校區(qū)位于浦東新區(qū)。

利用這些有監(jiān)督數(shù)據(jù)，使用與預(yù)訓(xùn)練階段相同的語言模型訓(xùn)練算法，在基礎(chǔ)語言模型基礎(chǔ)上再進(jìn)行訓(xùn)練，從而得到有監(jiān)督微調(diào)模型（SFT 模型）。經(jīng)過訓(xùn)練的 SFT 模型具備了初步的指令理解能力和上下文理解能力，能夠完成開放領(lǐng)域問題、閱讀理解、翻譯、生成代碼等能力，也具備了一定的對(duì)未知任務(wù)的泛化能力。由于有監(jiān)督微調(diào)階段的所需的訓(xùn)練語料數(shù)量較少，SFT 模型的訓(xùn)練過程并不需要消耗非常大量的計(jì)算。根據(jù)模型的大小和訓(xùn)練數(shù)據(jù)量，通常需要數(shù)十塊 GPU，花費(fèi)數(shù)天時(shí)間完成訓(xùn)練。SFT 模型具備了初步的任務(wù)完成能力，可以開放給用戶使用，很多類 ChatGPT 的模型都屬于該類型，包括：Alpaca、Vicuna、MOSS、ChatGLM-6B 等。很多這類模型效果也非常好，甚至在一些評(píng)測(cè)中達(dá)到了 ChatGPT 的 90% 的效果。當(dāng)前的一些研究表明有監(jiān)督微調(diào)階段數(shù)據(jù)選擇對(duì) SFT 模型效果有非常大的影響，因此如何構(gòu)造少量并且高質(zhì)量的訓(xùn)練數(shù)據(jù)是本階段有監(jiān)督微調(diào)階段的研究重點(diǎn)。

目標(biāo)是構(gòu)建一個(gè)文本質(zhì)量對(duì)比模型，對(duì)于同一個(gè)提示詞，SFT 模型給出的多個(gè)不同輸出結(jié)果的質(zhì)量進(jìn)行排序。獎(jiǎng)勵(lì)模型（RM 模型）可以通過二分類模型，對(duì)輸入的兩個(gè)結(jié)果之間的優(yōu)劣進(jìn)行判斷。RM 模型與基礎(chǔ)語言模型和 SFT 模型不同，RM 模型本身并不能單獨(dú)提供給用戶使用。獎(jiǎng)勵(lì)模型的訓(xùn)練通常和 SFT 模型一樣，使用數(shù)十塊 GPU，通過幾天時(shí)間完成訓(xùn)練。由于 RM 模型的準(zhǔn)確率對(duì)于強(qiáng)化學(xué)習(xí)階段的效果有著至關(guān)重要的影響，因此對(duì)于該模型的訓(xùn)練通常需要大規(guī)模的訓(xùn)練數(shù)據(jù)。Andrej Karpathy 在報(bào)告中指出，該部分需要百萬量級(jí)的對(duì)比數(shù)據(jù)標(biāo)注，而且其中很多標(biāo)注需要花費(fèi)非常長(zhǎng)的時(shí)間才能完成。圖 2.3 給出了 InstructGPT 系統(tǒng)中獎(jiǎng)勵(lì)模型訓(xùn)練樣本標(biāo)注示例?？梢钥吹?，示例中文本表達(dá)都較為流暢，標(biāo)注其質(zhì)量排序需要制定非常詳細(xì)的規(guī)范，標(biāo)注人員也需要非常認(rèn)真的對(duì)標(biāo)規(guī)范內(nèi)容進(jìn)行標(biāo)注，需要消耗大量的人力，同時(shí)如何保持眾包標(biāo)注人員之間的一致性，也是獎(jiǎng)勵(lì)建模階段需要解決的難點(diǎn)問題之一。此外獎(jiǎng)勵(lì)模型的泛化能力邊界也在本階段需要重點(diǎn)研究的另一個(gè)問題。如果 RM 模型的目標(biāo)是針對(duì)所有提示詞系統(tǒng)所生成輸出都能夠高質(zhì)量的進(jìn)行判斷，該問題所面臨的難度在某種程度上與文本生成等價(jià)，因此如何限定 RM 模型應(yīng)用的泛化邊界也是本階段難點(diǎn)問題。

圖 2.3 InstructGPT 系統(tǒng)中獎(jiǎng)勵(lì)模型訓(xùn)練樣本標(biāo)注示例

強(qiáng)化學(xué)習(xí)（Reinforcement Learning）階段根據(jù)數(shù)十萬用戶給出的提示詞，利用在前一階段訓(xùn)練的 RM 模型，給出 SFT 模型對(duì)用戶提示詞補(bǔ)全結(jié)果的質(zhì)量評(píng)估，并與語言模型建模目標(biāo)綜合得到更好的效果。該階段所使用的提示詞數(shù)量與有監(jiān)督微調(diào)階段類似，數(shù)量在十萬量級(jí)，并且不需要人工提前給出該提示詞所對(duì)應(yīng)的理想回復(fù)。使用強(qiáng)化學(xué)習(xí)，在 SFT 模型基礎(chǔ)上調(diào)整參數(shù)，使得最終生成的文本可以獲得更高的獎(jiǎng)勵(lì)（Reward）。該階段所需要的計(jì)算量相較預(yù)訓(xùn)練階段也少很多，通常也僅需要數(shù)十塊 GPU，經(jīng)過數(shù)天時(shí)間的即可完成訓(xùn)練。文獻(xiàn) [給出了強(qiáng)化學(xué)習(xí)和有監(jiān)督微調(diào)的對(duì)比，在模型參數(shù)量相同的情況下，強(qiáng)化學(xué)習(xí)可以得到相較于有監(jiān)督微調(diào)好得多的效果。關(guān)于為什么強(qiáng)化學(xué)習(xí)相比有監(jiān)督微調(diào)可以得到更好結(jié)果的問題，截止到 2023 年 9 月也還沒有完整和得到普遍共識(shí)的解釋。此外，Andrej Karpathy 也指出強(qiáng)化學(xué)習(xí)也并不是沒有問題的，它會(huì)使得基礎(chǔ)模型的熵降低，從而減少了模型輸出的多樣性。在經(jīng)過強(qiáng)化學(xué)習(xí)方法訓(xùn)練完成后的 RL 模型，就是最終提供給用戶使用具有理解用戶指令和上下文的類 ChatGPT 系統(tǒng)。由于強(qiáng)化學(xué)習(xí)方法穩(wěn)定性不高，并且超參數(shù)眾多，使得模型收斂難度大，再疊加 RM 模型的準(zhǔn)確率問題，使得在大規(guī)模語言模型如何能夠有效應(yīng)用強(qiáng)化學(xué)習(xí)非常困難。

大語言模型研究進(jìn)展之快，讓在自然語言處理領(lǐng)域開展了近三十年工作的我們也難以適從。其研究之火爆程度令人咋舌，自然語言處理領(lǐng)域重要國(guó)際會(huì)議 EMNLP，2022 年語言模型相關(guān)論文投稿占比只有不到 5%。然而，2023 年語言模型相關(guān)投稿則超過了 EMNLP 整體投稿的 20%。如何能夠兼顧大語言模型的基礎(chǔ)理論，又能夠在快速發(fā)展的各種研究中選擇最具有代表性的工作介紹給大家，是寫作中面臨的最大挑戰(zhàn)之一，受限于我們的認(rèn)知水平和所從事的研究工作的局限，對(duì)其中一些任務(wù)和工作的細(xì)節(jié)理解可能存在不少錯(cuò)誤，也懇請(qǐng)專家、讀者批評(píng)指正！

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46652

瀏覽量
237073
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
501

瀏覽量
10236
華為云

華為云

+關(guān)注

關(guān)注
3

文章
2391

瀏覽量
17244
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
29

文章
1546

瀏覽量
7358

原文標(biāo)題：帶你了解大語言模型的前世今生

文章出處：【微信號(hào)：OSC開源社區(qū)，微信公眾號(hào)：OSC開源社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

NVIDIA 借助超大規(guī)模 AI 語言模型為全球企業(yè)賦能

NVIDIA NeMo Megatron 框架; 可定制的大規(guī)模語言模型 Megatron 530B；多GPU、多節(jié)點(diǎn) Triton推理服務(wù)器助力基于語言的AI開發(fā)和部署，推動(dòng)行業(yè)和科

發(fā)表于 11-10 14:22 ?908次閱讀

名單公布！【書籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語言模型：從理論到實(shí)踐

，在大模型實(shí)踐和理論研究的過程中，歷時(shí)8個(gè)月完成《大規(guī)模語言模型：從理論到實(shí)踐》一書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和

發(fā)表于 03-11 15:16

【大語言模型：原理與工程實(shí)踐】探索《大語言模型原理與工程實(shí)踐》

《大語言模型》是一本深入探討人工智能領(lǐng)域中語言模型的著作。作者通過對(duì)語言模型的

發(fā)表于 04-30 15:35

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

用于文本生成，根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本，為故事創(chuàng)作等提供無限可能。大語言模型也面臨挑戰(zhàn)。一方面，其計(jì)算資源需求巨大，訓(xùn)練和推理耗時(shí)；另一方面，模型高度依賴數(shù)據(jù)，需要大規(guī)模

發(fā)表于 05-04 23:55

C語言基本概念及語法

C語言基本概念和語法供初學(xué)者研討

發(fā)表于 08-18 10:32

C語言基本概念

C語言基本概念

發(fā)表于 08-01 02:00

大規(guī)模特征構(gòu)建實(shí)踐總結(jié)

背景一般大公司的機(jī)器學(xué)習(xí)團(tuán)隊(duì)，才會(huì)嘗試構(gòu)建大規(guī)模機(jī)器學(xué)習(xí)模型，如果去看百度、頭條、阿里等分享，都有提到過這類模型。當(dāng)然，大家現(xiàn)在都在說深度學(xué)習(xí)，但在推薦、搜索的場(chǎng)景，據(jù)我所知，ROI并

發(fā)表于 11-19 09:35

大規(guī)模MIMO的性能

軌跡產(chǎn)生的容量斜坡仍然比需求線平坦。面對(duì)此挑戰(zhàn)，3GPP 標(biāo)準(zhǔn)實(shí)體近來提出了數(shù)據(jù)容量“到2020 年增長(zhǎng)1000 倍”的目標(biāo)，以滿足演進(jìn)性或革命性創(chuàng)意的需要。這種概念要求基站部署極大規(guī)模的天線陣

發(fā)表于 07-17 07:54

超大規(guī)模集成電路的生產(chǎn)工藝流程

、通訊等許多行業(yè)上的最終產(chǎn)品，它可以包括CPU、內(nèi)存單元和其它各種專業(yè)應(yīng)用芯片。本文有關(guān)超大規(guī)模集成電路的一些基本概念、主要生產(chǎn)工藝流程及其產(chǎn)業(yè)特點(diǎn)等做一個(gè)簡(jiǎn)要介紹。

發(fā)表于 07-29 06:05

構(gòu)建大規(guī)模MIMO的難點(diǎn)在哪？

構(gòu)建大規(guī)模MIMO的難點(diǎn)在哪？高功率硅開關(guān)的應(yīng)用案列分析

發(fā)表于 03-11 07:05

人工智能基本概念機(jī)器學(xué)習(xí)算法

目錄人工智能基本概念機(jī)器學(xué)習(xí)算法1. 決策樹2. KNN3. KMEANS4. SVM5. 線性回歸深度學(xué)習(xí)算法1. BP2. GANs3. CNN4. LSTM應(yīng)用人工智能基本概念數(shù)據(jù)集：訓(xùn)練集

發(fā)表于 09-06 08:21

如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識(shí)？

本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語言模型（如RoBERTa、BERT等）中融入知識(shí)。

發(fā)表于 06-23 15:07 ?4157次閱讀

NVIDIA聯(lián)合構(gòu)建大規(guī)模模擬和訓(xùn)練 AI 模型

Champollion 超級(jí)計(jì)算機(jī)位于格勒諾布爾，由慧與和 NVIDIA 聯(lián)合構(gòu)建，它將為全球科學(xué)和工業(yè)領(lǐng)域的用戶創(chuàng)建大規(guī)模模擬和訓(xùn)練 AI 模型。

發(fā)表于 06-14 14:56 ?1790次閱讀

NVIDIA NeMo最新語言模型服務(wù)幫助開發(fā)者定制大規(guī)模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務(wù)幫助開發(fā)者定制大規(guī)模語言模型；NVIDIA BioNeMo 服務(wù)幫助研究人員生成和預(yù)測(cè)分子

發(fā)表于 09-22 10:42 ?893次閱讀

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

在人工智能和自然語言處理（NLP）領(lǐng)域，大型語言模型（Large Language Model，簡(jiǎn)稱LLM）的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過在

發(fā)表于 07-10 11:03 ?925次閱讀

搜索歷史

大規(guī)模語言模型的基本概念、發(fā)展歷程和構(gòu)建流程

評(píng)論

NVIDIA 借助超大規(guī)模 AI 語言模型為全球企業(yè)賦能

名單公布！【書籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語言模型：從理論到實(shí)踐

【大語言模型：原理與工程實(shí)踐】探索《大語言模型原理與工程實(shí)踐》

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

C語言基本概念及語法

C語言基本概念

大規(guī)模特征構(gòu)建實(shí)踐總結(jié)

大規(guī)模MIMO的性能

超大規(guī)模集成電路的生產(chǎn)工藝流程

構(gòu)建大規(guī)模MIMO的難點(diǎn)在哪？

人工智能基本概念機(jī)器學(xué)習(xí)算法

如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識(shí)？

NVIDIA聯(lián)合構(gòu)建大規(guī)模模擬和訓(xùn)練 AI 模型

NVIDIA NeMo最新語言模型服務(wù)幫助開發(fā)者定制大規(guī)模語言模型

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

搜索歷史

大規(guī)模語言模型的基本概念、發(fā)展歷程和構(gòu)建流程

評(píng)論

大規(guī)模語言模型的基本概念、發(fā)展歷程和構(gòu)建流程