大語(yǔ)言模型(LLM)在諸多領(lǐng)域都取得了矚目的成就,然而,也存在兩個(gè)主要的挑戰(zhàn):
- 訓(xùn)練成本極高,通常只有少數(shù)幾家大公司才能負(fù)擔(dān)得起。
- 現(xiàn)行的評(píng)估基準(zhǔn)主要依賴知識(shí)評(píng)估(如MMLU和C-Eval)以及NLP任務(wù)評(píng)估,但這種方式存在局限性,并且容易受到數(shù)據(jù)污染的影響。
近期,一支來(lái)自中國(guó)的研究團(tuán)隊(duì)正是針對(duì)這些問(wèn)題提出了解決方案,他們推出了FLM-101B模型及其配套的訓(xùn)練策略。FLM-101B不僅大幅降低了訓(xùn)練成本,而且其性能表現(xiàn)仍然非常出色,它是目前訓(xùn)練成本最低的100B+ LLM。
下面我們就來(lái)深入探討他們是如何實(shí)現(xiàn)這一目標(biāo)的吧!
Paper: FLM-101B: An Open LLM and How to Train It with $100K Budgets
Link: https://arxiv.org/pdf/2309.03852.pdf
Model: https://huggingface.co/CofeAI/FLM-101B進(jìn)NLP群—>加入NLP交流群
摘要
本篇研究的兩大核心亮點(diǎn)為:
- 增長(zhǎng)策略:該策略賦予了LLM一個(gè)獨(dú)特的訓(xùn)練方式,它可以從較小規(guī)模動(dòng)態(tài)增長(zhǎng)到較大規(guī)模,而不僅僅是在一開(kāi)始就確定其大小。這不僅能夠保持在初期階段已學(xué)到的知識(shí),更重要的是,它大大降低了整體的計(jì)算成本。
- IQ評(píng)估基準(zhǔn):該團(tuán)隊(duì)還提出了一個(gè)新的評(píng)估標(biāo)準(zhǔn)IQ benchmark,包含了符號(hào)映射、規(guī)則理解、模式挖掘和抗干擾能力這四個(gè)關(guān)鍵維度,從多方面對(duì)LLM的能力進(jìn)行了全面深入的評(píng)估。
增長(zhǎng)策略詳解
與獨(dú)立訓(xùn)練不同規(guī)模的模型的常規(guī)做法不同,在FLM-101B的訓(xùn)練過(guò)程中該項(xiàng)目團(tuán)隊(duì)按照16B、51B和101B參數(shù)的順序連續(xù)訓(xùn)練了三個(gè)模型,每個(gè)模型都從其較小的前身那里繼承了知識(shí)。
下圖揭示了利用增長(zhǎng)策略在三種典型場(chǎng)景中實(shí)施LLM訓(xùn)練的計(jì)算成本變化。在這里,我們依據(jù)一個(gè)基本原則:LLM的FLOPs與參數(shù)數(shù)量近似成正比,使我們可以通過(guò)觀察模型參數(shù)變化曲線下的面積來(lái)估算訓(xùn)練的計(jì)算成本。
- 圖(a) 一個(gè)標(biāo)準(zhǔn)的訓(xùn)練策略,其中沒(méi)有實(shí)施模型的動(dòng)態(tài)增長(zhǎng),從而導(dǎo)致訓(xùn)練計(jì)算成本相對(duì)較高。
- 圖(b) 一個(gè)線性增長(zhǎng)策略的應(yīng)用,其結(jié)果是計(jì)算成本得以減少近50%。
- 圖(c) 一個(gè)適度的增長(zhǎng)策略,雖然它未能將成本降低到50%,但仍然實(shí)現(xiàn)了可觀的成本節(jié)約。
- 圖(d) 一種更為積極的增長(zhǎng)策略,它成功地將計(jì)算成本降低了超過(guò)50%,揭示了這種策略在減少訓(xùn)練成本方面的巨大潛力。
在LLM增長(zhǎng)前后,模型始終給出任意輸入的一致輸出。這個(gè)屬性對(duì)于知識(shí)繼承和訓(xùn)練穩(wěn)定性都是有利的。為了適應(yīng)多節(jié)點(diǎn)3D并行框架,團(tuán)隊(duì)通過(guò)離線擴(kuò)展模型結(jié)構(gòu),并在下一個(gè)階段開(kāi)始時(shí)重新加載檢查點(diǎn)來(lái)實(shí)現(xiàn)這一點(diǎn)。
增長(zhǎng)策略具體設(shè)置
規(guī)劃模型增長(zhǎng)是一個(gè)需要權(quán)衡不同大小模型固有優(yōu)缺點(diǎn)的過(guò)程:較小的模型在計(jì)算每個(gè)訓(xùn)練步驟時(shí)更快,能夠更快地消耗訓(xùn)練數(shù)據(jù)來(lái)獲取更廣泛的常識(shí)知識(shí);反之,較大的模型更擅長(zhǎng)于減少每步的損失,顯示出對(duì)細(xì)微的語(yǔ)言模式有更深的理解,該團(tuán)隊(duì)使用245.37B個(gè)令牌來(lái)訓(xùn)練16B模型,39.64B個(gè)令牌來(lái)訓(xùn)練51B模型,以及26.54B個(gè)令牌來(lái)訓(xùn)練101B模型。不同大小的每天數(shù)十億令牌的使用情況詳見(jiàn)下表。
在這種增長(zhǎng)時(shí)間表下,101B模型的總時(shí)間成本是21.54天,這比從頭開(kāi)始訓(xùn)練一個(gè)101B模型(需要47.64天)節(jié)省了54.8%的時(shí)間,相當(dāng)于2.2倍的加速。
不同階段的性能評(píng)估
研究成員對(duì)FLM在所有階段(包括16B、51B和101B)的性能進(jìn)行了評(píng)估。每個(gè)階段的訓(xùn)練數(shù)據(jù)分別是0.246TB、0.04TB和0.026TB。下表呈現(xiàn)了各階段FLM模型的表現(xiàn)。
結(jié)果顯示,F(xiàn)LM的性能確實(shí)隨著模型大小的增加而提高,這符合預(yù)期。FLM-101B在幾乎所有任務(wù)上都實(shí)現(xiàn)了最佳性能,這意味著模型能夠在每次增長(zhǎng)后從先前的階段繼承知識(shí)。他們還發(fā)現(xiàn)101B模型在使用較少樣本的情況下比51B模型有更顯著的性能提升。這表明模型在增長(zhǎng)后的訓(xùn)練中成功地加入了新的權(quán)重,并在損失較低時(shí)利用了模型大小的優(yōu)勢(shì)。有趣的是,ARC和HellaSwag的表現(xiàn)也持續(xù)并顯著增加。因此,可以預(yù)見(jiàn),隨著處理更多的訓(xùn)練數(shù)據(jù),F(xiàn)LM-101B在開(kāi)放LLM上的性能將大大提高,除了在MMLU上,因?yàn)樗c特定的領(lǐng)域有關(guān)。
FLM主要結(jié)構(gòu)和其他技術(shù)細(xì)節(jié)
Backbone
選擇FreeLM作為基礎(chǔ)架構(gòu)主要是為了實(shí)現(xiàn)高效的長(zhǎng)序列建模,此中采用了可外推的位置嵌入(xPos)來(lái)增強(qiáng)模型的長(zhǎng)度外推能力。該技術(shù)受到了RoPE原理的啟發(fā),并在旋轉(zhuǎn)矩陣中引入了指數(shù)衰減來(lái)實(shí)現(xiàn)目標(biāo)。同時(shí),模型保留了GPT和FreeLM的變換器塊設(shè)計(jì),并采用了來(lái)自GPT-4的分詞器,以支持更大的詞匯量。
預(yù)訓(xùn)練
FLM-101B延續(xù)了FreeLM的訓(xùn)練策略,結(jié)合了受語(yǔ)言信號(hào)指導(dǎo)的語(yǔ)言建模目標(biāo)和受教師信號(hào)指導(dǎo)的二元分類(lèi)目標(biāo)。但是當(dāng)模型規(guī)模擴(kuò)大超過(guò)16B時(shí),它開(kāi)始展示出訓(xùn)練不穩(wěn)定的問(wèn)題。為了克服這一問(wèn)題,研究團(tuán)隊(duì)采用了一個(gè)統(tǒng)一的目標(biāo),它通過(guò)使用一種掩碼策略和兩個(gè)專用令牌來(lái)同時(shí)處理教師和語(yǔ)言信號(hào)。這些令牌協(xié)助將二元分類(lèi)目標(biāo)轉(zhuǎn)化為一個(gè)語(yǔ)言建模格式。
在大規(guī)模的無(wú)監(jiān)督文本語(yǔ)料庫(kù)中,該模型遵循GPT系列的訓(xùn)練目標(biāo),即最大化token預(yù)測(cè)的可能性。FLM-101B是一個(gè)英漢雙語(yǔ)模型,它在語(yǔ)言建模中將英語(yǔ)和漢語(yǔ)語(yǔ)料庫(kù)按約53.5:46.5的比例混合。在預(yù)訓(xùn)練階段,作者整合了OIG和COIG多任務(wù)教育提示數(shù)據(jù)。
在命題判斷任務(wù)中,原始的FreeLM教師目標(biāo)旨在最小化二元分類(lèi)的交叉熵。在FLM-101B的訓(xùn)練過(guò)程中,這一二元分類(lèi)已轉(zhuǎn)化為自回歸語(yǔ)言模型形式。具體來(lái)說(shuō),它利用兩個(gè)emoji和來(lái)代替原來(lái)的1和0二進(jìn)制標(biāo)簽,通過(guò)對(duì)命題中的令牌應(yīng)用零掩蔽來(lái)計(jì)算損失,并在每個(gè)命題的結(jié)尾預(yù)測(cè)這兩個(gè)特殊令牌中的一個(gè)。這種方法成功地統(tǒng)一了教師目標(biāo)和語(yǔ)言建模目標(biāo)。此外,該模型摒棄了FreeLM的迭代訓(xùn)練方法,轉(zhuǎn)而在每批數(shù)據(jù)中完全混合兩種信號(hào)的樣本,從而增強(qiáng)了數(shù)據(jù)采樣分布的一致性,并提高了訓(xùn)練的穩(wěn)定性。
需要注意的是,由于計(jì)算資源的限制,教師信號(hào)僅應(yīng)用于eFLM-16B版本。
實(shí)驗(yàn)配置
FLM-101B 在 24 個(gè) DGX-A800 GPU (8×80G) 服務(wù)器的集群上進(jìn)行訓(xùn)練,持續(xù)不到 26 天?;谠鲩L(zhǎng)策略依次完成了該集群上大小為 16B、51B 和 101B 的模型訓(xùn)練。
數(shù)據(jù)并行和張量模型并行已成為訓(xùn)練十億規(guī)模模型的標(biāo)準(zhǔn)方法。然而,過(guò)多的張量并行可能會(huì)加劇GPU通信開(kāi)銷(xiāo),影響訓(xùn)練效率。為了解決這個(gè)問(wèn)題,研究整合了管道模型并行,并采用了3D并行策略來(lái)實(shí)現(xiàn)最優(yōu)的吞吐量。此外,通過(guò)采用序列并行,沿著序列長(zhǎng)度維度切分了輸入到Transformer核心的LayerNorm和Dropout層,從而進(jìn)一步節(jié)省了GPU計(jì)算資源和內(nèi)存利用率。Megetron-LM 4牙杯用來(lái)實(shí)現(xiàn)分布式優(yōu)化器來(lái)進(jìn)一步減少GPU內(nèi)存消耗,這是一種可以在數(shù)據(jù)并行排名中均勻分配優(yōu)化器狀態(tài)的技術(shù)。
訓(xùn)練的穩(wěn)定性
超過(guò)100B參數(shù)的模型在訓(xùn)練過(guò)程中通常會(huì)遇到一系列穩(wěn)定性問(wèn)題,這包括損失發(fā)散、梯度爆炸和數(shù)值的溢出或下溢。這不僅大大增加了尋找合適的超參數(shù)(例如最優(yōu)學(xué)習(xí)率)的難度,還增加了訓(xùn)練過(guò)程中需要持續(xù)監(jiān)控和維護(hù)的需求,如問(wèn)題解決、數(shù)據(jù)調(diào)整和重啟等,使項(xiàng)目預(yù)算變得不可預(yù)測(cè)。不過(guò),研究團(tuán)隊(duì)找到了一個(gè)有前途的解決方案來(lái)減輕這些問(wèn)題。
他們基于Tensor Programs理論來(lái)預(yù)測(cè)損失,該理論揭示了一系列與模型訓(xùn)練動(dòng)態(tài)相關(guān)的通用關(guān)系,尤其是在模型寬度趨向于無(wú)限的情況下。這產(chǎn)生了一個(gè)參數(shù)化的映射,可以用于找到小模型及其更大對(duì)應(yīng)模型之間某些超參數(shù)的最優(yōu)值,這被稱為μP。這個(gè)理論提供了兩個(gè)重要見(jiàn)解:
- “更寬更好”的原則表明,在μP指導(dǎo)下,更寬的模型在處理相同的數(shù)據(jù)時(shí)會(huì)產(chǎn)生比其更窄的版本更低的損失。這意味著如果一個(gè)窄模型可以收斂,那么其更寬的版本也將會(huì)收斂。
- 他們還指出可以使用小模型的損失來(lái)預(yù)測(cè)大模型的損失值,這一點(diǎn)在GPT-4技術(shù)報(bào)告中得到了表述,并且在開(kāi)源社區(qū)也有μScaling項(xiàng)目驗(yàn)證了這一點(diǎn),它結(jié)合μP和修改后的縮放規(guī)則來(lái)實(shí)現(xiàn)損失預(yù)測(cè)。
為了實(shí)現(xiàn)訓(xùn)練穩(wěn)定性,研究團(tuán)隊(duì)在FLM-16B訓(xùn)練開(kāi)始前確定了數(shù)據(jù)分布,然后對(duì)三個(gè)超參數(shù)(學(xué)習(xí)率、初始化標(biāo)準(zhǔn)偏差和輸出層的softmax溫度)進(jìn)行了網(wǎng)格搜索。這個(gè)搜索是通過(guò)運(yùn)行一個(gè)有40M代理模型完成的,該模型具有較小的隱藏狀態(tài)維度和頭部數(shù)量。網(wǎng)格搜索找到了最優(yōu)的超參數(shù)組合,而這些參數(shù)隨后被應(yīng)用到更大的16B模型上,確保了一個(gè)無(wú)不穩(wěn)定的順利訓(xùn)練體驗(yàn)。
借助μP和特定的增長(zhǎng)策略,他們成功地避免了在FLM-51B和FLM-101B中的增長(zhǎng)后分歧問(wèn)題,從而實(shí)現(xiàn)了一個(gè)有效且穩(wěn)定的訓(xùn)練過(guò)程。
模型初步評(píng)估
與開(kāi)源模型的對(duì)比
考慮了ARC-Challenge, HellaSwag, MMLU, and TruthfulQA四個(gè)數(shù)據(jù)集,和目前的開(kāi)源模型進(jìn)行了對(duì)比,性能如下:
在所有基線模型中,F(xiàn)LM-101B的平均得分為43.94,排名最低。然而,深入探究這些任務(wù)的本質(zhì)可以發(fā)現(xiàn),這并不表明模型的表現(xiàn)較差。
MMLU任務(wù)通常需要特定領(lǐng)域的知識(shí)來(lái)解答??紤]到FLM-101B的訓(xùn)練數(shù)據(jù)中并沒(méi)有特意加入任何教科書(shū)或考試題目,所以其取得的分?jǐn)?shù)是合理的。一個(gè)直接證明是,在一個(gè)結(jié)合了FreeLM目標(biāo)并包含這種知識(shí)的FLM變體(eFLM-16B,見(jiàn)第4.3節(jié))中,即使是一個(gè)16B的模型也能超越GLM-130B的表現(xiàn)。
TruthfulQA、ARC和HellaSwag更強(qiáng)調(diào)常識(shí)和維基級(jí)別的知識(shí),它們的表現(xiàn)隨著數(shù)據(jù)量和訓(xùn)練損失的增加而提高。盡管FLM-101B只使用了不到0.16TB的英文數(shù)據(jù)(大約是LLAMA-2的1/10),但它仍然在所有基線中獲得了最高的41.47的準(zhǔn)確度。在ARC和HellaSwag上,F(xiàn)LM-101B與GLM-130B有相似的英文數(shù)據(jù)量(約0.2TB)并且表現(xiàn)相當(dāng)。此外,GLM-130B的訓(xùn)練數(shù)據(jù)包括ARC和Hellaswag。
引入專業(yè)知識(shí)后的再評(píng)估
研究團(tuán)隊(duì)決定在FLM訓(xùn)練過(guò)程中引入專業(yè)知識(shí)數(shù)據(jù)來(lái)增強(qiáng)其效果,通過(guò)將FreeLM目標(biāo)和專業(yè)數(shù)據(jù)相結(jié)合,以加強(qiáng)FLM-16B的效能。這種增強(qiáng)的數(shù)據(jù)源包括部分MMLU輔助訓(xùn)練集,一些與C-Eval測(cè)試有相似域和格式的考試題目,以及其他領(lǐng)域的知識(shí)數(shù)據(jù)。通過(guò)這種方式創(chuàng)建的模型被命名為eFLM-16B。
一個(gè)明顯的發(fā)現(xiàn)是,引入相關(guān)領(lǐng)域的專業(yè)知識(shí)數(shù)據(jù)可以顯著提升MMLU和C-Eval的分?jǐn)?shù)。具體來(lái)說(shuō),在這兩項(xiàng)任務(wù)中,eFLM-16B的表現(xiàn)都超過(guò)了GLM-130B,提高了約2個(gè)百分點(diǎn)。
這個(gè)結(jié)果驗(yàn)證了一個(gè)重要的觀點(diǎn):僅僅依靠數(shù)據(jù)集的分?jǐn)?shù)是不能全面反映語(yǔ)言模型的智能水平的,因?yàn)樘囟ㄓ?xùn)練數(shù)據(jù)的影響可能是巨大的,而不是反映模型的綜合能力。這表明,在評(píng)估語(yǔ)言模型的智能時(shí),不能只依賴于特定的數(shù)據(jù)集得分來(lái)判斷,而應(yīng)該考慮一個(gè)更全面的評(píng)估方法來(lái)確保模型的智能是全面和多元的。
在IQ基準(zhǔn)上的評(píng)估
符號(hào)映射
最新的研究表明,在處理特定類(lèi)別的文本分類(lèi)任務(wù)時(shí)(比如將文檔或情感進(jìn)行分類(lèi)),現(xiàn)有方法常常難以泛化。這主要是因?yàn)楹芏嗫梢怨_(kāi)獲取的網(wǎng)站包含了大量用于訓(xùn)練的、帶有標(biāo)簽的原始語(yǔ)言文本數(shù)據(jù)集,如SemEval、IMDB和Yelp 6。這導(dǎo)致了模型傾向于過(guò)度擬合標(biāo)簽的語(yǔ)義,而非從全新的上下文中推斷它們的含義。
為了解決這個(gè)問(wèn)題,研究者將原始類(lèi)別標(biāo)簽替換為在訓(xùn)練數(shù)據(jù)中不太可能見(jiàn)到的emoji,來(lái)測(cè)試模型的真正理解能力和泛化能力。這種做法也把評(píng)估任務(wù)變得更加側(cè)重于上下文學(xué)習(xí)。下圖是一個(gè)符號(hào)映射的例子。
研究者還開(kāi)創(chuàng)了一種新的IQ基準(zhǔn)測(cè)試方式。他們利用了已有的基準(zhǔn)數(shù)據(jù)源,例如SuperGLUE和CLUE,并對(duì)其中最多300個(gè)樣本的原始類(lèi)別進(jìn)行了隨機(jī)字符串替換。下圖是模型在該基準(zhǔn)上的評(píng)估結(jié)果。
在進(jìn)行BoolQ、WiC和RTE這些任務(wù)測(cè)試時(shí),F(xiàn)LM-101B模型和GPT-3的表現(xiàn)非常相似,并且都比GLM-130B表現(xiàn)更好。尤其是在BoolQ任務(wù)上,它們的表現(xiàn)比GLM-130B高出9個(gè)百分點(diǎn)。但在WSC任務(wù)中,GLM-130B表現(xiàn)最佳,領(lǐng)先其他模型18個(gè)百分點(diǎn),這歸功于它的雙向結(jié)構(gòu),這使得它在處理共指解析任務(wù)時(shí)更有優(yōu)勢(shì)。值得注意的是,盡管FLM-101B的計(jì)算成本只有GPT-3的1/13,但其表現(xiàn)卻相當(dāng)不錯(cuò)。
在CLUE-IQ基準(zhǔn)測(cè)試中,F(xiàn)LM-101B表現(xiàn)最好,得分高達(dá)42.07。它特別在AFQMC、CSL和CLUEWSC2020等任務(wù)上表現(xiàn)出色,這顯示了該模型在處理中文任務(wù)時(shí)具有出色的能力。有意思的是,它在中文的WSC任務(wù)上勝過(guò)GLM-130B,但在英文版上卻稍遜一籌。這揭示了中英兩種語(yǔ)言之間存在的巨大差異。綜上所述,F(xiàn)LM-101B不僅在中文IQ測(cè)試中表現(xiàn)突出,其成本效益比也相當(dāng)顯著,只需要GLM-130B的大約12%的成本就能實(shí)現(xiàn)更優(yōu)秀的表現(xiàn)。
規(guī)則理解
理解并按照給定規(guī)則執(zhí)行是衡量人類(lèi)智能的一個(gè)基本方面。為了評(píng)估這種理解能力,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)規(guī)則理解評(píng)估測(cè)試。這個(gè)測(cè)試與基于思維鏈的推理測(cè)試有所不同;它更側(cè)重于理解簡(jiǎn)單規(guī)則并做出正確行動(dòng),而不是推理能力。例如,“計(jì)數(shù)數(shù)字序列”是規(guī)則理解評(píng)估的一個(gè)典型任務(wù),而在模型實(shí)現(xiàn)這種基本的規(guī)則理解能力之前,它是不能完成基于思維鏈的逐步推理的。
此外,還有一些具體任務(wù)來(lái)深入評(píng)估這一能力,包括無(wú)提示計(jì)數(shù)和字符串替換任務(wù)。在無(wú)提示計(jì)數(shù)任務(wù)中構(gòu)建了一個(gè)包含150個(gè)項(xiàng)目的數(shù)據(jù)集,一個(gè)典型的示例是提示從一個(gè)數(shù)到另一個(gè)數(shù)進(jìn)行計(jì)數(shù),如“從10010數(shù)到10035:10010,10011,10012,...”。
而字符串替換(4次嘗試)任務(wù)則是為了檢驗(yàn)?zāi)P桶凑杖祟?lèi)意圖精確編輯文本的能力,它包含300個(gè)項(xiàng)目,每一個(gè)都開(kāi)始于清晰的指示。例如,“替換單詞”任務(wù)會(huì)要求在下面的句子中用目標(biāo)詞替換指定的詞,而“替換小寫(xiě)字母”任務(wù)則要求將給定文本中的所有大寫(xiě)字母修改為小寫(xiě)。為了保證任務(wù)的多樣性,計(jì)數(shù)范圍和待替換的單詞都是通過(guò)均勻分布來(lái)確定的。
下表展示了模型在規(guī)則理解任務(wù)上的表現(xiàn)性能。
模式識(shí)別
模式識(shí)別涉及到在新環(huán)境中歸納和推斷出現(xiàn)的模式。在這個(gè)基準(zhǔn)測(cè)試中包含三個(gè)任務(wù)來(lái)進(jìn)行評(píng)估。
- 頭尾添加任務(wù)要求在給定的輸入前后添加頭和尾,這兩個(gè)元素(即頭和尾)應(yīng)與給定示例中的元素完全相同。
- 完全重復(fù)任務(wù)則要求將輸入序列完全重復(fù)一次。
- 頭部切片任務(wù),模型需要返回輸入的前一定數(shù)量的字符,這個(gè)數(shù)字可以從前面的示例中推斷出來(lái)。
下圖是一個(gè)示例。
在模式挖掘的所有三項(xiàng)任務(wù)中,F(xiàn)LM-101B取得了第二好的表現(xiàn)。與規(guī)則理解評(píng)估相似,由于有更多的訓(xùn)練數(shù)據(jù),GPT-3取得了最好的表現(xiàn)。在頭部切片任務(wù)上,F(xiàn)LM-101B超越了GPT-3和GLM-130B。在另外兩項(xiàng)任務(wù)中,這三個(gè)模型的表現(xiàn)順序相同:GPT-3排在第一,F(xiàn)LM-101B排在第二,GLM-130B排在第三。詳細(xì)來(lái)說(shuō),F(xiàn)LM-101B相比GLM-130B分別提高了14%和9%。
抗干擾評(píng)估
抗干擾能力對(duì)于在全新的嘈雜環(huán)境中找到和利用與特定目標(biāo)真正相關(guān)的信息至關(guān)重要。例如,許多LLM會(huì)在接收到嘈雜輸入的提示時(shí)開(kāi)始胡言亂語(yǔ)。為此,作者在三種任務(wù)類(lèi)型中進(jìn)行抗干擾評(píng)估:
- 多關(guān)鍵詞檢索是一種謎題,它在大量無(wú)關(guān)的文本中隱藏了一些關(guān)鍵詞。如果LLM的抗干擾能力不夠強(qiáng),它們將輸出錯(cuò)誤甚至無(wú)意義的詞。
- 單一支持事實(shí)跟蹤和雙重支持事實(shí)跟蹤任務(wù)測(cè)試模型是否能夠找到隱藏在一系列無(wú)關(guān)陳述中的支持事實(shí)鏈來(lái)正確回答問(wèn)題。
下圖顯示了此測(cè)試的兩個(gè)典型示例。
在所有baseline中,F(xiàn)LM-101B實(shí)現(xiàn)了第二好的性能89%、59%和32.3%,與GLM-130B相比,其優(yōu)勢(shì)約為11%、3%和6%??紤]到計(jì)算成本,F(xiàn)LM-101B的出眾是顯而易見(jiàn)的。
總結(jié)
該研究開(kāi)發(fā)了中英雙語(yǔ)的FLM-101B模型,一個(gè)開(kāi)源的、成本低廉的但功能強(qiáng)大的LLM,它成功地在10萬(wàn)美元的預(yù)算內(nèi)從零開(kāi)始訓(xùn)練。
研究團(tuán)隊(duì)利用增長(zhǎng)策略來(lái)訓(xùn)練模型,以降低初始成本,首先得到一個(gè)知識(shí)相對(duì)有限的基本模型,然后再逐步擴(kuò)展該模型的知識(shí)庫(kù)以適應(yīng)不同領(lǐng)域的需求。
此外,研究團(tuán)隊(duì)還認(rèn)識(shí)到,要準(zhǔn)確評(píng)估一個(gè)LLM的智能程度,需要更先進(jìn)和綜合的評(píng)估方法。傳統(tǒng)的評(píng)估方法,如MMLU、SuperGLUE和CLUE等,已不再足夠。為了解決這一問(wèn)題,他們創(chuàng)造了一個(gè)系統(tǒng)的IQ評(píng)估基準(zhǔn)測(cè)試,它能夠全面而準(zhǔn)確地衡量智力的四個(gè)核心方面,而且還可以方便地進(jìn)行自動(dòng)評(píng)估。
-
開(kāi)源
+關(guān)注
關(guān)注
3文章
3215瀏覽量
42328 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
501瀏覽量
10236 -
大模型
+關(guān)注
關(guān)注
2文章
2274瀏覽量
2356
原文標(biāo)題:開(kāi)源大模型FLM-101B:訓(xùn)練成本最低的超100B參數(shù)大模型
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論