半個(gè)月以來,ChatGPT 這把火越燒越旺。國(guó)內(nèi)很多大廠相繼聲稱要做中文版 ChatGPT,還公布了上線時(shí)間表,不少科技圈已功成名就的大佬也按捺不住,攜巨資下場(chǎng),要?jiǎng)?chuàng)建 “中國(guó)版 OpenAI“。
不過,看看過去半個(gè)月在群眾眼里稍顯窘迫的 Meta 的 Galactica,以及 Google 緊急發(fā)布的 Bard,就知道在短期內(nèi)打造一個(gè)比肩甚至超越 ChatGPT 效果的模型沒那么簡(jiǎn)單。
讓很多人不免感到詫異的是,ChatGPT 的核心算法 Transformer 最初是由 Google 提出的,并且在大模型技術(shù)上的積累可以說不弱于 OpenAI,當(dāng)然他們也不缺算力和數(shù)據(jù),但為什么依然會(huì)被 ChatGPT 打的措手不及?
Meta 首席 AI 科學(xué)家 Yann LeCun 最近抨擊 ChatGPT 的名言實(shí)際上解釋了背后的門道。他說,ChatGPT “只是巧妙的組合而已”,這句話恰恰道出了一種無形的技術(shù)壁壘。
簡(jiǎn)單來說,即使其他團(tuán)隊(duì)的算法、數(shù)據(jù)、算力都準(zhǔn)備的與 OpenAI 相差無幾,但就是沒想到以一種精巧的方式把這些元素組裝起來,沒有 OpenAI,全行業(yè)不知道還需要去趟多少坑。
即使 OpenAI 給出了算法上的一條路徑,后來者想復(fù)現(xiàn) ChatGPT,算力、工程、數(shù)據(jù),每一個(gè)要素都需要非常深的積累。七龍珠之中,算力是自由流通的商品,花錢可以買到,工程上有 OneFlow 這樣的開源項(xiàng)目和團(tuán)隊(duì),因此,對(duì)互聯(lián)網(wǎng)大廠之外的團(tuán)隊(duì)來說,剩下最大的挑戰(zhàn)在于高質(zhì)量訓(xùn)練數(shù)據(jù)集。
至今,OpenAI 并沒有公開訓(xùn)練 ChatGPT 的相關(guān)數(shù)據(jù)集來源和具體細(xì)節(jié),一定程度上也暫時(shí)卡了追趕者的脖子,更何況,業(yè)界公認(rèn)中文互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量堪憂。
好在,互聯(lián)網(wǎng)上總有熱心的牛人分析技術(shù)的細(xì)枝末節(jié),從雜亂的資料中串聯(lián)起蛛絲馬跡,從而歸納出非常有價(jià)值的信息。
此前,發(fā)布的《ChatGPT 背后的經(jīng)濟(jì)賬》,其作者從經(jīng)濟(jì)學(xué)視角推導(dǎo)了訓(xùn)練大型語言模型的成本。本文作者則整理分析了 2018 年到 2022 年初從 GPT-1 到 Gopher 的相關(guān)大型語言模型的所有數(shù)據(jù)集相關(guān)信息,希望幫助有志于開發(fā) “類 ChatGPT” 模型的團(tuán)隊(duì)少走一步彎路。
作者|Alan D. Thompson
翻譯|楊婷、徐佳渝、賈川
一些研究人員的報(bào)告稱,通用人工智能(AGI)可能是從我們當(dāng)前的語言模型技術(shù)進(jìn)行演進(jìn) [1],預(yù)訓(xùn)練 Transformer 語言模型為 AGI 的發(fā)展鋪平了道路。雖然模型訓(xùn)練數(shù)據(jù)集日漸增大,但缺乏基本指標(biāo)文檔,包括數(shù)據(jù)集大小、數(shù)據(jù)集 token 數(shù)量和具體的內(nèi)容細(xì)節(jié)。
盡管業(yè)內(nèi)提出了數(shù)據(jù)集組成和整理文檔的標(biāo)準(zhǔn) [2],但幾乎所有重點(diǎn)研究實(shí)驗(yàn)室在揭示模型訓(xùn)練數(shù)據(jù)集細(xì)節(jié)這方面都做得不夠。這里整合的研究涵蓋了 2018 年到 2022 年初從 GPT-1 到 Gopher 的精選語言模型的所有數(shù)據(jù)集(包括主要數(shù)據(jù)集:Wikipedia 和 Common Crawl)的綜合視圖。
1、概述
圖 1. 主要數(shù)據(jù)集大小的可視化匯總。未加權(quán)大小,以 GB 為單位。?
2018 年以來,大語言模型的開發(fā)和生產(chǎn)使用呈現(xiàn)出爆炸式增長(zhǎng)。一些重點(diǎn)研究實(shí)驗(yàn)室報(bào)告稱,公眾對(duì)大語言模型的使用率達(dá)到了驚人高度。2021 年 3 月,OpenAI 宣布 [3] 其 GPT-3 語言模型被 “超過 300 個(gè)應(yīng)用程序使用,平均每天能夠生成 45 億個(gè)詞”,也就是說僅單個(gè)模型每分鐘就能生成 310 萬詞的新內(nèi)容。
值得注意的是,這些語言模型甚至還沒有被完全理解,斯坦福大學(xué)的研究人員 [4] 最近坦言,“目前我們對(duì)這些模型還缺乏認(rèn)知,還不太了解這些模型的運(yùn)轉(zhuǎn)模式、不知道模型何時(shí)會(huì)失效,更不知道這些模型的突現(xiàn)性(emergent properties)能產(chǎn)生什么效果”。
隨著新型 AI 技術(shù)的快速發(fā)展,模型訓(xùn)練數(shù)據(jù)集的相關(guān)文檔質(zhì)量有所下降。模型內(nèi)部到底有什么秘密?它們又是如何組建的?本文綜合整理并分析了現(xiàn)代大型語言模型的訓(xùn)練數(shù)據(jù)集。
因?yàn)檫@方面的原始文獻(xiàn)并不對(duì)外公開,所以本文搜集整合了二、三級(jí)研究資料,在必要的時(shí)候本文會(huì)采用假設(shè)的方式來推算最終結(jié)果。
在本文中,我們會(huì)將原始論文中已經(jīng)明確的特定細(xì)節(jié)(例如 token 數(shù)量或數(shù)據(jù)集大小)歸類為 “公開的(disclosed)” 數(shù)據(jù),并作加粗處理。
多數(shù)情況下,適當(dāng)?shù)貐⒖级?、三?jí)文獻(xiàn),并采用假設(shè)的方式來確定最終結(jié)果是很有必要的。在這些情況下,token 數(shù)量和數(shù)據(jù)集大小等細(xì)節(jié)是 “確定的(determined)”,并以斜體標(biāo)記。
模型數(shù)據(jù)集可分為六類,分別是:維基百科、書籍、期刊、Reddit 鏈接、Common Crawl 和其他數(shù)據(jù)集。
表 1. 主要數(shù)據(jù)集大小匯總。以 GB 為單位。公開的數(shù)據(jù)以粗體表示。確定的數(shù)據(jù)以斜體表示。僅原始訓(xùn)練數(shù)據(jù)集大小。
1.1. 維基百科
維基百科是一個(gè)免費(fèi)的多語言協(xié)作在線百科全書,由超過 300,000 名志愿者組成的社區(qū)編寫和維護(hù)。截至 2022 年 4 月,英文版維基百科中有超過 640 萬篇文章,包含超 40 億個(gè)詞 [5]。維基百科中的文本很有價(jià)值,因?yàn)樗粐?yán)格引用,以說明性文字形式寫成,并且跨越多種語言和領(lǐng)域。一般來說,重點(diǎn)研究實(shí)驗(yàn)室會(huì)首先選取它的純英文過濾版作為數(shù)據(jù)集。
1.2.?書籍
故事型書籍由小說和非小說兩大類組成,主要用于訓(xùn)練模型的故事講述能力和反應(yīng)能力,數(shù)據(jù)集包括 Project Gutenberg 和 Smashwords (Toronto BookCorpus/BookCorpus) 等。
1.3.?雜志期刊
預(yù)印本和已發(fā)表期刊中的論文為數(shù)據(jù)集提供了堅(jiān)實(shí)而嚴(yán)謹(jǐn)?shù)幕A(chǔ),因?yàn)閷W(xué)術(shù)寫作通常來說更有條理、理性和細(xì)致。這類數(shù)據(jù)集包括 ArXiv 和美國(guó)國(guó)家衛(wèi)生研究院等。
1.4.?Reddit 鏈接
WebText 是一個(gè)大型數(shù)據(jù)集,它的數(shù)據(jù)是從社交媒體平臺(tái) Reddit 所有出站鏈接網(wǎng)絡(luò)中爬取的,每個(gè)鏈接至少有三個(gè)贊,代表了流行內(nèi)容的風(fēng)向標(biāo),對(duì)輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。
1.5.?Common Crawl
Common Crawl 是 2008 年至今的一個(gè)網(wǎng)站抓取的大型數(shù)據(jù)集,數(shù)據(jù)包含原始網(wǎng)頁、元數(shù)據(jù)和文本提取,它的文本來自不同語言、不同領(lǐng)域。重點(diǎn)研究實(shí)驗(yàn)室一般會(huì)首先選取它的純英文過濾版(C4)作為數(shù)據(jù)集。
1.6. 其他數(shù)據(jù)集
不同于上述類別,這類數(shù)據(jù)集由 GitHub 等代碼數(shù)據(jù)集、StackExchange 等對(duì)話論壇和視頻字幕數(shù)據(jù)集組成。
2、常用數(shù)據(jù)集
2019 年以來,大多數(shù)基于 Transformer 的大型語言模型 (LLM) 都依賴于英文維基百科和 Common Crawl 的大型數(shù)據(jù)集。在本節(jié)中,我們參考了 Jesse Dodge 和 AllenAI(AI2)[8] 團(tuán)隊(duì)的綜合分析,按類別對(duì)英文維基百科作了高級(jí)概述,并在 Common Crawl 數(shù)據(jù)集 [7] 的基礎(chǔ)上,用谷歌 C4 [6] (Colossal Clean Crawled Corpus) 在 Common Crawl 中提供了頂級(jí)域(domains)。
2.1. 維基百科(英文版)分析
下面按類別 [9] 列出了維基百科的詳細(xì)信息,涵蓋了 2015 年抽樣的 1001 篇隨機(jī)文章,研究人員注意到隨時(shí)間推移文章傳播的穩(wěn)定性。假設(shè)一個(gè) 11.4GB、經(jīng)過清理和過濾的維基百科英文版有 30 億 token,我們就可以確定類別大小和 token。
表 2. 英文維基百科數(shù)據(jù)集類別。公開的數(shù)據(jù)以粗體表示。確定的數(shù)據(jù)以斜體表示。
2.2 Common Crawl 分析
基于 AllenAI (AI2) 的 C4 論文,我們可以確定,過濾后的英文 C4 數(shù)據(jù)集的每個(gè)域的 token 數(shù)和總體百分比,該數(shù)據(jù)集為 305GB,其中 token 數(shù)為 1560 億。
表 3. C4:前 23 個(gè)域(不包括維基百科)。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
3、GPT-1 數(shù)據(jù)集
2018 年,OpenAI 發(fā)布了 1.17 億參數(shù)的 GPT-1。在論文中,OpenAI 并沒有公布模型訓(xùn)練數(shù)據(jù)集的來源和內(nèi)容 [10],另外,論文誤將‘BookCorpus’拼寫成了‘BooksCorpus’。BookCorpus 以作家未出版的免費(fèi)書籍為基礎(chǔ),這些書籍來自于 Smashwords,這是一個(gè)自稱為 “世界上最大的獨(dú)立電子書分銷商” 的電子書網(wǎng)站。這個(gè)數(shù)據(jù)集也被稱為 Toronto BookCorpus。經(jīng)過幾次重構(gòu)之后,BookCorpus 數(shù)據(jù)集的最終大小確定為 4.6GB [11]。
2021 年,經(jīng)過全面的回顧性分析,BookCorpus 數(shù)據(jù)集對(duì)按流派分組的書籍?dāng)?shù)量和各類書籍百分比進(jìn)行了更正 [12]。數(shù)據(jù)集中有關(guān)書籍類型的更多詳細(xì)信息如下:
表 4. BookCorpus 書籍類型。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
在隨后的數(shù)據(jù)集重構(gòu)中,BookCorpus 數(shù)據(jù)集進(jìn)一步過濾掉了書籍中的 “吸血鬼” 類別、降低了言情類書籍的百分比、增加了 “歷史” 類書籍,增加了收集的書籍?dāng)?shù)量。
3.1. GPT-1 數(shù)據(jù)集總結(jié)
GPT-1 最終的數(shù)據(jù)集總結(jié)分析如下:
表 5.GPT-1 數(shù)據(jù)集總結(jié)。以 GB 為單位。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
?4、GPT-2 數(shù)據(jù)集
2019 年,OpenAI 發(fā)布了擁有 15 億參數(shù)的語言模型 GPT-2。GPT-2 論文闡明了所用訓(xùn)練數(shù)據(jù)集的大小 [13],不過并未說明其內(nèi)容。而 GPT-2 模型卡(model card)(在 GPT-2 GitHub 倉(cāng)庫(kù)中)說明了模型內(nèi)容 [14]。
我們可以從 GPT-3 論文中得到 token 數(shù)量,該論文使用了 WebText 擴(kuò)展版本來表示 190 億 token。據(jù)推測(cè),2020 年推出的 WebText 擴(kuò)展版本擁有 12 個(gè)月的額外數(shù)據(jù)(additional data),因此它可能比 2019 年推出的 GPT-2 版本大 25% 左右 [15]。GPT-2 最終的 token 數(shù)量確定為 150 億左右。
如 GPT-2 論文所述,假設(shè)模型卡顯示鏈接數(shù)時(shí),每個(gè)鏈接都可以被 4500 萬鏈接總數(shù)所除,那 WebText 的內(nèi)容在數(shù)據(jù)集中所占的百分比的詳細(xì)信息就可以確定。
然后可以使用確定的 150 億 token 數(shù)量來查找每個(gè)域的 token 數(shù)量。請(qǐng)注意,在可用的前 1,000 個(gè)域中,此處僅顯示前 50 個(gè)域。
表 6. WebText: 前 50 個(gè)域。?公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
4.1. GPT-2 數(shù)據(jù)集總結(jié)
GPT-2 模型最終的數(shù)據(jù)集總結(jié)分析如下:
表 7. GPT-2 數(shù)據(jù)集總結(jié)。?公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
5、GPT-3 數(shù)據(jù)集
GPT-3 模型由 OpenAI 于 2020 年發(fā)布。論文闡明了所用訓(xùn)練數(shù)據(jù)集的 token 數(shù)量 [16],但訓(xùn)練數(shù)據(jù)集的內(nèi)容和大小尚不清楚(Common Crawl 的數(shù)據(jù)集大小除外 [17])
表 8. GPT-3 數(shù)據(jù)集。?公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
5.1. GPT-3:關(guān)于 Books1 和 Books2 數(shù)據(jù)集的分析
特別值得關(guān)注的是,在 OpenAI 的 GPT-3 論文中,并未公開 Books1 數(shù)據(jù)集(120 億 token)和 Books2 數(shù)據(jù)集(550 億 token)的大小和來源。關(guān)于這兩個(gè)數(shù)據(jù)集的來源人們提出了幾個(gè)假設(shè),包括來自 LibGen18 和 Sci-Hub 的類似數(shù)據(jù)集,不過這兩個(gè)數(shù)據(jù)集常以 TB 為計(jì),大到無法匹配。
5.2. GPT-3:Books1
GPT-3 使用的 Books1 數(shù)據(jù)集不可能與 GPT-1 使用的 BookCorpus 數(shù)據(jù)集相同,原因在于 Books1 的數(shù)據(jù)集更大,達(dá) 120 億 token。在一篇引用的論文 [19] 中就提及 GPT-1 使用的 BookCorpus 數(shù)據(jù)集擁有 9.848 億個(gè)詞,但這可能只相當(dāng)于 13 億 token(984.8 字 x 1.3 字的 token 乘數(shù))。
通過標(biāo)準(zhǔn)化項(xiàng)目古騰堡語料庫(kù)(SPGC),Books1 有可能與古騰堡項(xiàng)目保持一致性。SPGC 是一種開放式科學(xué)方法,被用于古騰堡項(xiàng)目完整的 PG 數(shù)據(jù)的精選(curated)版本。SPGC 包含 120 億個(gè) token [20],大約為 21GB [21]。
5.3. GPT-3:Books2
Books2(550 億 token)可能與 Bibliotik 保持一致,并由 EleutherA 收集該來源的數(shù)據(jù),組成數(shù)據(jù)集,使其成為 The Pile v1 的一部分。Bibliotik 版本為 100.96GB [22],其確定的 token 數(shù)僅為 250 億,低于 Books2 公開的 550 億。然而,使用 SPGC 的‘每字節(jié) token 數(shù)’比率(大約為 1:1.75),Bibliotik 的 token 數(shù)和大小將更接近于 Books2。
5.4. GPT-3 數(shù)據(jù)集總結(jié)
附錄 A 概述了使用 Wikipedia + CommonCrawl + WebText 數(shù)據(jù)集的頂級(jí)資源列表。GPT-3 模型的最終數(shù)據(jù)集總結(jié)分析如下:
表 9.GPT-3 數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
?6、The Pile v1(GPT-J 和 GPT-NeoX-20B)數(shù)據(jù)集
The Pile v1 數(shù)據(jù)集由 EleutherAI 于 2021 年發(fā)布,該數(shù)據(jù)集已被用于訓(xùn)練包括 GPT-J、GPT-NeoX-20B 在內(nèi)的多種模型,并作為包括 MT-NLG 在內(nèi)的其他模型的部分?jǐn)?shù)據(jù)集。The Pile v1 論文闡明了所用訓(xùn)練數(shù)據(jù)集的來源和大小。隨著 token 數(shù)量的增加,The Pile v1 論文應(yīng)被用作未來數(shù)據(jù)集文檔的黃金標(biāo)準(zhǔn)。
有關(guān) token 數(shù)量的更多詳情,可以使用本文提供的信息來確定,參見表 1(大小以 GB 為單位)和表 7(token / 每字節(jié))[23]。
表 10. The Pile v1 數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
6.1. The Pile v1 分組數(shù)據(jù)集(Grouped Datasets)
為了確定如‘Books’、‘Journals’和‘CC’這類數(shù)據(jù)集的大小,筆者對(duì)數(shù)據(jù)集進(jìn)行了分組,如下表所示。
表 11. The Pile v1 分組數(shù)據(jù)集(不包括 Wikipedia、CC 和 WebText)。公開的數(shù)據(jù)以粗體表示,確定的以斜體表示。
6.2. The Pile v1 數(shù)據(jù)集總結(jié)
The Pile v1 數(shù)據(jù)集與 GPT-J 和 GPT-NeoX-20B 模型的最終數(shù)據(jù)集總結(jié)分析如下:
表 12. Pile v1 數(shù)據(jù)集總結(jié)。?公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
7、Megatron-11B 和 RoBERTa 數(shù)據(jù)集
2019 年,Meta AI (當(dāng)時(shí)稱之為 Facebook AI) 和華盛頓大學(xué)聯(lián)合發(fā)布了擁有 1.25 億參數(shù)的 RoBERTa 模型。次年,Meta AI 發(fā)布了擁有 110 億參數(shù)的 Megatron-11B 模型。Megatron-11B 使用的訓(xùn)練數(shù)據(jù)集與 RoBERTa 相同。RoBERTa [24] 論文闡明了所用訓(xùn)練數(shù)據(jù)集的內(nèi)容,不過必須參考引用的論文 (BERT [25] 和 toryes [26]) 來確定最終的數(shù)據(jù)集大小。
BookCorpus?:?確定的數(shù)據(jù)集為 4.6GB,如上面的 GPT-1 部分所示。
維基百科:公開的數(shù)據(jù)集為 “16GB(BookCorpus 加上英文維基百科)”。在減去 BookCorpus 數(shù)據(jù)集(4.6GB,如上面的 GPT-1 部分所述)后,維基百科數(shù)據(jù)集確定為 11.4GB。
CC-News?:(經(jīng)過濾后)公開的數(shù)據(jù)集為 76GB。
OpenWebText?:?公開的數(shù)據(jù)集為 38GB。
Stories?:?公開的數(shù)據(jù)集為 31GB。請(qǐng)注意,此數(shù)據(jù)集是 “基于常識(shí)推理任務(wù)問題” 的 Common Crawl 內(nèi)容,不屬于本文的‘Books’類別。相反,將 Stories 與 CC-News 數(shù)據(jù)集(76GB)相結(jié)合,Common Crawl 的總數(shù)據(jù)集則為 107GB。
7.1. Megatron-11B 和 RoBERTa 的數(shù)據(jù)集總結(jié)
Megatron-11B 和 RoBERTa 最終的數(shù)據(jù)集總結(jié)分析如下:
表 13. Megatron-11B 和 RoBERTa 的數(shù)據(jù)集總結(jié)。?公示的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
8、MT-NLG 數(shù)據(jù)集
2021 年,英偉達(dá)和微軟發(fā)布了擁有 5300 億參數(shù)的語言模型 MT-NLG。MT-NLG 是微軟 Turing NLG(擁有 170 億參數(shù))和英偉達(dá) Megatron-LM(擁有 83 億參數(shù))的 “繼任者”。MT-NLG 論文闡明了所用訓(xùn)練數(shù)據(jù)集的來源和 token 數(shù)量,不過沒有明確指出數(shù)據(jù)集的大小。
如前所述,有關(guān)數(shù)據(jù)集大小的更多詳情,可以使用 The Pile v1 論文中提供的信息來確定。雖然使用的組件相同,但注意的是,MT-NLG 和 The Pile v1 中報(bào)告的組件大小卻各不相同,這是由于來自 Eleuther AI (The Pile v1 數(shù)據(jù)集) 和 Microsoft/NVIDIA (MT-NLG 模型) 的研究人員采用了不同的數(shù)據(jù)過濾和去重方法。
8.1. MT-NLG 中的 Common Crawl 數(shù)據(jù)集
Pile-CC:公開的數(shù)據(jù)集為 498 億 token,確定的數(shù)據(jù)為 227.12GB 左右,參見上述 Pile v1 部分。
CC-2020-50:?公開的數(shù)據(jù)集為 687 億 token,假設(shè) token 的每字節(jié)率(per byte rate)為 0.25 TpB=274.8GB。
CC-2021-04:公開的數(shù)據(jù)集為 826 億 token,假設(shè) token 的每字節(jié)率為 0.25 TpB=330.4GB
RealNews(來自 RoBERTa/Megatron-11B):顯示為 219 億 token。根據(jù) RealNews 論文 [27],數(shù)據(jù)集確定為 120GB。
CC-Stories (來自 RoBERTa/Megatron-11B):公開的數(shù)據(jù)集為 53 億 token,如上述 RoBERTa 部分所示,數(shù)據(jù)集確定為 31GB。
根據(jù)以上來源,可確認(rèn) Common Crawl 的總數(shù)據(jù)量為 983.32GB,共計(jì) 2283 億 token。
8.2. MT-NLG 分組數(shù)據(jù)集(Grouped Datasets)
表 14. MT-NLG 分組數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
8.3. MT-NLG 數(shù)據(jù)集總結(jié)
MT-NLG 模型最終的數(shù)據(jù)集總結(jié)分析如下:
表 15. MT-NLG 數(shù)據(jù)集總結(jié)。?公示的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
9、MT-NLG 數(shù)據(jù)集?Gopher?數(shù)據(jù)集
Gopher 模型由 DeepMind 于 2021 年發(fā)布,有 2800 億參數(shù)。該論文清楚地說明了所使用訓(xùn)練數(shù)據(jù)集所包含的高級(jí) token 數(shù)量和大小 [28],但沒有說明詳細(xì)內(nèi)容。
表 16. 公開的 Gopher 數(shù)據(jù)集 (MassiveText)。公開的數(shù)據(jù)以粗體表述,確定的數(shù)據(jù)以斜體表示。
有趣的是,據(jù) Gopher 論文披露:其 Books 數(shù)據(jù)集中包含一些超過 500 年歷史(1500-2008)的書籍。
9.1. MassiveWeb 數(shù)據(jù)集分析
DeepMind 于 2014 年被谷歌收購(gòu),并在創(chuàng)建 MassiveText 時(shí)獲得了海量數(shù)據(jù)。雖然 Gopher 論文中沒有進(jìn)一步詳細(xì)描述 MassiveWeb,但第 44 頁附錄中的表 A3b 注明了 MassiveWeb 中出現(xiàn)的前 20 個(gè)域 [29]。根據(jù)披露的每個(gè)域所占的百分比,我們可以使用 MassiveWeb 的總 token 數(shù)(5060 億 token)和總原始大?。?900GB)來確定每個(gè)域的 token 數(shù)量和大小。
表 17. MassiveWeb:前 20 個(gè)域。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
9.2. Gopher:關(guān)于維基百科數(shù)據(jù)集的分析
維基百科數(shù)據(jù)集的總規(guī)模很難確定。在 Gopher 論文中,研究人員指出維基百科沒有進(jìn)行數(shù)據(jù)去重 [30]。然而,論文中列出的不同大小數(shù)據(jù)集(12.5GB MassiveWeb Wikipedia 與 1GB MassiveText Wikipedia)可能是由于失誤而造成的,誤將 “10GB” 寫成了 “1GB”。無論如何,本文僅使用 MassiveWeb 數(shù)據(jù)集版本 (12.5GB)。
9.3. Gopher: 不包括 WebText
Gopher 數(shù)據(jù)集的組成部分不包括 Reddit 外鏈的 WebText 數(shù)據(jù)集。為了清楚起見,盡管 Reddit 是 MassiveWeb 中的頂級(jí)域,但該數(shù)據(jù)集僅抓取 Reddit 域內(nèi)的 Reddit 鏈接。根據(jù)定義,WebText [31] 由 “所有 Reddit 的外鏈” 組成(即指向 Reddit 域外的鏈接)。
9.4. Gopher 分組數(shù)據(jù)集
MassiveWeb 被認(rèn)為是 MassiveText 的子組件,并被集成到 Gopher 的數(shù)據(jù)集匯總中,其分組基于以下列出的可用信息:
表 18. Gopher 分組數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
9.5. Gopher 數(shù)據(jù)集總結(jié)
Gopher 是本文中最大的數(shù)據(jù)集,大小為 10.5TB。Gopher 模型的最終數(shù)據(jù)集總結(jié)分析為:
表 19. Gopher 數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
10、結(jié)論
對(duì)于訓(xùn)練當(dāng)代 Transformer 大型語言模型的數(shù)據(jù)集而言,這可能是最全面的整合分析內(nèi)容(截止 2022 年初)。在主要數(shù)據(jù)源不透明的情況下,本次研究主要從二級(jí)和三級(jí)來源收集數(shù)據(jù),并經(jīng)常需要假定來確定最終估計(jì)值。隨著研究人員要處理千萬億個(gè) token(1,000 萬億)和數(shù)千 TB 的數(shù)據(jù)(1,000TB),確保詳細(xì)披露數(shù)據(jù)集組成的文檔變得越來越重要。
特別值得關(guān)注的是,基于大型語言模型的強(qiáng)大 AI 系統(tǒng)產(chǎn)生的冗長(zhǎng)而匿名的輸出正在迅速發(fā)展,其中許多數(shù)據(jù)集的細(xì)節(jié)內(nèi)容幾乎沒有文檔說明。
強(qiáng)烈建議研究人員使用突出顯示的 “數(shù)據(jù)集的數(shù)據(jù)表(Datasheet for Datasets)” 論文中提供的模板,并在記錄數(shù)據(jù)集時(shí)使用最佳實(shí)踐論文(即 Pile v1 論文,包括 token 數(shù)量)。數(shù)據(jù)集大小(GB)、token 數(shù)量(B)、來源、分組和其他詳細(xì)信息指標(biāo)均應(yīng)完整記錄和發(fā)布。
隨著語言模型不斷發(fā)展并更廣泛地滲透到人們的生活中,確保數(shù)據(jù)集的詳細(xì)信息公開透明、所有人都可訪問且易于理解是有用、緊迫和必要的。
擴(kuò)展閱讀及腳注
考慮到簡(jiǎn)潔和可讀性,本文使用了腳注而非文本 / 括弧式引文。主要參考文獻(xiàn)如下,或者參見?http://lifearchitect.ai/papers/,獲取大語言模型領(lǐng)域的主要基礎(chǔ)論文。以下論文按本文順序顯示。
Datasheets for Datasets?Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets.??https://arxiv.org/abs/1803.09010
GPT-1 paper?Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI.??https://cdn.openai.com/research-covers/language-unsupervised/language_understan??ding_paper.pdf
GPT-2 paper?Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.??https://cdn.openai.com/better-language-models/language_models_are_unsupervised??_multitask_learners.pdf
GPT-3 paper?Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners.??https://arxiv.org/abs/2005.14165
The Pile v1 paper?Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling.
EleutherAI.??https://arxiv.org/abs/2101.00027
GPT-J announcement?Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer.??https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/
GPT-NeoX-20B paper?Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model.??http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf
RoBERTa paper?Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI.??https://arxiv.org/abs/1907.11692
MT-NLG paper?Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA.??https://arxiv.org/abs/2201.11990
Gopher paper?Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind.??https://arxiv.org/abs/2112.11446
Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)
附錄 A:前 50 個(gè)資源:Wikipedia + CC + WebText(即 GPT-3)
基于本文內(nèi)容,尤其是每個(gè)數(shù)據(jù)集中每個(gè)資源的 token 數(shù)量,我們可以對(duì)將 Wikipedia + Common Crawl + WebText 數(shù)據(jù)集的組合,作為其整體訓(xùn)練數(shù)據(jù)集的一部分模型進(jìn)行資源或域的排序。為清楚起見,這包括以下模型:OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B 和 RoBERTA,以及 Microsoft/NVIDIA MT-NLG 等。
請(qǐng)注意,展示的排名基于數(shù)據(jù)集中可用的未加權(quán)總 token,每個(gè)數(shù)據(jù)集的主觀權(quán)重由研究人員在模型預(yù)訓(xùn)練之前計(jì)算得出。其中有一些重復(fù)(例如,《紐約時(shí)報(bào)》既出現(xiàn)在有 1.11 億 token 的 WebText 中,也出現(xiàn)在過濾后有 1 億 token 的 Common Crawl 中)。
腳注
1.?GPT-NeoX-20B paper: pp11, section 6??http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf
2.?Datasheet for Datasets paper:??https://arxiv.org/abs/1803.09010
3.?OpenAI blog:??https://openai.com/blog/gpt-3-apps/
4.?On the Opportunities and Risks of Foundation Models:??https://arxiv.org/abs/2108.07258
5.?Size of Wikipedia:??https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia
6.?C4 dataset:??https://www.tensorflow.org/datasets/catalog/c4
7.?Common Crawl website:??https://commoncrawl.org/
8.?C4 paper:??https://arxiv.org/abs/2104.08758??pp2, Figure 1 right
9.?Wikipedia categories:??https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results?: “維基百科涵蓋哪些主題?覆蓋范圍是否隨時(shí)間變化?使用 2015 年 12 月抽取的 1001 篇隨機(jī)文章對(duì)這些問題和類似問題進(jìn)行了查驗(yàn)... 隨著時(shí)間推移,這些比例相當(dāng)穩(wěn)定... 傳記(27.8%),地理(17.7%),文化和藝術(shù)(15.8%),歷史(9.9%),生物學(xué)、健康和醫(yī)學(xué)(7.8%),體育(6.5%),商業(yè)(4.8%),其他社會(huì)(4.4%),科學(xué)與數(shù)學(xué)(3.5%),教育(1.8%)?!?/p>
10.?GPT-1 paper: pp4 “We use the BooksCorpus dataset for training the language model.”
11.??https://huggingface.co/datasets/bookcorpus?: “Size of the generated dataset: 4629.00 MB”
12.?BookCorpus Retrospective Datasheet paper: pp9??https://arxiv.org/abs/2105.05241
13. GPT-2 paper: pp3 “我們從社交媒體平臺(tái) Reddit 中抓取了至少有 3 個(gè) karma 的所有出站鏈接。這可以被認(rèn)為是一個(gè)啟發(fā)式指標(biāo),用于判斷其他用戶是否覺得該鏈接有趣、有教育意義或只是有趣……WebText 包含這 4500 萬個(gè)鏈接的文本子集…… 其中不包括 2017 年 12 月之后創(chuàng)建的鏈接。經(jīng)過去重和一些基于啟發(fā)式的清理后,其中包含大約超過 800 萬個(gè)文檔,總共 40GB 文本。我們從 WebText 中移除了所有維基百科文檔...”
14.?GPT-2 model card:??https://github.com/openai/gpt-2/blob/master/model_card.md?: “我們已經(jīng)發(fā)布了 WebText 中出現(xiàn)的前 1,000 個(gè)域及其頻率的列表。WebText 中排名前 15 位的域是:Google、Archive、Blogspot、GitHub、紐約時(shí)報(bào)、Wordpress、華盛頓郵報(bào)、維基亞、BBC、衛(wèi)報(bào)、eBay、Pastebin、CNN、雅虎和赫芬頓郵報(bào)。”
15. GPT-3 paper: “WebText2:190 億 token。[Alan:WebText2 是從 WebText 稍微擴(kuò)展而來,所以我們可以減去 20%,得到 150 億 token]”
16.?GPT-2 paper: pp3 “GPT-3: pp9, Table 2.2 “CC: 4100 億 token. WebText2: 190 億 token. Books1: 120 億 token. Books2: 550 億 token. Wiki: 30 億 token”
17.?GPT-3 paper: pp8
18.?BookCorpus repo:??soskek/bookcorpus#27?: “books3.tar.gz 似乎類似于 OpenAI 在他們的論文中引用的神秘 “books2” 數(shù)據(jù)集。不幸的是,OpenAI 不會(huì)提供細(xì)節(jié),所以我們對(duì)其差異知之甚少。人們懷疑它是 “l(fā)ibgen 的全部”,但這純粹是猜測(cè)。盡管如此,books3 仍是 “所有的 bibliotik”......”
19.?BookCorpus paper:??https://arxiv.org/abs/1506.06724?: “# of words: 984,846,357 [Alan: BookCorpus 有 13 億 token。我們想要有 120-550 億 token]”
20.?Gutenberg paper:??https://arxiv.org/abs/1812.08092?: “我們介紹了標(biāo)準(zhǔn)化項(xiàng)目古騰堡語料庫(kù)(SPGC),這是一種開放的科學(xué)方法,用于處理完整 PG 數(shù)據(jù)的精選版本,其中包含超過 50,000 本書和 3×109word-token [Alan:相當(dāng)于大約 120 億 BPE token,見下文]”
21.?Gutenberg repo:??https://zenodo.org/record/2422561??“未壓縮大?。?GB(count)+ 18GB(token)[總計(jì) 21GB]”
22. The Pile v1 paper: “Books3(Bibliotik tracker):100.96GB” [Alan:乘以每字節(jié) token 數(shù) 0.2477 = 250 億 token]
23.?The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.
24.?RoBERTa paper:??https://arxiv.org/abs/1907.11692??“BOOKCORPUS 加上英文 WIKIPEDIA。這是用來訓(xùn)練 BERT 的原始數(shù)據(jù)。(16GB)?!?/p>
25.?BERT paper:??https://arxiv.org/abs/1810.04805??“BERT 在 BooksCorpus(8 億字)和維基百科(25 億字)上進(jìn)行訓(xùn)練?!?/p>
26.?Stories paper:??https://arxiv.org/abs/1806.02847??pp5-6
27.?RealNews paper:??https://arxiv.org/abs/1905.12616v3??“去重后,RealNews 在沒有壓縮的情況下為 120GB?!?/p>
28.?Gopher paper:??https://arxiv.org/abs/2112.11446??pp 7: list of sizes and tokens.
29.?Gopher paper:??https://arxiv.org/abs/2112.11446??pp 44, Figure A3b.
30.?Gopher paper: pp41n14 “請(qǐng)注意,我們將文檔去重應(yīng)用于除 Wikipedia 和 GitHub 之外的所有 MassiveText 子集 “
31.?GPT-2 paper, pp3.
關(guān)于作者
Alan D. Thompson 博士是人工智能專家、顧問。在 2021 年 8 月的世界人才大會(huì)(World Gifted Conference)上,Alan 與 Leta(由 GPT-3 提供支持的 AI)共同舉辦了一場(chǎng)名為 “The new irrelevance of intelligence” 的研討會(huì)。他的應(yīng)用型人工智能研究和可視化成果受到了國(guó)際主要媒體的報(bào)道,同時(shí)還在 2021 年 12 月牛津大學(xué)有關(guān) AI 倫理的辯論中被引用。他曾擔(dān)任門薩國(guó)際(Mensa International)主席、通用電氣(GE)和華納兄弟(Warner Bros)顧問,也曾是電氣與電子工程師協(xié)會(huì)(IEEE)和英國(guó)工程技術(shù)學(xué)會(huì)(IET)會(huì)員。
?
編輯:黃飛
?
評(píng)論
查看更多