一文解析ChatGPT 數(shù)據(jù)集之謎

半個(gè)月以來，ChatGPT 這把火越燒越旺。國(guó)內(nèi)很多大廠相繼聲稱要做中文版 ChatGPT，還公布了上線時(shí)間表，不少科技圈已功成名就的大佬也按捺不住，攜巨資下場(chǎng)，要?jiǎng)?chuàng)建 “中國(guó)版 OpenAI“。

不過，看看過去半個(gè)月在群眾眼里稍顯窘迫的 Meta 的 Galac tica，以及 Google 緊急發(fā)布的 Bard，就知道在短期內(nèi)打造一個(gè)比肩甚至超越 ChatGPT 效果的模型沒那么簡(jiǎn)單。

讓很多人不免感到詫異的是，ChatGPT 的核心算法 Transformer 最初是由 Google 提出的，并且在大模型技術(shù)上的積累可以說不弱于 OpenAI，當(dāng)然他們也不缺算力和數(shù)據(jù)，但為什么依然會(huì)被 ChatGPT 打的措手不及？

Meta 首席 AI 科學(xué)家 Yann LeCun 最近抨擊 ChatGPT 的名言實(shí)際上解釋了背后的門道。他說，ChatGPT “只是巧妙的組合而已”，這句話恰恰道出了一種無形的技術(shù)壁壘。

簡(jiǎn)單來說，即使其他團(tuán)隊(duì)的算法、數(shù)據(jù)、算力都準(zhǔn)備的與 OpenAI 相差無幾，但就是沒想到以一種精巧的方式把這些元素組裝起來，沒有 OpenAI，全行業(yè)不知道還需要去趟多少坑。

即使 OpenAI 給出了算法上的一條路徑，后來者想復(fù)現(xiàn) ChatGPT，算力、工程、數(shù)據(jù)，每一個(gè)要素都需要非常深的積累。七龍珠之中，算力是自由流通的商品，花錢可以買到，工程上有 OneFlow 這樣的開源項(xiàng)目和團(tuán)隊(duì)，因此，對(duì)互聯(lián)網(wǎng)大廠之外的團(tuán)隊(duì)來說，剩下最大的挑戰(zhàn)在于高質(zhì)量訓(xùn)練數(shù)據(jù)集。

至今，OpenAI 并沒有公開訓(xùn)練 ChatGPT 的相關(guān)數(shù)據(jù)集來源和具體細(xì)節(jié)，一定程度上也暫時(shí)卡了追趕者的脖子，更何況，業(yè)界公認(rèn)中文互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量堪憂。

好在，互聯(lián)網(wǎng)上總有熱心的牛人分析技術(shù)的細(xì)枝末節(jié)，從雜亂的資料中串聯(lián)起蛛絲馬跡，從而歸納出非常有價(jià)值的信息。

此前，發(fā)布的《ChatGPT 背后的經(jīng)濟(jì)賬》，其作者從經(jīng)濟(jì)學(xué)視角推導(dǎo)了訓(xùn)練大型語言模型的成本。本文作者則整理分析了 2018 年到 2022 年初從 GPT-1 到 Gopher 的相關(guān)大型語言模型的所有數(shù)據(jù)集相關(guān)信息，希望幫助有志于開發(fā) “類 ChatGPT” 模型的團(tuán)隊(duì)少走一步彎路。

作者｜Alan D. Thompson

翻譯｜楊婷、徐佳渝、賈川

一些研究人員的報(bào)告稱，通用人工智能（AGI）可能是從我們當(dāng)前的語言模型技術(shù)進(jìn)行演進(jìn) [1]，預(yù)訓(xùn)練 Transformer 語言模型為 AGI 的發(fā)展鋪平了道路。雖然模型訓(xùn)練數(shù)據(jù)集日漸增大，但缺乏基本指標(biāo)文檔，包括數(shù)據(jù)集大小、數(shù)據(jù)集 token 數(shù)量和具體的內(nèi)容細(xì)節(jié)。

盡管業(yè)內(nèi)提出了數(shù)據(jù)集組成和整理文檔的標(biāo)準(zhǔn) [2]，但幾乎所有重點(diǎn)研究實(shí)驗(yàn)室在揭示模型訓(xùn)練數(shù)據(jù)集細(xì)節(jié)這方面都做得不夠。這里整合的研究涵蓋了 2018 年到 2022 年初從 GPT-1 到 Gopher 的精選語言模型的所有數(shù)據(jù)集（包括主要數(shù)據(jù)集：Wikipedia 和 Common Crawl）的綜合視圖。

1、概述

圖 1. 主要數(shù)據(jù)集大小的可視化匯總。未加權(quán)大小，以 GB 為單位。?

2018 年以來，大語言模型的開發(fā)和生產(chǎn)使用呈現(xiàn)出爆炸式增長(zhǎng)。一些重點(diǎn)研究實(shí)驗(yàn)室報(bào)告稱，公眾對(duì)大語言模型的使用率達(dá)到了驚人高度。2021 年 3 月，OpenAI 宣布 [3] 其 GPT-3 語言模型被 “超過 300 個(gè)應(yīng)用程序使用，平均每天能夠生成 45 億個(gè)詞”，也就是說僅單個(gè)模型每分鐘就能生成 310 萬詞的新內(nèi)容。

值得注意的是，這些語言模型甚至還沒有被完全理解，斯坦福大學(xué)的研究人員 [4] 最近坦言，“目前我們對(duì)這些模型還缺乏認(rèn)知，還不太了解這些模型的運(yùn)轉(zhuǎn)模式、不知道模型何時(shí)會(huì)失效，更不知道這些模型的突現(xiàn)性（emergent properties）能產(chǎn)生什么效果”。

隨著新型 AI 技術(shù)的快速發(fā)展，模型訓(xùn)練數(shù)據(jù)集的相關(guān)文檔質(zhì)量有所下降。模型內(nèi)部到底有什么秘密？它們又是如何組建的？本文綜合整理并分析了現(xiàn)代大型語言模型的訓(xùn)練數(shù)據(jù)集。

因?yàn)檫@方面的原始文獻(xiàn)并不對(duì)外公開，所以本文搜集整合了二、三級(jí)研究資料，在必要的時(shí)候本文會(huì)采用假設(shè)的方式來推算最終結(jié)果。

在本文中，我們會(huì)將原始論文中已經(jīng)明確的特定細(xì)節(jié)（例如 token 數(shù)量或數(shù)據(jù)集大小）歸類為 “公開的（disclosed）” 數(shù)據(jù)，并作加粗處理。

多數(shù)情況下，適當(dāng)?shù)貐⒖级?、三?jí)文獻(xiàn)，并采用假設(shè)的方式來確定最終結(jié)果是很有必要的。在這些情況下，token 數(shù)量和數(shù)據(jù)集大小等細(xì)節(jié)是 “確定的（determined）”，并以斜體標(biāo)記。

模型數(shù)據(jù)集可分為六類，分別是：維基百科、書籍、期刊、Reddit 鏈接、Common Crawl 和其他數(shù)據(jù)集。

表 1. 主要數(shù)據(jù)集大小匯總。以 GB 為單位。公開的數(shù)據(jù)以粗體表示。確定的數(shù)據(jù)以斜體表示。僅原始訓(xùn)練數(shù)據(jù)集大小。

1.1. 維基百科

維基百科是一個(gè)免費(fèi)的多語言協(xié)作在線百科全書，由超過 300,000 名志愿者組成的社區(qū)編寫和維護(hù)。截至 2022 年 4 月，英文版維基百科中有超過 640 萬篇文章，包含超 40 億個(gè)詞 [5]。維基百科中的文本很有價(jià)值，因?yàn)樗粐?yán)格引用，以說明性文字形式寫成，并且跨越多種語言和領(lǐng)域。一般來說，重點(diǎn)研究實(shí)驗(yàn)室會(huì)首先選取它的純英文過濾版作為數(shù)據(jù)集。

1.2.?書籍

故事型書籍由小說和非小說兩大類組成，主要用于訓(xùn)練模型的故事講述能力和反應(yīng)能力，數(shù)據(jù)集包括 Project Gutenberg 和 Smashwords (Toronto BookCorpus/BookCorpus) 等。

1.3.?雜志期刊

預(yù)印本和已發(fā)表期刊中的論文為數(shù)據(jù)集提供了堅(jiān)實(shí)而嚴(yán)謹(jǐn)?shù)幕A(chǔ)，因?yàn)閷W(xué)術(shù)寫作通常來說更有條理、理性和細(xì)致。這類數(shù)據(jù)集包括 ArXiv 和美國(guó)國(guó)家衛(wèi)生研究院等。

1.4.?Reddit 鏈接

WebText 是一個(gè)大型數(shù)據(jù)集，它的數(shù)據(jù)是從社交媒體平臺(tái) Reddit 所有出站鏈接網(wǎng)絡(luò)中爬取的，每個(gè)鏈接至少有三個(gè)贊，代表了流行內(nèi)容的風(fēng)向標(biāo)，對(duì)輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。

1.5.?Common Crawl

Common Crawl 是 2008 年至今的一個(gè)網(wǎng)站抓取的大型數(shù)據(jù)集，數(shù)據(jù)包含原始網(wǎng)頁、元數(shù)據(jù)和文本提取，它的文本來自不同語言、不同領(lǐng)域。重點(diǎn)研究實(shí)驗(yàn)室一般會(huì)首先選取它的純英文過濾版（C4）作為數(shù)據(jù)集。

1.6. 其他數(shù)據(jù)集

不同于上述類別，這類數(shù)據(jù)集由 GitHub 等代碼數(shù)據(jù)集、StackExchange 等對(duì)話論壇和視頻字幕數(shù)據(jù)集組成。

2、常用數(shù)據(jù)集

2019 年以來，大多數(shù)基于 Transformer 的大型語言模型 (LLM) 都依賴于英文維基百科和 Common Crawl 的大型數(shù)據(jù)集。在本節(jié)中，我們參考了 Jesse Dodge 和 AllenAI（AI2）[8] 團(tuán)隊(duì)的綜合分析，按類別對(duì)英文維基百科作了高級(jí)概述，并在 Common Crawl 數(shù)據(jù)集 [7] 的基礎(chǔ)上，用谷歌 C4 [6] (Colossal Clean Crawled Corpus) 在 Common Crawl 中提供了頂級(jí)域（domains）。

2.1. 維基百科（英文版）分析

下面按類別 [9] 列出了維基百科的詳細(xì)信息，涵蓋了 2015 年抽樣的 1001 篇隨機(jī)文章，研究人員注意到隨時(shí)間推移文章傳播的穩(wěn)定性。假設(shè)一個(gè) 11.4GB、經(jīng)過清理和過濾的維基百科英文版有 30 億 token，我們就可以確定類別大小和 token。

表 2. 英文維基百科數(shù)據(jù)集類別。公開的數(shù)據(jù)以粗體表示。確定的數(shù)據(jù)以斜體表示。

2.2 Common Crawl 分析

基于 AllenAI (AI2) 的 C4 論文，我們可以確定，過濾后的英文 C4 數(shù)據(jù)集的每個(gè)域的 token 數(shù)和總體百分比，該數(shù)據(jù)集為 305GB，其中 token 數(shù)為 1560 億。

表 3. C4：前 23 個(gè)域（不包括維基百科）。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

3、GPT-1 數(shù)據(jù)集

2018 年，OpenAI 發(fā)布了 1.17 億參數(shù)的 GPT-1。在論文中，OpenAI 并沒有公布模型訓(xùn)練數(shù)據(jù)集的來源和內(nèi)容 [10]，另外，論文誤將‘BookCorpus’拼寫成了‘BooksCorpus’。BookCorpus 以作家未出版的免費(fèi)書籍為基礎(chǔ)，這些書籍來自于 Smashwords，這是一個(gè)自稱為 “世界上最大的獨(dú)立電子書分銷商” 的電子書網(wǎng)站。這個(gè)數(shù)據(jù)集也被稱為 Toronto BookCorpus。經(jīng)過幾次重構(gòu)之后，BookCorpus 數(shù)據(jù)集的最終大小確定為 4.6GB [11]。

2021 年，經(jīng)過全面的回顧性分析，BookCorpus 數(shù)據(jù)集對(duì)按流派分組的書籍?dāng)?shù)量和各類書籍百分比進(jìn)行了更正 [12]。數(shù)據(jù)集中有關(guān)書籍類型的更多詳細(xì)信息如下：

表 4. BookCorpus 書籍類型。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

在隨后的數(shù)據(jù)集重構(gòu)中，BookCorpus 數(shù)據(jù)集進(jìn)一步過濾掉了書籍中的 “吸血鬼” 類別、降低了言情類書籍的百分比、增加了 “歷史” 類書籍，增加了收集的書籍?dāng)?shù)量。

3.1. GPT-1 數(shù)據(jù)集總結(jié)

GPT-1 最終的數(shù)據(jù)集總結(jié)分析如下：

表 5.GPT-1 數(shù)據(jù)集總結(jié)。以 GB 為單位。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

?4、GPT-2 數(shù)據(jù)集

2019 年，OpenAI 發(fā)布了擁有 15 億參數(shù)的語言模型 GPT-2。GPT-2 論文闡明了所用訓(xùn)練數(shù)據(jù)集的大小 [13]，不過并未說明其內(nèi)容。而 GPT-2 模型卡（model card）（在 GPT-2 GitHub 倉(cāng)庫(kù)中）說明了模型內(nèi)容 [14]。

我們可以從 GPT-3 論文中得到 token 數(shù)量，該論文使用了 WebText 擴(kuò)展版本來表示 190 億 token。據(jù)推測(cè)，2020 年推出的 WebText 擴(kuò)展版本擁有 12 個(gè)月的額外數(shù)據(jù)（additional data），因此它可能比 2019 年推出的 GPT-2 版本大 25% 左右 [15]。GPT-2 最終的 token 數(shù)量確定為 150 億左右。

如 GPT-2 論文所述，假設(shè)模型卡顯示鏈接數(shù)時(shí)，每個(gè)鏈接都可以被 4500 萬鏈接總數(shù)所除，那 WebText 的內(nèi)容在數(shù)據(jù)集中所占的百分比的詳細(xì)信息就可以確定。

然后可以使用確定的 150 億 token 數(shù)量來查找每個(gè)域的 token 數(shù)量。請(qǐng)注意，在可用的前 1,000 個(gè)域中，此處僅顯示前 50 個(gè)域。

表 6. WebText: 前 50 個(gè)域。?公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

4.1. GPT-2 數(shù)據(jù)集總結(jié)

GPT-2 模型最終的數(shù)據(jù)集總結(jié)分析如下：

表 7. GPT-2 數(shù)據(jù)集總結(jié)。?公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

5、GPT-3 數(shù)據(jù)集

GPT-3 模型由 OpenAI 于 2020 年發(fā)布。論文闡明了所用訓(xùn)練數(shù)據(jù)集的 token 數(shù)量 [16]，但訓(xùn)練數(shù)據(jù)集的內(nèi)容和大小尚不清楚（Common Crawl 的數(shù)據(jù)集大小除外 [17]）

表 8. GPT-3 數(shù)據(jù)集。?公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

5.1. GPT-3：關(guān)于 Books1 和 Books2 數(shù)據(jù)集的分析

特別值得關(guān)注的是，在 OpenAI 的 GPT-3 論文中，并未公開 Books1 數(shù)據(jù)集（120 億 token）和 Books2 數(shù)據(jù)集（550 億 token）的大小和來源。關(guān)于這兩個(gè)數(shù)據(jù)集的來源人們提出了幾個(gè)假設(shè)，包括來自 LibGen18 和 Sci-Hub 的類似數(shù)據(jù)集，不過這兩個(gè)數(shù)據(jù)集常以 TB 為計(jì)，大到無法匹配。

5.2. GPT-3：Books1

GPT-3 使用的 Books1 數(shù)據(jù)集不可能與 GPT-1 使用的 BookCorpus 數(shù)據(jù)集相同，原因在于 Books1 的數(shù)據(jù)集更大，達(dá) 120 億 token。在一篇引用的論文 [19] 中就提及 GPT-1 使用的 BookCorpus 數(shù)據(jù)集擁有 9.848 億個(gè)詞，但這可能只相當(dāng)于 13 億 token（984.8 字 x 1.3 字的 token 乘數(shù)）。

通過標(biāo)準(zhǔn)化項(xiàng)目古騰堡語料庫(kù)（SPGC），Books1 有可能與古騰堡項(xiàng)目保持一致性。SPGC 是一種開放式科學(xué)方法，被用于古騰堡項(xiàng)目完整的 PG 數(shù)據(jù)的精選（curated）版本。SPGC 包含 120 億個(gè) token [20]，大約為 21GB [21]。

5.3. GPT-3：Books2

Books2（550 億 token）可能與 Bibliotik 保持一致，并由 EleutherA 收集該來源的數(shù)據(jù)，組成數(shù)據(jù)集，使其成為 The Pile v1 的一部分。Bibliotik 版本為 100.96GB [22]，其確定的 token 數(shù)僅為 250 億，低于 Books2 公開的 550 億。然而，使用 SPGC 的‘每字節(jié) token 數(shù)’比率（大約為 1:1.75），Bibliotik 的 token 數(shù)和大小將更接近于 Books2。

5.4. GPT-3 數(shù)據(jù)集總結(jié)

附錄 A 概述了使用 Wikipedia + CommonCrawl + WebText 數(shù)據(jù)集的頂級(jí)資源列表。GPT-3 模型的最終數(shù)據(jù)集總結(jié)分析如下：

表 9.GPT-3 數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

?6、The Pile v1（GPT-J 和 GPT-NeoX-20B）數(shù)據(jù)集

The Pile v1 數(shù)據(jù)集由 EleutherAI 于 2021 年發(fā)布，該數(shù)據(jù)集已被用于訓(xùn)練包括 GPT-J、GPT-NeoX-20B 在內(nèi)的多種模型，并作為包括 MT-NLG 在內(nèi)的其他模型的部分?jǐn)?shù)據(jù)集。The Pile v1 論文闡明了所用訓(xùn)練數(shù)據(jù)集的來源和大小。隨著 token 數(shù)量的增加，The Pile v1 論文應(yīng)被用作未來數(shù)據(jù)集文檔的黃金標(biāo)準(zhǔn)。

有關(guān) token 數(shù)量的更多詳情，可以使用本文提供的信息來確定，參見表 1（大小以 GB 為單位）和表 7（token / 每字節(jié)）[23]。

表 10. The Pile v1 數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

6.1. The Pile v1 分組數(shù)據(jù)集（Grouped Datasets）

為了確定如‘Books’、‘Journals’和‘CC’這類數(shù)據(jù)集的大小，筆者對(duì)數(shù)據(jù)集進(jìn)行了分組，如下表所示。

表 11. The Pile v1 分組數(shù)據(jù)集（不包括 Wikipedia、CC 和 WebText）。公開的數(shù)據(jù)以粗體表示，確定的以斜體表示。

6.2. The Pile v1 數(shù)據(jù)集總結(jié)

The Pile v1 數(shù)據(jù)集與 GPT-J 和 GPT-NeoX-20B 模型的最終數(shù)據(jù)集總結(jié)分析如下：

表 12. Pile v1 數(shù)據(jù)集總結(jié)。?公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

7、Megatron-11B 和 RoBERTa 數(shù)據(jù)集

2019 年，Meta AI (當(dāng)時(shí)稱之為 Facebook AI) 和華盛頓大學(xué)聯(lián)合發(fā)布了擁有 1.25 億參數(shù)的 RoBERTa 模型。次年，Meta AI 發(fā)布了擁有 110 億參數(shù)的 Megatron-11B 模型。Megatron-11B 使用的訓(xùn)練數(shù)據(jù)集與 RoBERTa 相同。RoBERTa [24] 論文闡明了所用訓(xùn)練數(shù)據(jù)集的內(nèi)容，不過必須參考引用的論文 (BERT [25] 和 toryes [26]) 來確定最終的數(shù)據(jù)集大小。

BookCorpus?：?確定的數(shù)據(jù)集為 4.6GB，如上面的 GPT-1 部分所示。

維基百科：公開的數(shù)據(jù)集為 “16GB（BookCorpus 加上英文維基百科）”。在減去 BookCorpus 數(shù)據(jù)集（4.6GB，如上面的 GPT-1 部分所述）后，維基百科數(shù)據(jù)集確定為 11.4GB。

CC-News?：（經(jīng)過濾后）公開的數(shù)據(jù)集為 76GB。

OpenWebText?:?公開的數(shù)據(jù)集為 38GB。

Stories?:?公開的數(shù)據(jù)集為 31GB。請(qǐng)注意，此數(shù)據(jù)集是 “基于常識(shí)推理任務(wù)問題” 的 Common Crawl 內(nèi)容，不屬于本文的‘Books’類別。相反，將 Stories 與 CC-News 數(shù)據(jù)集（76GB）相結(jié)合，Common Crawl 的總數(shù)據(jù)集則為 107GB。

7.1. Megatron-11B 和 RoBERTa 的數(shù)據(jù)集總結(jié)

Megatron-11B 和 RoBERTa 最終的數(shù)據(jù)集總結(jié)分析如下：

表 13. Megatron-11B 和 RoBERTa 的數(shù)據(jù)集總結(jié)。?公示的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

8、MT-NLG 數(shù)據(jù)集

2021 年，英偉達(dá)和微軟發(fā)布了擁有 5300 億參數(shù)的語言模型 MT-NLG。MT-NLG 是微軟 Turing NLG（擁有 170 億參數(shù)）和英偉達(dá) Megatron-LM（擁有 83 億參數(shù)）的 “繼任者”。MT-NLG 論文闡明了所用訓(xùn)練數(shù)據(jù)集的來源和 token 數(shù)量，不過沒有明確指出數(shù)據(jù)集的大小。

如前所述，有關(guān)數(shù)據(jù)集大小的更多詳情，可以使用 The Pile v1 論文中提供的信息來確定。雖然使用的組件相同，但注意的是，MT-NLG 和 The Pile v1 中報(bào)告的組件大小卻各不相同，這是由于來自 Eleuther AI (The Pile v1 數(shù)據(jù)集) 和 Microsoft/NVIDIA (MT-NLG 模型) 的研究人員采用了不同的數(shù)據(jù)過濾和去重方法。

8.1. MT-NLG 中的 Common Crawl 數(shù)據(jù)集

Pile-CC：公開的數(shù)據(jù)集為 498 億 token，確定的數(shù)據(jù)為 227.12GB 左右，參見上述 Pile v1 部分。

CC-2020-50:?公開的數(shù)據(jù)集為 687 億 token，假設(shè) token 的每字節(jié)率（per byte rate）為 0.25 TpB=274.8GB。

CC-2021-04：公開的數(shù)據(jù)集為 826 億 token，假設(shè) token 的每字節(jié)率為 0.25 TpB=330.4GB

RealNews（來自 RoBERTa/Megatron-11B）：顯示為 219 億 token。根據(jù) RealNews 論文 [27]，數(shù)據(jù)集確定為 120GB。

CC-Stories (來自 RoBERTa/Megatron-11B)：公開的數(shù)據(jù)集為 53 億 token，如上述 RoBERTa 部分所示，數(shù)據(jù)集確定為 31GB。

根據(jù)以上來源，可確認(rèn) Common Crawl 的總數(shù)據(jù)量為 983.32GB，共計(jì) 2283 億 token。

8.2. MT-NLG 分組數(shù)據(jù)集（Grouped Datasets）

表 14. MT-NLG 分組數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

8.3. MT-NLG 數(shù)據(jù)集總結(jié)

MT-NLG 模型最終的數(shù)據(jù)集總結(jié)分析如下：

表 15. MT-NLG 數(shù)據(jù)集總結(jié)。?公示的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

9、MT-NLG 數(shù)據(jù)集?Gopher?數(shù)據(jù)集

Gopher 模型由 DeepMind 于 2021 年發(fā)布，有 2800 億參數(shù)。該論文清楚地說明了所使用訓(xùn)練數(shù)據(jù)集所包含的高級(jí) token 數(shù)量和大小 [28]，但沒有說明詳細(xì)內(nèi)容。

表 16. 公開的 Gopher 數(shù)據(jù)集 (MassiveText)。公開的數(shù)據(jù)以粗體表述，確定的數(shù)據(jù)以斜體表示。

有趣的是，據(jù) Gopher 論文披露：其 Books 數(shù)據(jù)集中包含一些超過 500 年歷史（1500-2008）的書籍。

9.1. MassiveWeb 數(shù)據(jù)集分析

DeepMind 于 2014 年被谷歌收購(gòu)，并在創(chuàng)建 MassiveText 時(shí)獲得了海量數(shù)據(jù)。雖然 Gopher 論文中沒有進(jìn)一步詳細(xì)描述 MassiveWeb，但第 44 頁附錄中的表 A3b 注明了 MassiveWeb 中出現(xiàn)的前 20 個(gè)域 [29]。根據(jù)披露的每個(gè)域所占的百分比，我們可以使用 MassiveWeb 的總 token 數(shù)（5060 億 token）和總原始大?。?900GB）來確定每個(gè)域的 token 數(shù)量和大小。

表 17. MassiveWeb：前 20 個(gè)域。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

9.2. Gopher：關(guān)于維基百科數(shù)據(jù)集的分析

維基百科數(shù)據(jù)集的總規(guī)模很難確定。在 Gopher 論文中，研究人員指出維基百科沒有進(jìn)行數(shù)據(jù)去重 [30]。然而，論文中列出的不同大小數(shù)據(jù)集（12.5GB MassiveWeb Wikipedia 與 1GB MassiveText Wikipedia）可能是由于失誤而造成的，誤將 “10GB” 寫成了 “1GB”。無論如何，本文僅使用 MassiveWeb 數(shù)據(jù)集版本 (12.5GB)。

9.3. Gopher: 不包括 WebText

Gopher 數(shù)據(jù)集的組成部分不包括 Reddit 外鏈的 WebText 數(shù)據(jù)集。為了清楚起見，盡管 Reddit 是 MassiveWeb 中的頂級(jí)域，但該數(shù)據(jù)集僅抓取 Reddit 域內(nèi)的 Reddit 鏈接。根據(jù)定義，WebText [31] 由 “所有 Reddit 的外鏈” 組成（即指向 Reddit 域外的鏈接）。

9.4. Gopher 分組數(shù)據(jù)集

MassiveWeb 被認(rèn)為是 MassiveText 的子組件，并被集成到 Gopher 的數(shù)據(jù)集匯總中，其分組基于以下列出的可用信息：

表 18. Gopher 分組數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

9.5. Gopher 數(shù)據(jù)集總結(jié)

Gopher 是本文中最大的數(shù)據(jù)集，大小為 10.5TB。Gopher 模型的最終數(shù)據(jù)集總結(jié)分析為：

表 19. Gopher 數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

10、結(jié)論

對(duì)于訓(xùn)練當(dāng)代 Transformer 大型語言模型的數(shù)據(jù)集而言，這可能是最全面的整合分析內(nèi)容（截止 2022 年初）。在主要數(shù)據(jù)源不透明的情況下，本次研究主要從二級(jí)和三級(jí)來源收集數(shù)據(jù)，并經(jīng)常需要假定來確定最終估計(jì)值。隨著研究人員要處理千萬億個(gè) token（1,000 萬億）和數(shù)千 TB 的數(shù)據(jù)（1,000TB），確保詳細(xì)披露數(shù)據(jù)集組成的文檔變得越來越重要。

特別值得關(guān)注的是，基于大型語言模型的強(qiáng)大 AI 系統(tǒng)產(chǎn)生的冗長(zhǎng)而匿名的輸出正在迅速發(fā)展，其中許多數(shù)據(jù)集的細(xì)節(jié)內(nèi)容幾乎沒有文檔說明。

強(qiáng)烈建議研究人員使用突出顯示的 “數(shù)據(jù)集的數(shù)據(jù)表（Datasheet for Datasets）” 論文中提供的模板，并在記錄數(shù)據(jù)集時(shí)使用最佳實(shí)踐論文（即 Pile v1 論文，包括 token 數(shù)量）。數(shù)據(jù)集大小（GB）、token 數(shù)量（B）、來源、分組和其他詳細(xì)信息指標(biāo)均應(yīng)完整記錄和發(fā)布。

隨著語言模型不斷發(fā)展并更廣泛地滲透到人們的生活中，確保數(shù)據(jù)集的詳細(xì)信息公開透明、所有人都可訪問且易于理解是有用、緊迫和必要的。

擴(kuò)展閱讀及腳注

考慮到簡(jiǎn)潔和可讀性，本文使用了腳注而非文本 / 括弧式引文。主要參考文獻(xiàn)如下，或者參見?http://lifearchitect.ai/papers/，獲取大語言模型領(lǐng)域的主要基礎(chǔ)論文。以下論文按本文順序顯示。

Datasheets for Datasets?Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets.??https://arxiv.org/abs/1803.09010

GPT-1 paper?Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI.??https://cdn.openai.com/research-covers/language-unsupervised/language_understan??ding_paper.pdf

GPT-2 paper?Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.??https://cdn.openai.com/better-language-models/language_models_are_unsupervised??_multitask_learners.pdf

GPT-3 paper?Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners.??https://arxiv.org/abs/2005.14165

The Pile v1 paper?Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling.

EleutherAI.??https://arxiv.org/abs/2101.00027

GPT-J announcement?Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer.??https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

GPT-NeoX-20B paper?Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model.??http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

RoBERTa paper?Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI.??https://arxiv.org/abs/1907.11692

MT-NLG paper?Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA.??https://arxiv.org/abs/2201.11990

Gopher paper?Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind.??https://arxiv.org/abs/2112.11446

Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)

附錄 A：前 50 個(gè)資源：Wikipedia + CC + WebText（即 GPT-3）

基于本文內(nèi)容，尤其是每個(gè)數(shù)據(jù)集中每個(gè)資源的 token 數(shù)量，我們可以對(duì)將 Wikipedia + Common Crawl + WebText 數(shù)據(jù)集的組合，作為其整體訓(xùn)練數(shù)據(jù)集的一部分模型進(jìn)行資源或域的排序。為清楚起見，這包括以下模型：OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B 和 RoBERTA，以及 Microsoft/NVIDIA MT-NLG 等。

請(qǐng)注意，展示的排名基于數(shù)據(jù)集中可用的未加權(quán)總 token，每個(gè)數(shù)據(jù)集的主觀權(quán)重由研究人員在模型預(yù)訓(xùn)練之前計(jì)算得出。其中有一些重復(fù)（例如，《紐約時(shí)報(bào)》既出現(xiàn)在有 1.11 億 token 的 WebText 中，也出現(xiàn)在過濾后有 1 億 token 的 Common Crawl 中）。

腳注

1.?GPT-NeoX-20B paper: pp11, section 6??http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

2.?Datasheet for Datasets paper:??https://arxiv.org/abs/1803.09010

3.?OpenAI blog:??https://openai.com/blog/gpt-3-apps/

4.?On the Opportunities and Risks of Foundation Models:??https://arxiv.org/abs/2108.07258

5.?Size of Wikipedia:??https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia

6.?C4 dataset:??https://www.tensorflow.org/datasets/catalog/c4

7.?Common Crawl website:??https://commoncrawl.org/

8.?C4 paper:??https://arxiv.org/abs/2104.08758??pp2, Figure 1 right

9.?Wikipedia categories:??https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results?: “維基百科涵蓋哪些主題？覆蓋范圍是否隨時(shí)間變化？使用 2015 年 12 月抽取的 1001 篇隨機(jī)文章對(duì)這些問題和類似問題進(jìn)行了查驗(yàn)... 隨著時(shí)間推移，這些比例相當(dāng)穩(wěn)定... 傳記（27.8%），地理（17.7%），文化和藝術(shù)（15.8%），歷史（9.9%），生物學(xué)、健康和醫(yī)學(xué)（7.8%），體育（6.5%），商業(yè)（4.8%），其他社會(huì)（4.4%），科學(xué)與數(shù)學(xué)（3.5%），教育（1.8%）?！?/p>

10.?GPT-1 paper: pp4 “We use the BooksCorpus dataset for training the language model.”

11.??https://huggingface.co/datasets/bookcorpus?: “Size of the generated dataset: 4629.00 MB”

12.?BookCorpus Retrospective Datasheet paper: pp9??https://arxiv.org/abs/2105.05241

13. GPT-2 paper: pp3 “我們從社交媒體平臺(tái) Reddit 中抓取了至少有 3 個(gè) karma 的所有出站鏈接。這可以被認(rèn)為是一個(gè)啟發(fā)式指標(biāo)，用于判斷其他用戶是否覺得該鏈接有趣、有教育意義或只是有趣……WebText 包含這 4500 萬個(gè)鏈接的文本子集…… 其中不包括 2017 年 12 月之后創(chuàng)建的鏈接。經(jīng)過去重和一些基于啟發(fā)式的清理后，其中包含大約超過 800 萬個(gè)文檔，總共 40GB 文本。我們從 WebText 中移除了所有維基百科文檔...”

14.?GPT-2 model card:??https://github.com/openai/gpt-2/blob/master/model_card.md?: “我們已經(jīng)發(fā)布了 WebText 中出現(xiàn)的前 1,000 個(gè)域及其頻率的列表。WebText 中排名前 15 位的域是：Google、Archive、Blogspot、GitHub、紐約時(shí)報(bào)、Wordpress、華盛頓郵報(bào)、維基亞、BBC、衛(wèi)報(bào)、eBay、Pastebin、CNN、雅虎和赫芬頓郵報(bào)。”

15. GPT-3 paper: “WebText2：190 億 token。[Alan：WebText2 是從 WebText 稍微擴(kuò)展而來，所以我們可以減去 20%，得到 150 億 token]”

16.?GPT-2 paper: pp3 “GPT-3: pp9, Table 2.2 “CC: 4100 億 token. WebText2: 190 億 token. Books1: 120 億 token. Books2: 550 億 token. Wiki: 30 億 token”

17.?GPT-3 paper: pp8

18.?BookCorpus repo:??soskek/bookcorpus#27?: “books3.tar.gz 似乎類似于 OpenAI 在他們的論文中引用的神秘 “books2” 數(shù)據(jù)集。不幸的是，OpenAI 不會(huì)提供細(xì)節(jié)，所以我們對(duì)其差異知之甚少。人們懷疑它是 “l(fā)ibgen 的全部”，但這純粹是猜測(cè)。盡管如此，books3 仍是 “所有的 bibliotik”......”

19.?BookCorpus paper:??https://arxiv.org/abs/1506.06724?: “# of words: 984,846,357 [Alan: BookCorpus 有 13 億 token。我們想要有 120-550 億 token]”

20.?Gutenberg paper:??https://arxiv.org/abs/1812.08092?: “我們介紹了標(biāo)準(zhǔn)化項(xiàng)目古騰堡語料庫(kù)（SPGC），這是一種開放的科學(xué)方法，用于處理完整 PG 數(shù)據(jù)的精選版本，其中包含超過 50,000 本書和 3×109word-token [Alan：相當(dāng)于大約 120 億 BPE token，見下文]”

21.?Gutenberg repo:??https://zenodo.org/record/2422561??“未壓縮大?。?GB（count）+ 18GB（token）[總計(jì) 21GB]”

22. The Pile v1 paper: “Books3（Bibliotik tracker）：100.96GB” [Alan：乘以每字節(jié) token 數(shù) 0.2477 = 250 億 token]

23.?The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.

24.?RoBERTa paper:??https://arxiv.org/abs/1907.11692??“BOOKCORPUS 加上英文 WIKIPEDIA。這是用來訓(xùn)練 BERT 的原始數(shù)據(jù)。（16GB）?！?/p>

25.?BERT paper:??https://arxiv.org/abs/1810.04805??“BERT 在 BooksCorpus（8 億字）和維基百科（25 億字）上進(jìn)行訓(xùn)練?！?/p>

26.?Stories paper:??https://arxiv.org/abs/1806.02847??pp5-6

27.?RealNews paper:??https://arxiv.org/abs/1905.12616v3??“去重后，RealNews 在沒有壓縮的情況下為 120GB?！?/p>

28.?Gopher paper:??https://arxiv.org/abs/2112.11446??pp 7: list of sizes and tokens.

29.?Gopher paper:??https://arxiv.org/abs/2112.11446??pp 44, Figure A3b.

30.?Gopher paper: pp41n14 “請(qǐng)注意，我們將文檔去重應(yīng)用于除 Wikipedia 和 GitHub 之外的所有 MassiveText 子集 “

31.?GPT-2 paper, pp3.

關(guān)于作者

Alan D. Thompson 博士是人工智能專家、顧問。在 2021 年 8 月的世界人才大會(huì)（World Gifted Conference）上，Alan 與 Leta（由 GPT-3 提供支持的 AI）共同舉辦了一場(chǎng)名為 “The new irrelevance of intelligence” 的研討會(huì)。他的應(yīng)用型人工智能研究和可視化成果受到了國(guó)際主要媒體的報(bào)道，同時(shí)還在 2021 年 12 月牛津大學(xué)有關(guān) AI 倫理的辯論中被引用。他曾擔(dān)任門薩國(guó)際（Mensa International）主席、通用電氣（GE）和華納兄弟（Warner Bros）顧問，也曾是電氣與電子工程師協(xié)會(huì)（IEEE）和英國(guó)工程技術(shù)學(xué)會(huì)（IET）會(huì)員。
?

編輯：黃飛

閱讀全文

AI(263628) AI(263628)
OpenAI(5839) OpenAI(5839)
ChatGPT(3870) ChatGPT(3870)

評(píng)論

相關(guān)推薦

深入云計(jì)算揭秘七大未解之謎

2013年，人們對(duì)云計(jì)算有了更多了解，但同時(shí)也涌現(xiàn)出更多的“未解之謎”。本文為大家揭示云計(jì)算的七大未解之謎...

2013-02-16 12:08:58

882

ChatGPT/GPT的原理及ChatGPT的技術(shù)架構(gòu)解析

CAI模型訓(xùn)練過程 Claude 和 ChatGPT 都依賴于強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練偏好（preference）模型。CAI（Constitutional AI）也是建立在RLHF的基礎(chǔ)之上，不同之處在于，CAI的排序過程使用模型（而非人類）對(duì)所有生成的輸出結(jié)果提供一個(gè)初始排序結(jié)果。

2023-02-16 14:16:58

3427

ChatGPT背后的數(shù)據(jù)標(biāo)注，工作量大，報(bào)酬低！

用戶在短短上線兩個(gè)月就達(dá)到1億。 ? 而強(qiáng)大的ChatGPT背后，離不開一項(xiàng)重要的工作，那就是數(shù)據(jù)標(biāo)注。據(jù)美媒報(bào)道，為了訓(xùn)練ChatGPT，OpenAI的合作伙伴Sama雇傭了肯尼亞、烏干達(dá)和印度的外包員工，對(duì)龐大的數(shù)據(jù)庫(kù)手動(dòng)進(jìn)行數(shù)據(jù)標(biāo)注。 ? ? 什么是數(shù)

2023-02-17 09:17:18

6935

ChatGPT系統(tǒng)開發(fā)AI人功智能方案

解決的問題和應(yīng)用場(chǎng)景，例如智能客服、智能助手等。數(shù)據(jù)集準(zhǔn)備：準(zhǔn)備與應(yīng)用場(chǎng)景相關(guān)的數(shù)據(jù)集，并將其清理、標(biāo)注、整合等處理，以便為模型提供有效的訓(xùn)練數(shù)據(jù)。 1.下面是對(duì)接gpt的一些請(qǐng)求參數(shù)和返回參數(shù)示例

2023-05-18 10:16:50

chatGPT一種生產(chǎn)力的變革

的AIGC技術(shù)倫理問題是AI所生成內(nèi)容的危險(xiǎn)性。科學(xué)家正嘗試運(yùn)用一些技術(shù)手段避免這些具有潛在風(fēng)險(xiǎn)的事件發(fā)生。通過改善數(shù)據(jù)集，增加更多的限制性條件以及對(duì)模型進(jìn)行微調(diào)，可以使得人工智能減少對(duì)于有害內(nèi)容的學(xué)習(xí)，從而

2023-04-25 16:04:09

一文解析LWIP內(nèi)存占用與裁剪

。DNS_MAX_NAME_LENGTH表示能夠解析最大的DNS名字長(zhǎng)度MEMPOOL內(nèi)存占用LWIP內(nèi)存占用主要在MEMPOOL這一塊。通過提前開辟靜態(tài)數(shù)組，來提高LWIP分配各種描述符內(nèi)存的速度。靜態(tài)內(nèi)存總共

2022-08-09 10:43:53

一文解析RK3308 Linux串口異步I/O機(jī)制

number 序列碼，區(qū)分不同報(bào)文的id。data length 數(shù)據(jù)長(zhǎng)度。data 用戶數(shù)據(jù)。CRC16 完整性校驗(yàn)。串口流數(shù)據(jù)解析：數(shù)據(jù)協(xié)議解析：基于訪問控制思路，大家可以自己實(shí)現(xiàn)分包傳輸?shù)墓δ?/div>

2022-09-27 16:08:06

一文解析傳感器的設(shè)計(jì)要點(diǎn)

好的傳感器的設(shè)計(jì)是經(jīng)驗(yàn)加技術(shù)的結(jié)晶。一般理解傳感器是將一種物理量經(jīng)過電路轉(zhuǎn)換成一種能以另外一種直觀的可表達(dá)的物理量的描述。而下文我們將對(duì)傳感器的概念、原理特性進(jìn)行逐一介紹，進(jìn)而解析傳感器的設(shè)計(jì)的要點(diǎn)。

2020-08-28 08:04:04

一文幫你梳理Cortex與ARMv8等基礎(chǔ)概念

到底什么是Cortex、ARMv8、arm架構(gòu)、ARM指令集、soc？一文幫你梳理基礎(chǔ)概念【科普】1. 從0開始學(xué)ARM-安裝Keil MDK uVision集成開發(fā)環(huán)境

2021-12-14 08:20:33

一文解讀基于RTThread使用libcs??v庫(kù)進(jìn)行數(shù)據(jù)解析

1、rtthread運(yùn)行l(wèi)ibcs??v 庫(kù)的使用最近做一個(gè)，需要做數(shù)據(jù)存儲(chǔ)化的。一開始是，使用數(shù)據(jù)生成的目標(biāo)文件格式為項(xiàng)目名稱，保存數(shù)據(jù)文件來為格式存儲(chǔ)，使用 cJSON庫(kù)進(jìn)行數(shù)據(jù)解析，每個(gè)

2022-08-25 15:40:05

數(shù)據(jù)解析

通過VISA讀取數(shù)據(jù)后，我想通過在公示節(jié)點(diǎn)里編寫c程序來解析數(shù)據(jù)，應(yīng)該如何解析呢？數(shù)據(jù)格式可以是1=2.123取出=后面的數(shù)據(jù)，或者格式為2 12 3這樣把三個(gè)數(shù)分別取出來

2017-03-23 21:33:36

解析GPS模塊串口發(fā)送的數(shù)據(jù)

由于要做一個(gè)GPS碼表,需要解析GPS模塊串口發(fā)送的數(shù)據(jù),目前串口還沒做,先做解析GPS數(shù)據(jù)工作.GPS模塊串口發(fā)送的數(shù)據(jù)有固定的格式,我研究的不多,只知道叫NMEA,我是參考了LeiOuYang

2021-07-16 06:45:37

GPS數(shù)據(jù)解析與顯示

自己做的高精度定位定向接收機(jī)數(shù)據(jù)解析與顯示的labview程序，有做類似東西的可以多交流！

2017-11-17 19:47:21

GPS的數(shù)據(jù)包解析一覽表

本帖最后由 gk320830 于 2015-3-5 12:46 編輯 GPS的數(shù)據(jù)包解析

2014-05-16 16:10:13

Hfut | 集電競(jìng)賽

。最后，希望此分享能對(duì)集電學(xué)子有所幫助。Note：博文所有出現(xiàn)人名均按姓氏排序，提到的文件資料統(tǒng)一放至文末。目錄一、競(jìng)賽Q.

2021-07-16 06:49:18

LabVIEW運(yùn)行性能解析視頻教程

LabVIEW運(yùn)行性能解析視頻教程認(rèn)真學(xué)習(xí)，天天向上！ [hide]LabVIEW運(yùn)行性能之謎.rar[/hide]

2009-12-10 17:39:02

LabView的PCAN數(shù)據(jù)解析

用Labview裝了pcan的驅(qū)動(dòng)，可以接收到pcan數(shù)據(jù)了，但是不知道如何解析成程序中自定義的ID及對(duì)應(yīng)的相關(guān)可讀性信號(hào)

2023-02-09 13:03:54

MCU風(fēng)扇聲音大之謎現(xiàn)象描述原因分析

寶利通MCU風(fēng)扇聲音大之謎現(xiàn)象描述原因分析嘗試解決歪打正著永不放棄現(xiàn)象描述梅雨季節(jié)之前，忽然發(fā)現(xiàn)我們的MCU（型號(hào)1800）的風(fēng)扇聲音會(huì)突然增大。經(jīng)過觀察，基本每隔固定時(shí)間，大約3~5分鐘響聲會(huì)加

2021-11-04 08:50:00

NMEA0183數(shù)據(jù)解析

有沒有人做個(gè)關(guān)于北斗NMEA0183數(shù)據(jù)解析方面的？

2016-12-29 16:08:58

Netflix Prize數(shù)據(jù)集講解

Netflix Prize數(shù)據(jù)集詳解

2020-06-01 17:28:24

json數(shù)據(jù)解析

json解析，上篇已經(jīng)GET到了天氣狀況，是json數(shù)據(jù)，解析一下看api先是構(gòu)造json再是解析json數(shù)據(jù)看例程-----------------------encode測(cè)試

2022-01-12 08:15:52

labview串口數(shù)據(jù)解析

我用labview進(jìn)行串口數(shù)據(jù)解析，串口來一串數(shù)據(jù)例如：2A 3C 1B 23這樣十六進(jìn)制數(shù)據(jù)，我想講他們放在數(shù)組里面，但是我用字符串至數(shù)組轉(zhuǎn)換，出來的是他們的ASCII碼，我想讓2A 3C 1B 23直接顯示在一個(gè)數(shù)組里，我該怎樣寫這個(gè)程序

2017-09-04 20:51:47

sps數(shù)據(jù)，解析后發(fā)現(xiàn)width height信息不對(duì)，配置的是1280 720 解析出來的數(shù)據(jù)時(shí)80 48，有人知道這個(gè)sps數(shù)據(jù)有什么問題嗎？

我取出來的sps數(shù)據(jù)，解析后發(fā)現(xiàn)widthheight信息不對(duì)，配置的是1280 720 解析出來的數(shù)據(jù)時(shí)80 48，有人知道這個(gè)sps數(shù)據(jù)有什么問題嗎

2018-05-25 05:44:18

【中級(jí)】labview每日一教【11.25】視頻教程labview定時(shí)循環(huán)之謎

定時(shí)循環(huán)之謎教程：[hide][/hide]labview定時(shí)循環(huán)之謎視頻：http://yunpan.cn/lk/48re2dyjll

2011-11-25 10:09:12

【中級(jí)】labview每日一教【11.28】視頻abview事件結(jié)構(gòu)之謎

labview事件結(jié)構(gòu)之謎：事件驅(qū)動(dòng)機(jī)制在圖形化操作系統(tǒng)中被廣泛使用，因?yàn)閳D形化操作系統(tǒng)需要響應(yīng)鼠標(biāo)或鍵盤等事件。早期的LabVIEW中并沒有引入事件驅(qū)動(dòng)機(jī)制，事件結(jié)構(gòu)出現(xiàn)在LabVIEW6.1

2011-11-28 10:26:32

【先楫HPM5361EVK開發(fā)板試用體驗(yàn)】(原創(chuàng))5.手把手實(shí)戰(zhàn)AI機(jī)械臂

HPM5361EVK開發(fā)板?，F(xiàn)在開始設(shè)計(jì)實(shí)戰(zhàn)AI機(jī)械臂的程序。代碼結(jié)構(gòu) 由于編寫一個(gè)完整的用先楫HPM5361EVK開發(fā)板控制三組四自由度機(jī)械臂，并加入紅外線傳感器、機(jī)器視覺和ChatGPT連接

2024-02-06 10:28:43

【國(guó)產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】（原創(chuàng)）6.FPGA連接ChatGPT 4

OMAP-L138（定點(diǎn)/浮點(diǎn)DSP C674x+ARM9）+ FPGA處理器的開發(fā)板。編寫一個(gè)用于FPGA訪問ChatGPT 4的程序代碼是一個(gè)相當(dāng)復(fù)雜的任務(wù)，涉及到硬件設(shè)計(jì)、網(wǎng)絡(luò)通信、數(shù)據(jù)處理等多個(gè)

2024-02-14 21:58:43

不到1分鐘開發(fā)一個(gè)GPT應(yīng)用！各路大神瘋狂整活，網(wǎng)友：ChatGPT就是新iPhone

的能力仍然是不可替代的。此外，ChatGPT等語言模型的應(yīng)用也需要大量的數(shù)據(jù)和算力支持，以及專業(yè)的技術(shù)人員進(jìn)行開發(fā)和維護(hù)。因此，雖然ChatGPT等語言模型在某些方面具有一定的優(yōu)勢(shì)，但它們并不能完全取代

2023-11-19 12:06:10

串口數(shù)據(jù)解析

串口發(fā)送頻率：10HZ三楨數(shù)據(jù)代表一個(gè)信息，三楨數(shù)據(jù)依次發(fā)送，如何保證每一個(gè)信息是由對(duì)應(yīng)的三楨數(shù)據(jù)所解析出來的。下面是假設(shè)串口發(fā)送的數(shù)據(jù)。$a,abc$b,def$c,ghi$a,jkl$b,mno$c,pqr$a,stu$b,vwx$c,yz1新手出入門，求解答。

2017-03-31 13:23:04

串口數(shù)據(jù)如何采集，能否解析

請(qǐng)問一下，如何采集串口的數(shù)據(jù)？串口數(shù)據(jù)是ASCII碼嗎？這個(gè)數(shù)據(jù)需要如何解析呢？

2017-04-11 13:54:11

為什么數(shù)據(jù)集上傳一會(huì)網(wǎng)站就上不去了？

為什么數(shù)據(jù)集上傳一會(huì)網(wǎng)站就上不去了？

2023-09-13 07:38:14

介紹一種簡(jiǎn)單的數(shù)據(jù)解析方法

C語言簡(jiǎn)單數(shù)據(jù)解析? 在嵌入式開發(fā)中通過串口等傳輸數(shù)據(jù)通常使用JSON解析，雖然JSON十分強(qiáng)大，但JSON耗費(fèi)資源太多，數(shù)據(jù)的打包和解析都比較麻煩。有時(shí)我們只是傳輸一些簡(jiǎn)單的數(shù)據(jù)，沒必要引入

2022-02-28 06:15:11

介紹內(nèi)部EEPROM數(shù)據(jù)讀取和解析

EEPROM數(shù)據(jù)讀取和解析上一篇我們簡(jiǎn)單介紹了熱成像傳感器德國(guó)海曼的HTPA 32x32d，本文主要進(jìn)一步介紹內(nèi)部EEPROM數(shù)據(jù)讀取和解析。存儲(chǔ)結(jié)構(gòu)一覽在說海曼這個(gè)傳感器之前，我們先對(duì)另一個(gè)廠商

2021-12-07 12:14:26

光耦PC817中文解析

2012-08-20 14:32:28

共集放大電路（圖集、解析、仿真）

共集極放大電路2射極回授式偏壓共集極電路3定點(diǎn)偏壓式偏壓共集極電路4 共基極放大電路原理6共基極放大電路分析7差動(dòng)放大器8差動(dòng)放大器直流偏壓9差動(dòng)放大器輸入阻抗10差動(dòng)放大器電壓增益共集極放大電路圖

2018-11-30 17:26:01

在IC設(shè)計(jì)/驗(yàn)證中怎么應(yīng)用ChatGPT呢？

技術(shù)改變生活。最近一段時(shí)間，OpenAI旗下的ChatGPT大火。根據(jù)官網(wǎng)自身的介紹（見圖1），其是由 OpenAI 提出的大型預(yù)訓(xùn)練語言模型，使用了許多深度學(xué)習(xí)技術(shù)，可以生成文本內(nèi)容，也可以進(jìn)行

2023-02-21 15:16:46

如何利用keras打包制作mnist數(shù)據(jù)集

;quot;" 解析idx1文件的通用函數(shù) :param idx1_ubyte_file: idx1文件路徑 :return: 數(shù)據(jù)集 "&quot

2023-08-18 06:12:03

如何對(duì)慣導(dǎo)的數(shù)據(jù)實(shí)時(shí)解析呢？

兩個(gè)線程，線程1負(fù)責(zé)串口讀出來的數(shù)據(jù)壓入一個(gè)循環(huán)buffer；線程2，負(fù)責(zé)讀取緩存buffer 數(shù)據(jù)，并且按照協(xié)議解析出數(shù)據(jù)值?？紤]實(shí)時(shí)性，當(dāng)前的buffer 最多容納兩個(gè)完整的數(shù)據(jù)信息。但是這種方案就是目前測(cè)試，存在延時(shí)。。。

2022-11-08 10:35:11

如何對(duì)標(biāo)準(zhǔn)sscanf語法與數(shù)據(jù)進(jìn)行解析呢

概述在C語言應(yīng)用開發(fā)過程中，常常需要對(duì)字符串數(shù)據(jù)進(jìn)行解析，這些字符串可能是從文件、鍵盤或者其他設(shè)備讀入。比如與 AT 設(shè)備通信時(shí)，需要對(duì) AT 設(shè)備發(fā)送過來的數(shù)據(jù)進(jìn)行解析，從而獲得我們想要的一些數(shù)據(jù)

2022-08-30 14:36:21

如何用TensorFlow導(dǎo)入MNIST數(shù)據(jù)集？

用TensorFlow導(dǎo)入MNIST數(shù)據(jù)集

2020-11-11 07:33:24

建立開發(fā)集和測(cè)試集（總結(jié)）

? 被選擇作為開發(fā)集和測(cè)試集的數(shù)據(jù)，應(yīng)當(dāng)與你未來計(jì)劃獲取并對(duì)其進(jìn)行良好處理的數(shù)據(jù)有著相同的分布，而不一定和訓(xùn)練集的數(shù)據(jù)分布一致。? 開發(fā)集和測(cè)試集的分布應(yīng)當(dāng)盡可能一致。? 為你的團(tuán)隊(duì)選擇一個(gè)單值評(píng)估

2018-12-14 10:56:57

開發(fā)集和測(cè)試集應(yīng)該服從同一分布

”和“其它地區(qū)”的數(shù)據(jù)歸于測(cè)試集。也就是說我們可以隨機(jī)地將其中兩個(gè)區(qū)域的數(shù)據(jù)分配給開發(fā)集，另外兩個(gè)區(qū)域的數(shù)據(jù)分配給測(cè)試集。這樣做對(duì)嗎？當(dāng)然不對(duì)！一旦定義好了開發(fā)集和測(cè)試集，你的團(tuán)隊(duì)將專注于提升開發(fā)集的性能

2018-12-10 10:15:29

怎么刪除分析中的“Ghost”數(shù)據(jù)集

Genesys 2007.03我添加了一個(gè)分析，例如“分析1”。然后我刪除了這個(gè)分析。現(xiàn)在，其數(shù)據(jù)集“Analysis 1_Data”的名稱仍保留在各種下拉列表中。已刪除分析的虛假數(shù)據(jù)名稱往往會(huì)

2019-02-20 09:12:46

探討一下關(guān)于電機(jī)軸承的數(shù)據(jù)集

這篇和大家探討一下關(guān)于電機(jī)軸承的數(shù)據(jù)集電機(jī)軸承的數(shù)據(jù)集目前較多采用的是CWRU（凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)中心）這是一個(gè)針對(duì)于全球?qū)W者的公開數(shù)據(jù)集，下面給大家分享一下該數(shù)據(jù)集的獲取

2021-09-08 06:52:05

用FPGA做的MCU內(nèi)核的匯編指令集完全解析

用FPGA做的MCU內(nèi)核的匯編指令集完全解析，F(xiàn)PGA使用VHDL編寫MCU內(nèi)核，使用PHP編寫匯編器，使用vc studio編寫FLASH下載器，全套資料在 www.creuu.com 免費(fèi)下載

2020-03-04 18:53:52

用cjson的庫(kù)去解析數(shù)據(jù)

最近項(xiàng)目用到cjson的庫(kù)去解析數(shù)據(jù)，當(dāng)解析的的數(shù)據(jù)比較長(zhǎng)時(shí)，會(huì)解析失敗，但是短的數(shù)據(jù)則沒有問題，后面排查是因?yàn)閏json解析需要用到的內(nèi)存比較大，溢出導(dǎo)致解析失敗。在默認(rèn)stm32的keil工程中

2022-01-12 06:14:53

用在解析云端數(shù)據(jù)的源碼是怎樣的

用在解析云端數(shù)據(jù)的源碼是怎樣的？如何去實(shí)現(xiàn)這種源碼呢？

2021-10-18 09:00:33

電源拆解新知：主動(dòng)式PFC電路高功率因數(shù)之謎

2012-08-15 18:55:03

科技大廠競(jìng)逐AIGC，中國(guó)的ChatGPT在哪？

。亞馬遜成立了一個(gè)小型工作組，拓展ChatGPT等AI工具對(duì)企業(yè)的工作職能…… ChatGPT火爆，搜索引擎巨頭百度率先坐不住了。就在谷歌官宣Bard內(nèi)測(cè)的當(dāng)天下午，百度官宣了大模型新項(xiàng)目“文心一

2023-03-03 14:28:48

自己數(shù)據(jù)如何制作tfrecords格式數(shù)據(jù)集

自己數(shù)據(jù)制作tfrecords格式的數(shù)據(jù)集

2020-05-13 15:18:54

藍(lán)牙模塊有哪些特征？一文詳細(xì)解析

`藍(lán)牙模塊詳細(xì)解析物聯(lián)網(wǎng)在智能家居、電子產(chǎn)品等領(lǐng)域全面發(fā)展，使近距離通信的無線連接技術(shù)越來越多的應(yīng)用在物聯(lián)網(wǎng)新興產(chǎn)品中，為設(shè)備提供穩(wěn)定和低功耗的數(shù)據(jù)傳輸服務(wù)的藍(lán)牙模塊更是成為物聯(lián)網(wǎng)市場(chǎng)的寵兒，被

2018-06-13 17:24:08

請(qǐng)問LWIP的ping解析和數(shù)據(jù)解析在哪個(gè)協(xié)議里？

LWIP+F4+DP83848現(xiàn)在ping通了，下一步要做兩個(gè)IP來傳數(shù)據(jù)和解析數(shù)據(jù)，求大神告知一下做兩個(gè)IP的話，是不是通過ping來識(shí)別兩個(gè)設(shè)備的，ping 的解析在那個(gè)協(xié)議里，還有數(shù)據(jù)傳輸用UDP，UDP的傳輸數(shù)據(jù)在官方庫(kù)里寫好了還是要自己寫？

2019-10-10 22:22:41

請(qǐng)問gps接收數(shù)據(jù)是每接收一條解析一條嗎？

請(qǐng)教下，gps 數(shù)據(jù)是每接收一條解析一條還是一次全部接收完成后再一起解析 ？？？

2018-11-02 08:49:23

美國(guó)ALLEGRO文丘里風(fēng)機(jī)氣動(dòng)通風(fēng)機(jī)，

美國(guó)ALLEGRO文丘里風(fēng)機(jī)，氣動(dòng)風(fēng)機(jī)，氣動(dòng)通風(fēng)機(jī)，文丘里風(fēng)機(jī)應(yīng)用于：煉油廠、發(fā)電廠、造船廠、造紙和紙漿廠、海洋艦船、鋼鐵工業(yè)以及人孔（沙井）的通風(fēng)換氣。文丘里風(fēng)機(jī)特別適用于有毒煙霧

2022-10-18 16:30:36

讓chatGPT幫我寫硬件代碼，是懂行的，好助手！#chatgpt #物聯(lián)網(wǎng)開發(fā) #python開發(fā)板

ChatGPT

蘇州煜瑛微電子科技有限公司發(fā)布于 2023-02-17 15:27:42

#人工智能 #ChatGPT #硬件工程師

ChatGPT

孤獨(dú)的光發(fā)布于 2023-02-21 22:01:27

#chatgpt 使用chatGPT輔助開發(fā)第一彈-電路設(shè)計(jì)，讓它設(shè)計(jì)一個(gè)放大電路，看下效果#人工智能

ChatGPT

jf_82140138發(fā)布于 2023-02-27 13:07:41

#chatgpt chatGPT輔助開發(fā)第二彈軟件單元代碼編寫，工作效率大幅提升，代碼可用性高#人工智能

ChatGPT

jf_82140138發(fā)布于 2023-03-02 13:21:22

ChatGPT對(duì)話語音識(shí)別

ChatGPT

YS YYDS發(fā)布于 2023-05-30 22:13:10

C語言簡(jiǎn)單數(shù)據(jù)解析

2022-01-13 15:17:48

解開車輛檢測(cè)算法之謎

2023-01-05 09:43:38

803

ChatGPT概念有多火？89%美國(guó)大學(xué)生竟用ChatGPT寫作業(yè)

生成 AI 里，ChatGPT 是最好用一個(gè)。連帶著ChatGPT概念股都在不停的漲。公開的數(shù)據(jù)顯示出ChatGPT概念有多火，ChatGPT五天時(shí)間內(nèi)，注冊(cè)用戶數(shù)超過了100萬，目前這一數(shù)據(jù)已經(jīng)突破

2023-02-07 18:24:31

3309

什么是ChatGPT？行業(yè)如何看待ChatGPT？

　　ChatGPT的出現(xiàn)讓投資者再次將目光聚集在AIGC（人工智能創(chuàng)作內(nèi)容）賽道。近期，多只ChatGPT相關(guān)概念股分外活躍，這些個(gè)股背后的公司都有在AIGC賽道上布局相關(guān)業(yè)務(wù)。

2023-02-08 16:54:21

10002

ChatGPT入門指南

　　ChatGPT入門指南　　什么是ChatGPT？　　為什么ChatGPT意義重大？　　如何使用ChatGPT 　　什么是ChatGPT？　　ChatGPT

2023-02-10 11:19:06

chatgpt是什么

chatgpt是什么 ChatGPT，美國(guó)OpenAI 。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具，它能夠通過學(xué)習(xí)和理解人類的語言來進(jìn)行對(duì)話，還能根據(jù)聊天的上下文進(jìn)行互動(dòng)，真正像人類一樣

2023-02-10 14:05:28

38508

chatgpt怎么用

使用了一種叫做Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu)，這是一種用于處理序列數(shù)據(jù)的模型，能夠在輸入序列中捕捉長(zhǎng)期依賴性。它還使用了大量的語料庫(kù)來訓(xùn)練模型，這些語料庫(kù)包含了真實(shí)世界中的對(duì)話，以便模型能夠更好地理解人類語言。 chatgpt怎么用？ 1、注冊(cè)或登錄OpenAI賬戶 OpenAI有一個(gè)專門的

2023-02-10 14:22:27

57024

如何注冊(cè)ChatGPT 全流程分享

最近ChatGPT話題簡(jiǎn)直火熱，出于體驗(yàn)的目的，寫一篇關(guān)于在國(guó)內(nèi)如何注冊(cè)ChatGPT的全流程注冊(cè)，包教包會(huì)。 ChatGPT是什么? 維基百科-ChatGPT 注冊(cè)ChatGPT 準(zhǔn)備注冊(cè) 注冊(cè)

2023-02-13 10:19:05

ChatGPT使用初探

　　最近一直聽到ChatGPT，如雷貫耳，目前只能在國(guó)外用。近期找了個(gè)時(shí)間專門研究了怎么使用ChatGPT. 　　ChatGPT是一種大型語言模型，由 OpenAI 訓(xùn)練。它可以生成

2023-02-13 10:11:07

火爆全網(wǎng)的ChatGPT上手體驗(yàn)

文章目錄 1. ChatGPT公開信息 2. ChatGPT上手體驗(yàn) 3. ChatGPT目前趨勢(shì) 4. 福利派送 1. ChatGPT公開信息近期關(guān)于網(wǎng)路上對(duì)ChatGPT （OpenAI發(fā)布

2023-02-13 09:52:11

ChatGPT的智能來自哪里

　　ChatGPT \text{ChatGPT} ChatGPT火了！作為開放域?qū)υ捪到y(tǒng)， ChatGPT \text{ChatGPT} ChatGPT展示出了出乎意料的智能。在人們驚訝

2023-02-14 10:15:38

關(guān)于數(shù)據(jù)治理ChatGPT是如何回答的？

這兩天你的朋友圈是不是被火爆全網(wǎng)的ChatGPT霸屏了？你是不是已經(jīng)迫不及待感受過ChatGPT帶來的驚喜？那你知道ChatGPT是什么嗎？

2023-02-17 10:19:11

708

ChatGPT會(huì)搶誰的飯碗 ChatGPT可以替代哪些行業(yè)

ChatGPT會(huì)搶誰的飯碗 ChatGPT可以替代哪些行業(yè) 人工智能可以應(yīng)用于很多的領(lǐng)域，如自動(dòng)駕駛、語音識(shí)別、計(jì)算機(jī)視覺、機(jī)器人技術(shù)、自然語言處理、智能客服、智能家居等。現(xiàn)在爆火的ChatGPT

2023-02-17 17:08:20

4149

詳解ChatGPT數(shù)據(jù)集之謎

隨著新型 AI 技術(shù)的快速發(fā)展，模型訓(xùn)練數(shù)據(jù)集的相關(guān)文檔質(zhì)量有所下降。模型內(nèi)部到底有什么秘密？它們又是如何組建的？本文綜合整理并分析了現(xiàn)代大型語言模型的訓(xùn)練數(shù)據(jù)集。

2023-02-21 10:06:23

1432

ChatGPT/GPT的原理 ChatGPT的技術(shù)架構(gòu)

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架構(gòu)開發(fā)的對(duì)話AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練，或用于收集大量對(duì)話數(shù)據(jù)。

2023-02-24 10:05:13

1421

小程序：ChatGPT-Plus助手發(fā)布啦！

在智能客服系統(tǒng)中，ChatGPT技術(shù)可以用于自動(dòng)化的問題解答，為用戶提供更加智能、高效的服務(wù)。例如，當(dāng)用戶詢問“怎么聯(lián)系客服？”時(shí)，ChatGPT技術(shù)可以自動(dòng)解析問題意圖，從而快速提供相應(yīng)的聯(lián)系方式和服務(wù)。

2023-03-01 10:03:49

1635

一文解析ChatGPT原理及技術(shù)架構(gòu)算法

OpenAI使用 RLHF（Reinforcement Learning from Human Feedbac，人類反饋強(qiáng)化學(xué)習(xí)）技術(shù)對(duì) ChatGPT 進(jìn)行了訓(xùn)練，且加入了更多人工監(jiān)督進(jìn)行微調(diào)。

2023-03-10 15:38:00

9002

ChatGPT是什么？普通人應(yīng)該如何去使用ChatGPT

ChatGPT的最強(qiáng)輸出能力便是他的文字輸出能力，而文字輸出變現(xiàn)的軟件有很多例如知乎百家號(hào)等，ChatGPT的語言生成模型，它能夠通過訓(xùn)練集自動(dòng)生成文本。這使得利用ChatGPT進(jìn)行文字變現(xiàn)成為一種可能性ChatGPT可以從給定主題生成無數(shù)種可能的文章。

2023-03-17 10:28:55

3247

意大利宣布禁止使用ChatGPT OpenAI情何以堪

意大利宣布禁止使用ChatGPT OpenAI情何以堪就在ChatGPT如日中天之后ChatGPT迎來的一大痛擊，意大利宣布禁止使用ChatGPT。意大利個(gè)人數(shù)據(jù)保護(hù)局已經(jīng)正式宣布，即日起暫時(shí)

2023-04-01 19:10:09

2736

《ChatGPT的前世今生》南航李丕績(jī)教授的解析

今天分享南京航空航天大學(xué)——李丕績(jī)教授做的464頁P(yáng)PT《ChatGPT的前世今生》。從人工智能發(fā)展史，AI十年回顧，自然語言處理，ChatGPT誕生，模型分析，大模型應(yīng)用，ChatGPT 可以

2023-04-17 11:50:09

1725

ChatGPT是什么？ChatGPT寫代碼的原理你知道嗎

"(Generative Pre-trained Transformer)，這是一種廣泛用于自然語言處理的深度學(xué)習(xí)模型。ChatGPT是基于這種模型的聊天機(jī)器人，它可以通過大量的數(shù)據(jù)訓(xùn)練來不斷優(yōu)化

2023-06-04 17:01:57

2330

ChatGPT應(yīng)用實(shí)戰(zhàn)

ChatGPT自發(fā)布之后一直大火至今，引起行業(yè)震動(dòng)，我們也持續(xù)在跟進(jìn)ChatGPT，體驗(yàn)其功能，了解其技術(shù)原理，并基于爬蟲技術(shù)封裝了ChatGPT API，在實(shí)際NLP應(yīng)用場(chǎng)景下對(duì)比了ChatGPT和自研技術(shù)的效果。本文從應(yīng)用角度出發(fā)，給出一些對(duì)ChatGPT的思考。

2023-06-06 17:47:00

科普 | 什么是ChatGPT？試用ChatGPT，ChatGPT的啟示！

最近，我看到三個(gè)新聞，隱隱感到一個(gè)新的時(shí)代已經(jīng)拉開序幕。學(xué)生用ChatGPT拿下全班最高分，教授驚呆！全美高校打響AI反擊戰(zhàn)。微軟將向人工智能工具ChatGPT的創(chuàng)建者OpenAI投資100億美元

2023-02-06 16:50:11

987

chatgpt怎么用 ChatGPT的多種使用方法

進(jìn)行對(duì)話?！　?. 文本生成：ChatGPT可以用于生成各種類型的文本，包括文章、新聞、小說、詩(shī)歌等等。通過對(duì)大量文本數(shù)據(jù)的學(xué)習(xí)，ChatGPT可以生成具有一定邏輯和語法的文本。

2023-07-18 14:47:43

chatgpt是什么意思 ChatGPT背后的技術(shù)原理

　　今天我們?yōu)榇蠹規(guī)淼奈恼拢钊霚\出地闡釋了ChatGPT背后的技術(shù)原理，沒有NLP或算法經(jīng)驗(yàn)的小伙伴，也可以輕松理解ChatGPT是如何工作的?！　?b class="flag-6" style="color: red">ChatGPT是一種機(jī)器學(xué)習(xí)自然語言處理模型

2023-07-18 17:12:30

chatgpt是什么意思 chatgpt有什么用

有不少教程，搜索觀看即可?！　?b class="flag-6" style="color: red">ChatGPT 是一款由 OpenAI 開發(fā)的大型語言模型，主要功能是回答用戶的問題和完成各種語言任務(wù)，如對(duì)話生成、文本摘要、翻譯、生成文本等。它使用了先進(jìn)的深度學(xué)習(xí)技術(shù)和海量的語言數(shù)據(jù)進(jìn)行訓(xùn)練，可以在各種語言領(lǐng)域提供高質(zhì)量的語言處理服務(wù)

2023-07-19 14:21:00

ChatGPT原理 ChatGPT模型訓(xùn)練 chatgpt注冊(cè)流程相關(guān)簡(jiǎn)介

ChatGPT注冊(cè)沒有外國(guó)手機(jī)號(hào)驗(yàn)證怎么辦？ ChatGPT作為近期火爆網(wǎng)絡(luò)的AI項(xiàng)目，受到了前所未有的關(guān)注。我們可以與AI機(jī)器人實(shí)時(shí)聊天，獲得問題的答案。但受ChatGPT服務(wù)器及相關(guān)政策

2023-12-06 16:28:00

315