0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

“中國的ChatGPT”真的要來了嗎?

中科曙光 ? 來源:量子位 ? 2023-03-21 10:41 ? 次閱讀

席卷全球的新風(fēng)口

OpenAI去年發(fā)布了聊天機(jī)器人模型ChatGPT,它能夠理解和生成人類語言,并在許多自然語言處理任務(wù)中表現(xiàn)非常出色。據(jù)統(tǒng)計,上線僅兩個月,ChatGPT活躍用戶已經(jīng)超億,打破了由TikTok創(chuàng)造的9個月實(shí)現(xiàn)億級用戶注冊的紀(jì)錄,引起了各行各業(yè)人們的強(qiáng)烈關(guān)注。就連埃隆·馬斯克也忍不住發(fā)推表示,ChatGPT厲害得嚇人,我們距離危險而強(qiáng)大的AI不遠(yuǎn)了。當(dāng)然,在一頓痛批ChatGPT之后,馬斯克也準(zhǔn)備親自下場,成立研究實(shí)驗(yàn)室,開發(fā)ChatGPT的競品。

類ChatGPT模型的開發(fā)與應(yīng)用,在國內(nèi)也迅速成為資本市場關(guān)注、創(chuàng)業(yè)者紛紛入場的賽道。阿里、百度等互聯(lián)網(wǎng)大廠,科大訊飛等語音類AI企業(yè),以及眾多創(chuàng)業(yè)者都希望乘著最新的風(fēng)口迅速“起飛”。創(chuàng)業(yè)者大軍中不乏像前美團(tuán)聯(lián)合創(chuàng)始人王慧文、出門問問CEO李志飛、搜狗前CEO王小川、前京東技術(shù)掌門人周伯文等行業(yè)大佬。開發(fā)出“中國的ChatGPT”儼然成了國內(nèi)科技圈“All in”的方向。

然而,我們真的能迅速見到一個“中國的ChatGPT”嗎?誰又能拔下頭籌,成為這個細(xì)分賽道的領(lǐng)頭羊呢?

這個眾多大佬都擠進(jìn)來“淘金”的賽道,一定不是簡簡單單就能搞定的。

OpenAI的GPT“家族”

在深入了解開發(fā)出比肩ChatGPT的模型需要面臨哪些挑戰(zhàn)之前,讓我們先看下ChatGPT所屬的GPT模型家族都有哪些成員。

GPT-1發(fā)布于2018年6月,包含117M個參數(shù)。這是第一個采用基于Transformer的模型架構(gòu)進(jìn)行預(yù)訓(xùn)練的模型。它在語言模型和單詞類比任務(wù)上表現(xiàn)出色。

GPT-2發(fā)布于2019年2月,包含1.5B個參數(shù)。這個模型在自然語言生成任務(wù)上表現(xiàn)出色,可以生成高質(zhì)量的文章、新聞報道和詩歌等文本。

GPT-3發(fā)布于2020年6月,包含175B個參數(shù)。具有出色的通用性和創(chuàng)造性,可以在各種 NLP任務(wù)上表現(xiàn)出色,包括文本生成、問答、機(jī)器翻譯等任務(wù)。

到這就結(jié)束了?完全不是。

在GPT-3系列模型(注意,是一系列模型哦)發(fā)布之后,OpenAI繼續(xù)基于原始的GPT-3進(jìn)行了不斷地完善。我們熟知的InstructGPT和ChatGPT實(shí)際的內(nèi)部代號是text-davinci-003 175B和text-chat-davinci-002-20221122,是基于GPT-3.5的改良版。

d3ec54e6-c4c8-11ed-bfe3-dac502259ad0.png

圖:GPT-3模型家族,圖片來源:https://lifearchitect.ai/chatgpt/

在InstructGPT的訓(xùn)練中,OpenAI的研究員引入了RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))機(jī)制。這一訓(xùn)練范式增強(qiáng)了人類對模型輸出結(jié)果的調(diào)節(jié),并且對結(jié)果進(jìn)行了更具理解性的排序。在此基礎(chǔ)上,ChatGPT還引入了“無害化”機(jī)制,防止模型生成不符合規(guī)范或倫理的答案。

d4059762-c4c8-11ed-bfe3-dac502259ad0.png

圖:GPT-3、InstructGPT、ChatGPT的“進(jìn)化路線”

圖片來源:https://lifearchitect.ai/chatgpt/

不難看出,ChatGPT的出圈,與OpenAI多年的技術(shù)積累是分不開的。國內(nèi)廠商想要開發(fā)出像ChatGPT一樣優(yōu)秀的模型,也絕不是簡單依靠拉一波投資,雇一批算法研究員就能馬上實(shí)現(xiàn)的。

“中國的ChatGPT”面臨的挑戰(zhàn)

首先,在資金投入方面,在當(dāng)前的技術(shù)水平下,訓(xùn)練一個與ChatGPT這樣的大型語言模型相當(dāng)?shù)哪P托枰獢?shù)百萬美元的投入。在發(fā)布ChatGPT之前,OpenAI可查的融資額已超過20億美元,也是如此龐大的投資才使OpenAI擁有了多年技術(shù)積累。反觀絕大多數(shù)近期入局的國內(nèi)企業(yè),即便擁有足夠的資金與人員,也大都很難在短期追上OpenAI的步伐。

我們不禁想問,如果要在國內(nèi)開發(fā)出一個類ChatGPT模型,到底會面臨哪些技術(shù)挑戰(zhàn)呢?

為了能了解到最最準(zhǔn)確的答案,我們請教了ChatGPT“本人”

d457fc82-c4c8-11ed-bfe3-dac502259ad0.png

1、數(shù)據(jù)量:需要大量的數(shù)據(jù)集來進(jìn)行訓(xùn)練。這些數(shù)據(jù)集需要是大規(guī)模的、多樣化的、真實(shí)的,并且要涵蓋各種不同的語言和語境。這需要花費(fèi)大量的時間和資源來收集、整理和標(biāo)注。

2、計算能力:需要非常強(qiáng)大的計算資源。這些模型需要在大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并且需要進(jìn)行大量的參數(shù)優(yōu)化和調(diào)整。這些計算需要高性能的計算機(jī)和高效的分布式計算框架。

3、 算法優(yōu)化:需要對算法進(jìn)行不斷的優(yōu)化和改進(jìn)。這包括優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、調(diào)整超參數(shù)、使用更好的優(yōu)化算法等。這需要對深度學(xué)習(xí)算法有深入的了解和經(jīng)驗(yàn)。

可以發(fā)現(xiàn),這是一個涉及到多個領(lǐng)域和技術(shù)的復(fù)雜系統(tǒng)工程。只有同時在底層的基礎(chǔ)設(shè)施、針對性優(yōu)化和大模型技術(shù)積淀都達(dá)到一定水平的情況下,才能夠研發(fā)出高質(zhì)量的模型,并應(yīng)用于各種場景中。

讓我們詳細(xì)看看這三類技術(shù)挑戰(zhàn)具體都意味著什么。

數(shù)據(jù)量

我們經(jīng)常聽到“有多少數(shù)據(jù),就有多少智能”,數(shù)據(jù)對于模型訓(xùn)練的重要性不言而喻。類ChatGPT模型的訓(xùn)練,更需要超大規(guī)模的,經(jīng)過清洗的數(shù)據(jù)。以GPT-3的訓(xùn)練為例,需要300B tokens的數(shù)據(jù)。大家如果對這個數(shù)字不敏感的話,可以參考整個英文的維基百科的數(shù)據(jù)量,只有“相對可憐”的3B tokens,是訓(xùn)練GPT-3所需的百分之一。并且,要訓(xùn)練出類ChatGPT模型,勢必需要數(shù)倍于當(dāng)年訓(xùn)練GPT-3的數(shù)據(jù)量的中文語料數(shù)據(jù),這對于大部分企業(yè)或科研機(jī)構(gòu)來說都是難以翻越的大山。有效的中文數(shù)據(jù)量,一定程度上決定了模型性能的上限。

計算能力

類ChatGPT模型的訓(xùn)練,除了需要非常多的訓(xùn)練數(shù)據(jù)外,也離不開龐大的算力支撐。根據(jù)北京智源人工智能研究院公布的數(shù)據(jù),使用300B tokens的數(shù)據(jù)訓(xùn)練175B參數(shù)規(guī)模(與GPT-3規(guī)模相同)的模型,如果使用96臺通過200Gb IB網(wǎng)卡互聯(lián)的DGX-A100節(jié)點(diǎn),需要約50天。要是使用更大規(guī)模的訓(xùn)練數(shù)據(jù)集,訓(xùn)練時長還會進(jìn)一步增加。

對于計算集群來說,不僅需要能夠提供海量的算力資源,還需要具備高速網(wǎng)絡(luò)和高容量存儲,以便支持大規(guī)模的數(shù)據(jù)訪問和模型傳輸。整套基礎(chǔ)設(shè)施,連同軟件平臺,還需要結(jié)合集群的拓?fù)浣Y(jié)構(gòu)針對分布式訓(xùn)練進(jìn)行優(yōu)化,通過調(diào)整并行策略等方式,提升硬件利用率與通訊效率,縮短整體訓(xùn)練時間。

算法優(yōu)化

算法優(yōu)化和模型的訓(xùn)練效率和效果息息相關(guān)。每一個算法研究員,都希望模型在訓(xùn)練過程中快速收斂,這恰恰也是算法研究人員經(jīng)驗(yàn)與企業(yè)長年技術(shù)積累的體現(xiàn)。通常情況下,在訓(xùn)練的過程中需要不斷調(diào)整學(xué)習(xí)率、批量大小、層數(shù)等超參數(shù),或使用自動調(diào)參的技巧和經(jīng)驗(yàn),才能快速、穩(wěn)定的實(shí)現(xiàn)模型收斂。就像中餐大廚們用“少許、適量”的調(diào)料制作美味佳肴一樣,里面包含著的是大廚們幾十年的手藝,不是一朝一夕就能被批量復(fù)制的。

前途是光明的,道路是曲折的

想必,這是最適合送給現(xiàn)在想要開發(fā)出“中國的ChatGPT”的各路大佬們的一句話了。為規(guī)避未來的技術(shù)風(fēng)險,不少廠商、科研機(jī)構(gòu)也開始探索在自研算力服務(wù)平臺上訓(xùn)練的可行性。北京智源人工智能研究院作為國內(nèi)頂尖的人工智能領(lǐng)域研究機(jī)構(gòu),早早就探索了使用自研算力服務(wù)平臺的可能性。同樣是使用300B tokens的數(shù)據(jù)訓(xùn)練175B參數(shù)規(guī)模的模型,通過曙光提供的算力服務(wù),訓(xùn)練周期只需29.10天,在節(jié)點(diǎn)規(guī)模接近的情況下,訓(xùn)練效率是其他算力平臺的300%。

基于自研算力服務(wù)平臺進(jìn)行訓(xùn)練,不可避免的會帶來更多的移植與調(diào)優(yōu)工作。曙光智算強(qiáng)大的硬件與算法優(yōu)化團(tuán)隊(duì),在集群、并行策略、算子、工具包等方面的優(yōu)化上與智源開展了深入的合作。首先,為保證程序能夠正常運(yùn)行,需要完成包括DeepSpeed/Megatron/Colossal-AI/apex等必要組件的適配工作。其次,程序系統(tǒng)順利調(diào)度通常也需要調(diào)整調(diào)整操作系統(tǒng)配置及tcp協(xié)議參數(shù)等。訓(xùn)練的優(yōu)化工作則主要包含以下三個方面:

算子層面:使用算子融合/算子優(yōu)化等技術(shù),深度挖掘硬件性能,提升硬件使用率;

策略層面:采用模型并行、數(shù)據(jù)并行、流水線并行、Zero等多級并行策略,實(shí)現(xiàn)超大規(guī)模訓(xùn)練;

集群層面:針對硬件的拓?fù)浣Y(jié)構(gòu),對分布式訓(xùn)練通信、并行分組配比等進(jìn)行定制優(yōu)化,提升訓(xùn)練擴(kuò)展比。

通過一系列的優(yōu)化方法,最終也證明了我們可以在自研算力服務(wù)平臺上,以能夠?qū)?biāo)國際水平的效率實(shí)現(xiàn)大模型的開發(fā)工作,這無疑為“中國的ChatGPT”的開發(fā)工作喂了一顆定心丸。希望在不久的將來,我們可以看到真正在自研算力平臺上訓(xùn)練的,能與ChatGPT比肩的中文模型。

前途一定是光明的。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48359
  • ChatGPT
    +關(guān)注

    關(guān)注

    28

    文章

    1517

    瀏覽量

    6929

原文標(biāo)題:“中國的ChatGPT”真的要來了嗎?

文章出處:【微信號:sugoncn,微信公眾號:中科曙光】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    車路云協(xié)同,這次它真的來了嗎

    隨著科技的快速發(fā)展,“車路云協(xié)同”正在悄然發(fā)生變化。我們離科幻電影《機(jī)械公敵》中威爾?史密斯駕駛的汽車能準(zhǔn)確甄別交通狀況并調(diào)整行駛狀態(tài)的時代就要來了嗎?背景說明“車路協(xié)同”已經(jīng)不是什么新鮮名詞
    的頭像 發(fā)表于 06-13 08:25 ?355次閱讀
    車路云協(xié)同,這次它<b class='flag-5'>真的</b><b class='flag-5'>來了嗎</b>?

    降價潮背后:大模型落地門檻真的了嗎?

    “比起價格門檻,AI大模型的應(yīng)用門檻,更難跨越。”大模型爭相降價下,AI應(yīng)用的門檻真的降低了嗎?答案還真不一定。因?yàn)槌藘r格門檻,AI大模型還有應(yīng)用門檻。甚至,后者比前者更具挑戰(zhàn)性。B端業(yè)務(wù)場景向來
    的頭像 發(fā)表于 06-13 08:04 ?275次閱讀
    降價潮背后:大模型落地門檻<b class='flag-5'>真的</b>降<b class='flag-5'>了嗎</b>?

    使用espbox lite進(jìn)行chatgpt_demo的燒錄報錯是什么原因?

    我使用espbox lite進(jìn)行chatgpt_demo的燒錄 我的idf是v5.1release版本的,espbox是master版本的 在編譯時似乎沒有什么問題 在燒錄時報錯 請問這是什么原因
    發(fā)表于 06-11 08:45

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    功能和實(shí)際應(yīng)用。 GPT-4 turbo****的增強(qiáng)功能 ChatGPT-4o帶來了幾個值得注意的升級,增強(qiáng)了性能和可用性: · 更快的響應(yīng)時間和更高的準(zhǔn)確性: 是客戶服務(wù)和其他快節(jié)奏環(huán)境中所
    發(fā)表于 05-27 15:43

    李開復(fù):中國須獨(dú)立研發(fā)ChatGPT?

    李開復(fù)援引“ChatGPT 時刻”概念,指出美國在約 17 個月前就已體驗(yàn)到這一波熱潮(注:ChatGPT 最早于 2022 年 12 月走紅)。然而,他認(rèn)為中國尚未達(dá)到這一階段,目前國內(nèi)的聊天機(jī)器人或工具仍有待改進(jìn)。
    的頭像 發(fā)表于 05-13 16:05 ?430次閱讀

    OpenAI的AI搜索也要來了,但我們需要這么多AI搜索么

    OpenAI要做AI搜索挑戰(zhàn)谷歌這件事已經(jīng)傳了很久,傳說中的SearchGPT似乎真的要來了。據(jù)軟件開發(fā)者TiborBlaho爆料,OpenAI的AI搜索產(chǎn)品Sonic-SNC(SearchGPT
    的頭像 發(fā)表于 05-10 08:05 ?348次閱讀
    OpenAI的AI搜索也<b class='flag-5'>要來了</b>,但我們需要這么多AI搜索么

    騰訊突然宣布,微信鴻蒙版要來了

    應(yīng)用,僅支持鴻蒙內(nèi)核和系統(tǒng)的應(yīng)用,被稱為 “純血鴻蒙”而備受關(guān)注, 這意味著, 真正的國產(chǎn)手機(jī)操作系統(tǒng)要來了 ,而且影響力驚人, 一上線就是僅次于 Android 和 iOS 之后的全球第三大手機(jī)操作系統(tǒng)
    發(fā)表于 04-30 19:34

    蘋果折疊屏iPhone新專利獲批 蘋果折疊屏手機(jī)要來了嗎?

    蘋果折疊屏iPhone新專利獲批 蘋果折疊屏手機(jī)要來了嗎? 我們看到蘋果公司折疊屏iPhone專利已經(jīng)獲批;果粉都在期待的蘋果折疊屏手機(jī)要來了嗎?新專利也顯示蘋果已經(jīng)找到了提升折疊屏耐用耐摔性的方法
    的頭像 發(fā)表于 04-17 17:05 ?1140次閱讀

    在FPGA設(shè)計中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當(dāng)下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計中,是否也可以用ChatGPT輔助設(shè)計呢?
    發(fā)表于 03-28 23:41

    【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】(原創(chuàng))6.FPGA連接ChatGPT 4

    ); FPGA:“問題已發(fā)送,等待回復(fù)...”(FPGA緊張地搓手) answer = ReceiveFromServer(chatGPT_Server); FPGA:“?。』貜?fù)來了!”(FPGA眼睛一亮
    發(fā)表于 02-14 21:58

    肖特基二極管,你真的用對了嗎?

    肖特基二極管,你真的用對了嗎?
    的頭像 發(fā)表于 12-07 14:27 ?433次閱讀
    肖特基二極管,你<b class='flag-5'>真的</b>用對<b class='flag-5'>了嗎</b>?

    ChatGPT原理 ChatGPT模型訓(xùn)練 chatgpt注冊流程相關(guān)簡介

    ChatGPT注冊沒有外國手機(jī)號驗(yàn)證怎么辦? ChatGPT作為近期火爆網(wǎng)絡(luò)的AI項(xiàng)目,受到了前所未有的關(guān)注。我們可以與AI機(jī)器人實(shí)時聊天,獲得問題的答案。但受ChatGPT服務(wù)器及相關(guān)政策
    的頭像 發(fā)表于 12-06 16:28 ?716次閱讀
    <b class='flag-5'>ChatGPT</b>原理 <b class='flag-5'>ChatGPT</b>模型訓(xùn)練 <b class='flag-5'>chatgpt</b>注冊流程相關(guān)簡介

    如何使用Rust創(chuàng)建一個基于ChatGPT的RAG助手

    經(jīng)常會出現(xiàn)一些幻覺,“一本正經(jīng)”地為我們提供一些錯誤答案,沒有辦法為我們提供專業(yè)的意見或指導(dǎo)。那我們?nèi)绾巫?ChatGPT 具備某個專業(yè)領(lǐng)域的知識,提升回答的正確率,從而讓 ChatGPT 真的用起來?比如訓(xùn)練
    的頭像 發(fā)表于 10-24 17:34 ?898次閱讀
    如何使用Rust創(chuàng)建一個基于<b class='flag-5'>ChatGPT</b>的RAG助手

    摩爾定律的終結(jié)真的要來了嗎

    英特爾共同創(chuàng)始人戈登·摩爾(Gordon Moore)在今年與世長辭,而他對半導(dǎo)體芯片晶體管密度持續(xù)增長的著名預(yù)測依舊聞名于世。詹姆斯·麥肯齊(James McKenzie)深入研究了這一60多年來仍然正確的預(yù)測,也就是大家所熟知的“摩爾定律”,但同時也提醒人們,這一定律的延續(xù)正日益困難,且成本不斷攀升。
    的頭像 發(fā)表于 10-19 10:49 ?585次閱讀
    摩爾定律的終結(jié)<b class='flag-5'>真的</b><b class='flag-5'>要來了嗎</b>

    ChatGPT真的產(chǎn)生心智了嗎?ChatGPT是如何產(chǎn)生心智的?

    來自斯坦福大學(xué)的最新研究結(jié)論,一經(jīng)發(fā)出就造成了學(xué)術(shù)圈的轟動,“原本認(rèn)為是人類獨(dú)有的心智理論(Theory of Mind,ToM),已經(jīng)出現(xiàn)在ChatGPT背后的AI模型上”。
    的頭像 發(fā)表于 10-19 09:58 ?762次閱讀
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>真的</b>產(chǎn)生心智<b class='flag-5'>了嗎</b>?<b class='flag-5'>ChatGPT</b>是如何產(chǎn)生心智的?