0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT背后的經(jīng)濟賬

OSC開源社區(qū) ? 來源:OneFlow ? 2023-02-16 11:35 ? 次閱讀

ChatGPT能否取代Google、百度這樣的傳統(tǒng)搜索引擎?為什么中國不能很快做出ChatGPT?當(dāng)前,對這些問題的探討大多囿于大型語言模型(LLM)的技術(shù)可行性,忽略或者非常粗糙地估計了實現(xiàn)這些目標(biāo)背后的經(jīng)濟成本,從而造成對LLM的開發(fā)和應(yīng)用偏離實際的誤判。

本文作者從經(jīng)濟學(xué)切入,詳細推導(dǎo)了類ChatGPT模型搜索的成本、訓(xùn)練GPT-3以及繪制LLM成本軌跡的通用框架,為探討LLM成本結(jié)構(gòu)和其未來發(fā)展提供了可貴的參考視角。

重點概覽:

LLM驅(qū)動的搜索已經(jīng)在經(jīng)濟上可行:粗略估計,在現(xiàn)有搜索成本結(jié)構(gòu)的基礎(chǔ)上,高性能LLM驅(qū)動搜索的成本約占當(dāng)下預(yù)估廣告收入/查詢的15%。

但經(jīng)濟可行并不意味著經(jīng)濟合理:LLM驅(qū)動搜索的單位經(jīng)濟性是有利可圖的,但對于擁有超1000億美元搜索收入的現(xiàn)有搜索引擎來說,添加此功能可能意味著超100億美元的額外成本。

其他新興的LLM驅(qū)動業(yè)務(wù)利潤很高:比如Jasper.ai使用LLM生成文案,很可能有SaaS服務(wù)那樣的毛利率(超75%)。

對于大公司而言,訓(xùn)練LLM(即使是從頭開始)的成本并不高:如今,在公有云中訓(xùn)練GPT-3僅需花費約140萬美元,即使是像PaLM這樣最先進的模型也只需花費約1120萬美元。

LLM的成本可能會顯著下降:自GPT-3發(fā)布的兩年半時間里,與GPT-3性能相當(dāng)?shù)哪P偷挠?xùn)練和推理成本下降了約80%。

數(shù)據(jù)是LLM性能的新瓶頸:與增加高質(zhì)量訓(xùn)練數(shù)據(jù)集的大小相比,增加模型參數(shù)的數(shù)量能獲得的邊際收益越來越小。

1 動機

LLM的驚人表現(xiàn)引發(fā)了人們的廣泛猜想,這些猜想主要包括LLM可能引發(fā)的新興商業(yè)模式和對現(xiàn)有模式的影響。

搜索是一個有趣的機會,2021年,僅谷歌就從搜索相關(guān)的廣告中獲得了超1000億美元的收入[1]。ChatGPT(一個使用LLM的聊天機器人,它可以生成高質(zhì)量的答案,以回答類似于搜索的查詢)的“病毒性”傳播已經(jīng)引發(fā)了許多關(guān)于搜索領(lǐng)域潛在影響的思考,其中一個就是LLM如今的經(jīng)濟可行性:

一位聲稱是谷歌員工的人在HackerNews上表示,要想實施由LLM驅(qū)動的搜索,需要先將其成本降低10倍。

與此同時,微軟預(yù)計將在3月份推出LLM版本的Bing[3],而搜索初創(chuàng)公司如You.com已經(jīng)將該技術(shù)嵌入到了他們的產(chǎn)品之中[4]。

最近,《紐約時報》報道,谷歌將在今年推出帶有聊天機器人功能的搜索引擎[5]。

更廣泛的問題是:將LLM納入當(dāng)前產(chǎn)品和新產(chǎn)品的經(jīng)濟可行性如何?在本文中,我們梳理了當(dāng)今LLM的成本結(jié)構(gòu),并分析其未來可能的發(fā)展趨勢。

2 重溫LLM工作原理

盡管后續(xù)章節(jié)的技術(shù)性更強,但這篇文章對機器學(xué)習(xí)熟悉程度不做要求,即使不熟悉這方面內(nèi)容的人也可以放心閱讀。為了說明LLM的特殊之處,現(xiàn)做一個簡要復(fù)習(xí)。

語言模型在給定上下文的情況下,對可能輸出的token作出預(yù)測:

6171e66c-ad33-11ed-bfe3-dac502259ad0.jpg

自回歸語言模型(Autoregressive Language Model)輸入上下文和輸出內(nèi)容的圖示(在實踐中,token通常是子詞:即“happy”可能被分解為兩個token,例如“hap”、“-py”)

為了生成文本,語言模型根據(jù)輸出token的概率重復(fù)采樣新token。例如,在像ChatGPT這樣的服務(wù)中,模型從一個初始prompt開始,該prompt將用戶的查詢作為上下文,并生成token來構(gòu)建響應(yīng)(response)。新token生成后,會被附加到上下文窗口以提示下一次迭代。

語言模型已經(jīng)存在了幾十年。當(dāng)下LLM性能的背后是數(shù)十億參數(shù)的高效深度神經(jīng)網(wǎng)絡(luò)(DNN)驅(qū)動。參數(shù)是用于訓(xùn)練和預(yù)測的矩陣權(quán)重,浮點運算(FLOPS)的數(shù)值通常與參數(shù)數(shù)量(parameter count)成比例。這些運算是在針對矩陣運算優(yōu)化的處理器上計算的,例如GPU、TPU和其他專用芯片。

隨著LLM參數(shù)量呈指數(shù)增長,這些操作需要更多的計算資源,這是導(dǎo)致LLM成本增加的潛在原因。

3 LLM驅(qū)動搜索的成本

本節(jié),我們將估算運行LLM驅(qū)動搜索引擎的成本。應(yīng)該如何實施這樣的搜索引擎仍是一個活躍的研究領(lǐng)域,我們這里主要考慮兩種方法來評估提供此類服務(wù)的成本范圍:

ChatGPT Equivalent:一個在龐大訓(xùn)練數(shù)據(jù)集上訓(xùn)練的LLM,它會將訓(xùn)練期間的知識存儲到模型參數(shù)中。在推理過程中(使用模型生成輸出),LLM無法訪問外部知識[6]。

這種方法有如下兩大缺點:

容易“幻想”事實。

模型知識滯后,僅包含最后訓(xùn)練日期之前的可用信息。

2-Stage Search Summarizer:一種架構(gòu)上類似的LLM,可以在推理時訪問Google或Bing等傳統(tǒng)搜索引擎。在這種方法的第一階段,我們通過搜索引擎運行查詢以檢索前K個結(jié)果。在第二階段,通過LLM運行每個結(jié)果以生成K個響應(yīng),該模型再將得分最高的響應(yīng)返回給用戶[7]。

相比ChatGPT Equivalent,這種方法的優(yōu)點是:

能夠從檢索到的搜索結(jié)果中引用其來源。

能獲取最新信息。

然而,對于相同參數(shù)數(shù)量的LLM,這種方法需要更高的計算成本。使用這種方法的成本也增加了搜索引擎的現(xiàn)有成本,因為我們在現(xiàn)有搜索引擎的結(jié)果上增加了LLM。

一階近似:基礎(chǔ)模型API

最直接的成本估算方法是參考市場上現(xiàn)有基礎(chǔ)模型API的標(biāo)價,這些服務(wù)的定價包括成本的溢價部分,這部分是供應(yīng)商的利潤來源。一個代表性的服務(wù)是OpenAI,它提供基于LLM的文本生成服務(wù)。

OpenAI的Davinci API由GPT-3的1750億參數(shù)版本提供支持,與支持ChatGPT的GPT-3.5模型具有相同的參數(shù)數(shù)量[8] ?,F(xiàn)在用該模型進行推理的價格約為0.02美元/750個單詞(0.02美元/1000個token,其中1000token約等于750個單詞);用于計算定價的單詞總數(shù)包括輸入和輸出[9]。

6184c78c-ad33-11ed-bfe3-dac502259ad0.jpg

按模型功能劃分的基礎(chǔ)模型API定價 (OpenAI)

我們這里做了一些簡單假設(shè)來估計將支付給OpenAI的搜索服務(wù)費用:

在ChatGPT equivalent的實現(xiàn)中,我們假設(shè)該服務(wù)平均針對50字的prompt生成400字的響應(yīng)。為了產(chǎn)生更高質(zhì)量的結(jié)果,我們還假設(shè)模型對每個查詢采樣5個響應(yīng),從中選擇最佳響應(yīng)。因此:

61991a70-ad33-11ed-bfe3-dac502259ad0.jpg

在2-Stage Search Summarizer的實現(xiàn)中,響應(yīng)生成過程是相似的。然而:

提示明顯更長,因為它同時包含查詢和搜索結(jié)果中的相關(guān)部分

為每K個搜索結(jié)果生成一個單獨的LLM響應(yīng)

假設(shè)K = 10并且搜索結(jié)果中的每個相關(guān)部分平均為1000個單詞:

61a9afa2-ad33-11ed-bfe3-dac502259ad0.jpg

假設(shè)優(yōu)化的緩存命中率為30%(谷歌歷史搜索緩存命中率的下限[10])和OpenAI云服務(wù)的毛利率為75%(與典型的SaaS服務(wù)一致),我們的一階估計意味著:

61c39c50-ad33-11ed-bfe3-dac502259ad0.jpg

按照數(shù)量級,ChatGPT Equivalent服務(wù)的預(yù)計云計算成本為0.010美元/次,與公眾評論一致:

61db3a36-ad33-11ed-bfe3-dac502259ad0.jpg

OpenAI首席執(zhí)行官Sam Altman談ChatGPT每次聊天的成本([推特](https://twitter.com/sama/status/1599671496636780546?lang=en)

鑒于ChatGPT Equivalent的上述缺點(即幻想事實、模型信息陳舊),在實際操作中,LLM驅(qū)動搜索引擎的開發(fā)者更可能部署2-Stage Search Summarizer變體。

2012年,谷歌搜索主管表示,其搜索引擎每月處理的搜索次數(shù)達1000億次[11]。世界銀行數(shù)據(jù)顯示:全球互聯(lián)網(wǎng)普及率已從2012年的34%上升到了2020年的60%[12]。假設(shè)搜索量按比例增長,則預(yù)計其年均搜索量將達2.1萬億次,與搜索相關(guān)的收入將達約1000億美元[13],平均每次搜索的收入為0.048美元。

換句話說,2-Stage Search Summarizer的查詢成本為0.066美元/次,約為每次查詢收入0.048美元的1.4倍。

通過以下優(yōu)化,預(yù)估成本大約會降至原來的1/4:1、量化(使用較低精度的數(shù)據(jù)類型) 2、知識蒸餾(通過學(xué)習(xí)較大的模型去訓(xùn)練一個較小的模型) 3、訓(xùn)練更小的“計算優(yōu)化”模型,該模型具有相同的性能(稍后將對此展開更詳細的討論)

假設(shè)云計算的毛利率約為50%,與依賴云服務(wù)提供商相比,運行自建(內(nèi)部)基礎(chǔ)設(shè)施(infrastructure in-house)會使成本降低至當(dāng)前的1/2。

綜合以上改進,降低至原有成本的1/8之后,在搜索中融入高性能LLM的成本大約占據(jù)當(dāng)前查詢收入的15%(現(xiàn)有的基礎(chǔ)設(shè)施成本除外)。(注:成本最低可降至 0.066 美元/次 * 1/4 * 1/2, 約定于0.008美元,因此大約占每次查詢收入 0.048 美元的 15%)

深度解析:云計算成本

如今,SOTA大型語言模型通常會用到可比較的模型架構(gòu)(最常見的是僅包含解碼器的Transformer模型),在推理過程中每個token的計算成本(以FLOPs為指標(biāo))約為2N,其中N為模型參數(shù)數(shù)量(model parameter count)[14]。

目前,NVIDIA A100是AWS最具成本效益的GPU選擇,若預(yù)定1年使用該GPU,擁有8個A100的AWS P4實例的有效時薪(effective hourly rate)將達19.22美元。[15]每個A100提供峰值312 TFLOPS(萬億次浮點數(shù)/秒)FP16/FP32 混合精度吞吐量,這是LLM訓(xùn)練和推理的關(guān)鍵指標(biāo)[16]。FP16/FP32混合精度是指以16位格式(FP16)執(zhí)行操作,而以32位格式(FP32)存儲信息。由于FP16的開銷較低,混合精度不僅支持更高的FLOPS吞吐量,而且保持精確結(jié)果所需的數(shù)值穩(wěn)定性也會保持不變[17]。

假設(shè)模型的FLOPS利用率為21.3%,與訓(xùn)練期間的GPT-3保持一致(雖然最近越來越多的模型效率得以提升,但其FLOPS利用率對于低延遲推理而言仍充滿挑戰(zhàn))[18]。因此,對于像GPT-3這樣擁有1750億參數(shù)的模型:

61ec7878-ad33-11ed-bfe3-dac502259ad0.jpg

我們也應(yīng)用了基于GCP TPU v4定價( GCP TPU v4 pricing)相同的計算方法,并得到了相似的結(jié)果[19]:

61fdfcce-ad33-11ed-bfe3-dac502259ad0.jpg

預(yù)估GPT-3通過云服務(wù)提供商 (AWS, GCP)每處理1000個token所需的推理成本

OpenAI的API定價為0.02美元/1000詞,但我們估計其成本約為0.0035美元/1000詞,占定價的20%左右。這就意味著:對于一臺一直運行的機器而言,其毛利率約為80%。這一估算與我們之前設(shè)想的75%毛利率大致相同,進而為ChatGPT Equivalent和2-Stage Search Summarizer搜索成本估算提供了合理性驗證(sanity check)。

4 訓(xùn)練成本如何?

另一個熱門話題是GPT-3(擁有1750億參數(shù))或最新的LLM(如擁有2800億參數(shù)的Gopher和擁有5400億參數(shù)的PaLM)的訓(xùn)練成本?;趨?shù)數(shù)量和token數(shù)量,我們構(gòu)建了一個用于估算計算成本的框架,雖然稍作修改,但同樣適用于此:

每個token的訓(xùn)練成本通常約為6N(而推理成本約為2N),其中N是LLM的參數(shù)數(shù)量[20]

假設(shè)在訓(xùn)練過程中,模型的FLOPS利用率為46.2% (而在之前的推理過程中,模型的FLOPS利用率約為21.3%),與在TPU v4芯片上進行訓(xùn)練的PaLM模型(擁有5400億參數(shù))一致[21]。

1750億參數(shù)模型的GPT-3是在3000億token上進行訓(xùn)練的。谷歌使用了GCP TPU v4芯片來訓(xùn)練PaLM模型,若我們現(xiàn)在也像谷歌那樣做,那么如今的訓(xùn)練成本僅為140萬美元左右。

620ce8c4-ad33-11ed-bfe3-dac502259ad0.jpg

此外,我們還將該框架應(yīng)用到一些更大的LLM模型中,以了解其訓(xùn)練成本。

621b94b4-ad33-11ed-bfe3-dac502259ad0.jpg

預(yù)估LLM在GCP TPU v4芯片上的訓(xùn)練成本

5 繪制成本軌跡的通用框架

為了推導(dǎo)LLM的推理成本/訓(xùn)練成本,我們總結(jié)了如下框架:

623174dc-ad33-11ed-bfe3-dac502259ad0.jpg

密集激活純解碼器LLM模型Transformer(Densely Activated Decoder-Only Transformer LLMs)的推理成本和訓(xùn)練成本(其中“N”是模型參數(shù)數(shù)量,“processor”是指TPU、GPU或其他張量處理加速器)

因此,我們假設(shè)LLM的架構(gòu)相似,那么推理成本和訓(xùn)練成本將根據(jù)上述變量的變化而變化。雖然我們會詳細考慮每個變量,但是以下部分才是關(guān)鍵點:

自2020年GPT-3發(fā)布以來,使用與GPT-3一樣強大的模型進行訓(xùn)練和推理的成本大大降低,低于先前的五分之一。

6248399c-ad33-11ed-bfe3-dac502259ad0.jpg

相比2020年推出的GPT-3,與其性能對等的模型的推理與訓(xùn)練成本降低情況總結(jié)

參數(shù)數(shù)量效率:巨型語言模型參數(shù)每年增長10倍的神話

考慮到過去5年中模型參數(shù)呈指數(shù)增長,我們普遍猜測:下一代LLM模型很可能是萬億參數(shù)(密集激活)模型:

625b3344-ad33-11ed-bfe3-dac502259ad0.jpg

LLM中模型參數(shù)數(shù)量的增長

雖然LLM的參數(shù)數(shù)量每年約增長10倍,但是大多數(shù)模型訓(xùn)練數(shù)據(jù)集的大小并沒有顯著變化:

626bb188-ad33-11ed-bfe3-dac502259ad0.jpg

所選LLM的模型參數(shù)數(shù)量與訓(xùn)練token數(shù)量 (訓(xùn)練計算最優(yōu)大語言模型)

然而,最新文獻表明,假設(shè)計算資源和硬件利用率(即訓(xùn)練“計算最優(yōu)”模型)保持不變,關(guān)注擴展參數(shù)數(shù)量(scaling parameter count)并不是性能最大化的最佳方式:

627f2484-ad33-11ed-bfe3-dac502259ad0.jpg

Google DeepMind的研究人員將一個參數(shù)函數(shù)(parametric function)擬合到他們的實驗結(jié)果中,發(fā)現(xiàn)參數(shù)數(shù)量N的增速應(yīng)與訓(xùn)練token數(shù)量D的增長速度大致相同,從而讓模型損失L實現(xiàn)最小化(即性能最大化):

6290147e-ad33-11ed-bfe3-dac502259ad0.jpg

模型損失的參數(shù)函數(shù) (訓(xùn)練計算最優(yōu)大語言模型)

研究人員還訓(xùn)練了一個名為Chinchilla的模型(擁有700億的參數(shù))。雖然該模型的計算資源與Gopher(擁有2800億參數(shù))相同,但是該模型是在1.4萬億token上進行訓(xùn)練的而非3000億token。Chinchilla的性能明顯優(yōu)于擁有相同F(xiàn)LOPs預(yù)算的大型模型,從而證明了大多數(shù)LLM過度支出了計算量和對數(shù)據(jù)的渴望 (譯者注:換言之,對大多數(shù)LLM來說,使用更多的數(shù)據(jù)來訓(xùn)練比增大模型參數(shù)量要更加劃算)。

62a32d52-ad33-11ed-bfe3-dac502259ad0.jpg

通過訓(xùn)練數(shù)據(jù)大小與模型參數(shù)來預(yù)測模型損失(錯誤更少:Chinchilla的自然環(huán)境含義)

雖然Chinchilla的參數(shù)(以及推理計算需求)比GPT-3少60%,但是其性能遠遠優(yōu)于擁有1750億參數(shù)的GPT-3模型。

實際上,即使我們用與GPT-3相同的3000億token數(shù)據(jù)集去訓(xùn)練一個萬億參數(shù)模型,仍可以預(yù)見該模型的表現(xiàn)不如Chinchilla:

62b7df68-ad33-11ed-bfe3-dac502259ad0.jpg

萬億參數(shù)模型相應(yīng)損失項的相對量級(0.03的模型參數(shù)損失與0.25的訓(xùn)練token損失)也表明,通過增加模型大小獲得的邊際效益低于增加數(shù)據(jù)量獲得的邊際效益。

展望未來,我們不會繼續(xù)擴大模型參數(shù)數(shù)量,而是將增量計算資源(incremental computational resources)轉(zhuǎn)移到質(zhì)量相當(dāng)?shù)母髷?shù)據(jù)集上進行訓(xùn)練,以獲得極佳的性能。

Cost/FLOP效率

對于訓(xùn)練LLM而言,最重要的硬件性能指標(biāo)(hardware performance metric)是可實現(xiàn)的混合精度FP16/FP32 FLOPS。改進硬件旨在實現(xiàn)成本最小化,同時使得峰值FLOPS吞吐量和模型FLOPS利用率實現(xiàn)最大化。

雖然這兩個部分在硬件開發(fā)中密不可分,但為了讓分析變得更簡單,本節(jié)重點關(guān)注吞吐量,下一節(jié)再討論利用率。

62c6b1aa-ad33-11ed-bfe3-dac502259ad0.jpg

目前,我們已經(jīng)通過查看云實例定價(cloud instance pricing)估算了Cost/FLOP效率。為了進行下一步探究,我們估算了運行以下機器的成本。主要包括以下兩個方面:1)硬件購買(hardware purchase) 2)能源支出(energy expense)。為說明這一點,我們再來看看GPT-3(一款由OpenAI推出的模型,該模型在Microsoft Azure的10000個V100 GPU上訓(xùn)練了14.8天)[22]:

62daee18-ad33-11ed-bfe3-dac502259ad0.jpg

2020年用英偉達V100 GPU訓(xùn)練GPT-3的成本(碳排放與大型神經(jīng)網(wǎng)絡(luò)訓(xùn)練)

黃仁勛定律(英偉達首席執(zhí)行官黃仁勛于2018年提出)指出,在硬件成本方面,GPU的增長速度比五年前快了25倍[23]。在訓(xùn)練LLM的背景下,GPU的性能得到了很大提升,這很大程度上得益于張量核心(Tensor Cores)(AMD采用的是矩陣核心(matrix cores))。此外,GPU不再將矢量作為計算原語,而是轉(zhuǎn)為矩陣,從而實現(xiàn)了性能更好、效率更高的混合精度計算。

2016年,NVIDIA通過V100數(shù)據(jù)中心GPU首次推出了張量核心。與最初引入的張量核心相比,雖然這一改進不太明顯,但是每一代張量核心都進一步提高了吞吐量。如今,對于用于訓(xùn)練LLM的數(shù)據(jù)中心GPU,我們?nèi)阅芸吹矫恳淮鶪PU的吞吐量都提升了50%(或者說年均吞吐量提升了22%左右)。

62f529fe-ad33-11ed-bfe3-dac502259ad0.jpg

數(shù)據(jù)中心GPU FP16/FP32吞吐量/美元 (NVIDIA)

63066fb6-ad33-11ed-bfe3-dac502259ad0.jpg

桌面GPU和數(shù)據(jù)中心GPU、按精度劃分的吞吐量/美元 (英偉達,深度學(xué)習(xí)推理中的計算和能源消耗趨勢)

能源效率提升得更快?,F(xiàn)在我們可以看到,用于訓(xùn)練LLM的數(shù)據(jù)中心GPU的代際吞吐量/瓦特提高了80%(或者說年均吞吐量提高了34%):

6315c6d2-ad33-11ed-bfe3-dac502259ad0.jpg

數(shù)據(jù)中心 GPU FP16/FP32 吞吐量/瓦特 (英偉達)

632b11e0-ad33-11ed-bfe3-dac502259ad0.png

按精度劃分的桌面和數(shù)據(jù)中心GPU吞吐量/瓦特(英偉達,深度學(xué)習(xí)推理中的計算和能耗趨勢)

僅從V100(用于訓(xùn)練 GPT-3)到即將推出的H100的改進來看,我們預(yù)計內(nèi)部訓(xùn)練成本將降低58%(即訓(xùn)練成本由74.4萬美元降低到31.2萬美元)。

634ad5e8-ad33-11ed-bfe3-dac502259ad0.jpg

目前使用英偉達H100 GPU訓(xùn)練GPT-3的成本

展望未來,我們預(yù)測,隨著硬件設(shè)計的不斷創(chuàng)新,硬件成本和能效將逐步改進。例如,從V100到A100 GPU,NVIDIA添加了稀疏特性(sparsity features),這進一步將某些深度學(xué)習(xí)架構(gòu)的吞吐量提高了2倍[24] 。NVIDIA正在H100中添加對FP8數(shù)據(jù)類型的本地支持,當(dāng)與推理量化等現(xiàn)有技術(shù)相結(jié)合時,可以進一步提高吞吐量[25]。

此外,TPU和其他專用芯片的出現(xiàn)從根本上重塑了深度學(xué)習(xí)用例的芯片架構(gòu)。谷歌的TPU建立在脈動陣列結(jié)構(gòu)(systolic array architecture)之上,可顯著減少寄存器使用,提高吞吐量[26]。正如下一節(jié)將提到的,隨著我們將訓(xùn)練和推理擴展到大型參數(shù)模型,最近許多硬件都著力于提高利用率。

硬件利用率提升

出于內(nèi)存需求,LLM訓(xùn)練的主要挑戰(zhàn)之一就是將這些模型從單個芯片擴展到多個系統(tǒng)和集群級別。在典型的LLM訓(xùn)練中,設(shè)置保存優(yōu)化器狀態(tài)、梯度和參數(shù)所需的內(nèi)存為20N,其中N是模型參數(shù)數(shù)量[27]。

因此,BERT-Large(2018年早期的LLM之一,擁有3.4億參數(shù))僅需6.8GB內(nèi)存,就可輕松裝入單個桌面級GPU。另一方面,對于像GPT-3這樣的1750億參數(shù)模型,內(nèi)存要求轉(zhuǎn)換為3.5TB。同時,NVIDIA最新的數(shù)據(jù)中心 GPU(H100)僅包含80GB的高帶寬內(nèi)存(HBM),這表明至少需要44個H100才能滿足GPT-3的內(nèi)存要求。[28]此外,即使在10000個V100 GPU上訓(xùn)練GPT-3也需要14.8天。

因此,即使我們增加用于訓(xùn)練的芯片數(shù)量,F(xiàn)LOPS利用率也仍然需要保持高水平,這一點至關(guān)重要。

6360b7c8-ad33-11ed-bfe3-dac502259ad0.jpg

硬件利用率的第一個維度是在單芯片層面。在單個A100 GPU上訓(xùn)練GPT-2模型時,硬件利用率達35.7%[29]。事實證明,片上內(nèi)存(on-chip memory)和容量是硬件利用的瓶頸之一:處理器內(nèi)核中的計算需要重復(fù)訪問HBM,而帶寬不足會抑制吞吐量。同樣,有限的本地內(nèi)存容量會迫使從延遲較高的HBM進行更頻繁的讀取,從而限制吞吐量[30]。

硬件利用率的第二個維度與芯片到芯片的擴展有關(guān)。訓(xùn)練像GPT-3這樣的LLM模型需要跨多個GPU對模型和數(shù)據(jù)進行劃分。正如片上存儲器的帶寬可能成為硬件利用的瓶頸一樣,芯片間互連的帶寬也可能成為硬件利用的限制因素。隨著V100的發(fā)布,NVIDIA的NVLink實現(xiàn)了每個GPU 300GB/s的帶寬。對于A100來說,寬帶速度實現(xiàn)了600GB/s[31]。

硬件利用率的最后一個維度是系統(tǒng)到系統(tǒng)的擴展。一臺機器最多可容納16個GPU,因此擴展到更多數(shù)量的GPU要求跨系統(tǒng)的互連不能成為性能瓶頸。為此,Nvidia的Infiniband HCA在過去3年中將最大帶寬提高了2倍[32]。

在第二和第三個維度上,軟件劃分策略是硬件有效利用的關(guān)鍵考慮因素。通過結(jié)合模型和數(shù)據(jù)并行技術(shù),2022年使用MT-NLG的Nvidia芯片集群級別的LLM訓(xùn)練的模型FLOPS利用率達到了30.2%[33],而使用GPT-3的模型FLOPS利用率在2020年只有21.3%:

63736044-ad33-11ed-bfe3-dac502259ad0.jpg

選擇LLM的模型FLOPS利用率(PaLM:使用路徑擴展語言建模)

TPU等專用硬件實現(xiàn)了更高的效率。

谷歌5400億參數(shù)的PaLM模型在TPU v4芯片上實現(xiàn)了46.2%的模型FLOPS利用率,是GPT-3訓(xùn)練利用率的2.2倍[34]

FLOPS利用率的提高得益于更高效的并行訓(xùn)練(使用Google的Pathways ML系統(tǒng))以及從根本上TPU具有完全不同的架構(gòu)。該芯片的脈動陣列結(jié)構(gòu)和每個內(nèi)核的顯著的本地內(nèi)存密度(local memory density)降低了高延遲全局內(nèi)存(global memory)的讀取頻率。

同樣地,我們可以看到Cerebras、Graphcore和SambaNova等公司在處理器中分配了更多的共享內(nèi)存容量。展望未來,我們預(yù)計其他新興創(chuàng)新,例如將芯片擴展到晶圓級以減少延遲/增加帶寬,或通過可編程單元優(yōu)化數(shù)據(jù)訪問模式等將進一步推動硬件利用率的發(fā)展[35]。

6 大型語言模型即將迎來全盛時期

據(jù)《紐約時報》近日報道,谷歌宣稱ChatGPT是其搜索業(yè)務(wù)的“紅色警報”( code red),它的搜索量呈病毒式發(fā)展。

[36]從經(jīng)濟角度來看,通過粗略估算,將高性能LLM納入搜索將花費約15%的查詢收入,這表明該技術(shù)的部署已經(jīng)切實可行。然而,谷歌的市場主導(dǎo)地位阻礙了它成為這方面的先行者:谷歌目前的搜索收入為1000億美元,將高性能LLM納入搜索會使谷歌的盈利能力減少一百多億美元。

另一方面,也就難怪微軟會計劃將大語言模型納入Bing了[37]。盡管LLM支持的搜索成本高于傳統(tǒng)搜索,并且與谷歌相比,微軟搜索引擎的市場份額要低得多,但是微軟并未虧損。因此,如果微軟能夠成功地從谷歌手中奪取搜索市場份額,那么即使現(xiàn)有查詢成本更高,微軟仍然能夠獲得極高的利潤。

有趣的是,對于其他產(chǎn)品,通過部署LLM已經(jīng)可以通過SaaS來盈利。例如,最近估值為15億美元、使用LLM生成文案的Jasper.ai收費為82美元/100000字(相當(dāng)于1.09美元/1000個token)[38]。使用OpenAI的Davinci API 定價為 0.02美元/1000個token,即使我們對多個響應(yīng)(response)進行采樣,毛利率也可能遠高于75%。

同樣令人驚訝的是,如今在公有云中僅需約140萬美元即可對GPT-3進行訓(xùn)練,而且即使是SOTA模型(如PaLM,約1120萬美元)的訓(xùn)練成本也不會太高。在過去的兩年半里,類似GPT-3等模型的訓(xùn)練成本下降了80%以上,高性能大語言模型的訓(xùn)練成本將進一步降低。

換句話說,訓(xùn)練大語言模型并不便宜,但也沒那么燒錢,訓(xùn)練大語言模型需要大量的前期投入,但這些投入會逐年獲得回報。更近一步,Chinchilla論文表明,在未來,相比資金,高質(zhì)量數(shù)據(jù)會成為訓(xùn)練LLM的新興稀缺資源之一,因為擴展模型參數(shù)數(shù)量帶來的回報是遞減的。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4749

    瀏覽量

    100434
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8357

    瀏覽量

    132328
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1547

    瀏覽量

    7386

原文標(biāo)題:ChatGPT背后的經(jīng)濟賬

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

評論

相關(guān)推薦

怎樣搭建基于 ChatGPT 的聊天系統(tǒng)

搭建一個基于ChatGPT的聊天系統(tǒng)是一個涉及多個步驟的過程,包括理解ChatGPT的API、設(shè)計用戶界面、處理數(shù)據(jù)和集成ChatGPT模型。以下是一個簡化的指南,用于創(chuàng)建一個基本的聊天系統(tǒng)。 1.
的頭像 發(fā)表于 10-25 16:23 ?383次閱讀

ChatGPT 適合哪些行業(yè)

ChatGPT 是一種基于人工智能的自然語言處理技術(shù),它能夠理解和生成人類語言。這種技術(shù)在多個行業(yè)中都有廣泛的應(yīng)用潛力。以下是一些ChatGPT特別適合的行業(yè),以及它在這些行業(yè)中可能的應(yīng)用方式
的頭像 發(fā)表于 10-25 16:11 ?345次閱讀

如何使用 ChatGPT 進行內(nèi)容創(chuàng)作

使用ChatGPT進行內(nèi)容創(chuàng)作是一個高效且富有創(chuàng)意的過程。以下是一些關(guān)鍵步驟和建議,幫助您充分利用ChatGPT進行內(nèi)容創(chuàng)作: 一、準(zhǔn)備階段 注冊與登錄 : 確保您已注冊ChatGPT賬號,并登錄
的頭像 發(fā)表于 10-25 16:08 ?325次閱讀

華納云:ChatGPT 登陸 Windows

ChatGPT 現(xiàn)已在 Windows 上推出。 今天,OpenAI宣布已開始預(yù)覽其 AI 聊天機器人平臺ChatGPT的專用 Windows 應(yīng)用程序。 OpenAI 表示, ChatGPT
的頭像 發(fā)表于 10-18 15:50 ?186次閱讀

ChatGPT背后的AI背景、技術(shù)門道和商業(yè)應(yīng)用

作者:京東科技 李俊兵 各位看官好,我是球神(江湖代號)。 自去年11月30日ChatGPT問世以來,迅速爆火出圈。 起初我依然以為這是和當(dāng)年Transformer, Bert一樣的“熱點”模型
的頭像 發(fā)表于 10-18 15:42 ?1707次閱讀
<b class='flag-5'>ChatGPT</b><b class='flag-5'>背后</b>的AI背景、技術(shù)門道和商業(yè)應(yīng)用

用launch pad燒錄chatgpt_demo項目會有api key報錯的原因?

我用launch pad燒錄chatgpt_demo項目問題會有api key報錯;請問用launch pad要如何設(shè)置api key和調(diào)試?還是只能通過idf?
發(fā)表于 06-27 07:59

使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因?

我使用espbox lite進行chatgpt_demo的燒錄 我的idf是v5.1release版本的,espbox是master版本的 在編譯時似乎沒有什么問題 在燒錄時報錯 請問這是什么原因
發(fā)表于 06-11 08:45

OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

當(dāng)?shù)貢r間5月13日OpenAI推出ChatGPT-4o,代表了人工智能向前邁出的一大步。在GPT-4turbo的強大基礎(chǔ)上,這種迭代擁有顯著的改進。在發(fā)布會的演示中,OpenAI展示該模型的高級
發(fā)表于 05-27 15:43

在FPGA設(shè)計中是否可以應(yīng)用ChatGPT生成想要的程序呢

當(dāng)下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,F(xiàn)PGA設(shè)計中,是否也可以用ChatGPT輔助設(shè)計呢?
發(fā)表于 03-28 23:41

【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】(原創(chuàng))6.FPGA連接ChatGPT 4

OMAP-L138(定點/浮點DSP C674x+ARM9)+ FPGA處理器的開發(fā)板。 編寫一個用于FPGA訪問ChatGPT 4的程序代碼是一個相當(dāng)復(fù)雜的任務(wù),涉及到硬件設(shè)計、網(wǎng)絡(luò)通信、數(shù)據(jù)處理等多個
發(fā)表于 02-14 21:58

芯科技,解密ChatGPT暢聊之算力芯片

在今日飛速發(fā)展的科技浪潮中,OpenAI的ChatGPT如一顆璀璨明星,引領(lǐng)著智能對話的新潮流。ChatGPT不僅是一款聊天機器人程序,它背后的驅(qū)動力是一個龐大而復(fù)雜的算力網(wǎng)絡(luò)。這個網(wǎng)絡(luò)依賴于先進
的頭像 發(fā)表于 12-27 07:45 ?915次閱讀
芯科技,解密<b class='flag-5'>ChatGPT</b>暢聊之算力芯片

ChatGPT原理 ChatGPT模型訓(xùn)練 chatgpt注冊流程相關(guān)簡介

ChatGPT注冊沒有外國手機號驗證怎么辦? ChatGPT作為近期火爆網(wǎng)絡(luò)的AI項目,受到了前所未有的關(guān)注。我們可以與AI機器人實時聊天,獲得問題的答案。但受ChatGPT服務(wù)器及相關(guān)政策
的頭像 發(fā)表于 12-06 16:28 ?823次閱讀
<b class='flag-5'>ChatGPT</b>原理 <b class='flag-5'>ChatGPT</b>模型訓(xùn)練 <b class='flag-5'>chatgpt</b>注冊流程相關(guān)簡介

最新ChatGPT詳細注冊圖文解說教程 ChatGPT賬號注冊詳細步驟分析

2024年注冊ChatGPT詳細教程,手把手教你完成ChatGPT的注冊
的頭像 發(fā)表于 12-04 17:18 ?8590次閱讀
最新<b class='flag-5'>ChatGPT</b>詳細注冊圖文解說教程  <b class='flag-5'>ChatGPT</b>賬號注冊詳細步驟分析

ChatGPT如何影響“下一代戰(zhàn)爭”

一是決策支持參謀。ChatGPT受人工智能驅(qū)動,能夠不知疲倦地、近乎無限地輸出產(chǎn)品和完成復(fù)雜工作,隱藏在強大人機交互過程背后的大數(shù)據(jù)采集和分析,其廣度和深度為軍事決策者所青睞,可以直接嵌入一體化聯(lián)合作戰(zhàn)。
的頭像 發(fā)表于 11-23 17:07 ?814次閱讀

不到1分鐘開發(fā)一個GPT應(yīng)用!各路大神瘋狂整活,網(wǎng)友:ChatGPT就是新iPhone

這個說法并不準(zhǔn)確。盡管ChatGPT等語言模型已經(jīng)在一定程度上改變了我們獲取信息、學(xué)習(xí)知識的方式,但它們并不能替代人類進行創(chuàng)造性思考和創(chuàng)造性活動。 雖然一些人可能會利用ChatGPT等語言模型快速
發(fā)表于 11-19 12:06