ChatGPT能否取代Google、百度這樣的傳統(tǒng)搜索引擎?為什么中國不能很快做出ChatGPT?當(dāng)前,對這些問題的探討大多囿于大型語言模型(LLM)的技術(shù)可行性,忽略或者非常粗糙地估計了實現(xiàn)這些目標(biāo)背后的經(jīng)濟成本,從而造成對LLM的開發(fā)和應(yīng)用偏離實際的誤判。
本文作者從經(jīng)濟學(xué)切入,詳細推導(dǎo)了類ChatGPT模型搜索的成本、訓(xùn)練GPT-3以及繪制LLM成本軌跡的通用框架,為探討LLM成本結(jié)構(gòu)和其未來發(fā)展提供了可貴的參考視角。
重點概覽:
LLM驅(qū)動的搜索已經(jīng)在經(jīng)濟上可行:粗略估計,在現(xiàn)有搜索成本結(jié)構(gòu)的基礎(chǔ)上,高性能LLM驅(qū)動搜索的成本約占當(dāng)下預(yù)估廣告收入/查詢的15%。
但經(jīng)濟可行并不意味著經(jīng)濟合理:LLM驅(qū)動搜索的單位經(jīng)濟性是有利可圖的,但對于擁有超1000億美元搜索收入的現(xiàn)有搜索引擎來說,添加此功能可能意味著超100億美元的額外成本。
其他新興的LLM驅(qū)動業(yè)務(wù)利潤很高:比如Jasper.ai使用LLM生成文案,很可能有SaaS服務(wù)那樣的毛利率(超75%)。
對于大公司而言,訓(xùn)練LLM(即使是從頭開始)的成本并不高:如今,在公有云中訓(xùn)練GPT-3僅需花費約140萬美元,即使是像PaLM這樣最先進的模型也只需花費約1120萬美元。
LLM的成本可能會顯著下降:自GPT-3發(fā)布的兩年半時間里,與GPT-3性能相當(dāng)?shù)哪P偷挠?xùn)練和推理成本下降了約80%。
數(shù)據(jù)是LLM性能的新瓶頸:與增加高質(zhì)量訓(xùn)練數(shù)據(jù)集的大小相比,增加模型參數(shù)的數(shù)量能獲得的邊際收益越來越小。
1 動機
LLM的驚人表現(xiàn)引發(fā)了人們的廣泛猜想,這些猜想主要包括LLM可能引發(fā)的新興商業(yè)模式和對現(xiàn)有模式的影響。
搜索是一個有趣的機會,2021年,僅谷歌就從搜索相關(guān)的廣告中獲得了超1000億美元的收入[1]。ChatGPT(一個使用LLM的聊天機器人,它可以生成高質(zhì)量的答案,以回答類似于搜索的查詢)的“病毒性”傳播已經(jīng)引發(fā)了許多關(guān)于搜索領(lǐng)域潛在影響的思考,其中一個就是LLM如今的經(jīng)濟可行性:
一位聲稱是谷歌員工的人在HackerNews上表示,要想實施由LLM驅(qū)動的搜索,需要先將其成本降低10倍。
與此同時,微軟預(yù)計將在3月份推出LLM版本的Bing[3],而搜索初創(chuàng)公司如You.com已經(jīng)將該技術(shù)嵌入到了他們的產(chǎn)品之中[4]。
最近,《紐約時報》報道,谷歌將在今年推出帶有聊天機器人功能的搜索引擎[5]。
更廣泛的問題是:將LLM納入當(dāng)前產(chǎn)品和新產(chǎn)品的經(jīng)濟可行性如何?在本文中,我們梳理了當(dāng)今LLM的成本結(jié)構(gòu),并分析其未來可能的發(fā)展趨勢。
2 重溫LLM工作原理
盡管后續(xù)章節(jié)的技術(shù)性更強,但這篇文章對機器學(xué)習(xí)熟悉程度不做要求,即使不熟悉這方面內(nèi)容的人也可以放心閱讀。為了說明LLM的特殊之處,現(xiàn)做一個簡要復(fù)習(xí)。
語言模型在給定上下文的情況下,對可能輸出的token作出預(yù)測:
自回歸語言模型(Autoregressive Language Model)輸入上下文和輸出內(nèi)容的圖示(在實踐中,token通常是子詞:即“happy”可能被分解為兩個token,例如“hap”、“-py”)
為了生成文本,語言模型根據(jù)輸出token的概率重復(fù)采樣新token。例如,在像ChatGPT這樣的服務(wù)中,模型從一個初始prompt開始,該prompt將用戶的查詢作為上下文,并生成token來構(gòu)建響應(yīng)(response)。新token生成后,會被附加到上下文窗口以提示下一次迭代。
語言模型已經(jīng)存在了幾十年。當(dāng)下LLM性能的背后是數(shù)十億參數(shù)的高效深度神經(jīng)網(wǎng)絡(luò)(DNN)驅(qū)動。參數(shù)是用于訓(xùn)練和預(yù)測的矩陣權(quán)重,浮點運算(FLOPS)的數(shù)值通常與參數(shù)數(shù)量(parameter count)成比例。這些運算是在針對矩陣運算優(yōu)化的處理器上計算的,例如GPU、TPU和其他專用芯片。
隨著LLM參數(shù)量呈指數(shù)增長,這些操作需要更多的計算資源,這是導(dǎo)致LLM成本增加的潛在原因。
3 LLM驅(qū)動搜索的成本
本節(jié),我們將估算運行LLM驅(qū)動搜索引擎的成本。應(yīng)該如何實施這樣的搜索引擎仍是一個活躍的研究領(lǐng)域,我們這里主要考慮兩種方法來評估提供此類服務(wù)的成本范圍:
ChatGPT Equivalent:一個在龐大訓(xùn)練數(shù)據(jù)集上訓(xùn)練的LLM,它會將訓(xùn)練期間的知識存儲到模型參數(shù)中。在推理過程中(使用模型生成輸出),LLM無法訪問外部知識[6]。
這種方法有如下兩大缺點:
容易“幻想”事實。
模型知識滯后,僅包含最后訓(xùn)練日期之前的可用信息。
2-Stage Search Summarizer:一種架構(gòu)上類似的LLM,可以在推理時訪問Google或Bing等傳統(tǒng)搜索引擎。在這種方法的第一階段,我們通過搜索引擎運行查詢以檢索前K個結(jié)果。在第二階段,通過LLM運行每個結(jié)果以生成K個響應(yīng),該模型再將得分最高的響應(yīng)返回給用戶[7]。
相比ChatGPT Equivalent,這種方法的優(yōu)點是:
能夠從檢索到的搜索結(jié)果中引用其來源。
能獲取最新信息。
然而,對于相同參數(shù)數(shù)量的LLM,這種方法需要更高的計算成本。使用這種方法的成本也增加了搜索引擎的現(xiàn)有成本,因為我們在現(xiàn)有搜索引擎的結(jié)果上增加了LLM。
一階近似:基礎(chǔ)模型API
最直接的成本估算方法是參考市場上現(xiàn)有基礎(chǔ)模型API的標(biāo)價,這些服務(wù)的定價包括成本的溢價部分,這部分是供應(yīng)商的利潤來源。一個代表性的服務(wù)是OpenAI,它提供基于LLM的文本生成服務(wù)。
OpenAI的Davinci API由GPT-3的1750億參數(shù)版本提供支持,與支持ChatGPT的GPT-3.5模型具有相同的參數(shù)數(shù)量[8] ?,F(xiàn)在用該模型進行推理的價格約為0.02美元/750個單詞(0.02美元/1000個token,其中1000token約等于750個單詞);用于計算定價的單詞總數(shù)包括輸入和輸出[9]。
按模型功能劃分的基礎(chǔ)模型API定價 (OpenAI)
我們這里做了一些簡單假設(shè)來估計將支付給OpenAI的搜索服務(wù)費用:
在ChatGPT equivalent的實現(xiàn)中,我們假設(shè)該服務(wù)平均針對50字的prompt生成400字的響應(yīng)。為了產(chǎn)生更高質(zhì)量的結(jié)果,我們還假設(shè)模型對每個查詢采樣5個響應(yīng),從中選擇最佳響應(yīng)。因此:
在2-Stage Search Summarizer的實現(xiàn)中,響應(yīng)生成過程是相似的。然而:
提示明顯更長,因為它同時包含查詢和搜索結(jié)果中的相關(guān)部分
為每K個搜索結(jié)果生成一個單獨的LLM響應(yīng)
假設(shè)K = 10并且搜索結(jié)果中的每個相關(guān)部分平均為1000個單詞:
假設(shè)優(yōu)化的緩存命中率為30%(谷歌歷史搜索緩存命中率的下限[10])和OpenAI云服務(wù)的毛利率為75%(與典型的SaaS服務(wù)一致),我們的一階估計意味著:
按照數(shù)量級,ChatGPT Equivalent服務(wù)的預(yù)計云計算成本為0.010美元/次,與公眾評論一致:
OpenAI首席執(zhí)行官Sam Altman談ChatGPT每次聊天的成本([推特](https://twitter.com/sama/status/1599671496636780546?lang=en)
鑒于ChatGPT Equivalent的上述缺點(即幻想事實、模型信息陳舊),在實際操作中,LLM驅(qū)動搜索引擎的開發(fā)者更可能部署2-Stage Search Summarizer變體。
2012年,谷歌搜索主管表示,其搜索引擎每月處理的搜索次數(shù)達1000億次[11]。世界銀行數(shù)據(jù)顯示:全球互聯(lián)網(wǎng)普及率已從2012年的34%上升到了2020年的60%[12]。假設(shè)搜索量按比例增長,則預(yù)計其年均搜索量將達2.1萬億次,與搜索相關(guān)的收入將達約1000億美元[13],平均每次搜索的收入為0.048美元。
換句話說,2-Stage Search Summarizer的查詢成本為0.066美元/次,約為每次查詢收入0.048美元的1.4倍。
通過以下優(yōu)化,預(yù)估成本大約會降至原來的1/4:1、量化(使用較低精度的數(shù)據(jù)類型) 2、知識蒸餾(通過學(xué)習(xí)較大的模型去訓(xùn)練一個較小的模型) 3、訓(xùn)練更小的“計算優(yōu)化”模型,該模型具有相同的性能(稍后將對此展開更詳細的討論)
假設(shè)云計算的毛利率約為50%,與依賴云服務(wù)提供商相比,運行自建(內(nèi)部)基礎(chǔ)設(shè)施(infrastructure in-house)會使成本降低至當(dāng)前的1/2。
綜合以上改進,降低至原有成本的1/8之后,在搜索中融入高性能LLM的成本大約占據(jù)當(dāng)前查詢收入的15%(現(xiàn)有的基礎(chǔ)設(shè)施成本除外)。(注:成本最低可降至 0.066 美元/次 * 1/4 * 1/2, 約定于0.008美元,因此大約占每次查詢收入 0.048 美元的 15%)
深度解析:云計算成本
如今,SOTA大型語言模型通常會用到可比較的模型架構(gòu)(最常見的是僅包含解碼器的Transformer模型),在推理過程中每個token的計算成本(以FLOPs為指標(biāo))約為2N,其中N為模型參數(shù)數(shù)量(model parameter count)[14]。
目前,NVIDIA A100是AWS最具成本效益的GPU選擇,若預(yù)定1年使用該GPU,擁有8個A100的AWS P4實例的有效時薪(effective hourly rate)將達19.22美元。[15]每個A100提供峰值312 TFLOPS(萬億次浮點數(shù)/秒)FP16/FP32 混合精度吞吐量,這是LLM訓(xùn)練和推理的關(guān)鍵指標(biāo)[16]。FP16/FP32混合精度是指以16位格式(FP16)執(zhí)行操作,而以32位格式(FP32)存儲信息。由于FP16的開銷較低,混合精度不僅支持更高的FLOPS吞吐量,而且保持精確結(jié)果所需的數(shù)值穩(wěn)定性也會保持不變[17]。
假設(shè)模型的FLOPS利用率為21.3%,與訓(xùn)練期間的GPT-3保持一致(雖然最近越來越多的模型效率得以提升,但其FLOPS利用率對于低延遲推理而言仍充滿挑戰(zhàn))[18]。因此,對于像GPT-3這樣擁有1750億參數(shù)的模型:
我們也應(yīng)用了基于GCP TPU v4定價( GCP TPU v4 pricing)相同的計算方法,并得到了相似的結(jié)果[19]:
預(yù)估GPT-3通過云服務(wù)提供商 (AWS, GCP)每處理1000個token所需的推理成本
OpenAI的API定價為0.02美元/1000詞,但我們估計其成本約為0.0035美元/1000詞,占定價的20%左右。這就意味著:對于一臺一直運行的機器而言,其毛利率約為80%。這一估算與我們之前設(shè)想的75%毛利率大致相同,進而為ChatGPT Equivalent和2-Stage Search Summarizer搜索成本估算提供了合理性驗證(sanity check)。
4 訓(xùn)練成本如何?
另一個熱門話題是GPT-3(擁有1750億參數(shù))或最新的LLM(如擁有2800億參數(shù)的Gopher和擁有5400億參數(shù)的PaLM)的訓(xùn)練成本?;趨?shù)數(shù)量和token數(shù)量,我們構(gòu)建了一個用于估算計算成本的框架,雖然稍作修改,但同樣適用于此:
每個token的訓(xùn)練成本通常約為6N(而推理成本約為2N),其中N是LLM的參數(shù)數(shù)量[20]
假設(shè)在訓(xùn)練過程中,模型的FLOPS利用率為46.2% (而在之前的推理過程中,模型的FLOPS利用率約為21.3%),與在TPU v4芯片上進行訓(xùn)練的PaLM模型(擁有5400億參數(shù))一致[21]。
1750億參數(shù)模型的GPT-3是在3000億token上進行訓(xùn)練的。谷歌使用了GCP TPU v4芯片來訓(xùn)練PaLM模型,若我們現(xiàn)在也像谷歌那樣做,那么如今的訓(xùn)練成本僅為140萬美元左右。
此外,我們還將該框架應(yīng)用到一些更大的LLM模型中,以了解其訓(xùn)練成本。
預(yù)估LLM在GCP TPU v4芯片上的訓(xùn)練成本
5 繪制成本軌跡的通用框架
為了推導(dǎo)LLM的推理成本/訓(xùn)練成本,我們總結(jié)了如下框架:
密集激活純解碼器LLM模型Transformer(Densely Activated Decoder-Only Transformer LLMs)的推理成本和訓(xùn)練成本(其中“N”是模型參數(shù)數(shù)量,“processor”是指TPU、GPU或其他張量處理加速器)
因此,我們假設(shè)LLM的架構(gòu)相似,那么推理成本和訓(xùn)練成本將根據(jù)上述變量的變化而變化。雖然我們會詳細考慮每個變量,但是以下部分才是關(guān)鍵點:
自2020年GPT-3發(fā)布以來,使用與GPT-3一樣強大的模型進行訓(xùn)練和推理的成本大大降低,低于先前的五分之一。
相比2020年推出的GPT-3,與其性能對等的模型的推理與訓(xùn)練成本降低情況總結(jié)
參數(shù)數(shù)量效率:巨型語言模型參數(shù)每年增長10倍的神話
考慮到過去5年中模型參數(shù)呈指數(shù)增長,我們普遍猜測:下一代LLM模型很可能是萬億參數(shù)(密集激活)模型:
LLM中模型參數(shù)數(shù)量的增長
雖然LLM的參數(shù)數(shù)量每年約增長10倍,但是大多數(shù)模型訓(xùn)練數(shù)據(jù)集的大小并沒有顯著變化:
所選LLM的模型參數(shù)數(shù)量與訓(xùn)練token數(shù)量 (訓(xùn)練計算最優(yōu)大語言模型)
然而,最新文獻表明,假設(shè)計算資源和硬件利用率(即訓(xùn)練“計算最優(yōu)”模型)保持不變,關(guān)注擴展參數(shù)數(shù)量(scaling parameter count)并不是性能最大化的最佳方式:
Google DeepMind的研究人員將一個參數(shù)函數(shù)(parametric function)擬合到他們的實驗結(jié)果中,發(fā)現(xiàn)參數(shù)數(shù)量N的增速應(yīng)與訓(xùn)練token數(shù)量D的增長速度大致相同,從而讓模型損失L實現(xiàn)最小化(即性能最大化):
模型損失的參數(shù)函數(shù) (訓(xùn)練計算最優(yōu)大語言模型)
研究人員還訓(xùn)練了一個名為Chinchilla的模型(擁有700億的參數(shù))。雖然該模型的計算資源與Gopher(擁有2800億參數(shù))相同,但是該模型是在1.4萬億token上進行訓(xùn)練的而非3000億token。Chinchilla的性能明顯優(yōu)于擁有相同F(xiàn)LOPs預(yù)算的大型模型,從而證明了大多數(shù)LLM過度支出了計算量和對數(shù)據(jù)的渴望 (譯者注:換言之,對大多數(shù)LLM來說,使用更多的數(shù)據(jù)來訓(xùn)練比增大模型參數(shù)量要更加劃算)。
通過訓(xùn)練數(shù)據(jù)大小與模型參數(shù)來預(yù)測模型損失(錯誤更少:Chinchilla的自然環(huán)境含義)
雖然Chinchilla的參數(shù)(以及推理計算需求)比GPT-3少60%,但是其性能遠遠優(yōu)于擁有1750億參數(shù)的GPT-3模型。
實際上,即使我們用與GPT-3相同的3000億token數(shù)據(jù)集去訓(xùn)練一個萬億參數(shù)模型,仍可以預(yù)見該模型的表現(xiàn)不如Chinchilla:
萬億參數(shù)模型相應(yīng)損失項的相對量級(0.03的模型參數(shù)損失與0.25的訓(xùn)練token損失)也表明,通過增加模型大小獲得的邊際效益低于增加數(shù)據(jù)量獲得的邊際效益。
展望未來,我們不會繼續(xù)擴大模型參數(shù)數(shù)量,而是將增量計算資源(incremental computational resources)轉(zhuǎn)移到質(zhì)量相當(dāng)?shù)母髷?shù)據(jù)集上進行訓(xùn)練,以獲得極佳的性能。
Cost/FLOP效率
對于訓(xùn)練LLM而言,最重要的硬件性能指標(biāo)(hardware performance metric)是可實現(xiàn)的混合精度FP16/FP32 FLOPS。改進硬件旨在實現(xiàn)成本最小化,同時使得峰值FLOPS吞吐量和模型FLOPS利用率實現(xiàn)最大化。
雖然這兩個部分在硬件開發(fā)中密不可分,但為了讓分析變得更簡單,本節(jié)重點關(guān)注吞吐量,下一節(jié)再討論利用率。
目前,我們已經(jīng)通過查看云實例定價(cloud instance pricing)估算了Cost/FLOP效率。為了進行下一步探究,我們估算了運行以下機器的成本。主要包括以下兩個方面:1)硬件購買(hardware purchase) 2)能源支出(energy expense)。為說明這一點,我們再來看看GPT-3(一款由OpenAI推出的模型,該模型在Microsoft Azure的10000個V100 GPU上訓(xùn)練了14.8天)[22]:
2020年用英偉達V100 GPU訓(xùn)練GPT-3的成本(碳排放與大型神經(jīng)網(wǎng)絡(luò)訓(xùn)練)
黃仁勛定律(英偉達首席執(zhí)行官黃仁勛于2018年提出)指出,在硬件成本方面,GPU的增長速度比五年前快了25倍[23]。在訓(xùn)練LLM的背景下,GPU的性能得到了很大提升,這很大程度上得益于張量核心(Tensor Cores)(AMD采用的是矩陣核心(matrix cores))。此外,GPU不再將矢量作為計算原語,而是轉(zhuǎn)為矩陣,從而實現(xiàn)了性能更好、效率更高的混合精度計算。
2016年,NVIDIA通過V100數(shù)據(jù)中心GPU首次推出了張量核心。與最初引入的張量核心相比,雖然這一改進不太明顯,但是每一代張量核心都進一步提高了吞吐量。如今,對于用于訓(xùn)練LLM的數(shù)據(jù)中心GPU,我們?nèi)阅芸吹矫恳淮鶪PU的吞吐量都提升了50%(或者說年均吞吐量提升了22%左右)。
數(shù)據(jù)中心GPU FP16/FP32吞吐量/美元 (NVIDIA)
桌面GPU和數(shù)據(jù)中心GPU、按精度劃分的吞吐量/美元 (英偉達,深度學(xué)習(xí)推理中的計算和能源消耗趨勢)
能源效率提升得更快?,F(xiàn)在我們可以看到,用于訓(xùn)練LLM的數(shù)據(jù)中心GPU的代際吞吐量/瓦特提高了80%(或者說年均吞吐量提高了34%):
數(shù)據(jù)中心 GPU FP16/FP32 吞吐量/瓦特 (英偉達)
按精度劃分的桌面和數(shù)據(jù)中心GPU吞吐量/瓦特(英偉達,深度學(xué)習(xí)推理中的計算和能耗趨勢)
僅從V100(用于訓(xùn)練 GPT-3)到即將推出的H100的改進來看,我們預(yù)計內(nèi)部訓(xùn)練成本將降低58%(即訓(xùn)練成本由74.4萬美元降低到31.2萬美元)。
目前使用英偉達H100 GPU訓(xùn)練GPT-3的成本
展望未來,我們預(yù)測,隨著硬件設(shè)計的不斷創(chuàng)新,硬件成本和能效將逐步改進。例如,從V100到A100 GPU,NVIDIA添加了稀疏特性(sparsity features),這進一步將某些深度學(xué)習(xí)架構(gòu)的吞吐量提高了2倍[24] 。NVIDIA正在H100中添加對FP8數(shù)據(jù)類型的本地支持,當(dāng)與推理量化等現(xiàn)有技術(shù)相結(jié)合時,可以進一步提高吞吐量[25]。
此外,TPU和其他專用芯片的出現(xiàn)從根本上重塑了深度學(xué)習(xí)用例的芯片架構(gòu)。谷歌的TPU建立在脈動陣列結(jié)構(gòu)(systolic array architecture)之上,可顯著減少寄存器使用,提高吞吐量[26]。正如下一節(jié)將提到的,隨著我們將訓(xùn)練和推理擴展到大型參數(shù)模型,最近許多硬件都著力于提高利用率。
硬件利用率提升
出于內(nèi)存需求,LLM訓(xùn)練的主要挑戰(zhàn)之一就是將這些模型從單個芯片擴展到多個系統(tǒng)和集群級別。在典型的LLM訓(xùn)練中,設(shè)置保存優(yōu)化器狀態(tài)、梯度和參數(shù)所需的內(nèi)存為20N,其中N是模型參數(shù)數(shù)量[27]。
因此,BERT-Large(2018年早期的LLM之一,擁有3.4億參數(shù))僅需6.8GB內(nèi)存,就可輕松裝入單個桌面級GPU。另一方面,對于像GPT-3這樣的1750億參數(shù)模型,內(nèi)存要求轉(zhuǎn)換為3.5TB。同時,NVIDIA最新的數(shù)據(jù)中心 GPU(H100)僅包含80GB的高帶寬內(nèi)存(HBM),這表明至少需要44個H100才能滿足GPT-3的內(nèi)存要求。[28]此外,即使在10000個V100 GPU上訓(xùn)練GPT-3也需要14.8天。
因此,即使我們增加用于訓(xùn)練的芯片數(shù)量,F(xiàn)LOPS利用率也仍然需要保持高水平,這一點至關(guān)重要。
硬件利用率的第一個維度是在單芯片層面。在單個A100 GPU上訓(xùn)練GPT-2模型時,硬件利用率達35.7%[29]。事實證明,片上內(nèi)存(on-chip memory)和容量是硬件利用的瓶頸之一:處理器內(nèi)核中的計算需要重復(fù)訪問HBM,而帶寬不足會抑制吞吐量。同樣,有限的本地內(nèi)存容量會迫使從延遲較高的HBM進行更頻繁的讀取,從而限制吞吐量[30]。
硬件利用率的第二個維度與芯片到芯片的擴展有關(guān)。訓(xùn)練像GPT-3這樣的LLM模型需要跨多個GPU對模型和數(shù)據(jù)進行劃分。正如片上存儲器的帶寬可能成為硬件利用的瓶頸一樣,芯片間互連的帶寬也可能成為硬件利用的限制因素。隨著V100的發(fā)布,NVIDIA的NVLink實現(xiàn)了每個GPU 300GB/s的帶寬。對于A100來說,寬帶速度實現(xiàn)了600GB/s[31]。
硬件利用率的最后一個維度是系統(tǒng)到系統(tǒng)的擴展。一臺機器最多可容納16個GPU,因此擴展到更多數(shù)量的GPU要求跨系統(tǒng)的互連不能成為性能瓶頸。為此,Nvidia的Infiniband HCA在過去3年中將最大帶寬提高了2倍[32]。
在第二和第三個維度上,軟件劃分策略是硬件有效利用的關(guān)鍵考慮因素。通過結(jié)合模型和數(shù)據(jù)并行技術(shù),2022年使用MT-NLG的Nvidia芯片集群級別的LLM訓(xùn)練的模型FLOPS利用率達到了30.2%[33],而使用GPT-3的模型FLOPS利用率在2020年只有21.3%:
選擇LLM的模型FLOPS利用率(PaLM:使用路徑擴展語言建模)
TPU等專用硬件實現(xiàn)了更高的效率。
谷歌5400億參數(shù)的PaLM模型在TPU v4芯片上實現(xiàn)了46.2%的模型FLOPS利用率,是GPT-3訓(xùn)練利用率的2.2倍[34]
FLOPS利用率的提高得益于更高效的并行訓(xùn)練(使用Google的Pathways ML系統(tǒng))以及從根本上TPU具有完全不同的架構(gòu)。該芯片的脈動陣列結(jié)構(gòu)和每個內(nèi)核的顯著的本地內(nèi)存密度(local memory density)降低了高延遲全局內(nèi)存(global memory)的讀取頻率。
同樣地,我們可以看到Cerebras、Graphcore和SambaNova等公司在處理器中分配了更多的共享內(nèi)存容量。展望未來,我們預(yù)計其他新興創(chuàng)新,例如將芯片擴展到晶圓級以減少延遲/增加帶寬,或通過可編程單元優(yōu)化數(shù)據(jù)訪問模式等將進一步推動硬件利用率的發(fā)展[35]。
6 大型語言模型即將迎來全盛時期
據(jù)《紐約時報》近日報道,谷歌宣稱ChatGPT是其搜索業(yè)務(wù)的“紅色警報”( code red),它的搜索量呈病毒式發(fā)展。
[36]從經(jīng)濟角度來看,通過粗略估算,將高性能LLM納入搜索將花費約15%的查詢收入,這表明該技術(shù)的部署已經(jīng)切實可行。然而,谷歌的市場主導(dǎo)地位阻礙了它成為這方面的先行者:谷歌目前的搜索收入為1000億美元,將高性能LLM納入搜索會使谷歌的盈利能力減少一百多億美元。
另一方面,也就難怪微軟會計劃將大語言模型納入Bing了[37]。盡管LLM支持的搜索成本高于傳統(tǒng)搜索,并且與谷歌相比,微軟搜索引擎的市場份額要低得多,但是微軟并未虧損。因此,如果微軟能夠成功地從谷歌手中奪取搜索市場份額,那么即使現(xiàn)有查詢成本更高,微軟仍然能夠獲得極高的利潤。
有趣的是,對于其他產(chǎn)品,通過部署LLM已經(jīng)可以通過SaaS來盈利。例如,最近估值為15億美元、使用LLM生成文案的Jasper.ai收費為82美元/100000字(相當(dāng)于1.09美元/1000個token)[38]。使用OpenAI的Davinci API 定價為 0.02美元/1000個token,即使我們對多個響應(yīng)(response)進行采樣,毛利率也可能遠高于75%。
同樣令人驚訝的是,如今在公有云中僅需約140萬美元即可對GPT-3進行訓(xùn)練,而且即使是SOTA模型(如PaLM,約1120萬美元)的訓(xùn)練成本也不會太高。在過去的兩年半里,類似GPT-3等模型的訓(xùn)練成本下降了80%以上,高性能大語言模型的訓(xùn)練成本將進一步降低。
換句話說,訓(xùn)練大語言模型并不便宜,但也沒那么燒錢,訓(xùn)練大語言模型需要大量的前期投入,但這些投入會逐年獲得回報。更近一步,Chinchilla論文表明,在未來,相比資金,高質(zhì)量數(shù)據(jù)會成為訓(xùn)練LLM的新興稀缺資源之一,因為擴展模型參數(shù)數(shù)量帶來的回報是遞減的。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4749瀏覽量
100434 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8357瀏覽量
132328 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1547瀏覽量
7386
原文標(biāo)題:ChatGPT背后的經(jīng)濟賬
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論