0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)?

jf_23871869 ? 來(lái)源:jf_23871869 ? 作者:jf_23871869 ? 2024-11-08 14:15 ? 次閱讀

一,前言

AI領(lǐng)域,訓(xùn)練一個(gè)大型語(yǔ)言模型(LLM)是一個(gè)耗時(shí)且復(fù)雜的過(guò)程。幾乎每個(gè)做大型語(yǔ)言模型(LLM)訓(xùn)練的人都會(huì)被問(wèn)到:“從零開(kāi)始,訓(xùn)練大語(yǔ)言模型需要多久和花多少錢(qián)?”雖然網(wǎng)上有很多關(guān)于訓(xùn)練技巧和模型評(píng)估的文章,但很少有直接告訴你如何估算訓(xùn)練時(shí)間和成本的。前面分享了一些關(guān)于大模型/本地知識(shí)庫(kù)的安裝部署方法,無(wú)需編寫(xiě)代碼,即可使用Ollama+AnythingLLM搭建企業(yè)私有知識(shí)庫(kù),或者,三步完成Llama3.2在算力魔方的INT4量化和部署...本篇文章就教你一個(gè)簡(jiǎn)單的方法,幫你快速估算基于大語(yǔ)言模型權(quán)重大小、數(shù)據(jù)量以及可用GPU算力訓(xùn)練大語(yǔ)言模型所需的時(shí)間和成本。

二,估算方法

訓(xùn)練模型時(shí),處理數(shù)據(jù)和更新模型參數(shù)需要大量的計(jì)算,我們用浮點(diǎn)運(yùn)算次數(shù)(FLOPs)來(lái)表示。首先,我們要估算處理一個(gè)token所需的FLOPs,包括前向傳遞和反向傳遞兩個(gè)部分。

  • 前向傳遞:

每個(gè)token的前向傳遞涉及的加乘操作數(shù)大約為:

FLOPsforward= 2 x N2+2 x N x Dmodel

這里N表示模型的參數(shù)量,Dmodel是模型的維度。系數(shù)2來(lái)源于矩陣乘法中的累加操作。

  • 反向傳遞:

大約需要前向傳遞的兩倍計(jì)算量,因?yàn)橐?jì)算權(quán)重和激活值的梯度。

FLOPsbackward=(2 x N2+2 x N x Dmodel)x 2

  • 所以,一個(gè)token總的計(jì)算量大概是前向傳遞的三倍。因此,每個(gè)訓(xùn)練token的浮點(diǎn)運(yùn)算可以估算為:

FLOPstotal=(2 x N2+2 x N x Dmodel)x 3

三,GPU性能

現(xiàn)在大多數(shù)模型都是用GPU來(lái)訓(xùn)練的。不同的GPU有不同的性能,比如NVIDIA的H100、A100或V100。每個(gè)GPU的性能可以用每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)來(lái)衡量。不過(guò),實(shí)際訓(xùn)練時(shí),由于多GPU之間的通信等因素,實(shí)際性能可能達(dá)不到理論上的最高值。

GPU Model Peak FLOPS (FP32)
H100 67 TFLOPS
A100 19.5 TFLOPS
V100 14 TFLOPS

一個(gè)重要的概念是模型FLOPS利用率(MFU),它反映了實(shí)際計(jì)算效率與理論最大值的比例。通常情況下,隨著GPU數(shù)量的增加,MFU會(huì)下降。LLaMA 3的研究者們用16,000個(gè)GPU訓(xùn)練模型時(shí),每個(gè)GPU的實(shí)際效率為380 teraflops,MFU為38%。

wKgaoWctrHiAWQXlAAAUop8DYW8628.png

四,實(shí)際案例

1,l Llama 3 405B 參數(shù)模型

LLaMA 3.1(405B參數(shù))是在15.6萬(wàn)億token的數(shù)據(jù)集上訓(xùn)練的。訓(xùn)練這樣一個(gè)規(guī)模的模型所需的總FLOPs可以通過(guò)以下方式計(jì)算:

  • 模型大小N = 405B
  • 數(shù)據(jù)集大小P = 15.6T

模型使用了16,000個(gè)H100 GPU進(jìn)行訓(xùn)練。據(jù)了解,平均吞吐量為每個(gè)GPU 400 teraflops。這意味著訓(xùn)練基礎(chǔ)設(shè)施可以提供的總吞吐量為:

TotalThroughput

=400TFLOPs/GPU×16,000GPUs

=6.4ExaFLOPs

最后,通過(guò)將所需的總FLOPs除以可用吞吐量,并將結(jié)果轉(zhuǎn)換為天數(shù)(因?yàn)槲覀冋嬲P(guān)心的是訓(xùn)練天數(shù)),我們可以得到訓(xùn)練時(shí)間。

3.8 x 1025FLOPs ÷ 6.4 x1018FLOPs/秒 =61

2,成本估算

訓(xùn)練模型不僅耗時(shí),還非常昂貴。以LLaMA 3.1為例,如果一個(gè)H100 GPU每小時(shí)的費(fèi)用是2美元,那么用16,000個(gè)H100訓(xùn)練這個(gè)模型的總成本大約為2 x 24 x 61 x 16,000 = 46,848,000美元。

五,總結(jié)

訓(xùn)練大型語(yǔ)言模型是一項(xiàng)技術(shù)復(fù)雜且資金密集的任務(wù)。從零開(kāi)始,把一個(gè)LLaMA 3.1(405B參數(shù))的模型在15.6萬(wàn)億token數(shù)據(jù)集上訓(xùn)練出來(lái),大約需要花費(fèi)61天(假設(shè)沒(méi)有訓(xùn)練中斷)和46,848,000美元(僅估算GPU租金、數(shù)據(jù)集制作費(fèi)用和研發(fā)人力成本未計(jì)入),你算對(duì)了嗎?

更多精彩內(nèi)容請(qǐng)點(diǎn)擊下方名片,關(guān)注“算力魔方?”公眾號(hào)!


審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29845

    瀏覽量

    268146
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    502

    瀏覽量

    10236
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2282

    瀏覽量

    2370
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語(yǔ)言模型(LLM)是個(gè)復(fù)雜且資源密集的過(guò)程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專(zhuān)業(yè)知識(shí)。以下是
    的頭像 發(fā)表于 11-08 09:30 ?287次閱讀

    語(yǔ)言模型如何開(kāi)發(fā)

    語(yǔ)言模型的開(kāi)發(fā)是個(gè)復(fù)雜且細(xì)致的過(guò)程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計(jì)、訓(xùn)練、微調(diào)和部署等多個(gè)階段
    的頭像 發(fā)表于 11-04 10:14 ?57次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練自己的AI大模型個(gè)復(fù)雜且耗時(shí)的過(guò)程,涉及多個(gè)關(guān)鍵步驟。以下是個(gè)詳細(xì)的
    的頭像 發(fā)表于 10-23 15:07 ?412次閱讀

    摩爾線程與羽人科技完成大語(yǔ)言模型訓(xùn)練測(cè)試

    (YuRen-7b)大語(yǔ)言模型訓(xùn)練測(cè)試。測(cè)試結(jié)果顯示,訓(xùn)練效率達(dá)到預(yù)期,夸娥千卡智算集群展現(xiàn)出了高度的兼容性和穩(wěn)定性,為羽人科技未來(lái)的
    的頭像 發(fā)表于 08-27 16:19 ?472次閱讀

    使用AD8001放大個(gè)100mv左右的信號(hào),經(jīng)過(guò)放大的信號(hào)低電平都是三點(diǎn)幾伏,不能夠從零開(kāi)始,為什么?

    請(qǐng)問(wèn),如圖我想使用AD8001放大個(gè)100mv左右的信號(hào),然后使用比較器輸出信號(hào)進(jìn)行計(jì)數(shù),但是現(xiàn)在經(jīng)過(guò)放大的信號(hào)低電平都是三點(diǎn)幾伏,不能夠從零開(kāi)始,請(qǐng)問(wèn)這是什么原因呢?如圖,紅色是需要
    發(fā)表于 08-20 06:17

    語(yǔ)言模型的預(yù)訓(xùn)練

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)作為人工智能領(lǐng)域的個(gè)重要分支,取得了顯著的進(jìn)步。其中,大語(yǔ)言模型(Large Langu
    的頭像 發(fā)表于 07-11 10:11 ?367次閱讀

    llm模型訓(xùn)練般用什么系統(tǒng)

    LLM(Large Language Model,大型語(yǔ)言模型)是近年來(lái)在自然語(yǔ)言處理領(lǐng)域取得顯著成果的種深度學(xué)習(xí)模型。它通常
    的頭像 發(fā)表于 07-09 10:02 ?332次閱讀

    tensorflow簡(jiǎn)單的模型訓(xùn)練

    TensorFlow開(kāi)始,然后介紹如何構(gòu)建和訓(xùn)練個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型。 1. 安裝TensorFlow 首先,我們
    的頭像 發(fā)表于 07-05 09:38 ?478次閱讀

    語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    解鎖 我理解的是基于深度學(xué)習(xí),需要訓(xùn)練各種數(shù)據(jù)知識(shí)最后生成自己的的語(yǔ)言理解和能力的交互模型。 對(duì)于常說(shuō)的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色,耳真正厲害的是Transformer,此框架
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    類(lèi)任務(wù)上表現(xiàn)出色,甚至在樣本條件下也能取得良好效果。另類(lèi)則需要逐步推理才能完成的任務(wù),類(lèi)似于人類(lèi)的系統(tǒng)2,如數(shù)字推理等。然而,隨著參數(shù)量的增加,大語(yǔ)言
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

    訓(xùn)練數(shù)據(jù)時(shí),數(shù)量、質(zhì)量和多樣性三者缺不可。 數(shù)據(jù)的多樣性對(duì)于大語(yǔ)言模型至關(guān)重要,這主要體現(xiàn)在數(shù)據(jù)的類(lèi)別和來(lái)源兩個(gè)方面。豐富的數(shù)據(jù)類(lèi)別能夠
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    就無(wú)法修改,因此難以靈活應(yīng)用于下游文本的挖掘中。 詞嵌入表示:將每個(gè)詞映射為個(gè)低維稠密的實(shí)值向量。不同的是,基于預(yù)訓(xùn)練的詞嵌入表示先在語(yǔ)料庫(kù)中利用某種語(yǔ)言
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    的具體需求,這通常需要較少量的標(biāo)注數(shù)據(jù)。 多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí): LLMs利用在預(yù)訓(xùn)練中積累的知識(shí),可以通過(guò)遷移學(xué)習(xí)在相關(guān)任務(wù)上快速適應(yīng),有時(shí)還可以在個(gè)
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    用于文本生成,根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本,為故事創(chuàng)作等提供無(wú)限可能。大語(yǔ)言模型也面臨挑戰(zhàn)。方面,其計(jì)算資源需求巨大,訓(xùn)練和推理耗時(shí);另
    發(fā)表于 05-04 23:55

    中國(guó)批準(zhǔn)14個(gè)大語(yǔ)言模型供公眾使用,趕超美國(guó)AI進(jìn)程加速

    據(jù)鈦媒體報(bào)道,近期中國(guó)監(jiān)管部門(mén)已經(jīng)批準(zhǔn)了14個(gè)大語(yǔ)言模型公開(kāi)服務(wù),自啟動(dòng)審批流程至今剛好半年時(shí)間,已核準(zhǔn)40多個(gè)AI大型模型,顯示出我國(guó)在該領(lǐng)域的積極進(jìn)取,以期趕超美國(guó)。
    的頭像 發(fā)表于 01-30 09:40 ?822次閱讀