亚洲中文字永久幕乱码,中文在线最新版天堂

一，前言

在AI領(lǐng)域，訓(xùn)練一個(gè)大型語(yǔ)言模型（LLM）是一個(gè)耗時(shí)且復(fù)雜的過(guò)程。幾乎每個(gè)做大型語(yǔ)言模型（LLM）訓(xùn)練的人都會(huì)被問(wèn)到：“從零開(kāi)始，訓(xùn)練大語(yǔ)言模型需要多久和花多少錢(qián)？”雖然網(wǎng)上有很多關(guān)于訓(xùn)練技巧和模型評(píng)估的文章，但很少有直接告訴你如何估算訓(xùn)練時(shí)間和成本的。前面分享了一些關(guān)于大模型/本地知識(shí)庫(kù)的安裝部署方法，無(wú)需編寫(xiě)代碼，即可使用Ollama+AnythingLLM搭建企業(yè)私有知識(shí)庫(kù)，或者，三步完成Llama3.2在算力魔方的INT4量化和部署...本篇文章就教你一個(gè)簡(jiǎn)單的方法，幫你快速估算基于大語(yǔ)言模型權(quán)重大小、數(shù)據(jù)量以及可用GPU算力訓(xùn)練大語(yǔ)言模型所需的時(shí)間和成本。

二，估算方法

訓(xùn)練模型時(shí)，處理數(shù)據(jù)和更新模型參數(shù)需要大量的計(jì)算，我們用浮點(diǎn)運(yùn)算次數(shù)（FLOPs）來(lái)表示。首先，我們要估算處理一個(gè)token所需的FLOPs，包括前向傳遞和反向傳遞兩個(gè)部分。

前向傳遞：

每個(gè)token的前向傳遞涉及的加乘操作數(shù)大約為：

FLOPsforward= 2 x N2+2 x N x Dmodel

這里N表示模型的參數(shù)量，Dmodel是模型的維度。系數(shù)2來(lái)源于矩陣乘法中的累加操作。

反向傳遞：

大約需要前向傳遞的兩倍計(jì)算量，因?yàn)橐?jì)算權(quán)重和激活值的梯度。

FLOPsbackward=（2 x N2+2 x N x Dmodel）x 2

所以，一個(gè)token總的計(jì)算量大概是前向傳遞的三倍。因此，每個(gè)訓(xùn)練token的浮點(diǎn)運(yùn)算可以估算為：

FLOPstotal=（2 x N2+2 x N x Dmodel）x 3

三，GPU性能

現(xiàn)在大多數(shù)模型都是用GPU來(lái)訓(xùn)練的。不同的GPU有不同的性能，比如NVIDIA的H100、A100或V100。每個(gè)GPU的性能可以用每秒浮點(diǎn)運(yùn)算次數(shù)（FLOPS）來(lái)衡量。不過(guò)，實(shí)際訓(xùn)練時(shí)，由于多GPU之間的通信等因素，實(shí)際性能可能達(dá)不到理論上的最高值。

GPU Model	Peak FLOPS (FP32)
H100	67 TFLOPS
A100	19.5 TFLOPS
V100	14 TFLOPS

一個(gè)重要的概念是模型FLOPS利用率（MFU），它反映了實(shí)際計(jì)算效率與理論最大值的比例。通常情況下，隨著GPU數(shù)量的增加，MFU會(huì)下降。LLaMA 3的研究者們用16,000個(gè)GPU訓(xùn)練模型時(shí)，每個(gè)GPU的實(shí)際效率為380 teraflops，MFU為38%。

四,實(shí)際案例

1，l Llama 3 405B 參數(shù)模型

LLaMA 3.1（405B參數(shù)）是在15.6萬(wàn)億token的數(shù)據(jù)集上訓(xùn)練的。訓(xùn)練這樣一個(gè)規(guī)模的模型所需的總FLOPs可以通過(guò)以下方式計(jì)算：

模型大小N = 405B
數(shù)據(jù)集大小P = 15.6T

模型使用了16,000個(gè)H100 GPU進(jìn)行訓(xùn)練。據(jù)了解，平均吞吐量為每個(gè)GPU 400 teraflops。這意味著訓(xùn)練基礎(chǔ)設(shè)施可以提供的總吞吐量為：

TotalThroughput

=400TFLOPs/GPU×16,000GPUs

=6.4ExaFLOPs

最后，通過(guò)將所需的總FLOPs除以可用吞吐量，并將結(jié)果轉(zhuǎn)換為天數(shù)（因?yàn)槲覀冋嬲P(guān)心的是訓(xùn)練天數(shù)），我們可以得到訓(xùn)練時(shí)間。

3.8 x 1025FLOPs ÷ 6.4 x1018FLOPs/秒 =61天

2，成本估算

訓(xùn)練模型不僅耗時(shí)，還非常昂貴。以LLaMA 3.1為例，如果一個(gè)H100 GPU每小時(shí)的費(fèi)用是2美元，那么用16,000個(gè)H100訓(xùn)練這個(gè)模型的總成本大約為2 x 24 x 61 x 16,000 = 46,848,000美元。

五，總結(jié)

訓(xùn)練大型語(yǔ)言模型是一項(xiàng)技術(shù)復(fù)雜且資金密集的任務(wù)。從零開(kāi)始，把一個(gè)LLaMA 3.1（405B參數(shù)）的模型在15.6萬(wàn)億token數(shù)據(jù)集上訓(xùn)練出來(lái)，大約需要花費(fèi)61天(假設(shè)沒(méi)有訓(xùn)練中斷)和46,848,000美元(僅估算GPU租金、數(shù)據(jù)集制作費(fèi)用和研發(fā)人力成本未計(jì)入)，你算對(duì)了嗎？

更多精彩內(nèi)容請(qǐng)點(diǎn)擊下方名片，關(guān)注“算力魔方?”公眾號(hào)！

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
29845

瀏覽量
268146
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
502

瀏覽量
10236
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2282

瀏覽量
2370

評(píng)論

相關(guān)推薦

如何訓(xùn)練自己的LLM模型

訓(xùn)練自己的大型語(yǔ)言模型（LLM）是一個(gè)復(fù)雜且資源密集的過(guò)程，涉及到大量的數(shù)據(jù)、計(jì)算資源和專(zhuān)業(yè)知識(shí)。以下是

發(fā)表于 11-08 09:30 ?287次閱讀

大語(yǔ)言模型如何開(kāi)發(fā)

大語(yǔ)言模型的開(kāi)發(fā)是一個(gè)復(fù)雜且細(xì)致的過(guò)程，涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計(jì)、訓(xùn)練、微調(diào)和部署等多個(gè)階段

發(fā)表于 11-04 10:14 ?57次閱讀

如何訓(xùn)練自己的AI大模型

訓(xùn)練自己的AI大模型是一個(gè)復(fù)雜且耗時(shí)的過(guò)程，涉及多個(gè)關(guān)鍵步驟。以下是一個(gè)詳細(xì)的

發(fā)表于 10-23 15:07 ?412次閱讀

摩爾線程與羽人科技完成大語(yǔ)言模型訓(xùn)練測(cè)試

（YuRen-7b）大語(yǔ)言模型的訓(xùn)練測(cè)試。測(cè)試結(jié)果顯示，訓(xùn)練效率達(dá)到預(yù)期，夸娥千卡智算集群展現(xiàn)出了高度的兼容性和穩(wěn)定性，為羽人科技未來(lái)的零代

發(fā)表于 08-27 16:19 ?472次閱讀

使用AD8001放大一個(gè)100mv左右的信號(hào)，經(jīng)過(guò)放大的信號(hào)低電平都是三點(diǎn)幾伏，不能夠從零開(kāi)始，為什么？

請(qǐng)問(wèn)，如圖我想使用AD8001放大一個(gè)100mv左右的信號(hào)，然后使用比較器輸出信號(hào)進(jìn)行計(jì)數(shù)，但是現(xiàn)在經(jīng)過(guò)放大的信號(hào)低電平都是三點(diǎn)幾伏，不能夠從零開(kāi)始，請(qǐng)問(wèn)這是什么原因呢？如圖，紅色是需要

發(fā)表于 08-20 06:17

大語(yǔ)言模型的預(yù)訓(xùn)練

隨著人工智能技術(shù)的飛速發(fā)展，自然語(yǔ)言處理（NLP）作為人工智能領(lǐng)域的一個(gè)重要分支，取得了顯著的進(jìn)步。其中，大語(yǔ)言模型（Large Langu

發(fā)表于 07-11 10:11 ?367次閱讀

llm模型訓(xùn)練一般用什么系統(tǒng)

LLM（Large Language Model，大型語(yǔ)言模型）是近年來(lái)在自然語(yǔ)言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常

發(fā)表于 07-09 10:02 ?332次閱讀

tensorflow簡(jiǎn)單的模型訓(xùn)練

TensorFlow開(kāi)始，然后介紹如何構(gòu)建和訓(xùn)練一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型。 1. 安裝TensorFlow 首先，我們

發(fā)表于 07-05 09:38 ?478次閱讀

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

解鎖我理解的是基于深度學(xué)習(xí)，需要訓(xùn)練各種數(shù)據(jù)知識(shí)最后生成自己的的語(yǔ)言理解和能力的交互模型。對(duì)于常說(shuō)的RNN是處理短序列的數(shù)據(jù)時(shí)表現(xiàn)出色，耳真正厲害的是Transformer，此框架

發(fā)表于 05-12 23:57

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

類(lèi)任務(wù)上表現(xiàn)出色，甚至在零樣本條件下也能取得良好效果。另一類(lèi)則需要逐步推理才能完成的任務(wù)，類(lèi)似于人類(lèi)的系統(tǒng)2，如數(shù)字推理等。然而，隨著參數(shù)量的增加，大語(yǔ)言

發(fā)表于 05-07 17:21

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

訓(xùn)練數(shù)據(jù)時(shí)，數(shù)量、質(zhì)量和多樣性三者缺一不可。數(shù)據(jù)的多樣性對(duì)于大語(yǔ)言模型至關(guān)重要，這主要體現(xiàn)在數(shù)據(jù)的類(lèi)別和來(lái)源兩個(gè)方面。豐富的數(shù)據(jù)類(lèi)別能夠

發(fā)表于 05-07 17:10

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

就無(wú)法修改，因此難以靈活應(yīng)用于下游文本的挖掘中。詞嵌入表示：將每個(gè)詞映射為一個(gè)低維稠密的實(shí)值向量。不同的是，基于預(yù)訓(xùn)練的詞嵌入表示先在語(yǔ)料庫(kù)中利用某種語(yǔ)言

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

的具體需求，這通常需要較少量的標(biāo)注數(shù)據(jù)。多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí): LLMs利用在預(yù)訓(xùn)練中積累的知識(shí)，可以通過(guò)遷移學(xué)習(xí)在相關(guān)任務(wù)上快速適應(yīng)，有時(shí)還可以在一個(gè)

發(fā)表于 05-05 10:56

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

用于文本生成，根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本，為故事創(chuàng)作等提供無(wú)限可能。大語(yǔ)言模型也面臨挑戰(zhàn)。一方面，其計(jì)算資源需求巨大，訓(xùn)練和推理耗時(shí)；另

發(fā)表于 05-04 23:55

中國(guó)批準(zhǔn)14個(gè)大語(yǔ)言模型供公眾使用，趕超美國(guó)AI進(jìn)程加速

據(jù)鈦媒體報(bào)道，近期中國(guó)監(jiān)管部門(mén)已經(jīng)批準(zhǔn)了14個(gè)大語(yǔ)言模型公開(kāi)服務(wù)，自啟動(dòng)審批流程至今剛好半年時(shí)間，已核準(zhǔn)40多個(gè)AI大型模型，顯示出我國(guó)在該領(lǐng)域的積極進(jìn)取，以期趕超美國(guó)。

發(fā)表于 01-30 09:40 ?822次閱讀

搜索歷史

從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)？

一，前言

二，估算方法

三，GPU性能

四,實(shí)際案例

五，總結(jié)

評(píng)論

如何訓(xùn)練自己的LLM模型

大語(yǔ)言模型如何開(kāi)發(fā)

如何訓(xùn)練自己的AI大模型

摩爾線程與羽人科技完成大語(yǔ)言模型訓(xùn)練測(cè)試

使用AD8001放大一個(gè)100mv左右的信號(hào)，經(jīng)過(guò)放大的信號(hào)低電平都是三點(diǎn)幾伏，不能夠從零開(kāi)始，為什么？

大語(yǔ)言模型的預(yù)訓(xùn)練

llm模型訓(xùn)練一般用什么系統(tǒng)

tensorflow簡(jiǎn)單的模型訓(xùn)練

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

【大語(yǔ)言模型：原理與工程實(shí)踐】核心技術(shù)綜述

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

中國(guó)批準(zhǔn)14個(gè)大語(yǔ)言模型供公眾使用，趕超美國(guó)AI進(jìn)程加速

搜索歷史

從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)？

一，前言

二，估算方法

三，GPU性能

四,實(shí)際案例

五，總結(jié)

評(píng)論

一，前言

二，估算方法

三，GPU性能