大模型訓(xùn)練為什么不能用4090顯卡，GPU訓(xùn)練性能和成本對比

作者:李博杰 ?

這是一個好問題。先說結(jié)論，大模型的訓(xùn)練用 4090 是不行的，但推理（inference/serving）用 4090 不僅可行，在性價比上還能跟 H100 打個平手。

事實上，H100/A100 和 4090 最大的區(qū)別就在通信和內(nèi)存上，算力差距不大。

?	H100	A100	4090
Tensor FP16 算力	1979 Tflops	312 Tflops	330 Tflops
Tensor FP32 算力	989 Tflops	156 Tflops	83 Tflops
內(nèi)存容量	80 GB	80 GB	24 GB
內(nèi)存帶寬	3.35 TB/s	2 TB/s	1 TB/s
通信帶寬	900 GB/s	900 GB/s	64 GB/s
通信時延	~1 us	~1 us	~10 us
售價	$30000~$40000	$15000	$1600

H100 這個售價其實是有 10 倍以上油水的。2016 年我在 MSRA 的時候，見證了微軟給每塊服務(wù)器部署了 FPGA，把 FPGA 打到了沙子的價格，甚至成為了供應(yīng)商 Altera 被 Intel 收購的重要推手。2017 年我還自己挖過礦，知道什么顯卡最劃算。后來在華為，我也是鯤鵬、昇騰生態(tài)軟件研發(fā)的核心參與者。因此，一個芯片成本多少，我心里大概是有數(shù)的。

鯤鵬的首席架構(gòu)師夏 Core 有一篇知名文章《談一下英偉達(dá)帝國的破腚》，很好的分析了 H100 的成本：

把他的成本打開，SXM 的成本不會高于 300$，封裝的 Substrate 及 CoWoS 大約也需要 $300，中間的 Logic Die 最大顆，看上去最高貴：）那是 4nm 的一顆 814mm2 的 Die，TSMC 一張 12 英寸 Wafer 大致上可以制造大約 60 顆這個尺寸的 Die，Nvidia 在 Partial Good 上一向做得很好（他幾乎不賣 Full Good），所以這 60 顆大致能有 50 顆可用，Nvidia 是大客戶，從 TSMC 手上拿到的價格大約是 $15000，所以這個高貴的 Die 大約只需要 $300。哦，只剩下 HBM 了，當(dāng)前 DRAM 市場疲軟得都快要死掉一家的鬼樣了，即使是 HBM3 大抵都是虧本在賣，差不多只需要 $15/GB，嗯，80GB 的容量成本是 $1200。TSMC 曾經(jīng)講過一個故事。臺灣同胞辛辛苦苦攢錢建廠，一張 4nm 那么先進(jìn)的工藝哦，才能賣到 $15000，但是那某個客戶拿去噢，能賣出 $1500000（$30000*50）的貨啦，機(jī)車，那樣很討厭耶。你懂我意思嗎？就如最開始說的，在這個世界的商業(yè)規(guī)則下，$2000 成本的東西賣 $30000，只有一家，銷售量還很大，這是不符合邏輯的，這種金母雞得有航母才守得住。

據(jù)說微軟和 OpenAI 包下了 H100 2024 年產(chǎn)能的一半，猜猜他們會不會發(fā)揮當(dāng)年跟 Altera 砍價的傳統(tǒng)藝能？會真的花 $40,000 * 500,000 = 200 億美金去買卡？

咱們再分析下 4090 的成本，5nm 的 609mm2 Die，大約成本是 $250。GDDR6X，24 GB，按照 1 GB $10 算，$240。PCIe Gen4 這種便宜東西就算 $100 吧。封裝和風(fēng)扇這些東西，算它 $300?？偝杀咀疃?$900，這樣的東西賣 $1600，算是良心價了，因為研發(fā)成本也是錢啊，更何況 NVIDIA 的大部分研發(fā)人員可是在世界上程序員平均薪酬最高的硅谷。

可以說，H100 就像是中國一線城市的房子，本身鋼筋水泥不值多少錢，房價完全是被供求關(guān)系吹起來的。我在 LA 已經(jīng)住了兩周，公司租的房子使用面積是我北京房子的 4 倍，但售價只貴了 30%，還帶個小院，相當(dāng)于單位面積的房價是北京的 1/3。我跟本地的老外聊天，他們都很吃驚，你們的平均收入水平比 LA 低這么多，怎么買得起北京的房子的？

問題來了，如果 4090 這么香的話，為啥大家還要爭著買 H100，搞得 H100 都斷貨了？甚至 H100 都要對華禁售，搞出個 H800 的閹割版？

大模型訓(xùn)練為什么不能用 4090

GPU 訓(xùn)練性能和成本對比

LambdaLabs 有個很好的 GPU 單機(jī)訓(xùn)練性能和成本對比，在此摘錄如下。

首先看吞吐量，看起來沒有什么違和的，在單卡能放下模型的情況下，確實是 H100 的吞吐量最高，達(dá)到 4090 的兩倍?？此懔蛢?nèi)存也能看出來，H100 的 FP16 算力大約是 4090 的 6 倍，內(nèi)存帶寬是 3.35 倍，訓(xùn)練過程中由于 batch size 比較大，大多數(shù)算子是 compute bound（計算密集型），少數(shù)算子是 memory bound（內(nèi)存密集型），這個結(jié)果是不意外的。

LambdaLabs PyTorch 單卡訓(xùn)練吞吐量對比圖

LambdaLabs PyTorch 單卡訓(xùn)練吞吐量對比表

然后看性價比，就有意思了，原來排在榜首的 H100 現(xiàn)在幾乎墊底了，而且 4090 和 H100 的差距高達(dá)接近 10 倍。這就是因為 H100 比 4090 貴太多了。

由于 H100 貨源緊張，云廠商的 H100 租用價格就更黑了，按照標(biāo)價大約 7 個月就可以回本。就算大客戶價能便宜一半，一年半也足夠回本了。

在價格戰(zhàn)中過慣了苦日子的 IaaS 云服務(wù)商看到這樣的 H100 回本速度，估計要感嘆，這真是比區(qū)塊鏈挖礦回本還快吶。

LambdaLabs PyTorch 單卡訓(xùn)練單位成本吞吐量對比圖

LambdaLabs PyTorch 單卡訓(xùn)練單位成本吞吐量對比表

大模型訓(xùn)練的算力需求

既然 4090 單卡訓(xùn)練的性價比這么高，為啥不能用來做大模型訓(xùn)練呢？拋開不允許游戲顯卡用于數(shù)據(jù)中心這樣的許可證約束不談，從技術(shù)上講，根本原因是大模型訓(xùn)練需要高性能的通信，但 4090 的通信效率太低。

大模型訓(xùn)練需要多少算力？訓(xùn)練總算力（Flops）= 6 * 模型的參數(shù)量 * 訓(xùn)練數(shù)據(jù)的 token 數(shù)。

我今年初第一次看到有人煞有介事地講這個公式的時候，覺得這不是顯然的嗎？又看到 OpenAI 的高級工程師能拿 90 多萬美金的年薪，頓時整個人都不好了，還是 AI 香呀。之前我也面試過一些做 AI 的工程師，包括一些做 AI 系統(tǒng)優(yōu)化的專家，連 Q、K、V 是啥都說不清楚，LLaMA 每個 tensor 的大小也算不出來，就這樣還能拿到 offer。

APNet 2023 panel 的主題是 Network, AI, and Foundational Models: Opportunties and Challenges。前面幾個問題都中規(guī)中矩的，panelists 有點放不開，我就提了一個問題，網(wǎng)絡(luò)歷史上的重要成就基本上都基于對應(yīng)用場景深刻的理解，但我們現(xiàn)在做網(wǎng)絡(luò)的很多都不了解 AI，甚至連每個 tensor 的大小和每個 step 傳輸?shù)臄?shù)據(jù)量都不知道，如何讓 network community 更了解 AI 呢？

這下熱鬧了，臺下的譚博首先發(fā)言，說我在華為肯定能知道所有這些東西；然后傳雄老師也跟了一句，要是做網(wǎng)絡(luò)的懂了太多 AI，那可能他就變成一個 AI guy 了。接著主持人陳凱教授問，你們有誰真的訓(xùn)練過大模型？沉默了一會兒，阿里的兄弟先說，我算是半個訓(xùn)練過大模型的，我們做的東西是支撐阿里大模型 infra 的。后面又有 panelist 說，做 AI 系統(tǒng)的網(wǎng)絡(luò)優(yōu)化是否有必要自己懂 AI 呢，是不是只要會做 profiling 就行了？

我個人觀點仍然是，AI 并不難學(xué)，要想做好 AI 系統(tǒng)優(yōu)化，可以不懂 attention 的 softmax 里面為什么要除以 sqrt(d_k)，但不能不會計算模型所需的算力、內(nèi)存帶寬、內(nèi)存容量和通信數(shù)據(jù)量。Jeff Dean 就有個很有名的 Numbers Every Programmer Should Know，數(shù)量級的估算對任何系統(tǒng)優(yōu)化來說都很關(guān)鍵，不然根本不知道瓶頸在哪里。

回到大模型訓(xùn)練所需的總算力，其實很簡單，6 * 模型的參數(shù)量 * 訓(xùn)練數(shù)據(jù)的 token 數(shù)就是所有訓(xùn)練數(shù)據(jù)過一遍所需的算力。這里的 6 就是每個 token 在模型正向傳播和反向傳播的時候所需的乘法、加法計算次數(shù)。

一堆矩陣相乘，簡單來想就是左邊若干個神經(jīng)元，右邊若干個神經(jīng)元，組成一個完全二分圖。選出其中任意一個左邊的神經(jīng)元 l 和右邊的神經(jīng)元 r。

正向傳播的時候：

l 把它的輸出乘上 l 和 r 之間的權(quán)重 w，發(fā)給 r；

r 不可能只連一個神經(jīng)元吧，總要把多個 l 的加到一起，這就是 reduce，需要一次加法。

反向傳播的時候：

r 把它收到的梯度乘上 l 和 r 之間的權(quán)重 w，發(fā)給 l；

l 也不可能只連一個 r，需要把梯度 reduce 一下，做個加法；

別忘了權(quán)重 w 需要更新，那就要計算 w 的梯度，把 r 收到的梯度乘上 l 正向傳播的輸出（activation）；

一個 batch 一般有多個 sample，權(quán)重 w 的更新需要把這些 sample 的梯度加到一起。

一共 3 次乘法，3 次加法，不管 Transformer 多復(fù)雜，矩陣計算就是這么簡單，其他的向量計算、softmax 之類的都不是占算力的主要因素，估算的時候可以忽略。

想起來我 2019 年剛加入 MindSpore 團(tuán)隊的時候，領(lǐng)導(dǎo)讓我開發(fā)一個正向算子的反向版本，我求導(dǎo)給求錯了，搞得算子的計算結(jié)果總是不對，還以為是我們的編譯器出 bug 了。當(dāng)發(fā)現(xiàn)求導(dǎo)求錯的時候，領(lǐng)導(dǎo)像以為我沒學(xué)過微積分一樣看著我，確實我的微積分學(xué)的不好，這也是我從數(shù)學(xué)專業(yè)轉(zhuǎn)到計算機(jī)專業(yè)的原因之一。

在 MindSpore 的時候，自動微分一共就不到 1000 行代碼，按照微分公式遞歸計算下去就行了，但自動微分作為一個重要特性被吹了半天，我都感覺不好意思了。

模型的參數(shù)量和訓(xùn)練數(shù)據(jù)的 token 數(shù)之間也有個比例關(guān)系，這也很容易理解，只要把模型想象成數(shù)據(jù)的壓縮版本就行了，壓縮比總是有極限的。模型的參數(shù)量太小，就吃不下訓(xùn)練數(shù)據(jù)里面所有的知識；模型的參數(shù)量如果大于訓(xùn)練數(shù)據(jù)的 token 數(shù)，那又浪費(fèi)，還容易導(dǎo)致 over-fitting。

訓(xùn)練 LLaMA-2 70B 需要多少張卡

有了模型訓(xùn)練所需的總算力，除以每個 GPU 的理論算力，再除以 GPU 的有效算力利用比例，就得到了所需的 GPU-hours，這塊已經(jīng)有很多開源數(shù)據(jù)。LLaMA 2 70B 訓(xùn)練需要 1.7M GPU hours（A100），要是用 1 個 GPU，那得算 200 年。要在一個月這種比較能接受的時間周期內(nèi)訓(xùn)練出來，就得至少有 2400 塊 A100。

如果用 4090，單卡 FP16 算力是跟 A100 差不多（330 vs 312 Tflops），但是內(nèi)存帶寬比 A100 低一半（1 vs 2 TB/s），內(nèi)存容量更是差好幾倍（24 vs 80 GB），計算梯度時需要使用的 TF32 算力也低一半（83 vs 156 Tflops），綜合起來 4090 單卡的訓(xùn)練速度還比 A100 稍低（參考前面 LambdaLabs 的評測）。

就按照 2048 塊 4090 算吧，這 2048 塊 4090 之間的通信就成了最大的問題。

為什么？一般有 tensor parallelism、pipeline parallelism、data parallelism 幾種并行方式，分別在模型的層內(nèi)、模型的層間、訓(xùn)練數(shù)據(jù)三個維度上對 GPU 進(jìn)行劃分。三個并行度乘起來，就是這個訓(xùn)練任務(wù)總的 GPU 數(shù)量。

三種并行方式從三個維度劃分計算空間的示意圖，來源：DeepSpeed

Data parallelism（數(shù)據(jù)并行）

數(shù)據(jù)并行是最容易想到的并行方式。每個 GPU 分別計算不同的輸入數(shù)據(jù)，計算各自的梯度（也就是模型參數(shù)的改變量），再把梯度匯總起來，取個平均值，廣播給各個 GPU 分別更新。

Data Parallelism 示意圖，來源：Colossal AI

但只用數(shù)據(jù)并行是肯定不行的，因為一塊 GPU 放不下整個 LLaMA 70B 模型。

就模型訓(xùn)練需要多少 GPU 內(nèi)存，我發(fā)現(xiàn)能算清楚的人就不多。有的人甚至以為只需要把模型的參數(shù)和反向傳播的梯度存下來就夠了。事實上，訓(xùn)練需要的內(nèi)存包括模型參數(shù)、反向傳播的梯度、優(yōu)化器所用的內(nèi)存、正向傳播的中間狀態(tài)（activation）。

優(yōu)化器所用的內(nèi)存其實也很簡單，如果用最經(jīng)典的 Adam 優(yōu)化器，它需要用 32 位浮點來計算，否則單純使用 16 位浮點來計算的誤差太大，模型容易不收斂。因此，每個參數(shù)需要存 4 字節(jié)的 32 位版本（正向傳播時用 16 位版本，優(yōu)化時用 32 位版本，這叫做 mixed-precision），還需要存 4 字節(jié)的 momentum 和 4 字節(jié)的 variance，一共 12 字節(jié)。如果是用類似 SGD 的優(yōu)化器，可以不存 variance，只需要 8 字節(jié)。

正向傳播的中間狀態(tài)（activation）是反向傳播時計算梯度必需的，而且跟 batch size 成正比。Batch size 越大，每次讀取模型參數(shù)內(nèi)存能做的計算就越多，這樣對 GPU 內(nèi)存帶寬的壓力就越小。可是不要忘了，正向傳播的中間狀態(tài)數(shù)量是跟 batch size 成正比的，GPU 內(nèi)存容量又會成為瓶頸。

大家也發(fā)現(xiàn)正向傳播中間狀態(tài)占的內(nèi)存太多了，可以玩一個用算力換內(nèi)存的把戲，就是不要存儲那么多梯度和每一層的正向傳播的中間狀態(tài)，而是在計算到某一層的時候再臨時從頭開始重算正向傳播的中間狀態(tài)，這樣這層的正向傳播中間狀態(tài)就不用保存了。如果每一層都這么干，那么就只要 2 個字節(jié)來存這一層的梯度。但是計算中間狀態(tài)的算力開銷會很大。因此實際中一般是把整個 Transformer 分成若干組，一組有若干層，只保存每組第一層的中間狀態(tài)，后面的層就從該組第一層開始重新計算，這樣就平衡了算力和內(nèi)存的開銷。

如果還是算不清楚，可以讀讀這篇論文：Reducing Activation Recomputation in Large Transformer Models。

當(dāng)然有人說，GPU 內(nèi)存放不下可以換出到 CPU 內(nèi)存，但是就目前的 PCIe 速度，換出到 CPU 內(nèi)存的代價有時候還不如在 GPU 內(nèi)存里重算。如果是像 Grace Hopper 那種極高帶寬的統(tǒng)一內(nèi)存，那么換入換出倒是一個不錯的主意，不管訓(xùn)練的正向傳播中間狀態(tài)還是 KV Cache，都有很多優(yōu)化的空間。

Pipeline parallelism（流水線并行）

既然一塊 GPU 放不下，用多塊 GPU 總行了吧？這就是?model parallelism（模型并行），可以大致分為 pipeline parallelism 和 tensor parallelism。

大家最容易想到的并行方式就是?pipeline parallelism，模型不是有很多層嗎，那就分成幾組，每組算連續(xù)的幾層，穿成一條鏈。

Pipeline Parallelism 示意圖，來源：Colossal AI

這樣就有個問題，一條鏈上只有一個 GPU 在干活，剩下的都在干等。當(dāng)然聰明的你一定也想到了，既然叫 pipeline，那就可以流水線處理，可以把一個 batch 分為若干個 mini-batch，每個 mini-batch 分別計算。

Pipeline Parallelism 示意圖，來源：GPipe

這可好，是不是把 pipeline 搞的越深越好，每個 GPU 只算一層？

首先，正向傳播中間狀態(tài)（activation）的存儲容量會成倍增加，加劇內(nèi)存容量不足的問題。比如流水線的第一級算出了正向傳播的中間狀態(tài)，如果有 N 個流水級，那就要正向流過后面的 N - 1 個流水級，再等反向傳播 N - 1 個流水級，也就是 2N - 2 輪之后才能用到這個正向傳播的中間狀態(tài)。不要忘了每一輪都會產(chǎn)生這么多中間狀態(tài)，因此一共是保存了 2N - 1 個中間狀態(tài)。如果 N 比較大，這個存儲容量是非?？植赖?。

其次，pipeline 的相鄰流水級（pipeline stage）之間是要通信的，級數(shù)越多，通信的總數(shù)據(jù)量和總時延就越高。

最后，要讓這樣的 pipeline 流起來，batch size 需要等于 Transformer 里面的層數(shù)，一般是幾十，再乘以 data parallelism 的并行數(shù)，batch size 會很大，影響模型收斂的速度或模型收斂后的精度。

因此，在內(nèi)存容量足夠的情況下，最好還是少劃分一些流水級。

對于 LLaMA-2 70B 模型，模型參數(shù)需要 140 GB，反向傳播的梯度需要 140 GB，優(yōu)化器的狀態(tài)（如果用 Adam）需要 840 GB。

正向傳播的中間狀態(tài)跟 batch size 和選擇性重新計算的配置有關(guān)，我們在算力和內(nèi)存之間取一個折中，那么正向傳播的中間狀態(tài)需要 token 長度 * batch size * hidden layer 的神經(jīng)元數(shù)量 * 層數(shù) * (10 + 24/張量并行度) 字節(jié)。假設(shè) batch size = 8，不用張量并行，那么 LLaMA-2 70B 模型的正向傳播中間狀態(tài)需要 4096 * 8 * 8192 * 80 * (10 + 24) byte = 730 GB，是不是很大？

總共需要 140 + 140 + 840 + 730 = 1850 GB，這可比單放模型參數(shù)的 140 GB 大多了。一張 A100/H100 卡也只有 80 GB 內(nèi)存，這就至少要 24 張卡；如果用 4090，一張卡 24 GB 內(nèi)存，就至少需要 78 張卡。

LLaMA-2 模型一共就只有 80 層，一張卡放一層，是不是正好？這樣就有 80 個流水級，單是流水線并行就有 80 個并行的 batch 才能填滿流水線。

這樣，正向傳播的中間狀態(tài)存儲就會大到無法忍受，這可是 80 * 2 = 160 輪的中間狀態(tài)，翻了 160 倍。就算是使用選擇性重新計算，比如把 80 層分成 8 組，每組 10 層，中間狀態(tài)存儲仍然是翻了 16 倍。

除非是用最極端的完全重新計算，反向傳播到每一層都重新從頭開始計算正向傳播的中間結(jié)果，但這樣計算開銷可是隨模型層數(shù)平方級別的增長，第 1 層算 1 層，第 2 層算 2 層，一直到第 80 層算 80 層，一共算了 3240 層，計算開銷可是比正常算一次 80 層翻了 40 倍，這還能忍？

中間狀態(tài)存儲的問題就已經(jīng)夠大了，再看這 2048 張卡之間的通信開銷。按照一張卡放一層，并且用不同的輸入數(shù)據(jù)讓它完全流水起來的做法，這 2048 張卡分別在計算自己的 mini-batch，可以認(rèn)為是獨立參與到 data parallelism 里面了。前面講過，在數(shù)據(jù)并行中，每一輪需要傳輸?shù)氖撬嬎愠龅奶荻群腿制骄蟮奶荻龋荻鹊臄?shù)據(jù)量就等于模型的參數(shù)數(shù)量。

把 70B 模型分成 80 層，每一層大約有 1B 參數(shù)，由于優(yōu)化器用的是 32 bit 浮點數(shù)，這就需要傳輸 4 GB 數(shù)據(jù)。那么一輪計算需要多久呢？總的計算量 = batch size * token 數(shù)量 * 6 * 參數(shù)量 = 8 * 4096 * 6 * 1B = 196 Tflops，在 4090 上如果假定算力利用率 100%，只需要 0.6 秒。而通過 PCIe Gen4 傳輸這 4 GB 數(shù)據(jù)就已經(jīng)至少需要 0.12 秒了，還需要傳兩遍，也就是先傳梯度，再把平均梯度傳過來，這 0.24 秒的時間相比 0.6 秒來說，是占了比較大的比例。

當(dāng)然我們也可以做個優(yōu)化，讓每個 GPU 在 pipeline parallelism 中處理的 80 組梯度數(shù)據(jù)首先在內(nèi)部做個聚合，這樣理論上一個 training step 就需要 48 秒，通信占用的時間不到 1 秒，通信開銷就可以接受了。當(dāng)然，通信占用時間不到 1 秒的前提是機(jī)器上插了足夠多的網(wǎng)卡，能夠把 PCIe Gen4 的帶寬都通過網(wǎng)絡(luò)吐出去，否則網(wǎng)卡就成了瓶頸。假如一臺機(jī)器上插了 8 塊 GPU，這基本上需要 8 塊 ConnectX-6 200 Gbps RDMA 網(wǎng)卡才能滿足我們的需求。

最后再看 batch size，整個 2048 張卡的集群跑起來，每個 GPU 的 mini-batch 我們剛才設(shè)置為 8，那可真是 batch size = 16384，已經(jīng)是大規(guī)模訓(xùn)練中比較大的 batch size 了，如果再大，可能就影響模型的收斂速度或收斂后的精度了。

因此，單純使用流水線并行和數(shù)據(jù)并行訓(xùn)練大模型的最大問題在于流水線并行級數(shù)過多，導(dǎo)致正向傳播中間狀態(tài)（activation）存儲容量不足。

Tensor parallelism（張量并行）

那就沒辦法了嗎？我們還有最后一招，就是 Tensor parallelism（張量并行）。它也是模型并行的一種，但不像流水線并行那樣是在模型的層間劃分，而是在模型的層內(nèi)劃分，也就是把一層內(nèi)的 attention 計算和 Feed Forward Network 劃分到多個 GPU 上處理。

有了張量并行，就可以緩解 GPU 放不下模型導(dǎo)致的流水級太多的問題。分到 80 個 GPU 才能放下的模型，如果用單機(jī) 8 卡張量并行，就只需要劃分 10 個流水級。同時，張量并行還可以降低 batch size，因為張量并行的幾個 GPU 是在算同一個輸入數(shù)據(jù)。

Tensor、Pipeline、Data 三種并行方式從模型層內(nèi)、模型層間、訓(xùn)練數(shù)據(jù)三個維度上劃分計算空間，來源：DeepSpeed

Attention 的計算過程是比較容易并行的，因為有多個 head，用來關(guān)注輸入序列中的不同位置的，那么把這些 head 分別拆開就行了。

Attention 的計算過程，來源：The Illustrated Transformer

但是我們做任何并行計算的時候都不要忘記通信開銷。

每個 head 里面的 Q、K 兩個矩陣的大小是 batch size * token 長度 * key 的大小，V 矩陣的大小是 batch size * token 長度 * value 的大小。key/value 的大小一般等于 embedding size / heads 數(shù)量，例如在 LLaMA-2 70B 中就是 8192 / 64 = 128，矩陣大小是 batch size * 4096 * 8192 / 64（注意，這只是一個 head 的）。而 Q、K、V 參數(shù)矩陣在每個 head 上的大小是 embedding size * embedding size / heads num = 8192 * 8192 / 64。

我們前面推導(dǎo)過，正向的計算量基本上就是每個 token 過一遍所有參數(shù)的計算量，2 * 3 (Q, K, V) * batch size * token 長度 * 參數(shù)個數(shù) = 2 * 3 * batch size * 4096 * 8192 * 8192 / 64?？梢愿仃嚨拇笮σ幌拢纯从袥]有算錯。

那么通信量是多少呢？輸出矩陣 Z 是由每個 head 拼起來的，每個 head 的大小是 batch size * token 長度 * embedding size / heads num = batch size * 4096 * 8192 / 64。輸入矩陣 X 的大小是 batch size * token 長度 * embedding size = batch size * 4096 * 8192。注意這里的 X 大小跟所有 heads 合并在一起后的 Z 大小是一致的，而我們在這里算的是每個 head 的 Z 大小。這里的單位是參數(shù)數(shù)量，如果按照字節(jié)算，還要乘以每個參數(shù)的大小。

如果我們采用最極端的方式，每個 head 交給一個 GPU 去算，那么計算量和通信量的比例是多少？大概是 2 * 3 * embedding size / heads num / bytes per param = 2 * 3 * 8192 / 64 / 2 = 384。代入 4090 的 330 Tflops，如果想讓通信不成為瓶頸，那么通信帶寬至少需要是 330T / 384 = 859 GB/s，發(fā)送接收雙向還得乘以 2，就是 1.7 TB/s。太大了，遠(yuǎn)遠(yuǎn)超過 PCIe Gen4 x16 的 64 GB/s，就算 NVLink 的 900 GB/s 都撐不住。

所以，tensor parallelism 不能切得太細(xì)，每個 GPU 需要多算幾個 heads。如果每個 GPU 多算幾個 attention heads，輸入矩陣 X 就是這些 heads 共享的了，因此輸入矩陣的通信開銷就被多個 heads 平攤了，計算量和通信量的比例就可以提高。

還是按照 4090 的算力 / 單向通信帶寬 = 330T / (64GB/s / 2) 來算，計算量和通信量的比例最少需要是 10000，也就是 2 * 3 * (embedding size / 張量并行 GPU 數(shù)量) / bytes per param = 2 * 3 * 8192 / 張量并行 GPU 數(shù)量 / 2 >= 10000，解得：張量并行 GPU 數(shù)量 <= 2.4。也就是告訴你，要是用了張量并行，最多用 2 個 GPU，如果用更多的 GPU，算力就肯定跑不滿理論值。這讓我怎么玩？

但是，如果把 H100 的參數(shù)代入進(jìn)去，馬上就不一樣了。H100 的峰值算力是 1979 Tflops，NVLink 雙向帶寬是 900 GB/s，計算量和通信量的比例最少需要是 4400，也就是 2 * 3 * (embedding size / 張量并行 GPU 數(shù)量) / bytes per param = 2 * 3 * 8192 / 張量并行 GPU 數(shù)量 / 2 >= 4400，解得：張量并行 GPU 數(shù)量 <= 5.5，也就是單機(jī) 8 卡做張量并行，如果算力跑滿，網(wǎng)絡(luò)會成為瓶頸?？梢钥吹?，即使對于 900 GB/s 這么快的 NVLink，在巨大的算力面前，都容易出現(xiàn)茶壺里煮餃子倒不出來的情況。當(dāng)然，采用更優(yōu)的并行切分方式可以節(jié)約一些網(wǎng)絡(luò)通信開銷。

閹割版的 H800 相比 H100 卡的就是網(wǎng)絡(luò)帶寬，把網(wǎng)絡(luò)帶寬從 900 GB/s 降到 400 GB/s 了。我們再代入一次，計算量和通信量比例最少需要是 10000，那么張量并行 GPU 數(shù)量 <= 2.4，跟 4090 一個貨色了。這樣單機(jī) 8 卡做張量并行，就會導(dǎo)致網(wǎng)絡(luò)成為瓶頸。當(dāng)然，計算量 1979 Tflops 是理論值，并行切分方式也可以優(yōu)化，因此實際訓(xùn)練 70B 的模型 8 卡 H800 網(wǎng)絡(luò)不一定真的是瓶頸。這就是 H800 精準(zhǔn)打擊大模型訓(xùn)練，讓張量并行過得不舒服。

Feed Forward Network 的計算過程，雖然這是 encoder 的，但 decoder 也差不多，來源：Step-by-Step Illustrated Explanations of Transformer

如果在 Feed Forward Network 這里做張量并行，也是可以做類似的推導(dǎo)，在這里就不贅述了。大凡神經(jīng)網(wǎng)絡(luò)里的矩陣乘法，M*N 的矩陣乘上 N*K 的矩陣，總的計算量是 M*N*K，輸入輸出的總大小是 (M*N + N*K)，多摞幾個矩陣那也是常數(shù)（就像 Q、K、V），也就是計算和通信的比例跟矩陣的邊長（dimension）是一個量級的。

這么分析完了，如果你是要做大規(guī)模大模型訓(xùn)練，你還會買 A100/H100/H800 的 PCIe 版嗎？PCIe Gen5 雖然比 Gen 4 快一倍，但對 H100 而言，計算量和通信量的比例仍然最少需要是 1979T / (128G / 2) = 30000，解出來張量并行 GPU 數(shù)量 <= 0.8，只要用了張量并行，就是損失算力的！

等到 H100 的下一代出來了，比如 GH200，算力又翻了一倍，NVLink 還是 900 GB/s，這時候 NVLink 就也開始有點吃力了。所以 GH200 不失時機(jī)的推出了統(tǒng)一大內(nèi)存，號稱 144 TB，就是為了更好的做換入換出，用內(nèi)存換網(wǎng)絡(luò)通信。如果禁令保持不變，國內(nèi)版本還是卡住 400 GB/s 的通信，那性能差距會有多大？

上面的推導(dǎo)當(dāng)然都是簡化的，實際上可能不會這么夸張，但數(shù)量級是差不多的。

訓(xùn)練部分小結(jié)

4090 不容易做大模型訓(xùn)練的原因除了前面分析的內(nèi)存小，通信慢，license 不支持?jǐn)?shù)據(jù)中心，還有很多其他問題。

比如，A100/H100 支持 ECC 顯存容錯，據(jù)說 4090 也支持 ECC，但是不知道故障率會不會比 A100/H100 更高。不要小看了容錯，2048 張卡的集群就算每張卡 1 個月出一次故障，平均 20 分鐘就會有一張卡出故障！要是沒有自動化的故障恢復(fù)方式，煉丹師就別想睡覺了。

就算是自動從上一個 checkpoint 恢復(fù)，這可是要時間的，如果不考慮丟棄故障 GPU 梯度這種比較暴力的方式，當(dāng)前這個 step 就算是白算了，還要從上一個 checkpoint 加載梯度，一般需要 10 來分鐘的時間才能搞定。這樣，每 20 分鐘就浪費(fèi) 10 分鐘，這 10 分鐘恢復(fù)過程中可能又有新的卡故障，總的算下來要浪費(fèi)掉一半的有效算力。

因此，保持大規(guī)模訓(xùn)練集群的低故障率是非常重要的，這些 GPU 卡都非常金貴，可不能像挖礦機(jī)房那樣，動不動就過熱死機(jī)了。

據(jù)說 3090 是支持 NVLink 的，但 4090 就把 NVLink 給砍掉了。更老的卡，甚至還有支持 PCIe P2P 的，現(xiàn)在也都被砍掉了。誰感興趣可以測一測 3090 的 NVLink 性能怎么樣，是不是真的能達(dá)到標(biāo)稱的 600 GB/s，如果真的能達(dá)到的話，是否又可以用來做大模型訓(xùn)練了呢。

我們年會的時候，海哥講了個段子，我們找老婆都希望又漂亮，又能掙錢，還一心一意愛自己?？赏瑫r滿足這三個條件的老婆就很難找到了。類似的，在分布式系統(tǒng)中，我們都希望性能又高，通用性又強(qiáng)，成本還低。這三個條件的交集也很小。海哥講到這里，譚博補(bǔ)充了一句，同時滿足這三個條件的分布式系統(tǒng)根本就不存在。

Tensor、Pipeline、Data Parallelism 就像是這樣的不可能三角，相互牽制，只要集群規(guī)模夠大，模型結(jié)構(gòu)仍然是 Transformer，就很難逃出內(nèi)存容量和網(wǎng)絡(luò)帶寬的魔爪。

大模型推理為什么 4090 很香

推理和訓(xùn)練有什么區(qū)別？

首先，訓(xùn)練不僅需要存儲模型參數(shù)，還需要存儲梯度、優(yōu)化器狀態(tài)、正向傳播每一層的中間狀態(tài)（activation），后面幾個比參數(shù)更大，對模型內(nèi)存的需求量也更大。

其次，訓(xùn)練任務(wù)是一個整體，流水線并行的正向傳播中間結(jié)果是需要存下來給反向傳播用的。為了節(jié)約內(nèi)存而使用流水線并行，流水級越多，要存儲的中間狀態(tài)也就更多，反而加劇內(nèi)存的不足。而推理任務(wù)中的各個輸入數(shù)據(jù)之間并沒有關(guān)系，正向傳播每一層的中間狀態(tài)也不需要保存下來，因此流水線并行不需要存儲很多中間狀態(tài)。

首先我們需要計算一下推理需要多少算力。前面針對訓(xùn)練算力的估算，為了簡單起見，忽略了兩個事情，首先是沒有考慮 KV Cache，其次是沒有考慮內(nèi)存帶寬。

KV Cache

什么是 KV Cache？對于每個輸入的 prompt，在計算第一個 token 輸出的時候，每個 token 的 attention 肯定是都要從頭計算。但是在后續(xù) token 的生成中，都需要計算 self-attention，也就是輸入 prompt 以及前面輸出的 token 的 attention。這是就需要用到前面每一個 token 的 K 和 V，由于每一層的參數(shù)矩陣是不變的，此時只有剛生成的那個 token 的 K 和 V 需要從頭計算，輸入 prompt 和之前生成的 token 的 K 和 V 其實是跟上一輪一樣的。

這時，我們就可以把每一層的 K、V 矩陣緩存起來，生成下一個 token 的時候不再需要重新計算，這就是所謂的 KV Cache。Q 矩陣每次都不一樣，沒有緩存的價值。前面講的訓(xùn)練中的選擇性保存正向 activation 是個拿計算換內(nèi)存的把戲，這里的 KV Cache 就是一個拿內(nèi)存換計算的把戲。

KV Cache 需要多少存儲容量呢？每一層，每個 token 的 K、V 矩陣都是 embedding size 這么大，再乘上 token 數(shù)量和 batch size，就是這一層的 KV Cache 所需的存儲容量了。一定要記住 batch size，在正向和反向傳播的幾乎所有階段，都不會涉及到對 batch size 中各個 sample 的合并處理，因此它始終是存儲量和計算量計算中的一個系數(shù)。

例如，如果 batch size = 4，在 LLaMA 2 70B 中，假設(shè)輸入和輸出的 token 數(shù)量達(dá)到了模型的極限 4096，80 層的 KV Cache 一共需要 2 (K, V) * 80 * 8192 * 4096 * 8 * 2B = 80 GB。如果 batch size 更大，那么 KV Cache 占據(jù)的空間將超過參數(shù)本身占的 140 GB。

KV Cache 能省下來多少計算量？每一層計算 K、V 矩陣一共需要 2 (K, V) * 2 (mult, add) * embedding size * embedding size = 4 * 8192 * 8192 這么多計算量，乘以之前輸入過的 token 數(shù)量、層數(shù)和 batch size，就是 4096 * 80 * 8 * 4 * 8192 * 8192 = 640 Tflops。相當(dāng)于每存儲 1 個字節(jié)，節(jié)約了 16K 次計算，還是很劃算的。

事實上，KV Cache 節(jié)約的遠(yuǎn)遠(yuǎn)不止這些。計算 K、V 矩陣的過程是個典型的內(nèi)存密集型過程，它需要加載每一層的 K、V 參數(shù)矩陣。也就是如果不做任何緩存，假設(shè) prompt 長度很短而輸出長度接近 token 的最大長度 4096，到了最后一個 token 的時候，單是重復(fù)計算前面每個 token 的 K、V 矩陣，就需要讀取內(nèi)存 4096 * 80 * 2 * 8192 * 8192 = 40T 次，每次 2 個字節(jié)，要知道 H100 的內(nèi)存帶寬只有 3.35 TB/s，4090 更是只有 1 TB/s，這單是最后一個 token 就得耗掉一張卡幾十秒的時間來做重復(fù)計算。這樣，token 的輸出就會越來越慢，整個輸出時間是輸出長度平方級別的，根本沒法用。

推理是計算密集還是存儲密集

接下來我們就可以計算推理所需的計算量了。總的算力很好算，前面講過，大概就是?2 * 輸出 token 數(shù)量 * 參數(shù)數(shù)量 flops。如果想看細(xì)節(jié)，可以看下面這張圖，來源是這里。

Transformer 推理過程中每一步的矩陣形狀、所需算力和內(nèi)存訪問量，來源：Lequn Chen，Dissecting Batching Effects in GPT Inference

但算力并不能說明一切，模型還需要訪問 GPU 內(nèi)存，內(nèi)存帶寬也可能成為瓶頸。至少需要把參數(shù)從內(nèi)存里面讀出來吧？事實上，內(nèi)存帶寬的估算就這么簡單，內(nèi)存訪問量 = 參數(shù)數(shù)量 * 2 bytes。中間結(jié)果有一部分是可以放在緩存里面的，緩存放不下的部分也需要占內(nèi)存帶寬，我們先不算。

如果不做任何批量輸入，也就是模型專門服務(wù)一個 prompt，batch size = 1，整個 context 的長度很短（例如只有 128），那么整個推理過程中，每載入一個參數(shù)（2 字節(jié)），就只進(jìn)行 128 次乘法和加法計算，那么計算 flops 和訪問內(nèi)存 bytes 的比例就只有 128。基本上任何 GPU 在這種情況下都會變成 memory bound，時間都耗在加載內(nèi)存上了。

對于 4090 來說，計算 flops 和內(nèi)存帶寬之比是 330 / 1 = 330；對于 H100 來說，計算 flops 和內(nèi)存帶寬之比是 1979 / 3.35 = 590。也就是說，如果 context 中的 token 數(shù)量小于 330 或者 590，那么內(nèi)存訪問就會成為瓶頸。

雖然 LLaMA 2 的理論上限是 4096 個 token，但很多輸入 prompt 用不了這么多，因此內(nèi)存訪問是有可能成為瓶頸的。此時，就需要靠 batch size 來補(bǔ)足了。推理中的批量處理，就是把幾乎同時到達(dá)后端服務(wù)的 prompt 放到一起處理。不用擔(dān)心，batch 里面的不同 prompt 的處理是完全獨立的，不用擔(dān)心會互相干擾。但這些 prompt 的輸出是步調(diào)整齊劃一的，每一輪整個 batch 中的每個 prompt 都會輸出一個 token，因此如果有的 prompt 先輸出完了，那就只能等其他的輸出結(jié)束，造成一定的算力浪費(fèi)。

有的人問，批量處理所需的算力跟分別單獨處理所需的算力是一樣的呀，那推理時為什么需要批量處理？答案就在訪問內(nèi)存的帶寬上。

如果同時到達(dá)服務(wù)器的 prompt 很多，是不是 batch size 越大越好？也不是，因為 KV Cache 的大小可是正比于 batch size 的，batch size 大了，KV Cache 占據(jù)的 GPU 內(nèi)存容量就很可觀，比如在 LLaMA-2 70B 中，每個 prompt 都要占據(jù) 5 GB 的 KV Cache，如果 batch size 搞到 32，那么 KV Cache 就會占掉 160 GB 的 GPU 內(nèi)存，比參數(shù)都大了。

70B 推理需要多少張卡？

總的存儲容量也很好算，推理的時候最主要占內(nèi)存的就是參數(shù)、KV Cache 和當(dāng)前層的中間結(jié)果。當(dāng) batch size = 8 時，中間結(jié)果所需的大小是 batch size * token length * embedding size = 8 * 4096 * 8192 * 2B = 0.5 GB，相對來說是很小的。

70B 模型的參數(shù)是 140 GB，不管 A100/H100 還是 4090 都是單卡放不下的。那么 2 張 H100 夠嗎？看起來 160 GB 是夠了，但是剩下的 20 GB 如果用來放 KV Cache，要么把 batch size 壓縮一半，要么把 token 最大長度壓縮一半，聽起來是不太明智。因此，至少需要 3 張 H100。

對于 4090，140 GB 參數(shù) + 40 GB KV Cache = 180 GB，每張卡 24 GB，8 張卡剛好可以放下。

推理用流水線并行可以嗎？

推理使用流水線并行，最主要的問題是串行處理的推理延遲，網(wǎng)絡(luò)延遲倒是小問題。

首先是推理延遲。雖然流水線的不同階段可以塞進(jìn)不同的 prompt，但同一個 prompt 的處理仍然永遠(yuǎn)在單個 GPU 上輪轉(zhuǎn)，這樣相比 Tensor parallelism 而言，單個 prompt 的延遲就增大了。

對于很小的 batch size，GPU 內(nèi)存帶寬是瓶頸，此時每張卡計算每個 token 的時延就是 2 byte * 參數(shù)量 / 卡的數(shù)量 / 內(nèi)存帶寬，例如 8 卡 4090 跑 LLaMA-2 70B，就是 2 * 70G / 8 / 1 TB/s = 0.0175 秒。這里沒有考慮 KV Cache 帶來的節(jié)約。注意，8 張卡是串行處理的，因此每個 token 的時延還要乘以 8，也就是 0.14 秒。每秒只能輸出 7 個 token，對于 70B 這么小的模型來說是有點慢了。

對于很大的 batch size，GPU 算力是瓶頸，此時每張卡計算每個 token 的時延就是 batch size * 2 * 參數(shù)量 / 卡的數(shù)量 / 算力，例如 batch size = 1024，同樣的 8 卡例子，就是 1024 * 2 * 70G / 8 / 330 Tflops = 0.0543 秒。事實上，對于這么大的 batch size，KV Cache 和正向傳播的中間結(jié)果先把 GPU 內(nèi)存給吃滿了。

那么要平衡利用 GPU 算力和內(nèi)存帶寬，batch size 需要是多少呢？這就是 2 byte * 參數(shù)量 / 卡的數(shù)量 / 內(nèi)存帶寬 = batch size * 2 * 參數(shù)量 / 卡的數(shù)量 / 算力，左右兩邊參數(shù)量和卡的數(shù)量互相抵消，得到 batch size = 算力 / 內(nèi)存帶寬。對于 4090，就是 330 / 1 = 330；對于 H100，就是 1979 / 3.35 = 590。也就是說，對 4090 而言，batch size 小于 330 的時候 GPU 內(nèi)存帶寬是瓶頸，大于 330 的時候 GPU 算力是瓶頸。當(dāng) batch size = 330 的時候，理想情況下，內(nèi)存帶寬和算力恰好都打滿，每張卡處理每個 token 的時間就是 17.5 ms。

其次是網(wǎng)絡(luò)延遲。流水線并行相比張量并行的優(yōu)點就是網(wǎng)絡(luò)傳輸量小，流水級之間只需要傳輸 batch size * embedding size 這么多數(shù)據(jù)。例如 batch size = 8，embedding size = 8192，只需要傳輸 128 KB 數(shù)據(jù)，在 32 GB/s 的 PCIe Gen4 x16 上，只需要 4 us 就可以傳輸完成。當(dāng)然，還需要考慮到通信庫本身的開銷，加上 4090 不支持 GPU 之間 P2P 傳輸，需要通過 CPU 中轉(zhuǎn)，實際上需要幾十 us 的時間，相比計算部分動輒幾十 ms 的時延，可以忽略不計。

即使 batch size = 330，這 5.28 MB 數(shù)據(jù)在 PCIe 上也只需要傳輸 0.16 ms，相比計算部分的 17.5 ms 仍然可以忽略不計。

如果可以忍受流水線并行的推理延遲，甚至可以用多臺主機(jī)來做流水線并行。我們假設(shè)主機(jī)間只有 1 Gbps 的普通以太網(wǎng)絡(luò)，每臺主機(jī)只有一張 4090。對于 batch size = 1，16 KB 數(shù)據(jù)需要 0.25 ms 才能傳輸完成，再加上 0.25 ms 兩端網(wǎng)絡(luò)協(xié)議棧的處理時間，每個流水級就需要 0.5 ms 的時延，8 張卡花在通信上的時間只有 4 ms，相比整體計算時延 140 ms 來說可以忽略，不會顯著影響系統(tǒng)的推理延遲。

當(dāng) batch size 很小時，流水線推理中的網(wǎng)絡(luò)流量是突發(fā)性（bursty）的，每過 18 ms 只會進(jìn)行 0.25 ms 數(shù)據(jù)傳輸，只有 1/72 的占空比，不用擔(dān)心流水線推理把局域網(wǎng)全部給占滿了，搞得沒法正常上網(wǎng)了。

如果為了充分利用算力，把 batch size 設(shè)置得很大，比如 330，那么 16 KB * 330 = 5.28 MB 數(shù)據(jù)需要傳輸 41 ms，8 張卡花在通信上的時間高達(dá) 0.33 秒，這樣就只有 3 token/s 的輸出速度了，難以忍受。因此，如果用主機(jī)間通信來做流水線并行，主機(jī)間又沒有很高的通信帶寬，就勢必需要犧牲一定的吞吐量。

例如，我們設(shè)置輸出速度不小于 5 token/s，這時留給通信的時間是 60 ms，每個流水級至多 7.5 ms，1 Gbps 網(wǎng)絡(luò)可以傳輸 960 KB 數(shù)據(jù)，這時 batch size 至多設(shè)置為 60，也就是這 8 張 4090 的總吞吐量是 2400 token/s。此時的有效算力利用率只有不到 20%。

最近有一個比較火的 Petals 開源項目，就是利用流水線并行，把 GPU 做成了一個類似 BitTorrent 的分布式網(wǎng)絡(luò)。雖然推理延遲確實比較高，但至少說明了分布式 GPU 推理的可行性。

推理用張量并行怎么樣？

前面講到，流水線并行的最大缺點是 GPU 串行處理，延遲較高，導(dǎo)致輸出 token 比較慢。而張量并行的最大缺點是傳輸數(shù)據(jù)量大，網(wǎng)絡(luò)帶寬低的設(shè)備不一定 hold 得住。

但是推理要傳輸?shù)臄?shù)據(jù)量跟訓(xùn)練要傳輸?shù)臄?shù)據(jù)量可不是一回事?。⊥评碇恍枰獋鬏斦騻鞑サ闹虚g結(jié)果（activation），而訓(xùn)練還需要傳輸所有參數(shù)的梯度，梯度才是數(shù)據(jù)量的大頭。

在推理中，如果使用張量并行，Transformer 的每一層都需要傳輸把自己負(fù)責(zé)的結(jié)果向量（大小為 batch size * embedding size / num GPUs）廣播給其他所有 GPU，并接受來自所有其他 GPU 廣播來的數(shù)據(jù)。計算 attention 的時候需要傳輸一次，計算 feed-forward network 的時候又需要傳輸一次，也就是總共需要傳輸 2 * 層數(shù)這么多次。

每次發(fā)送就是 batch size * embedding size（發(fā)送和接收是不同的方向，不能算兩次），對于 batch size = 1, embedding size = 8192，只需要傳輸 16 KB 數(shù)據(jù)，在 32 GB/s 的 PCIe Gen4 上傳輸只需要 1 us。當(dāng)然，考慮到前面討論的 CPU 中轉(zhuǎn)開銷，還是需要大約 30 us 的。一共 160 次傳輸，需要 4.8 ms。

我們再考慮計算的開銷。還是考慮 batch size = 1 的情形，GPU 內(nèi)存帶寬是瓶頸，此時每張卡計算每個 token 的時延就是 2 byte * 參數(shù)量 / 卡的數(shù)量 / 內(nèi)存帶寬，代入我們前面的數(shù)值，仍然是 17.5 ms。但是這里 8 張卡是并行處理的，因此總的處理時長就是計算時間 + 通信時間 = 17.5 ms + 4.8 ms = 22.3 ms。這就意味著每秒可以生成 45 個 token，這個 token 生成速度已經(jīng)很不錯了，至少人類的閱讀速度是很難趕上生成的速度了。

如果 batch size 更大會怎樣？例如 batch size = 330，把 GPU 算力和內(nèi)存帶寬都充分利用起來，每次需要傳輸?shù)臄?shù)據(jù)量是 330 * 8192 * 2 = 5.4 MB，在 32 GB/s 的 PCIe Gen4 上需要 0.17 ms。一共 160 次傳輸，就是 27 ms。這下網(wǎng)絡(luò)通信開銷成了延遲的大頭，總處理時長為 27 + 17.5 = 44.5 ms，每秒只能生成 22 個 token 了，但也不算慢。

注意，不管用多少個 GPU 做并行推理，只要用的是張量并行，網(wǎng)絡(luò)傳輸?shù)目倲?shù)據(jù)量是相同的，因此增加 GPU 的數(shù)量只能加速計算，不能加速通信。

因此，A100/H100 的 NVLink 在降低推理延遲方面還是有很大作用的。如果用 A100/H100，取 batch size = 590 達(dá)到算力和帶寬的平衡利用，這 9.44 MB 數(shù)據(jù)只需要 9.44 MB / 450 GB/s = 0.02 ms。一共 160 次傳輸，也只有 3.2 ms。由于內(nèi)存帶寬大了，計算時間也可以大幅縮短，例如 H100 的計算時間為 2 * 70G / 8 / 3.35 TB/s = 5.2 ms?？偺幚頃r長只有 5.2 ms + 3.2 ms = 8.4 ms，每秒可以生成 119 個 token，非常棒！

可以說，如果論單個 prompt 的 token 生成速度，無論用多少塊 4090 也追不上 8 卡 H100。

用 4090 做推理的成本怎么樣？

對于推理，不管用流水線并行還是張量并行，batch size 不算高到太離譜的情況下內(nèi)存帶寬都是瓶頸。

假如 batch size 能夠高到把算力 100% 利用起來，并且還能解決 KV Cache 不夠大的問題，能解決中間結(jié)果占用內(nèi)存過多的問題，那么這 8 張 4090 可以達(dá)到多少吞吐量？

當(dāng)然，這兩個問題都不好解決，因此推理優(yōu)化才是一個熱門的研究領(lǐng)域，存在很多的 trade-off 和奇技淫巧。如果只是用標(biāo)準(zhǔn)的 PyTorch，那推理性能距離把算力 100% 利用起來還遠(yuǎn)得很吶。

假設(shè)都解決了，在張量并行的通信過程中我們可以利用 double buffer 做另外一個 batch 的計算，也就是計算和通信并行，進(jìn)一步提高吞吐量。通信和計算分別是 27 ms 和 17.5 ms，傳輸?shù)?27 ms 是瓶頸，也就是每 27 ms 輸出一組 token，一個 batch 330 個 prompt，那這 8 張 4090 真是可以達(dá)到每秒 330 / 0.027 = 12.2K token 的吞吐量。

8 張 4090 的成本是 12800 美金，8 卡 PCIe Gen4 服務(wù)器本身要 2 萬美金，加上網(wǎng)絡(luò)設(shè)備，平均每臺 4 萬美金的設(shè)備成本。固定資產(chǎn)按照 3 年攤銷，每小時 1.52 美元。整機(jī)功耗大約 400W * 8 + 2 kW = 5 kW，按照 0.1 美元一度電算，每小時 0.5 美元。這 2 美元一小時的機(jī)器，滿打滿算能生成 12.2K * 3600 = 44M tokens，也就是說?1 美元能生成 22M tokens。

是不是比 GPT-3.5 Turbo 的 $0.002 / 1K tokens，也就是 1 美元 0.5M tokens?便宜 44 倍？當(dāng)然，賬不能這么算。

首先，GPU 的算力利用率到不了 100%；

其次，如同所有 SaaS 服務(wù)一樣，用戶的請求數(shù)量有波峰有波谷，用戶是按量付費(fèi)的，平臺提供方可是不管有沒有人用都在燒錢的；

此外，每個 batch 中不同 prompt 的長度和響應(yīng) token 數(shù)量都不同，消耗的算力是 batch 中最大的那個，但收的錢是用戶實際用的 token 數(shù)；

再次，GPT-3.5 是 175B 的模型，比 70B 的 LLaMA 很可能推理成本更高；

最后，OpenAI 開發(fā) GPT-3.5 是燒了不知道多少錢的，人家至少要賺回訓(xùn)練成本和研發(fā)人員的工資吧。

其實 GPT-3.5 Turbo 的 $0.002 / 1K tokens 真的挺良心的，有的賣 API 的，LLaMA-2 70B 都敢比 GPT-3.5 Turbo 賣得貴。

如果換成用 H100 做推理，重新算一下這筆賬。一張 H100 至少要 3 萬美金，一臺 8 卡 H100 高配服務(wù)器加上配套的 IB 網(wǎng)絡(luò)，起碼要 30 萬美金，同樣按照 3 年攤銷，每小時 11.4 美元。10 kW 功耗，電費(fèi)每小時 1 美元。一共 12.4 美元一小時。

這其實已經(jīng)是非常良心的價格了，你在任何云服務(wù)商都不可能租得到這么便宜的 8 卡 H100。所以說從云服務(wù)商租卡賣沒有護(hù)城河的 SaaS 服務(wù)，比如開源模型的推理 API，除非有一種提高推理性能的獨門絕技，很難賺得了什么大錢，二房東的生意不是這么好做的。

再算算這臺 8 卡 H100 機(jī)器的吞吐量，張量并行也采用傳輸和計算并行，H100 的通信比較快，因此計算是瓶頸，每 5.2 ms 可以輸出一組 token，一個 batch 590 個 prompt，滿打滿算可以達(dá)到每秒 590 / 0.0052 = 113K token 的吞吐量。理想情況下，一小時能生成 407M tokens，也就是 1 美元能生成 33M tokens，H100 這單位 token 的成本比 4090 還要低 30%。

為什么 8 卡 H100 機(jī)器是 4090 機(jī)器價格的 6 倍，性價比卻比 4090 高？因為一張 H100 的算力是 4090 的 6 倍，內(nèi)存帶寬是 4090 的 3.35 倍，當(dāng) batch size 夠大，算力達(dá)到瓶頸的時候，單卡的性能就是 6 倍。而且，H100 比 4090 的網(wǎng)絡(luò)帶寬強(qiáng)太多了，導(dǎo)致 4090 在張量并行中網(wǎng)絡(luò)通信成了瓶頸，浪費(fèi)了有效算力。因此，同樣的 8 卡機(jī)器吞吐量幾乎可以達(dá)到 4090 的 10 倍。雖然一張 H100 卡的價格是 4090 的 20 倍以上，但算上服務(wù)器本身的成本和電費(fèi)，整機(jī)的成本只是 6 倍左右。

用最便宜的設(shè)備搞出最高的推理性能

我們發(fā)現(xiàn)在 8 卡 4090 機(jī)器中，3 萬美金的設(shè)備成本，GPU 卡只占了 1.28 萬美金，不像 H100 機(jī)器那樣 GPU 成本占了大頭。還有辦法進(jìn)一步降低嗎？

如果我們可以忍受 5 token/s 的輸出速度，甚至可以利用流水線并行，用家用臺式機(jī)和 4090 攢出個推理集群來。

遙想我當(dāng)年在 MSRA 的時候，在一臺只用 1000 美金攢出來的機(jī)器上插了 10 塊 FPGA，做出個世界最快的 Key-Value Store。其實如果讓我去設(shè)計一個性價比最高的 4090 推理集群，有很多種方案可以嘗試：

用流水線并行，臺式機(jī) + 10 Gbps 網(wǎng)卡，足夠在 5 ms 內(nèi)傳輸 batch size = 330 的 5.28 MB 數(shù)據(jù)了，通信 40 ms，計算 140 ms，達(dá)到 5 token/s 的單 prompt 輸出速度，同時又能充分利用 4090 的算力。10 Gbps 的網(wǎng)卡和交換機(jī)都很便宜，Intel X710 網(wǎng)卡只要 150 美金，20 口交換機(jī)只要 1500 美金（每 8 個口 750 美金），一臺家用臺式機(jī) 700 美金，這只要 2 萬美金就可以搞定原本需要 4 萬美金的設(shè)備。

用張量并行，臺式機(jī) + 200 Gbps ConnectX-6 網(wǎng)卡，上 RoCE，可以把 batch size = 330 的 5.28 MB 數(shù)據(jù)在 0.22 ms 內(nèi)傳完，160 次傳輸是 35 ms，加上計算的 17.5 ms，一個 token 52.5 ms，可以達(dá)到 19 token/s 的單 prompt 輸出速度，這個速度已經(jīng)不錯了。網(wǎng)卡 1000 美金，200G 交換機(jī) 2 萬美金 40 個端口，平均每 8 個端口 4000 美金，一臺家用臺式機(jī) 700 美金，這只要 3 萬美金就能搞定原本 4 萬美金的設(shè)備。

主機(jī)內(nèi)用張量并行，主機(jī)間用流水線并行，4 卡 PCIe Gen4 服務(wù)器主板只要 1000 美金而且能跑滿 PCIe 帶寬（因為 8 卡就需要 PCIe switch 了，價格會貴很多），兩臺主機(jī)之間用 25 Gbps 網(wǎng)卡直連，主機(jī)內(nèi)張量并行的時延是 27 ms，主機(jī)間流水線并行只需 2 次 8 ms 的傳輸（注意 25G 的網(wǎng)絡(luò)帶寬是 4 張 GPU 卡共享的），加上兩次流水線計算各 17.5 ms，總共 78 ms，可以達(dá)到 13 token/s 的單 prompt 輸出速度。網(wǎng)卡 300 美金 * 2，服務(wù)器 3000 美金 * 2，這只要 1.95 萬美金就可以搞定原本需要 4 萬美金的設(shè)備。

2 萬美金按照 3 年攤銷是每小時 0.76 美元。按照 0.1 美元/度的電價，每小時的電費(fèi)都要 0.5 美元，接近設(shè)備成本了，這有點挖礦的味道了。這 1.26 美元一小時的機(jī)器如果跑滿了 44M tokens 的吞吐量，1 美元能生成 35M tokens，終于趕上 8 卡 H100 的 33M token per dollar 了。

為什么 H100 以 20 倍于 4090 的 GPU 價格，9 倍的性能，卻仍然能在系統(tǒng)性價比上打個平手，首先是因為能耗成本更低，8 卡 H100 的功耗是 10 kW，但 9 臺 8 卡 4090 的功耗是 45 kW；其次是因為主機(jī)和網(wǎng)絡(luò)設(shè)備成本更低，一臺 8 卡 H100 準(zhǔn)系統(tǒng)雖然貴，但只占整機(jī)價格的 20% 左右；但 4090 因為卡多，除非像 GPU 礦機(jī)那樣壓成本，只要還是用數(shù)據(jù)中心級的設(shè)備，準(zhǔn)系統(tǒng)價格就要占到 35% 以上。

其實，這個世界上不止有 A100/H100 和 4090，還有 A10 等計算卡和 3090 等游戲卡，還有 AMD 的 GPU 和很多其他廠商的 AI 芯片。H100 和 4090 大概率都不是性價比的最優(yōu)解，例如 A10 和 AMD GPU 的性價比有可能就更高。

我都想搞一個推理性價比挑戰(zhàn)賽，看誰能用最便宜的設(shè)備搞出最強(qiáng)的推理吞吐量，同時延遲不能太高；或者用最便宜的設(shè)備搞出最低的推理延遲，同時吞吐量不能太低。

這一切都是在假設(shè)使用 LLaMA-2 70B 模型，沒有做量化壓縮的前提下。如果做了量化壓縮，那性能就更高，甚至在 Unified Memory 夠大的 MacBook Pro 上都能單機(jī)跑了。

License 問題怎么辦？

我把這個問題放到最后。NVIDIA Geforce driver 的 License 里寫道：

No Datacenter Deployment. The SOFTWARE is not licensed for datacenter deployment, except that blockchain processing in a datacenter is permitted.

既然機(jī)器都是用臺式機(jī)攢起來的，這能叫 data center 嗎？還是叫礦場比較合適吧。人家也說了，4090 用來做區(qū)塊鏈?zhǔn)窃试S的。

我有一個大膽的想法，如果未來的區(qū)塊鏈不再用挖礦來做 proof of work，而是用大模型推理來做 proof of work，這是不是很有意思？每個人買幾塊顯卡，接到礦池上，既可以自己用來玩游戲，閑時又可以貢獻(xiàn)算力。礦池直接就是個賣大模型推理 SaaS 服務(wù)的公司，提供前所未有的低價 API。甚至需要大模型推理服務(wù)的人可以在區(qū)塊鏈里自己 P2P 玩起來，誰要用大模型就付點 gas。

當(dāng)然，目前的 proof of work 都是計算很復(fù)雜，驗證很簡單的。如果真用大模型推理做 proof of work，必須防止用戶隨意編造一個結(jié)果交上去。當(dāng)然這也是有解決方案的，就像 BitTorrent 和其他一些去中心化網(wǎng)絡(luò)一樣，采用信用機(jī)制，新人只能做驗證別人計算結(jié)果的工作，積攢信用；老人每次算錯了，都有比較嚴(yán)厲的懲罰。

從另一個角度看，家庭局域網(wǎng)絡(luò)的速度也越來越快，比如我家就自己部署了 10 Gbps 的網(wǎng)絡(luò)。家中的智能設(shè)備越來越多，算力越來越強(qiáng)。光纖入戶也越來越普遍，小區(qū)和城市的運(yùn)營商機(jī)房里部署了越來越多的邊緣計算節(jié)點。前面我們用 1 Gbps 的網(wǎng)絡(luò)就足以把多臺主機(jī)上的 GPU 組成流水線并行，那么在未來的家庭高速網(wǎng)絡(luò)中，流水線并行甚至張量并行都將成為可能。

大多數(shù)搞 AI 推理的都只關(guān)心數(shù)據(jù)中心，忽略了家中的分布式算力。只要解決了安全、隱私和經(jīng)濟(jì)動機(jī)問題，我家的 Siri，也許就跑在鄰居家里的 GPU 上。

很多人都在說要 democratize AI。但現(xiàn)在大模型平民化的最大障礙就是成本，而成本最大的來源又是 GPU 市場上計算卡和游戲卡價格的剪刀差。這并不是指責(zé)某家公司，其他做 AI 芯片的公司，AI 芯片的算力也并不便宜。畢竟芯片、軟件和生態(tài)的研發(fā)都是白花花的銀子。

就像本文開頭提到的微軟給每臺服務(wù)器部署 FPGA 一樣，大規(guī)模量產(chǎn)的芯片價格就像沙子一樣。到時候，能限制大模型推理算力的就只有能源了，就像區(qū)塊鏈挖礦和通用 CPU 的云計算一樣，都在找最便宜的電力供應(yīng)。我在之前的一個采訪中就表示，長期來看，能源和材料可能是制約大模型發(fā)展的關(guān)鍵。讓我們期待廉價的大模型走進(jìn)千家萬戶，真正改變?nèi)藗兊纳睢?/p>

編輯：黃飛

閱讀全文

FPGA(591969) FPGA(591969)
gpu(126254) gpu(126254)
內(nèi)存(72585) 內(nèi)存(72585)
A100(7574) A100(7574)
大模型(805) 大模型(805)

AI訓(xùn)練勢起，GPU要讓位了？

的BERTSG、北京智源人工智能研究院的悟道2.0等等。 ? 那么訓(xùn)練出這樣一個大模型需要怎樣的硬件前提？如何以較低的成本完成自己模型訓(xùn)練工作？這些都是不少AI初創(chuàng)企業(yè)需要考慮的問題，那么如今市面上有哪些訓(xùn)練芯片是經(jīng)得起考驗的呢？我

2021-12-18 06:51:00

2824

AI模型是如何訓(xùn)練的？訓(xùn)練一個模型花費(fèi)多大？

電子發(fā)燒友網(wǎng)報道（文/李彎彎）在深度學(xué)習(xí)中，經(jīng)常聽到一個詞“模型訓(xùn)練”，但是模型是什么？又是怎么訓(xùn)練的？在人工智能中，面對大量的數(shù)據(jù)，要在雜亂無章的內(nèi)容中，準(zhǔn)確、容易地識別，輸出需要的圖像/語音

2022-10-23 00:19:00

24269

英偉達(dá) H100 vs 蘋果M2 大模型訓(xùn)練，哪款性價比更高？

訓(xùn)練和微調(diào)大型語言模型對于硬件資源的要求非常高。目前，主流的大模型訓(xùn)練硬件通常采用英特爾的CPU和英偉達(dá)的GPU。然而，最近蘋果的M2 Ultra芯片和AMD的顯卡進(jìn)展給我們帶來了一些新的希望。

2023-07-28 16:11:01

2123

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識，但仍舊存在很多問題，如知識量有限、受訓(xùn)練數(shù)據(jù)長尾分布影響魯棒性不好

2022-04-02 17:21:43

8764

基于不同量級預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過數(shù)十億個字符的語料經(jīng)過預(yù)訓(xùn)練的模型匯主導(dǎo)。那么對于一個預(yù)訓(xùn)練模型，對于不同量級下的預(yù)訓(xùn)練數(shù)據(jù)能夠提取到的知識和能力有何不同？

2023-03-03 11:21:51

1339

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么解決？

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2023-08-04 09:16:28

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class="flag-6" style="color: red">GPU

現(xiàn)場可編程門陣列 (FPGA) 解決了 GPU 在運(yùn)行深度學(xué)習(xí)模型時面臨的許多問題在過去的十年里，人工智能的再一次興起使顯卡行業(yè)受益匪淺。英偉達(dá) (Nvidia) 和 AMD 等公司的股價也大幅

2024-03-21 15:19:45

GBDT算法原理和模型訓(xùn)練

)，其中y取值1或-1（代表二分類的類別標(biāo)簽），這也是GBDT可以用來解決分類問題的原因。模型訓(xùn)練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-23 14:38:58

Mali GPU支持tensorflow或者caffe等深度學(xué)習(xí)模型嗎

Mali GPU 支持tensorflow或者caffe等深度學(xué)習(xí)模型嗎？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU運(yùn)行？我希望把訓(xùn)練

2022-09-16 14:13:01

Nvidia GPU風(fēng)扇和電源顯示ERR怎么解決

問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候，如果機(jī)器鎖屏一段時間再打開的時候鼠標(biāo)非常卡頓，或者說顯示界面非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，訓(xùn)練模型的GPU沒有問題，但是

2021-12-30 06:44:30

OCR訓(xùn)練字符有什么技巧嗎

想要識別這個PH計上的數(shù)字，有下面的圖片訓(xùn)練后，還是不能識別，大神們OCR訓(xùn)練有什么技巧嗎,怎樣數(shù)字和小數(shù)點都能識別啊，我現(xiàn)在只能識別數(shù)字，是需要把圖片處理下嗎？

2017-07-07 17:26:40

Pytorch模型訓(xùn)練實用PDF教程【中文】

本教程以實際應(yīng)用、工程開發(fā)為目的，著重介紹模型訓(xùn)練過程中遇到的實際問題和方法。在機(jī)器學(xué)習(xí)模型開發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、模型和損失函數(shù)及優(yōu)化器。本文也按順序的依次介紹數(shù)據(jù)、模型和損失函數(shù)

2018-12-21 09:18:02

[基于GD32F350RB的音頻識別器] 4.使用Caffe2構(gòu)建訓(xùn)練平臺

自己的模型，首先就是要搭建這個計算圖，然后才是輸入數(shù)據(jù)進(jìn)行訓(xùn)練，然后輸出訓(xùn)練集的過程。問題是這個深度計算模型的進(jìn)展和更新比學(xué)習(xí)的還要快得多，就版本還沒搞通，新版本就有了很大的更新。這個在范例中引用

2018-09-28 17:50:01

labview可以調(diào)用在python上訓(xùn)練好的分類模型么？

能否直接調(diào)用訓(xùn)練好的模型文件？

2021-06-22 14:51:03

labview調(diào)用深度學(xué)習(xí)tensorflow模型非常簡單，附上源碼和模型

]`labview調(diào)用高性能YOLOV5：http://t.elecfans.com/c1659.html 讓你的CPU也可以運(yùn)行最新深度學(xué)習(xí)模型labview調(diào)用高性能Tensorflow+YOLOV4：http://t.elecfans.com/c1553.html 讓你的GPU也可以運(yùn)行最新深度學(xué)習(xí)模型

2021-06-03 16:38:25

orc字符訓(xùn)練

求助，有哪位大俠可以教我怎么用labvIEW中的orc訓(xùn)練字符集？十分感謝

2014-03-11 10:21:43

【Sipeed M2 Dock開發(fā)板試用體驗】之家貓檢測模型訓(xùn)練篇

準(zhǔn)備開始為家貓做模型訓(xùn)練檢測，要去官網(wǎng)https://maix.sipeed.com/home 注冊帳號，文章尾部的視頻是官方的，與目前網(wǎng)站略有出路，說明訓(xùn)練網(wǎng)站的功能更新得很快。其實整個的過程

2022-06-26 21:19:40

使用eIQ門戶進(jìn)行訓(xùn)練時出現(xiàn)服務(wù)器錯誤如何解決?

我正在嘗試使用自己的數(shù)據(jù)集訓(xùn)練人臉檢測模型。此錯誤發(fā)生在訓(xùn)練開始期間。如何解決這一問題？

2023-04-17 08:04:49

醫(yī)療模型人訓(xùn)練系統(tǒng)是什么？

醫(yī)療模型人訓(xùn)練系統(tǒng)是為滿足廣大醫(yī)學(xué)生的需要而設(shè)計的。我國現(xiàn)代醫(yī)療模擬技術(shù)的發(fā)展處于剛剛起步階段，大部分仿真系統(tǒng)產(chǎn)品都源于國外，雖然對于模擬人仿真已經(jīng)出現(xiàn)一些產(chǎn)品，但那些產(chǎn)品只是就模擬人的某一部分，某一個功能實現(xiàn)的仿真，沒有一個完整的系統(tǒng)綜合其所有功能。

2019-08-19 08:32:45

在Ubuntu上使用Nvidia GPU訓(xùn)練模型

問題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時候，沒有問題，過一會再訓(xùn)練出現(xiàn)非?？D，使用nvidia-smi查看發(fā)現(xiàn)，顯示GPU的風(fēng)扇和電源報錯：解決方案自動風(fēng)扇控制在nvidia

2022-01-03 08:24:09

基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測實現(xiàn)輸出模型中的表情或性別gradcam

CV：基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測實現(xiàn)輸出模型中的臉部表情或性別的gradcam(可視化)

2018-12-27 16:48:28

基于智能語音交互芯片的模擬訓(xùn)練器示教與回放系統(tǒng)設(shè)計

0 引言隨著高新技術(shù)在軍事領(lǐng)域的廣泛運(yùn)用，武器裝備逐步向高、精、尖方向發(fā)展。傳統(tǒng)的軍事訓(xùn)練由于訓(xùn)練時間長、訓(xùn)練費(fèi)用高、訓(xùn)練空間窄，常常不能達(dá)到預(yù)期的訓(xùn)練效果，已不能滿足現(xiàn)代軍事訓(xùn)練的需要。為

2019-07-01 08:07:36

如何使用eIQ門戶訓(xùn)練人臉檢測模型？

我正在嘗試使用 eIQ 門戶訓(xùn)練人臉檢測模型。我正在嘗試從 tensorflow 數(shù)據(jù)集 (tfds) 導(dǎo)入數(shù)據(jù)集，特別是 coco/2017 數(shù)據(jù)集。但是，我只想導(dǎo)入 wider_face。但是，當(dāng)我嘗試這樣做時，會出現(xiàn)導(dǎo)入程序錯誤，如下圖所示。任何幫助都可以。

2023-04-06 08:45:14

如何跳過SPL中的ddr訓(xùn)練？

我正在優(yōu)化啟動速度，ddr 訓(xùn)練在 SPL 中需要 360ms，所以我想跳過它。我厭倦了在 ddr 訓(xùn)練后注意 ddrphy_trained_csr[] 和 g_cdd_max[]，注釋掉 ddr

2023-06-01 08:16:47

如何進(jìn)行OCR訓(xùn)練

1.確定已安裝VA模塊 2.選擇identification/OCR3.點擊“新的字符集文件”4.調(diào)整好矩形選擇框-參數(shù)設(shè)定-輸入正確字符或字符串-點擊“Train”5.點擊“編輯字符集文件”就可以看到訓(xùn)練結(jié)果了?？梢远?b class="flag-6" style="color: red">訓(xùn)練一些字符

2017-01-04 16:39:19

如何進(jìn)行高效的時序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

提高多GPU訓(xùn)練的性能，包括局部性感知的數(shù)據(jù)劃分策略以及高效的任務(wù)調(diào)度策略。首先，本文使用高效的數(shù)據(jù)劃分策略將圖數(shù)據(jù)以及點的特征向量進(jìn)行有效的劃分，來降低GPU之間額外的通信開銷。點的特征向量占據(jù)很大

2022-09-28 10:37:20

平臺羅經(jīng)訓(xùn)練模擬器設(shè)計介紹

知識，維護(hù)使用人員只有經(jīng)過專門培訓(xùn)才能勝任故障定位、排除以及裝備等日常維護(hù)工作。由于受經(jīng)費(fèi)、生產(chǎn)能力等客觀條件制約，以及訓(xùn)練內(nèi)容、形式有限，實裝訓(xùn)練不能完全滿足訓(xùn)練需求。為了提高使用人員的操作技能和維護(hù)保養(yǎng)

2019-07-23 07:30:02

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時候，權(quán)值是不是不能變了？

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時候，權(quán)值是不是不能變了？？？？就是已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)是不是相當(dāng)于得到一個公式了，權(quán)值不能變了

2016-10-24 21:55:22

探索一種降低ViT模型訓(xùn)練成本的方法

其上的實驗來評估性能，當(dāng)每次實驗的訓(xùn)練成本過高時，這不是一種可擴(kuò)展的方法。通過降低訓(xùn)練成本，縮短了開發(fā)周期。2 更容易接近。大多數(shù)ViT模型都是通過使用多個GPU或TPU從頭開始訓(xùn)練的，不幸的是，這將

2022-11-24 14:56:31

深度融合模型的特點

深度融合模型的特點，背景深度學(xué)習(xí)模型在訓(xùn)練完成之后，部署并應(yīng)用在生產(chǎn)環(huán)境的這一步至關(guān)重要，畢竟訓(xùn)練出來的模型不能只接受一些公開數(shù)據(jù)集和榜單的檢驗，還需要在真正的業(yè)務(wù)場景下創(chuàng)造價值，不能只是為了PR而

2021-07-16 06:08:20

用S3C2440訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法

嵌入式設(shè)備自帶專用屬性，不適合作為隨機(jī)性很強(qiáng)的人工智能深度學(xué)習(xí)訓(xùn)練平臺。想象用S3C2440訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法都會頭皮發(fā)麻，PC上的I7、GPU上都很吃力，大部分都要依靠服務(wù)器來訓(xùn)練。但是一旦算法訓(xùn)練

2021-08-17 08:51:57

神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時常用的一些損失函數(shù)介紹

，模型收斂速度相當(dāng)快，訓(xùn)練和測試性能保持不變。根據(jù)模型的性能和收斂特性，均方誤差是回歸問題的一個很好的選擇。MSLE在具有廣泛值的回歸問題中，可能不希望在預(yù)測大值時像均方誤差那樣對模型進(jìn)行懲罰。所以

2022-10-20 17:14:15

算法原理與模型訓(xùn)練

2019-01-25 15:02:15

請教Vision做OCR識別數(shù)字，可以訓(xùn)練，但訓(xùn)練好的對訓(xùn)練樣本處理出現(xiàn)問題，見圖片閾值無法調(diào)節(jié)，求教_(:зゝ∠)_

OCR訓(xùn)練時閾值選擇Mode為Auto：Uniform，但訓(xùn)練好后對訓(xùn)練樣本做識別出現(xiàn)問題，見圖片，求教

2017-02-20 11:26:18

請問K510設(shè)備什么時候可以支持線上模型訓(xùn)練？

目前官方的線上模型訓(xùn)練只支持K210，請問K510什么時候可以支持

2023-09-13 06:12:13

請問Labveiw如何調(diào)用matlab訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型呢？

我在matlab中訓(xùn)練好了一個神經(jīng)網(wǎng)絡(luò)模型，想在labview中調(diào)用，請問應(yīng)該怎么做呢？或者labview有自己的神經(jīng)網(wǎng)絡(luò)工具包嗎？

2018-07-05 17:32:32

下肢外骨骼康復(fù)訓(xùn)練機(jī)器人

邁步機(jī)器人BEAR-H系列是用于輔助腦卒中患者步態(tài)康復(fù)訓(xùn)練的新型可穿戴式下肢外骨骼機(jī)器人。機(jī)器人擁有主動被動訓(xùn)練模式，通過對患者髖、膝、踝關(guān)節(jié)提供助力完成行走訓(xùn)練，可以節(jié)省人力，并提高康復(fù)效果

2023-09-20 17:25:48

比谷歌快46倍！GPU助力IBM Snap ML，40億樣本訓(xùn)練模型僅需91.5秒

在為這樣的大規(guī)模應(yīng)用部署GPU加速時，出現(xiàn)了一個主要的技術(shù)挑戰(zhàn)：訓(xùn)練數(shù)據(jù)太大而無法存儲在GPU上可用的存儲器中。因此，在訓(xùn)練期間，需要有選擇地處理數(shù)據(jù)并反復(fù)移入和移出GPU內(nèi)存。為了解釋應(yīng)用程序的運(yùn)行時間，研究人員分析了在GPU內(nèi)核中花費(fèi)的時間與在GPU上復(fù)制數(shù)據(jù)所花費(fèi)的時間。

2018-03-26 10:29:15

4283

基于虛擬化的多GPU深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架

針對深度神經(jīng)網(wǎng)絡(luò)在分布式多機(jī)多GPU上的加速訓(xùn)練問題，提出一種基于虛擬化的遠(yuǎn)程多GPU調(diào)用的實現(xiàn)方法。利用遠(yuǎn)程GPU調(diào)用部署的分布式GPU集群改進(jìn)傳統(tǒng)一對一的虛擬化技術(shù)，同時改變深度神經(jīng)網(wǎng)絡(luò)在分布式

2018-03-29 16:45:25

基于tensorflow.js設(shè)計、訓(xùn)練面向web的神經(jīng)網(wǎng)絡(luò)模型的經(jīng)驗

了NVIDIA顯卡。tensorflow.js在底層使用了WebGL加速，所以在瀏覽器中訓(xùn)練模型的一個好處是可以利用AMD顯卡。另外，在瀏覽器中訓(xùn)練模型，可以更好地保護(hù)用戶隱私，更容易讓用戶信任。

2018-10-18 09:43:12

3837

GPU如何訓(xùn)練大批量模型？方法在這里

深度學(xué)習(xí)模型和數(shù)據(jù)集的規(guī)模增長速度已經(jīng)讓 GPU 算力也開始捉襟見肘，如果你的 GPU 連一個樣本都容不下，你要如何訓(xùn)練大批量模型？通過本文介紹的方法，我們可以在訓(xùn)練批量甚至單個訓(xùn)練樣本大于 GPU

2018-12-03 17:24:01

668

為什么要使用預(yù)訓(xùn)練模型？8種優(yōu)秀預(yù)訓(xùn)練模型大盤點

正如我們在本文中所述，ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)，將其在WikiText-103數(shù)據(jù)集（維基百科的長期依賴語言建模數(shù)據(jù)集Wikitext之一）上訓(xùn)練，從而得到新數(shù)據(jù)集，通過這種方式使其不會忘記之前學(xué)過的內(nèi)容。

2019-04-04 11:26:26

23192

機(jī)器學(xué)習(xí)模型再訓(xùn)練的指南詳細(xì)概述

機(jī)器學(xué)習(xí)模型的訓(xùn)練，通常是通過學(xué)習(xí)某一組輸入特征與輸出目標(biāo)之間的映射來進(jìn)行的。一般來說，對于映射的學(xué)習(xí)是通過優(yōu)化某些成本函數(shù)，來使預(yù)測的誤差最小化。在訓(xùn)練出最佳模型之后，將其正式發(fā)布上線，再根據(jù)未來

2020-04-10 08:00:00

關(guān)于語言模型和對抗訓(xùn)練的工作

本文把對抗訓(xùn)練用到了預(yù)訓(xùn)練和微調(diào)兩個階段，對抗訓(xùn)練的方法是針對embedding space，通過最大化對抗損失、最小化模型損失的方式進(jìn)行對抗，在下游任務(wù)上取得了一致的效果提升。有趣的是，這種對抗

2020-11-02 15:26:49

1802

如何讓PyTorch模型訓(xùn)練變得飛快？

讓我們面對現(xiàn)實吧，你的模型可能還停留在石器時代。我敢打賭你仍然使用32位精度或GASP甚至只在一個GPU上訓(xùn)練。我明白，網(wǎng)上都是各種神經(jīng)網(wǎng)絡(luò)加速指南，但是一個checklist都沒有（現(xiàn)在

2020-11-27 10:43:52

1487

字符感知預(yù)訓(xùn)練模型CharBERT

本期推送介紹了哈工大訊飛聯(lián)合實驗室在自然語言處理重要國際會議COLING 2020上發(fā)表的工作，提出了一種字符感知預(yù)訓(xùn)練模型CharBERT，在多個自然語言處理任務(wù)中取得顯著性能提升，并且大幅度

2020-11-27 10:47:09

1581

小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

導(dǎo)讀：預(yù)訓(xùn)練模型在NLP大放異彩，并開啟了預(yù)訓(xùn)練-微調(diào)的NLP范式時代。由于工業(yè)領(lǐng)域相關(guān)業(yè)務(wù)的復(fù)雜性，以及工業(yè)應(yīng)用對推理性能的要求，大規(guī)模預(yù)訓(xùn)練模型往往不能簡單直接地被應(yīng)用于NLP業(yè)務(wù)中。本文將為

2020-12-31 10:17:11

2217

一個GPU訓(xùn)練一個130億參數(shù)的模型

。這些大模型的出現(xiàn)讓普通研究者越發(fā)絕望：沒有「鈔能力」、沒有一大堆 GPU 就做不了 AI 研究了嗎？在此背景下，部分研究者開始思考：如何讓這些大模型的訓(xùn)練變得更加接地氣？也就是說，怎么用更少的卡訓(xùn)練更大的模型？為了解決這個問題，來自微軟、加州大學(xué)默塞德分校的研究

2021-02-11 09:04:00

2167

一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測網(wǎng)絡(luò)模型

為提高卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測模型精度并增強(qiáng)檢測器對小目標(biāo)的檢測能力，提出一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測網(wǎng)絡(luò)模型。采用脫離預(yù)訓(xùn)練檢測網(wǎng)絡(luò)使其達(dá)到甚至超過預(yù)訓(xùn)練模型的精度，針對小目標(biāo)特點

2021-04-02 11:35:50

基于預(yù)訓(xùn)練模型和長短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

語義槽填充是對話系統(tǒng)中一項非常重要的任務(wù)，旨在為輸入句子的毎個單詞標(biāo)注正確的標(biāo)簽，其性能的妤壞極大地影響著后續(xù)的對話管理模塊。目前，使用深度學(xué)習(xí)方法解決該任務(wù)時，一般利用隨機(jī)詞向量或者預(yù)訓(xùn)練詞向量

2021-04-20 14:29:06

如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識？

本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語言模型（如RoBERTa、BERT等）中融入知識。

2021-06-23 15:07:31

3465

NVIDIA GPU助力提升模型訓(xùn)練和推理性價比

，其中的模型數(shù)量達(dá)數(shù)千個，日均調(diào)用服務(wù)達(dá)到千億級別。無量推薦系統(tǒng)，在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計算，是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計。傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn) 傳統(tǒng)推薦系統(tǒng)具有以下特點： 訓(xùn)練是基于參數(shù)

2021-08-23 17:09:03

4486

多模態(tài)圖像-文本預(yù)訓(xùn)練模型

在某一方面的智能程度。具體來說是，領(lǐng)域?qū)＜胰斯?gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集，然后在其上訓(xùn)練及評價相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制，要想獲得效果更好、能力更強(qiáng)的模型，往往需要在大量的有標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。近期預(yù)訓(xùn)練模型的

2021-09-06 10:06:53

3351

探究超大Transformer語言模型的分布式訓(xùn)練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細(xì)介紹Megatron的設(shè)計和實踐，探索這一框架如何助力

2021-10-20 09:25:43

2078

2021 OPPO開發(fā)者大會：NLP預(yù)訓(xùn)練大模型

2021 OPPO開發(fā)者大會：NLP預(yù)訓(xùn)練大模型 2021 OPPO開發(fā)者大會上介紹了融合知識的NLP預(yù)訓(xùn)練大模型。責(zé)任編輯：haq

2021-10-27 14:18:41

1492

NVIDIA GPU加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷

深度學(xué)習(xí)是推動當(dāng)前人工智能大趨勢的關(guān)鍵技術(shù)。在 MATLAB 中可以實現(xiàn)深度學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備、網(wǎng)絡(luò)設(shè)計、訓(xùn)練和部署全流程開發(fā)和應(yīng)用。聯(lián)合高性能 NVIDIA GPU 加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷。

2022-02-18 13:31:44

1714

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進(jìn)行finetune，得到下游任務(wù)的模型。然而，這種方式

2022-03-21 15:33:30

1843

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

如何更高效地使用預(yù)訓(xùn)練語言模型

本文對任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實在是太多了，很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

934

預(yù)訓(xùn)練語言模型的字典描述

今天給大家?guī)硪黄狪JCAI2022浙大和阿里聯(lián)合出品的采用對比學(xué)習(xí)的字典描述知識增強(qiáng)的預(yù)訓(xùn)練語言模型-DictBERT，全名為《Dictionary Description Knowledge

2022-08-11 10:37:55

865

如何在GPU資源受限的情況下訓(xùn)練transformers庫上面的大模型

自BERT出現(xiàn)以來，nlp領(lǐng)域已經(jīng)進(jìn)入了大模型的時代，大模型雖然效果好，但是畢竟不是人人都有著豐富的GPU資源，在訓(xùn)練時往往就捉襟見肘，出現(xiàn)顯存out of memory的問題，或者訓(xùn)練時間非常非常的久

2022-08-31 18:16:05

1920

AI模型是如何訓(xùn)練的？訓(xùn)練一個模型花費(fèi)多大？

2022-10-23 00:20:03

7247

如何高效訓(xùn)練Transformer？

然而隨著模型的不斷擴(kuò)大，其訓(xùn)練過程也變得更加困難，比如會出現(xiàn)訓(xùn)練不收斂等問題。這就需要大量的手動調(diào)參工作來解決，而這不僅會造成資源浪費(fèi)，還會產(chǎn)生不可預(yù)估的計算成本。

2023-03-01 09:48:25

1286

預(yù)訓(xùn)練數(shù)據(jù)大小對于預(yù)訓(xùn)練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個預(yù)訓(xùn)練模型的究竟學(xué)習(xí)到了什么樣的語言學(xué)文本知識呢？

2023-03-03 11:20:00

911

什么是預(yù)訓(xùn)練 AI 模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。如果要教一個剛學(xué)會走路的孩子什么是獨角獸，那么我們首先應(yīng)

2023-04-04 01:45:02

1025

推特并入X公司馬斯克還買了10000個GPU要訓(xùn)練大模型

。另外，還有一個特別有意思的是，馬斯克才呼吁暫停?ChatGPT 的訓(xùn)練，馬上就轉(zhuǎn)身就下場買了10000個GPU要訓(xùn)練大模型。根據(jù)最新的數(shù)據(jù)統(tǒng)計顯示，馬斯克的身價為1876億美元，是全球第二大富豪，也是美國首富。美國首富買一些GPU不算什么。毛毛雨啦。據(jù)

2023-04-12 14:19:28

684

利用OpenVINO?部署HuggingFace預(yù)訓(xùn)練模型的方法與技巧

作為深度學(xué)習(xí)領(lǐng)域的 “github”，HuggingFace 已經(jīng)共享了超過 100,000 個預(yù)訓(xùn)練模型

2023-05-19 15:57:43

494

什么是預(yù)訓(xùn)練AI模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。

2023-05-25 17:10:09

593

NVIDIA AI 技術(shù)助力 vivo 文本預(yù)訓(xùn)練大模型性能提升

vivo AI 團(tuán)隊與 NVIDIA 團(tuán)隊合作，通過算子優(yōu)化，提升 vivo 文本預(yù)訓(xùn)練大模型的訓(xùn)練速度。在實際應(yīng)用中， 訓(xùn)練提速 60% ，滿足了下游業(yè)務(wù)應(yīng)用對模型訓(xùn)練速度的要求。通過

2023-05-26 07:15:03

422

大模型訓(xùn)練和部署的關(guān)鍵技術(shù)

每18個月增長340倍。 ? 然而相比之下，硬件增長速度較慢，自2016年至今，GPU的性能增長每18個月1.7倍，模型大小和硬件增長的差距逐漸擴(kuò)大。顯存占用大、算力消費(fèi)大、成本高昂等瓶頸嚴(yán)重阻礙AIGC行業(yè)的快速發(fā)展。在此背景下，潞晨科技創(chuàng)始人尤洋認(rèn)為，分布式訓(xùn)練

2023-05-30 13:56:09

1501

PyTorch教程-13.5。在多個 GPU 上進(jìn)行訓(xùn)練

實驗室在 SageMaker Studio Lab 中打開筆記本到目前為止，我們討論了如何在 CPU 和 GPU 上高效地訓(xùn)練模型。在13.3 節(jié)中，我們甚至展示了深度學(xué)習(xí)框架如何允許人們在它們

2023-06-05 15:44:33

710

基于預(yù)訓(xùn)練模型和語言增強(qiáng)的零樣本視覺學(xué)習(xí)

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會讓模型能力進(jìn)一步提升怎么讓能力更好？可以引入其他知識，即其他的預(yù)訓(xùn)練模型，包括大語言模型、多模態(tài)模型也包括

2023-06-15 16:36:11

276

基于一個完整的 LLM 訓(xùn)練流程

? ? 在這篇文章中，我們將盡可能詳細(xì)地梳理一個完整的 LLM 訓(xùn)練流程。包括模型預(yù)訓(xùn)練（Pretrain）、Tokenizer 訓(xùn)練、指令微調(diào)（Instruction Tuning）等環(huán)節(jié)。文末

2023-06-29 10:08:59

1202

單張消費(fèi)級顯卡微調(diào)多模態(tài)大模型

把大模型的訓(xùn)練門檻打下來！我們在單張消費(fèi)級顯卡上實現(xiàn)了多模態(tài)大模型（LaVIN-7B, LaVIN-13B）的適配和訓(xùn)練

2023-06-30 10:43:28

1172

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟? 卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）是一種常用的深度學(xué)習(xí)算法，廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等諸多領(lǐng)域。CNN

2023-08-21 16:42:00

884

使用OpenVINO優(yōu)化并部署訓(xùn)練好的YOLOv7模型

在《英特爾銳炫顯卡+ oneAPI 和 OpenVINO 實現(xiàn)英特爾視頻 AI 計算盒訓(xùn)推一體-上篇》一文中，我們詳細(xì)介紹基于英特爾獨立顯卡搭建 YOLOv7 模型的訓(xùn)練環(huán)境，并完成了 YOLOv7 模型訓(xùn)練，獲得了最佳精度的模型權(quán)重。

2023-08-25 11:08:58

819

訓(xùn)練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓(xùn)練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對訓(xùn)練的工作負(fù)載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1046

8G顯存一鍵訓(xùn)練，解鎖Llama2隱藏能力！XTuner帶你玩轉(zhuǎn)大模型

針對 GPU 計算特點，在顯存允許的情況下，XTuner 支持將多條短數(shù)據(jù)拼接至模型最大輸入長度，以此最大化 GPU 計算核心的利用率，可以顯著提升訓(xùn)練速度。例如，在使用 oasst1 數(shù)據(jù)集微調(diào) Llama2-7B 時，數(shù)據(jù)拼接后的訓(xùn)練時長僅為普通訓(xùn)練的 50% 。

2023-09-04 16:12:26

1236

開源大模型FLM-101B：訓(xùn)練成本最低的超100B參數(shù)大模型

近期，一支來自中國的研究團(tuán)隊正是針對這些問題提出了解決方案，他們推出了FLM-101B模型及其配套的訓(xùn)練策略。FLM-101B不僅大幅降低了訓(xùn)練成本，而且其性能表現(xiàn)仍然非常出色，它是目前訓(xùn)練成本最低的100B+ LLM。

2023-09-12 16:30:30

922

大語言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

model 訓(xùn)練完成后，使用 instruction 以及其他高質(zhì)量的私域數(shù)據(jù)集來提升 LLM 在特定領(lǐng)域的性能；而 rlhf 是 openAI 用來讓model 對齊人類價值觀的一種強(qiáng)大技術(shù)；pre-training dataset 是大模型在訓(xùn)練時真正喂給 model 的數(shù)據(jù)，從很多 paper 能看到一些觀

2023-09-19 10:00:06

506

4090顯卡全面下架 AI芯片出口管制趨嚴(yán)

這些高性能計算卡的 DGX/HGX 系統(tǒng)。顯卡4090是屬于民用消費(fèi)級的，但是因為性能比較強(qiáng)悍，也被限

2023-10-19 17:24:32

1479

如何讓網(wǎng)絡(luò)模型加速訓(xùn)練

的博文，對 Pytorch的AMP ( autocast與Gradscaler 進(jìn)行對比) 自動混合精度對模型訓(xùn)練加速。注意Pytorch1.6+，已經(jīng)內(nèi)置torch.cuda.amp，因此便不需要加載

2023-11-03 10:00:19

1054

NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實現(xiàn)高性能訓(xùn)練優(yōu)化

通過 Merlin 大幅提升大規(guī)模深度多目標(biāo)精排模型訓(xùn)練性能本案例中，NVIDIA 團(tuán)隊與陌陌推薦系統(tǒng)團(tuán)隊深度合作，共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有

2023-11-09 10:45:02

120

NVIDIA 為部分大型亞馬遜 Titan 基礎(chǔ)模型提供訓(xùn)練支持

本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU 以及亞馬遜云科技的 EFA 來訓(xùn)練其最大的新一代大語言模型（LLM）。大語言模型的一切都很龐大——巨型模型是在數(shù)千顆 NVIDIA

2023-11-29 21:15:02

294

英偉達(dá)RTX 4090D顯卡爆料：全新GPU芯片，符合出口管制

11月30日，rtx 4090d顯卡由ad102-250 gpu芯片驅(qū)動，rtx 4090使用ad102-300/301。根據(jù)英偉達(dá)的慣例，同樣的顯卡可以配置不同號碼的gpu芯片，例如rtx 4090，雖然配置了ad102-300/301兩個芯片，但由于編號數(shù)字從300降至250，性能可能會下降。

2023-12-01 14:19:24

768

Kaggle知識點：訓(xùn)練神經(jīng)網(wǎng)絡(luò)的7個技巧

科學(xué)神經(jīng)網(wǎng)絡(luò)模型使用隨機(jī)梯度下降進(jìn)行訓(xùn)練，模型權(quán)重使用反向傳播算法進(jìn)行更新。通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型解決的優(yōu)化問題非常具有挑戰(zhàn)性，盡管這些算法在實踐中表現(xiàn)出色，但不能保證它們會及時收斂到一個良好的模型

2023-12-30 08:27:54

319