0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多GPU訓(xùn)練大型模型:資源分配與優(yōu)化技巧|英偉達將推出面向中國的改良芯片HGX H20、L20 PCIe、L2 PCIe

GPU視覺識別 ? 來源:GPU視覺識別 ? 作者:GPU視覺識別 ? 2023-11-16 11:39 ? 次閱讀

人工智能領(lǐng)域,大型模型因其強大的預(yù)測能力和泛化性能而備受矚目。然而,隨著模型規(guī)模的不斷擴大,計算資源和訓(xùn)練時間成為制約其發(fā)展的重大挑戰(zhàn)。特別是在英偉達禁令之后,中國AI計算行業(yè)面臨前所未有的困境。為了解決這個問題,英偉達將針對中國市場推出新的AI芯片,以應(yīng)對美國出口限制。本文將探討如何在多個GPU上訓(xùn)練大型模型,并分析英偉達禁令對中國AI計算行業(yè)的影響。

如何在多個 GPU 上訓(xùn)練大型模型?

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是一個反復(fù)迭代的過程。在每次迭代中,數(shù)據(jù)首先向前傳播,通過模型的各層,為每個訓(xùn)練樣本計算輸出。然后,梯度向后傳播,計算每個參數(shù)對最終輸出的影響程度。這些參數(shù)的平均梯度和優(yōu)化狀態(tài)被傳遞給優(yōu)化算法,如Adam,用于計算下一次迭代的參數(shù)和新的優(yōu)化狀態(tài)。隨著訓(xùn)練的進行,模型逐漸發(fā)展以產(chǎn)生更準確的輸出。

然而,隨著大模型的到來,單機難以完成訓(xùn)練。并行技術(shù)應(yīng)運而生,基于數(shù)據(jù)并行性、管道并行性、張量并行性和混合專家等策略,將訓(xùn)練過程劃分為不同的維度。此外,由于機器和內(nèi)存資源的限制,還出現(xiàn)了混合精度訓(xùn)練、梯度累積、模型卸載CPU、重算、模型壓縮和內(nèi)存優(yōu)化版優(yōu)化器等策略。

為進一步加速訓(xùn)練過程,可以從數(shù)據(jù)和模型兩個角度同時進行并行處理。一種常見的方式是將數(shù)據(jù)切分,并將相同的模型復(fù)制到多個設(shè)備上,處理不同數(shù)據(jù)分片,這種方法也被稱為數(shù)據(jù)并行。另外一種方法是模型并行即將模型中的算子劃分到多個設(shè)備上分別完成(包括流水線并行和張量并行)。當訓(xùn)練超大規(guī)模語言模型時,需要對數(shù)據(jù)和模型同時進行切分,以實現(xiàn)更高級別的并行,這種方法通常被稱為混合并行。通過這些并行策略,可以顯著提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和效率。

一、數(shù)據(jù)并行

在數(shù)據(jù)并行系統(tǒng)中,每個計算設(shè)備都有完整的神經(jīng)網(wǎng)絡(luò)模型副本,在進行迭代時,每個設(shè)備僅負責處理一批數(shù)據(jù)子集并基于該子集進行前向計算。假設(shè)一批次的訓(xùn)練樣本數(shù)為N,使用M個設(shè)備并行計算,每個設(shè)備將處理N/M個樣本。完成前向計算后,每個設(shè)備將根據(jù)本地樣本計算誤差梯度Gi(i為加速卡編號)并進行廣播。所有設(shè)備需要聚合其他加速卡提供的梯度值,然后使用平均梯度(ΣN i=1Gi)/N來更新模型,完成該批次訓(xùn)練。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgaomVVjuSADpL8AAfFXBHRaF0770.png

數(shù)據(jù)并行訓(xùn)練系統(tǒng)通過增加計算設(shè)備,可以顯著提高整體訓(xùn)練吞吐量和每秒全局批次數(shù)。與單計算設(shè)備訓(xùn)練相比,最主要的區(qū)別在于反向計算中梯度需要在所有計算設(shè)備中進行同步,以確保每個計算設(shè)備上最終得到所有進程上梯度平均值。

二、模型并行

模型并行可以從計算圖的角度出發(fā),采用流水線并行和張量并行兩種方式進行切分。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjuWATMg4AAa3kqrOwA8021.png

1、流水線并行

流水線并行(Pipeline Parallelism,PP)是一種計算策略,將模型的各層劃分為多個階段,并在不同計算設(shè)備上進行處理,實現(xiàn)前后階段的連續(xù)工作。PP廣泛應(yīng)用于大規(guī)模模型的并行系統(tǒng),以解決單個設(shè)備內(nèi)存不足問題。下圖展示了由四個計算設(shè)備組成的PP系統(tǒng),包括前向計算和后向計算。其中F1、F2、F3、F4代表四個前向路徑,位于不同設(shè)備上;B4、B3、B2、B1代表逆序后向路徑,位于四個不同設(shè)備上。然而,下游設(shè)備需要等待上游設(shè)備計算完成才能開始計算任務(wù),導(dǎo)致設(shè)備平均使用率降低,形成模型并行氣泡或流水線氣泡。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgaomVVjuWAIBSKAAKkNtQ-HZ4873.png

樸素流水線策略會導(dǎo)致并行氣泡,使系統(tǒng)無法充分利用計算資源,降低整體計算效率。為減少并行氣泡,可以將小批次進一步劃分為更小的微批次,并利用流水線并行方案處理每個微批次數(shù)據(jù)。在完成當前階段計算并得到結(jié)果后,將該微批次的結(jié)果發(fā)送給下游設(shè)備,同時開始處理下一微批次的數(shù)據(jù),在一定程度上減少并行氣泡。如下圖所示,前向F1計算被拆解為F11、F12、F13、F14,在計算設(shè)備1中完成F11計算后,會在計算設(shè)備2中開始進行F21計算,同時計算設(shè)備1中并行開始F12的計算。與原始流水線并行方法相比,有效降低并行氣泡。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjuaAJlBlAAJvY-sJJRY633.png

2、張量并行

張量并行需要針對模型結(jié)構(gòu)和算子類型處理參數(shù)如何在不同設(shè)備上進行切分,并確保切分后的數(shù)學(xué)一致性。大語言模型以Transformer結(jié)構(gòu)為基礎(chǔ),包含三種算子:嵌入表示、矩陣乘和交叉熵損失計算。這三種算子具有較大差異,因此需要設(shè)計相應(yīng)的張量并行策略,以便將參數(shù)分配到不同設(shè)備上。對于嵌入表示層參數(shù),可按照詞維度進行劃分,每個計算設(shè)備只存儲部分詞向量,然后通過匯總各個設(shè)備上的部分詞向量來獲得完整的詞向量。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgaomVVjuaAdV7ZAAaFrtD_ZJE949.png

矩陣乘的張量并行可以利用矩陣分塊乘法原理來優(yōu)化計算。以矩陣乘法Y = X × A為例,其中X是M × N維的輸入矩陣,A是N × K維的參數(shù)矩陣,Y是M × K維的結(jié)果矩陣。當參數(shù)矩陣A過大超出單張卡的顯存容量時,可以將A切分到多張卡上,并通過集合通信匯集結(jié)果,確保最終結(jié)果的數(shù)學(xué)計算等價于單計算設(shè)備的計算結(jié)果。參數(shù)矩陣A有兩種切分方式:

1)按列切分

將矩陣A按列切成A1和A2,分別放置在兩個計算設(shè)備上。兩個計算設(shè)備分別計算Y1 = X × A1和Y2 = X × A2。計算完成后,多計算設(shè)備間進行通信,拼接得到最終結(jié)果矩陣Y,其數(shù)學(xué)計算與單計算設(shè)備結(jié)果等價。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjueAbYmJAA09gq7CZ10287.png

2)按行切分

將矩陣A按行切成B1,B2,...,Bn,每個Bi為N*(K/n)即(K/n)N維。將這n個切分后的矩陣分別放到n個GPU上,則可并行執(zhí)行矩陣乘法Y=XB1,Y=X*(B1+B2),...,Y=X*(B1+B2+...+Bn)。每步并行計算完成后,各GPU間進行通信,拼接得到最終結(jié)果矩陣Y。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgaomVVjuiASd6mAA8MWI4grt4768.png

在Transformer中FFN結(jié)構(gòu)包含兩層全連接(FC)層,每層都涉及兩個矩陣乘法。這兩個矩陣乘法分別采用上述兩種切分方式。對于第一個FC層的參數(shù)矩陣,采用按列切塊方式,而對于第二個FC層參數(shù)矩陣,則采用按行切塊方式。這樣的切分方式使得第一個FC層輸出能夠直接滿足第二個FC層輸入要求(按列切分),從而省去了第一個FC層后匯總通信操作。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjumADOTmAAlRuJSEMtw280.png

多頭自注意力機制張量并行與FFN類似,由于具有多個獨立的頭,因此相較于FFN更容易實現(xiàn)并行。其矩陣切分方式如圖所示。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgaomVVjuqAOwxBAAkAUEpzgHA294.png

在分類網(wǎng)絡(luò)最后一層,通常會使用Softmax和Cross_entropy算子來計算交叉熵損失。然而,當類別數(shù)量非常大時,單計算設(shè)備內(nèi)存可能無法存儲和計算logit矩陣。針對這種情況,可以對這類算子進行類別維度切分,并通過中間結(jié)果通信來獲得最終的全局交叉熵損失。首先計算的是softmax值,其公式如下:

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjuuAfzDkAAPk5c5PU3g106.png

在計算交叉熵損失時,可以采用張量并行的方式,按照類別維度對softmax值和目標標簽進行切分,每個設(shè)備計算部分損失。最后再進行一次通信,得到所有類別的損失。整個過程中,只需要進行三次小量的通信,就可以完成交叉熵損失的計算。

3、管道并行

管道并行性將模型按層“垂直”分割。同時,還可以“水平”分割層內(nèi)的某些操作,稱為張量并行訓(xùn)練。對于現(xiàn)代模型(如Transformer)的計算瓶頸,即將激活批矩陣與大權(quán)重矩陣相乘,可以在不同GPU上計算獨立的點積或每個點積的一部分并對結(jié)果求和。無論采用哪種策略,都可以將權(quán)重矩陣分割成均勻大小的分片,托管在不同的GPU上,并使用分片計算整個矩陣乘積的相關(guān)部分,再通過通信組合結(jié)果。Megatron-LM是一個例子,在Transformer自注意力層和MLP層中實現(xiàn)矩陣乘法的并行化。PTD-P結(jié)合張量、數(shù)據(jù)和管道并行性,通過為每個設(shè)備分配多個非連續(xù)層以減少氣泡開銷,但增加了網(wǎng)絡(luò)通信成本。有時,輸入可以跨維度并行化,并通過更細粒度的示例進行計算,以減少峰值內(nèi)存消耗。序列并行是一種思想,將輸入序列在時間上分割成多個子示例,從而按比例減少內(nèi)存消耗。

四、混合專家 (MoE)

隨著研究人員試圖突破模型大小限制,混合專家(MoE) 方法引起廣泛關(guān)注。其核心思想是集成學(xué)習,即多個弱學(xué)習器組合可生強大的學(xué)習器。使用 MoE 方法時,僅需使用網(wǎng)絡(luò)一小部分即可計算任何輸入的輸出。一種示例方法是擁有多組權(quán)重,網(wǎng)絡(luò)可以在推理時通過門控機制選擇使用哪一組權(quán)重。這可以在不增加計算成本的情況下啟用更多參數(shù)。每組權(quán)重都被稱為“專家”,希望網(wǎng)絡(luò)能夠?qū)W會為每個專家分配專門的計算和技能。不同專家可以托管在不同 GPU 上,從而提供一種清晰方法來擴展模型所使用的 GPU 數(shù)量。恰好一層 MoE 包含作為專家前饋網(wǎng)絡(luò) {E_i}^n_{i=1} 和可訓(xùn)練門控網(wǎng)絡(luò) G 學(xué)習概率分布 n “專家”,以便將流量路由到少數(shù)選定的 “專家”。當 “專家” 數(shù)量過多時,可以考慮使用兩級分層 MoE。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgaomVVjuuAAUE1AAkvBnP4TAA419.png

GShard(Google Brain團隊開發(fā)的一款分布式訓(xùn)練框架

)通過分片將MoE變壓器模型擴展至6000億個參數(shù)。MoE變壓器用MoE層替換所有其他前饋層。分片MoE變壓器僅具有跨多臺機器分片的MoE層,其他層只是簡單地復(fù)制。Switch Transformer(Transformer類的萬億級別模型

)通過稀疏開關(guān)FFN層替換密集前饋層(其中每個輸入僅路由到一個專家網(wǎng)絡(luò)),將模型大小擴展到數(shù)萬億個參數(shù),并具有更高的稀疏性。

五、其他節(jié)省內(nèi)存的設(shè)計

1、混合精度計算(Mixed Precision Training)

混合精度訓(xùn)練(Mixed Precision Training)是指在訓(xùn)練模型時同時使用16位和32位浮點類型,以加快運算速度和減少內(nèi)存使用。在NVIDIA GPU上,使用float16進行運算比使用float32快一倍多,大大提高了算力的上限。然而,將模型的運算轉(zhuǎn)換為FP16并不能完全解決問題,因為FP16的數(shù)值范圍遠小于FP32和TF32,限制模型的運算能力。為確保模型能夠收斂到與FP32相同結(jié)果,需要采用額外的技巧。


1)權(quán)重備份(Weight Backup)

其中一種避免以半精度丟失關(guān)鍵信息的技術(shù)是權(quán)重備份。在訓(xùn)練時,權(quán)重、激活值和梯度都使用FP16進行計算,但會額外保存TF32的權(quán)重值。在進行梯度更新時,對TF32的權(quán)重進行更新。在下一步訓(xùn)練時,將TF32的權(quán)重值轉(zhuǎn)換為FP16,然后進行前向和反向計算。

2)損失縮放(Loss Scaling)


在訓(xùn)練模型時,由于梯度量級往往非常小,使用FP16格式可能會導(dǎo)致一些微小梯度直接被歸零。大部分非零梯度實際上并不在FP16表示范圍內(nèi)。由于FP16格式右側(cè)部分并未被充分利用,我們可以通過將梯度乘以一個較大系數(shù),使整個梯度分布向右移動并完全落在FP16表示范圍內(nèi)。一種簡單方法是在計算梯度之前先將損失乘以一個較大值,以此放大所有梯度。在進行梯度更新時,再將其縮小回原來的并使用TF32進行更新。

3)精度累加(Precision Accumulation)


在FP16模型中,一些算術(shù)運算如矩陣乘法需要用TF32來累加乘積結(jié)果,然后再轉(zhuǎn)換為FP16。例如,Nvidia GPU設(shè)備中的Tensor Core支持利用FP16混合精度加速,同時保持精度。Tensor Core主要用于實現(xiàn)FP16的矩陣相乘,并在累加階段使用TF32大幅減少混合精度訓(xùn)練的精度損失。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjuyAcwZGAAh075A_7C0589.png

2、梯度累積(Gradient Accumulation)

梯度累積是一種神經(jīng)網(wǎng)絡(luò)訓(xùn)練技術(shù),通過將數(shù)據(jù)樣本按批次拆分為幾個小批次,并按順序計算。在每個小批次中,計算梯度并累積,在最后一個批次后求平均來更新模型參數(shù)。神經(jīng)網(wǎng)絡(luò)由許多相互連接的神經(jīng)網(wǎng)絡(luò)單元組成,樣本數(shù)據(jù)通過所有層并計算預(yù)測值,然后通過損失函數(shù)計算每個樣本的損失值(誤差)。神經(jīng)網(wǎng)絡(luò)通過反向傳播算法計算損失值相對于模型參數(shù)的梯度,并利用這些梯度信息來更新網(wǎng)絡(luò)參數(shù)。梯度累積每次獲取一個批次的數(shù)據(jù),計算一次梯度(前向),不斷累積梯度,累積一定次數(shù)后根據(jù)累積的梯度更新網(wǎng)絡(luò)參數(shù),然后清空所有梯度信息進行下一次循環(huán)。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgaomVVju2AK6W7AAsaIZ41FhE261.png

3、卸載CPU(CPU Offloading)

CPU Offloading是指將未使用的數(shù)據(jù)暫時卸載到CPU或不同的設(shè)備之間,并在需要時重新讀取回來。由于CPU存儲相比GPU存儲具有更大的空間和更低的價格,因此實現(xiàn)雙層存儲可以大大擴展訓(xùn)練時的存儲空間。然而,簡單的實現(xiàn)可能會導(dǎo)致訓(xùn)練速度降低,而復(fù)雜的實現(xiàn)需要實現(xiàn)預(yù)取數(shù)據(jù)以確保設(shè)備無需等待。ZeRO是一種實現(xiàn)這一想法的方式,它將參數(shù)、梯度和優(yōu)化器狀態(tài)分配到所有可用的硬件上,并根據(jù)需要進行具體化。

4、激活重新計算(Activation Recomputation)

Recompute是一種在前向計算中釋放tensor,在反向傳播時需要重新計算的方法,適用于占用內(nèi)存大但重新計算量小的tensor。重新計算的方式有三種:

Speed Centric會保留計算出的tensor以備后續(xù)使用;

Memory Centric會在計算完成后釋放tensor,需要時再重新計算;

Cost Aware會在計算完成后判斷是否保留tensor,若可能導(dǎo)致內(nèi)存峰值則釋放。

可以將swap和recompute結(jié)合使用,針對特定op采用不同方式。還可以預(yù)先迭代幾次,收集內(nèi)存和運行時間信息,判斷哪些tensor該swap,哪些該recompute。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVju6AU4fjAAhwLhO1CHY006.png

5、模型壓縮(Compression)

模型壓縮是通過裁剪、權(quán)重共享等方式處理大模型,以減少參數(shù)量。然而,這種方式容易降低模型精度,因此使用較少。常見的模型壓縮方法包括修剪、權(quán)重共享、低秩分解、二值化權(quán)重和知識蒸餾。

修剪可以采用對連接、kernel、channel進行裁剪的方式;權(quán)重共享是通過共享模型參數(shù)來減少參數(shù)量;低秩分解將矩陣分解為低秩形式,從而減少參數(shù)量;二值化權(quán)重是將權(quán)重從32位降至8位或16位,實現(xiàn)混合精度訓(xùn)練;知識蒸餾是使用訓(xùn)練好的教師模型指導(dǎo)學(xué)生模型訓(xùn)練。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgaomVVju-AVT5pAAgxVS316P4296.png

6、高效內(nèi)存優(yōu)化器(Memory Efficient Optimizer)

優(yōu)化器在模型訓(xùn)練中的內(nèi)存消耗是一個重要問題。以Adam優(yōu)化器為例,它需要存儲動量和方差,與梯度和模型參數(shù)規(guī)模相同,內(nèi)存需求增加。為減少內(nèi)存占用,已經(jīng)提出了幾種優(yōu)化器,如Adafactor和SM3,采用不同的方法估計二階矩或大幅減少內(nèi)存使用。

ZeRO優(yōu)化器是一種針對大型模型訓(xùn)練的內(nèi)存優(yōu)化方法。通過觀察模型狀態(tài)和激活臨時緩沖區(qū)及不可用碎片內(nèi)存的消耗,采用兩種方法:ZeRO-DP和ZeRO-R。ZeRO-DP通過動態(tài)通信調(diào)度來減少模型狀態(tài)上的冗余,而ZeRO-R則使用分區(qū)激活重新計算、恒定緩沖區(qū)大小和動態(tài)內(nèi)存碎片整理來優(yōu)化殘留狀態(tài)的內(nèi)存消耗。

英偉達禁令之后,中國AI計算何去何從?

在10月17日,美國強化對中國市場的AI芯片禁令,將性能和密度作為出口管制標準,禁止出口單芯片超過300teraflops算力、性能密度超過每平方毫米370gigaflops的芯片。由于限制AMD、英特爾公司的高端AI芯片,尤其是英偉達的主流AI訓(xùn)練用GPU A100和H100,該禁令又被稱為“英偉達禁令”。

針對新的芯片禁令,AI產(chǎn)業(yè)議論紛紛,焦點主要集中在實施時間、緩沖地帶、涉及的GPU型號和禁令期限等方面。盡管存在爭議,但針對中國的高端AI芯片禁令仍在堅定推行。

現(xiàn)在,AI行業(yè)必須形成共識應(yīng)對挑戰(zhàn)。與其過分關(guān)注被禁的GPU,我們應(yīng)更深入思考在芯片鐵幕時代下中國AI計算未來發(fā)展路徑。下面將探討當前產(chǎn)業(yè)形勢并共同探討AI計算前行之路。

一、目前現(xiàn)狀

與之前情況相比,英偉達禁令出臺后大眾輿論與AI行業(yè)反應(yīng)似乎更為冷靜。僅在消費級顯卡RTX 4090是否被禁問題上引發(fā)游戲玩家和商家爭論。盡管行業(yè)不希望看到高端AI芯片被禁售,但對此局面已有預(yù)期。美國對華芯片封鎖已持續(xù)多年,英偉達部分高端GPU已被禁止出售,產(chǎn)業(yè)界的反應(yīng)也從驚訝轉(zhuǎn)變?yōu)槔潇o應(yīng)對。加上ChatGPT的火爆導(dǎo)致全球高端GPU市場行情上漲,美國方面多次表示要推動對華整體性的高端AI芯片禁售。

為應(yīng)對禁令并受到大模型發(fā)展的推動,去年年底到今年上半年,眾多中國科技、金融、汽車等企業(yè)集中購買英偉達高端GPU,導(dǎo)致市場上GPU供不應(yīng)求。對于許多中國中小型科技企業(yè)和AI創(chuàng)業(yè)公司來說,原本就很難買到高端GPU,禁售并未帶來太大變化。實際上,國內(nèi)AI芯片產(chǎn)業(yè)在貿(mào)易摩擦初期便開始加速發(fā)展,雖然英偉達的高端GPU在AI訓(xùn)練需求方面難以替代,但并非不可替代。

此外,AI芯片與手機芯片不同,并不關(guān)乎大眾消費者。華為已在手機芯片領(lǐng)域取得突破。因此,無論是大眾還是行業(yè),對禁令都持坦然態(tài)度,甚至有些習以為常。然而,必須承認的是,禁令對中國AI行業(yè)仍造成了一定程度的傷害:短期內(nèi)更換英偉達GPU面臨芯片產(chǎn)能和生態(tài)兼容性等難題;禁令還將直接損害使用英偉達產(chǎn)品的AI服務(wù)器等領(lǐng)域的廠商。

長期禁令可能使中國AI計算與全球高端芯片脫鉤,可能帶來復(fù)雜的負面影響,包括:中國AI算力發(fā)展可能落后于英偉達高端GPU的更新迭代;在底層算力發(fā)展分歧下,中國AI產(chǎn)業(yè)可能在軟件技術(shù)方面掉隊;科技封鎖可能從AI芯片擴展到通用算力、存儲、基礎(chǔ)軟件等數(shù)字化基礎(chǔ)能力。因此,需要制定三項同時發(fā)力的“突圍方案”:加快國產(chǎn)AI芯片的自主研發(fā)和生態(tài)建設(shè);加大力度投資大模型等軟件技術(shù),降低對英偉達等公司的依賴;加強與國際科技合作,推動中國AI計算的全球化發(fā)展。

二、解決方案一:用好買家身份

作為全球芯片市場最大買家,中國企業(yè)應(yīng)該利用好這個身份,擺脫中美科技貿(mào)易中的思維誤區(qū)。我們往往認為游戲規(guī)則是由美國政府和企業(yè)制定的,只能被動接受,但實際上作為買家應(yīng)該擁有更多話語權(quán)。針對中國市場的AI芯片禁令,最直接傷害的是以英偉達為代表的美國科技巨頭,因為中國市場對他們的AI芯片需求最大。英偉達CEO黃仁勛曾表示,如果被剝奪了中國市場,他們將沒有應(yīng)急措施,世界上沒有另一個中國。因此,我們應(yīng)該認識到作為買家的力量,并利用好這個身份來維護自己的利益。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

我們可以看到美國科技公司和政府之間的矛盾??萍脊咀非笊虡I(yè)利益,而政府則追求政治利益。美國科技公司一直在嘗試反對和繞過禁令,例如英偉達推出針對中國市場的特供版GPU。

三、解決方案2:以云代卡,算力集中

在可見的較長時間里,美國對中國AI芯片封禁只會加強,這給AI大模型發(fā)展帶來挑戰(zhàn)。許多業(yè)內(nèi)人士認為,大模型發(fā)展雖快,但沒有呈現(xiàn)此前科技風口的迅猛局面,投資缺錢、計算缺卡是主要原因。

為解決中國AI產(chǎn)業(yè)在禁令之下的算力缺口問題,企業(yè)需要加大云端AI算力配置和投入,推動以云代卡。事實上,在高端AI芯片可能被禁的大趨勢下,中國幾大公有云廠商都開始加強囤積英偉達高端GPU。這不僅因為自身需要加大大模型投入,打開MaaS市場,也對AI算力有直接需求。此外,GPU轉(zhuǎn)化為云資源池后可以長期復(fù)用,對云廠商來說具有進可攻、退可守的優(yōu)勢。因此,今年上半年出現(xiàn)高端AI芯片流向云廠商、中小企業(yè)難以獲得芯片的局面。

客觀來看,這種高端AI芯片集中向云的舉動有利于中國市場統(tǒng)籌應(yīng)對AI芯片禁令,也符合東數(shù)西算戰(zhàn)略思路。另一趨勢是,隨著大模型參數(shù)和使用數(shù)據(jù)量不斷加大,本地化卡池訓(xùn)練已經(jīng)越來越緊張,在云端進行千卡、萬卡訓(xùn)練成為未來主要發(fā)展方向,因此企業(yè)用戶會更加積極地走向云端。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

同時,云端AI算力不僅限于囤積英偉達GPU。隨著政策推動和自主AI芯片采購力度的加大,云端化和自主化結(jié)合的AI算力將成為發(fā)展趨勢。根據(jù)IDC數(shù)據(jù),2023上半年中國AI服務(wù)器已經(jīng)使用50萬塊自主開發(fā)的AI加速器芯片。華為已經(jīng)推出昇騰AI云服務(wù),提供自主AI算力服務(wù)。在東數(shù)西算背景下,各地建立一批采用自主AI算力的AI計算中心,保障云端AI算力穩(wěn)定可靠供給。

然而,很多企業(yè)仍然傾向于采購本地AI算力。一方面是因為英偉達GPU市場緊缺,保值性高,甚至可以作為企業(yè)的核心資產(chǎn)。另一方面是因為云端AI算力存在排隊、宕機、軟件服務(wù)缺失等問題,影響開發(fā)者體驗。為進一步提高開發(fā)者的云端AI算力使用體驗,公有云廠商需要進一步努力。

四、方案三:讓國產(chǎn)AI算力爆發(fā)式成長

面對新一輪AI芯片禁令,中國AI產(chǎn)業(yè)并非依賴英偉達的高端GPU,而是經(jīng)過多年發(fā)展,AI芯片產(chǎn)業(yè)已經(jīng)得到巨大發(fā)展。雖然英偉達市場份額仍占主導(dǎo),國產(chǎn)AI算力已經(jīng)具備一定市場占比,但在核心性能、軟件生態(tài)和出貨能力方面仍需不斷提升??陀^上,禁令的倒逼將加速國產(chǎn)AI算力的成長與成熟周期。

為了實現(xiàn)這個目標,有幾件事非常重要:

1、形成產(chǎn)業(yè)共識,避免概念混淆

雖然AI芯片市場呈現(xiàn)出眾多品牌和類型參與者,但其中存在的問題也不容忽視。對于類腦芯片等前沿技術(shù),目前仍處于暢想階段,而一些AI芯片廠商僅能自用,無法面向市場出貨,同時還有大量廠商處于早期建設(shè)階段,短期內(nèi)對AI計算自主化貢獻有限。

為應(yīng)對英偉達高端GPU禁售問題,需要將關(guān)注點集中在可行、有效的GPU替代方案上,避免過多的聯(lián)想和發(fā)散。只有形成產(chǎn)業(yè)共識,才能更好地解決問題。

2、走向規(guī)?;逃?,避免PPT造芯

目前國內(nèi)能夠出貨的AI芯片廠商主要集中在華為、百度、燧原科技和海光信息等少數(shù)幾家。大量半導(dǎo)體廠商與AI企業(yè)還停留在打造芯片的計劃與愿景上,導(dǎo)致政策支持與投資市場期待的國產(chǎn)AI芯片發(fā)展停滯,甚至有些企業(yè)可能只是在這一階段享受金融市場紅利而缺乏實質(zhì)性進展。

為推動產(chǎn)業(yè)發(fā)展,未來的產(chǎn)業(yè)導(dǎo)向應(yīng)該重將AI芯片從計劃轉(zhuǎn)向出貨,幫助廠商獲得直接商業(yè)回饋,讓產(chǎn)品與產(chǎn)能接受市場檢驗,逐步塑造正向現(xiàn)金流。

3、加強軟件生態(tài),強化遷移能力

英偉達GPU重要性不僅在于硬件性能,更在于其CUDA和PyTorch等軟件生態(tài)的強大能力。因此,發(fā)展國產(chǎn)AI芯片不能忽視軟件能力的提升。在加強自主軟件生態(tài)建設(shè)的同時,還需要關(guān)注基于英偉達生態(tài)的AI模型遷移能力和遷移成本。

許多廠商已經(jīng)在這方面進行探索,例如海光信息的DCU與CUDA在生態(tài)和編程環(huán)境上高度相似,使得CUDA用戶能夠以較低代價快速遷移到海光的ROCm平臺。此前,PyTorch2.1版本宣布支持華為昇騰,顯示出國產(chǎn)AI芯片已經(jīng)具備一定的規(guī)?;绊懥?,可以更多地融入全球軟件生態(tài)。未來要實現(xiàn)國產(chǎn)AI計算的爆發(fā),離不開國產(chǎn)AI基礎(chǔ)軟件生態(tài)的蓬勃發(fā)展。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjvGAexVOAAmxIp0YllI183.png

4、加大對“主品牌”支持,形成規(guī)?;?yīng)

在中國,為加速AI計算的成熟并實現(xiàn)自主化替代,應(yīng)盡快形成一超多強的市場格局,避免生態(tài)割裂和IT投資浪費。在這個過程中,市場機制將起到?jīng)Q定性作用。然而,在當前芯片禁令背景下,國產(chǎn)AI計算崛起已刻不容緩,應(yīng)加速形成一個“主品牌”來快速替代英偉達等進口芯片。

目前看來,華為昇騰系列是最有可能成為國產(chǎn)AI算力的主品牌之一??拼笥嶏w董事長劉慶峰曾表示,華為GPU已經(jīng)與英偉達A100并駕齊驅(qū)。數(shù)據(jù)顯示,昇騰310的整數(shù)精度算力達到16TOPS,而昇騰910的整數(shù)精度算力更是高達640TOPS,這意味著昇騰910的性能已接近英偉達A100。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

同時,昇騰是目前唯一在市場上占據(jù)一定份額的國產(chǎn)AI算力品牌,并在軟件方面培育類似英偉達CUDA的異構(gòu)計算架構(gòu)CANN和AI計算框架MindSpore。從核心性能、軟件生態(tài)和市場占有率三個角度來看,昇騰已經(jīng)具備加快成長并實現(xiàn)AI算力大規(guī)模國產(chǎn)化替代的可能性。

短期內(nèi)推動國產(chǎn)AI算力快速成長的主要途徑包括規(guī)范行業(yè)標準、強化軟件建設(shè)以及提高自主品牌的支持。英偉達禁令是中國AI行業(yè)不愿面對、盡力避免,但又諱莫如深的問題。

英偉達將針對中國市場推出新的AI芯片,以應(yīng)對美國出口限制

據(jù)知情人士透露,NVIDIA已研發(fā)出為中國市場量身打造的新型改良AI芯片系列,包括HGX H20、L20 PCle和L2 PCle。在美國政府針對中國高科技行業(yè)加強出口限制的大背景下,NVIDIA的這一舉動被業(yè)界視為對相關(guān)政策調(diào)整的直接回應(yīng)。此舉可能暗示該公司正在尋找遵守規(guī)定的同時保持市場競爭力的策略。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjvKAJ3x7AAFmKq_r288054.png

據(jù)業(yè)內(nèi)人士透露,英偉達為中國市場研發(fā)新一代改進型AI芯片系列,包括HGX H20、L20 PCIe和L2 PCIe。這些芯片都基于英偉達的H100系列芯片,并采用了不同的架構(gòu)。

HGX H20采用NVIDIA Hopper架構(gòu),并配備高達96 GB的HBM3內(nèi)存,提供4TBB/s的帶寬。適用于要求極高的計算場景,展現(xiàn)出了卓越的性能。

L20 PCIe和L2 PCIe則采用NVIDIA Ada Lovelace架構(gòu),并針對不同計算需求提供多樣化的選擇。L20 PCIe配備48 GB GDDR6 w/ ECC內(nèi)存,而L2 PCIe則擁有24 GB GDDR6 w/ ECC內(nèi)存。特別值得注意的是,H20型號沒有RT Core,而L20和L2 PCIe則增加了這一功能,表明它們在光線追蹤能力上有所加強。

這些新系列芯片可能通過調(diào)整性能參數(shù)來滿足中國市場的特殊要求并規(guī)避某些出口禁令中的敏感技術(shù)。雖然這樣的產(chǎn)品定制化可能會帶來技術(shù)創(chuàng)新,但同時也可能帶來技術(shù)分裂的風險,引發(fā)行業(yè)對技術(shù)標準分化的擔憂。

分析人士認為,NVIDIA的這一舉措是其全球供應(yīng)鏈戰(zhàn)略的重要組成部分,反映出公司對全球經(jīng)濟形勢的靈活適應(yīng)。此舉將有助于NVIDIA維持在中國市場的業(yè)務(wù)活動和客戶關(guān)系,同時也可能推動中國本土廠商加速技術(shù)自立自強的步伐。

盡管美國的出口限制給中國市場的技術(shù)產(chǎn)品帶來了挑戰(zhàn),但據(jù)知情人士透露,英偉達已經(jīng)采取了針對性的技術(shù)調(diào)整,以符合出口規(guī)則,確保其產(chǎn)品可以順利進入中國市場。據(jù)悉,英偉達預(yù)計將在11月16日之后宣布這一新系列產(chǎn)品,屆時將有更多細節(jié)公布。盡管英偉達尚未對此消息作出官方回應(yīng),但市場對這些可能的新產(chǎn)品已經(jīng)充滿期待。

藍海大腦大模型訓(xùn)練平臺

藍海大腦大模型訓(xùn)練平臺提供強大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓撲,滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴展,同時可以擴展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強制系統(tǒng)的CPU進入ULFM(超低頻模式,以實現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應(yīng)用于深度學(xué)習、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

wKgZomVVjuOAS6ZrAAAAK9URceg472.gif

一、為什么需要大模型?

1、模型效果更優(yōu)

大模型在各場景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強

大模型能夠進行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn)

3、靈活定制場景

通過舉例子的方式,定制大模型海量的應(yīng)用場景

4、標注數(shù)據(jù)更少

通過學(xué)習少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對特定業(yè)務(wù)場景的需求

二、平臺特點

1、異構(gòu)計算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計算資源,包括CPU、GPU等。通過強大的虛擬化管理功能,能夠輕松部署底層計算資源,并高效運行各種模型。同時充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲

支持多存儲類型協(xié)議,包括塊、文件和對象存儲服務(wù)。將存儲資源池化實現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時采用多副本、多級故障域和故障自恢復(fù)等數(shù)據(jù)保護機制,確保模型和數(shù)據(jù)的安全穩(wěn)定運行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲,并通過分布式網(wǎng)絡(luò)機制進行轉(zhuǎn)發(fā),透傳物理網(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用嚴格的權(quán)限管理機制,確保模型倉庫的安全性。在數(shù)據(jù)存儲方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時,在模型分發(fā)和運行過程中,提供全面的賬號認證和日志審計功能,全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

1、處理器CPU:

Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、顯卡GPU:

NVIDIA L40S GPU 48GB

NVIDIA NVLink-A100-SXM640GB

NVIDIA HGX A800 80GB

NVIDIA Tesla H800 80GB HBM2

NVIDIA A800-80GB-400Wx8-NvlinkSW

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4590

    瀏覽量

    128133
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46060

    瀏覽量

    234951
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3637

    瀏覽量

    89827
收藏 人收藏

    評論

    相關(guān)推薦

    英偉H20芯片助力,預(yù)計在華銷售額破120億美元

    近期,半導(dǎo)體行業(yè)的權(quán)威研究機構(gòu)SemiAnalysis發(fā)布了一項引人矚目的預(yù)測,指出英偉公司的H20芯片將在當前財年顯著提振其在中國市場的
    的頭像 發(fā)表于 07-08 10:05 ?676次閱讀

    英偉H20 AI芯片:中國市場新動向與業(yè)績預(yù)期

    在科技行業(yè)的持續(xù)關(guān)注下,英偉再次成為焦點。據(jù)英國《金融時報》7月5日的報道,英偉計劃在接下來的幾個月內(nèi)向中國市場交付超過100萬顆新款
    的頭像 發(fā)表于 07-05 16:56 ?795次閱讀

    英偉下調(diào)中國特供H20芯片價格

    英偉近日針對中國市場調(diào)整了其特供的AI芯片H20系列的價格,以應(yīng)對需求不佳的局面。據(jù)供應(yīng)鏈人士透露,目前
    的頭像 發(fā)表于 05-28 09:44 ?1177次閱讀

    英偉H20芯片價格下調(diào),供應(yīng)充足,顯示市場需求疲軟

    據(jù)知情人披露,因供貨過剩導(dǎo)致Nvidia H20芯片售價下調(diào),而中國市場在該公司2024財年的營收貢獻率高達17%,這無疑凸顯出該國業(yè)務(wù)的挑戰(zhàn)性,同時給英偉
    的頭像 發(fā)表于 05-24 14:22 ?610次閱讀

    進一步解讀英偉 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    能,加速模型訓(xùn)練和推理過程。 2. 生成式 AI 解決方案 與英偉 Grace CPU、新一代網(wǎng)絡(luò)
    發(fā)表于 05-13 17:16

    英偉Blackwell AI芯片售價3-4萬美元,晶體管數(shù)破2000億

    此外,黃仁勛還明確指出中國市場對于Nvidia的重要性。他表示:“我們正全力以赴,以求最大程度地激活英偉在華業(yè)務(wù)。目前針對中國市場,我們已經(jīng)推出
    的頭像 發(fā)表于 03-20 15:52 ?1261次閱讀

    黃仁勛回應(yīng)中國市場問題 推出L20H20芯片

    黃仁勛回應(yīng)中國市場問題 推出L20H20芯片 在黃仁勛接受全球媒體采訪時黃仁勛強調(diào)了中國市場的
    的頭像 發(fā)表于 03-20 15:45 ?984次閱讀

    消息稱英偉中國特定AI芯片H20開啟預(yù)售

    據(jù)報道,英偉最近推出了專為中國市場設(shè)計的AI芯片H20系列,并已經(jīng)開始接受經(jīng)銷商的預(yù)購。定價方
    的頭像 發(fā)表于 02-04 14:31 ?1051次閱讀

    英偉H20芯片在華銷量低迷,訂單量縮減

    據(jù)悉,去年11月,由于美國實施新的出口管制措施,業(yè)界普遍預(yù)測英偉面向中國市場推出三款A(yù)I
    的頭像 發(fā)表于 01-19 09:30 ?1400次閱讀

    英偉推出中國大陸定制的H20 AI GPU芯片

    盡管英偉H20降低了AI算力,但其具有更低的售價、支持NVLink高速互聯(lián)技術(shù)以及CUDA等優(yōu)勢。
    的頭像 發(fā)表于 01-03 14:30 ?1613次閱讀

    英偉中國“降規(guī)”:H800變身為H20,技術(shù)如何實現(xiàn)、性能夠用嗎?

    按正常的設(shè)計、生產(chǎn)周期和產(chǎn)品發(fā)布節(jié)奏來推斷,特供中國市場的H20 / L20等型號的芯片在這個時間節(jié)點發(fā)布,不太可能是重做光罩、重新投片的產(chǎn)物,一個相對合理的推論——即它們是通過半導(dǎo)體
    的頭像 發(fā)表于 11-30 16:37 ?4695次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>為<b class='flag-5'>中國</b>“降規(guī)”:<b class='flag-5'>H</b>800變身為<b class='flag-5'>H20</b>,技術(shù)如何實現(xiàn)、性能夠用嗎?

    英偉特供版芯片性能降80%!

    報道中提到,英偉的這三款A(yù)I芯片并非“改良版”,而是“縮水版”,其分別是HGX H20、
    的頭像 發(fā)表于 11-14 17:09 ?815次閱讀

    港媒:英偉再為中國推3款“改良芯片?最快11月16日之后公布

    中國內(nèi)地的一家經(jīng)銷商表示,英偉針對中國區(qū)已開發(fā)出最新改良版系列芯片
    的頭像 發(fā)表于 11-13 15:12 ?401次閱讀

    英偉確認為中國推三款改良AI芯片 性能暴降80%

    據(jù)報道,nvidia的3種ai芯片不是“改良版”,而是“縮水版”,分別是hgx h20、l20 pcle和
    的頭像 發(fā)表于 11-13 10:46 ?648次閱讀

    英偉新AI芯片H20綜合算力比H100降80%

    但據(jù)悉,三種新型AI芯片不是“改良型”,而是“縮小型”。用于ai模型教育的hgx h20的帶寬和計算速度是有限的。整體計算能力理論上比nvi
    的頭像 發(fā)表于 11-13 09:41 ?1437次閱讀