国产の无码专区,亚洲欧洲美洲无码精品va

在人工智能領(lǐng)域，大型模型因其強大的預(yù)測能力和泛化性能而備受矚目。然而，隨著模型規(guī)模的不斷擴大，計算資源和訓(xùn)練時間成為制約其發(fā)展的重大挑戰(zhàn)。特別是在英偉達禁令之后，中國AI計算行業(yè)面臨前所未有的困境。為了解決這個問題，英偉達將針對中國市場推出新的AI芯片，以應(yīng)對美國出口限制。本文將探討如何在多個GPU上訓(xùn)練大型模型，并分析英偉達禁令對中國AI計算行業(yè)的影響。

如何在多個 GPU 上訓(xùn)練大型模型？

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是一個反復(fù)迭代的過程。在每次迭代中，數(shù)據(jù)首先向前傳播，通過模型的各層，為每個訓(xùn)練樣本計算輸出。然后，梯度向后傳播，計算每個參數(shù)對最終輸出的影響程度。這些參數(shù)的平均梯度和優(yōu)化狀態(tài)被傳遞給優(yōu)化算法，如Adam，用于計算下一次迭代的參數(shù)和新的優(yōu)化狀態(tài)。隨著訓(xùn)練的進行，模型逐漸發(fā)展以產(chǎn)生更準確的輸出。

然而，隨著大模型的到來，單機難以完成訓(xùn)練。并行技術(shù)應(yīng)運而生，基于數(shù)據(jù)并行性、管道并行性、張量并行性和混合專家等策略，將訓(xùn)練過程劃分為不同的維度。此外，由于機器和內(nèi)存資源的限制，還出現(xiàn)了混合精度訓(xùn)練、梯度累積、模型卸載CPU、重算、模型壓縮和內(nèi)存優(yōu)化版優(yōu)化器等策略。

為進一步加速訓(xùn)練過程，可以從數(shù)據(jù)和模型兩個角度同時進行并行處理。一種常見的方式是將數(shù)據(jù)切分，并將相同的模型復(fù)制到多個設(shè)備上，處理不同數(shù)據(jù)分片，這種方法也被稱為數(shù)據(jù)并行。另外一種方法是模型并行即將模型中的算子劃分到多個設(shè)備上分別完成（包括流水線并行和張量并行）。當訓(xùn)練超大規(guī)模語言模型時，需要對數(shù)據(jù)和模型同時進行切分，以實現(xiàn)更高級別的并行，這種方法通常被稱為混合并行。通過這些并行策略，可以顯著提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和效率。

一、數(shù)據(jù)并行

在數(shù)據(jù)并行系統(tǒng)中，每個計算設(shè)備都有完整的神經(jīng)網(wǎng)絡(luò)模型副本，在進行迭代時，每個設(shè)備僅負責處理一批數(shù)據(jù)子集并基于該子集進行前向計算。假設(shè)一批次的訓(xùn)練樣本數(shù)為N，使用M個設(shè)備并行計算，每個設(shè)備將處理N/M個樣本。完成前向計算后，每個設(shè)備將根據(jù)本地樣本計算誤差梯度Gi（i為加速卡編號）并進行廣播。所有設(shè)備需要聚合其他加速卡提供的梯度值，然后使用平均梯度（ΣN i=1Gi）/N來更新模型，完成該批次訓(xùn)練。

數(shù)據(jù)并行訓(xùn)練系統(tǒng)通過增加計算設(shè)備，可以顯著提高整體訓(xùn)練吞吐量和每秒全局批次數(shù)。與單計算設(shè)備訓(xùn)練相比，最主要的區(qū)別在于反向計算中梯度需要在所有計算設(shè)備中進行同步，以確保每個計算設(shè)備上最終得到所有進程上梯度平均值。

二、模型并行

模型并行可以從計算圖的角度出發(fā)，采用流水線并行和張量并行兩種方式進行切分。

1、流水線并行

流水線并行（Pipeline Parallelism，PP）是一種計算策略，將模型的各層劃分為多個階段，并在不同計算設(shè)備上進行處理，實現(xiàn)前后階段的連續(xù)工作。PP廣泛應(yīng)用于大規(guī)模模型的并行系統(tǒng)，以解決單個設(shè)備內(nèi)存不足問題。下圖展示了由四個計算設(shè)備組成的PP系統(tǒng)，包括前向計算和后向計算。其中F1、F2、F3、F4代表四個前向路徑，位于不同設(shè)備上；B4、B3、B2、B1代表逆序后向路徑，位于四個不同設(shè)備上。然而，下游設(shè)備需要等待上游設(shè)備計算完成才能開始計算任務(wù)，導(dǎo)致設(shè)備平均使用率降低，形成模型并行氣泡或流水線氣泡。

樸素流水線策略會導(dǎo)致并行氣泡，使系統(tǒng)無法充分利用計算資源，降低整體計算效率。為減少并行氣泡，可以將小批次進一步劃分為更小的微批次，并利用流水線并行方案處理每個微批次數(shù)據(jù)。在完成當前階段計算并得到結(jié)果后，將該微批次的結(jié)果發(fā)送給下游設(shè)備，同時開始處理下一微批次的數(shù)據(jù)，在一定程度上減少并行氣泡。如下圖所示，前向F1計算被拆解為F11、F12、F13、F14，在計算設(shè)備1中完成F11計算后，會在計算設(shè)備2中開始進行F21計算，同時計算設(shè)備1中并行開始F12的計算。與原始流水線并行方法相比，有效降低并行氣泡。

2、張量并行

張量并行需要針對模型結(jié)構(gòu)和算子類型處理參數(shù)如何在不同設(shè)備上進行切分，并確保切分后的數(shù)學(xué)一致性。大語言模型以Transformer結(jié)構(gòu)為基礎(chǔ)，包含三種算子：嵌入表示、矩陣乘和交叉熵損失計算。這三種算子具有較大差異，因此需要設(shè)計相應(yīng)的張量并行策略，以便將參數(shù)分配到不同設(shè)備上。對于嵌入表示層參數(shù)，可按照詞維度進行劃分，每個計算設(shè)備只存儲部分詞向量，然后通過匯總各個設(shè)備上的部分詞向量來獲得完整的詞向量。

矩陣乘的張量并行可以利用矩陣分塊乘法原理來優(yōu)化計算。以矩陣乘法Y = X × A為例，其中X是M × N維的輸入矩陣，A是N × K維的參數(shù)矩陣，Y是M × K維的結(jié)果矩陣。當參數(shù)矩陣A過大超出單張卡的顯存容量時，可以將A切分到多張卡上，并通過集合通信匯集結(jié)果，確保最終結(jié)果的數(shù)學(xué)計算等價于單計算設(shè)備的計算結(jié)果。參數(shù)矩陣A有兩種切分方式：

1）按列切分

將矩陣A按列切成A1和A2，分別放置在兩個計算設(shè)備上。兩個計算設(shè)備分別計算Y1 = X × A1和Y2 = X × A2。計算完成后，多計算設(shè)備間進行通信，拼接得到最終結(jié)果矩陣Y，其數(shù)學(xué)計算與單計算設(shè)備結(jié)果等價。

2）按行切分

將矩陣A按行切成B1,B2,...,Bn，每個Bi為N*（K/n）即（K/n）N維。將這n個切分后的矩陣分別放到n個GPU上，則可并行執(zhí)行矩陣乘法Y=XB1，Y=X*（B1+B2），...，Y=X*（B1+B2+...+Bn）。每步并行計算完成后，各GPU間進行通信，拼接得到最終結(jié)果矩陣Y。

在Transformer中FFN結(jié)構(gòu)包含兩層全連接（FC）層，每層都涉及兩個矩陣乘法。這兩個矩陣乘法分別采用上述兩種切分方式。對于第一個FC層的參數(shù)矩陣，采用按列切塊方式，而對于第二個FC層參數(shù)矩陣，則采用按行切塊方式。這樣的切分方式使得第一個FC層輸出能夠直接滿足第二個FC層輸入要求（按列切分），從而省去了第一個FC層后匯總通信操作。

多頭自注意力機制張量并行與FFN類似，由于具有多個獨立的頭，因此相較于FFN更容易實現(xiàn)并行。其矩陣切分方式如圖所示。

在分類網(wǎng)絡(luò)最后一層，通常會使用Softmax和Cross_entropy算子來計算交叉熵損失。然而，當類別數(shù)量非常大時，單計算設(shè)備內(nèi)存可能無法存儲和計算logit矩陣。針對這種情況，可以對這類算子進行類別維度切分，并通過中間結(jié)果通信來獲得最終的全局交叉熵損失。首先計算的是softmax值，其公式如下：

在計算交叉熵損失時，可以采用張量并行的方式，按照類別維度對softmax值和目標標簽進行切分，每個設(shè)備計算部分損失。最后再進行一次通信，得到所有類別的損失。整個過程中，只需要進行三次小量的通信，就可以完成交叉熵損失的計算。

3、管道并行

管道并行性將模型按層“垂直”分割。同時，還可以“水平”分割層內(nèi)的某些操作，稱為張量并行訓(xùn)練。對于現(xiàn)代模型（如Transformer）的計算瓶頸，即將激活批矩陣與大權(quán)重矩陣相乘，可以在不同GPU上計算獨立的點積或每個點積的一部分并對結(jié)果求和。無論采用哪種策略，都可以將權(quán)重矩陣分割成均勻大小的分片，托管在不同的GPU上，并使用分片計算整個矩陣乘積的相關(guān)部分，再通過通信組合結(jié)果。Megatron-LM是一個例子，在Transformer自注意力層和MLP層中實現(xiàn)矩陣乘法的并行化。PTD-P結(jié)合張量、數(shù)據(jù)和管道并行性，通過為每個設(shè)備分配多個非連續(xù)層以減少氣泡開銷，但增加了網(wǎng)絡(luò)通信成本。有時，輸入可以跨維度并行化，并通過更細粒度的示例進行計算，以減少峰值內(nèi)存消耗。序列并行是一種思想，將輸入序列在時間上分割成多個子示例，從而按比例減少內(nèi)存消耗。

四、混合專家 (MoE)

隨著研究人員試圖突破模型大小限制，混合專家(MoE) 方法引起廣泛關(guān)注。其核心思想是集成學(xué)習，即多個弱學(xué)習器組合可生強大的學(xué)習器。使用 MoE 方法時，僅需使用網(wǎng)絡(luò)一小部分即可計算任何輸入的輸出。一種示例方法是擁有多組權(quán)重，網(wǎng)絡(luò)可以在推理時通過門控機制選擇使用哪一組權(quán)重。這可以在不增加計算成本的情況下啟用更多參數(shù)。每組權(quán)重都被稱為“專家”，希望網(wǎng)絡(luò)能夠?qū)W會為每個專家分配專門的計算和技能。不同專家可以托管在不同 GPU 上，從而提供一種清晰方法來擴展模型所使用的 GPU 數(shù)量。恰好一層 MoE 包含作為專家前饋網(wǎng)絡(luò) {E_i}^n_{i=1} 和可訓(xùn)練門控網(wǎng)絡(luò) G 學(xué)習概率分布 n “專家”，以便將流量路由到少數(shù)選定的 “專家”。當 “專家” 數(shù)量過多時，可以考慮使用兩級分層 MoE。

GShard（Google Brain團隊開發(fā)的一款分布式訓(xùn)練框架

）通過分片將MoE變壓器模型擴展至6000億個參數(shù)。MoE變壓器用MoE層替換所有其他前饋層。分片MoE變壓器僅具有跨多臺機器分片的MoE層，其他層只是簡單地復(fù)制。Switch Transformer（Transformer類的萬億級別模型

）通過稀疏開關(guān)FFN層替換密集前饋層（其中每個輸入僅路由到一個專家網(wǎng)絡(luò)），將模型大小擴展到數(shù)萬億個參數(shù)，并具有更高的稀疏性。

五、其他節(jié)省內(nèi)存的設(shè)計

1、混合精度計算（Mixed Precision Training）

混合精度訓(xùn)練（Mixed Precision Training）是指在訓(xùn)練模型時同時使用16位和32位浮點類型，以加快運算速度和減少內(nèi)存使用。在NVIDIA GPU上，使用float16進行運算比使用float32快一倍多，大大提高了算力的上限。然而，將模型的運算轉(zhuǎn)換為FP16并不能完全解決問題，因為FP16的數(shù)值范圍遠小于FP32和TF32，限制模型的運算能力。為確保模型能夠收斂到與FP32相同結(jié)果，需要采用額外的技巧。

1）權(quán)重備份（Weight Backup）

其中一種避免以半精度丟失關(guān)鍵信息的技術(shù)是權(quán)重備份。在訓(xùn)練時，權(quán)重、激活值和梯度都使用FP16進行計算，但會額外保存TF32的權(quán)重值。在進行梯度更新時，對TF32的權(quán)重進行更新。在下一步訓(xùn)練時，將TF32的權(quán)重值轉(zhuǎn)換為FP16，然后進行前向和反向計算。

2）損失縮放（Loss Scaling）

在訓(xùn)練模型時，由于梯度量級往往非常小，使用FP16格式可能會導(dǎo)致一些微小梯度直接被歸零。大部分非零梯度實際上并不在FP16表示范圍內(nèi)。由于FP16格式右側(cè)部分并未被充分利用，我們可以通過將梯度乘以一個較大系數(shù)，使整個梯度分布向右移動并完全落在FP16表示范圍內(nèi)。一種簡單方法是在計算梯度之前先將損失乘以一個較大值，以此放大所有梯度。在進行梯度更新時，再將其縮小回原來的并使用TF32進行更新。

3）精度累加（Precision Accumulation）

在FP16模型中，一些算術(shù)運算如矩陣乘法需要用TF32來累加乘積結(jié)果，然后再轉(zhuǎn)換為FP16。例如，Nvidia GPU設(shè)備中的Tensor Core支持利用FP16混合精度加速，同時保持精度。Tensor Core主要用于實現(xiàn)FP16的矩陣相乘，并在累加階段使用TF32大幅減少混合精度訓(xùn)練的精度損失。

2、梯度累積（Gradient Accumulation）

梯度累積是一種神經(jīng)網(wǎng)絡(luò)訓(xùn)練技術(shù)，通過將數(shù)據(jù)樣本按批次拆分為幾個小批次，并按順序計算。在每個小批次中，計算梯度并累積，在最后一個批次后求平均來更新模型參數(shù)。神經(jīng)網(wǎng)絡(luò)由許多相互連接的神經(jīng)網(wǎng)絡(luò)單元組成，樣本數(shù)據(jù)通過所有層并計算預(yù)測值，然后通過損失函數(shù)計算每個樣本的損失值（誤差）。神經(jīng)網(wǎng)絡(luò)通過反向傳播算法計算損失值相對于模型參數(shù)的梯度，并利用這些梯度信息來更新網(wǎng)絡(luò)參數(shù)。梯度累積每次獲取一個批次的數(shù)據(jù)，計算一次梯度（前向），不斷累積梯度，累積一定次數(shù)后根據(jù)累積的梯度更新網(wǎng)絡(luò)參數(shù)，然后清空所有梯度信息進行下一次循環(huán)。

3、卸載CPU（CPU Offloading）

CPU Offloading是指將未使用的數(shù)據(jù)暫時卸載到CPU或不同的設(shè)備之間，并在需要時重新讀取回來。由于CPU存儲相比GPU存儲具有更大的空間和更低的價格，因此實現(xiàn)雙層存儲可以大大擴展訓(xùn)練時的存儲空間。然而，簡單的實現(xiàn)可能會導(dǎo)致訓(xùn)練速度降低，而復(fù)雜的實現(xiàn)需要實現(xiàn)預(yù)取數(shù)據(jù)以確保設(shè)備無需等待。ZeRO是一種實現(xiàn)這一想法的方式，它將參數(shù)、梯度和優(yōu)化器狀態(tài)分配到所有可用的硬件上，并根據(jù)需要進行具體化。

4、激活重新計算（Activation Recomputation）

Recompute是一種在前向計算中釋放tensor，在反向傳播時需要重新計算的方法，適用于占用內(nèi)存大但重新計算量小的tensor。重新計算的方式有三種：

Speed Centric會保留計算出的tensor以備后續(xù)使用；

Memory Centric會在計算完成后釋放tensor，需要時再重新計算；

Cost Aware會在計算完成后判斷是否保留tensor，若可能導(dǎo)致內(nèi)存峰值則釋放。

可以將swap和recompute結(jié)合使用，針對特定op采用不同方式。還可以預(yù)先迭代幾次，收集內(nèi)存和運行時間信息，判斷哪些tensor該swap，哪些該recompute。

5、模型壓縮（Compression）

模型壓縮是通過裁剪、權(quán)重共享等方式處理大模型，以減少參數(shù)量。然而，這種方式容易降低模型精度，因此使用較少。常見的模型壓縮方法包括修剪、權(quán)重共享、低秩分解、二值化權(quán)重和知識蒸餾。

修剪可以采用對連接、kernel、channel進行裁剪的方式；權(quán)重共享是通過共享模型參數(shù)來減少參數(shù)量；低秩分解將矩陣分解為低秩形式，從而減少參數(shù)量；二值化權(quán)重是將權(quán)重從32位降至8位或16位，實現(xiàn)混合精度訓(xùn)練；知識蒸餾是使用訓(xùn)練好的教師模型指導(dǎo)學(xué)生模型訓(xùn)練。

6、高效內(nèi)存優(yōu)化器（Memory Efficient Optimizer）

優(yōu)化器在模型訓(xùn)練中的內(nèi)存消耗是一個重要問題。以Adam優(yōu)化器為例，它需要存儲動量和方差，與梯度和模型參數(shù)規(guī)模相同，內(nèi)存需求增加。為減少內(nèi)存占用，已經(jīng)提出了幾種優(yōu)化器，如Adafactor和SM3，采用不同的方法估計二階矩或大幅減少內(nèi)存使用。

ZeRO優(yōu)化器是一種針對大型模型訓(xùn)練的內(nèi)存優(yōu)化方法。通過觀察模型狀態(tài)和激活臨時緩沖區(qū)及不可用碎片內(nèi)存的消耗，采用兩種方法：ZeRO-DP和ZeRO-R。ZeRO-DP通過動態(tài)通信調(diào)度來減少模型狀態(tài)上的冗余，而ZeRO-R則使用分區(qū)激活重新計算、恒定緩沖區(qū)大小和動態(tài)內(nèi)存碎片整理來優(yōu)化殘留狀態(tài)的內(nèi)存消耗。

英偉達禁令之后，中國AI計算何去何從？

在10月17日，美國強化對中國市場的AI芯片禁令，將性能和密度作為出口管制標準，禁止出口單芯片超過300teraflops算力、性能密度超過每平方毫米370gigaflops的芯片。由于限制AMD、英特爾等公司的高端AI芯片，尤其是英偉達的主流AI訓(xùn)練用GPU A100和H100，該禁令又被稱為“英偉達禁令”。

針對新的芯片禁令，AI產(chǎn)業(yè)議論紛紛，焦點主要集中在實施時間、緩沖地帶、涉及的GPU型號和禁令期限等方面。盡管存在爭議，但針對中國的高端AI芯片禁令仍在堅定推行。

現(xiàn)在，AI行業(yè)必須形成共識應(yīng)對挑戰(zhàn)。與其過分關(guān)注被禁的GPU，我們應(yīng)更深入思考在芯片鐵幕時代下中國AI計算未來發(fā)展路徑。下面將探討當前產(chǎn)業(yè)形勢并共同探討AI計算前行之路。

一、目前現(xiàn)狀

與之前情況相比，英偉達禁令出臺后大眾輿論與AI行業(yè)反應(yīng)似乎更為冷靜。僅在消費級顯卡RTX 4090是否被禁問題上引發(fā)游戲玩家和商家爭論。盡管行業(yè)不希望看到高端AI芯片被禁售，但對此局面已有預(yù)期。美國對華芯片封鎖已持續(xù)多年，英偉達部分高端GPU已被禁止出售，產(chǎn)業(yè)界的反應(yīng)也從驚訝轉(zhuǎn)變?yōu)槔潇o應(yīng)對。加上ChatGPT的火爆導(dǎo)致全球高端GPU市場行情上漲，美國方面多次表示要推動對華整體性的高端AI芯片禁售。

為應(yīng)對禁令并受到大模型發(fā)展的推動，去年年底到今年上半年，眾多中國科技、金融、汽車等企業(yè)集中購買英偉達高端GPU，導(dǎo)致市場上GPU供不應(yīng)求。對于許多中國中小型科技企業(yè)和AI創(chuàng)業(yè)公司來說，原本就很難買到高端GPU，禁售并未帶來太大變化。實際上，國內(nèi)AI芯片產(chǎn)業(yè)在貿(mào)易摩擦初期便開始加速發(fā)展，雖然英偉達的高端GPU在AI訓(xùn)練需求方面難以替代，但并非不可替代。

此外，AI芯片與手機芯片不同，并不關(guān)乎大眾消費者。華為已在手機芯片領(lǐng)域取得突破。因此，無論是大眾還是行業(yè)，對禁令都持坦然態(tài)度，甚至有些習以為常。然而，必須承認的是，禁令對中國AI行業(yè)仍造成了一定程度的傷害：短期內(nèi)更換英偉達GPU面臨芯片產(chǎn)能和生態(tài)兼容性等難題；禁令還將直接損害使用英偉達產(chǎn)品的AI服務(wù)器等領(lǐng)域的廠商。

長期禁令可能使中國AI計算與全球高端芯片脫鉤，可能帶來復(fù)雜的負面影響，包括：中國AI算力發(fā)展可能落后于英偉達高端GPU的更新迭代；在底層算力發(fā)展分歧下，中國AI產(chǎn)業(yè)可能在軟件技術(shù)方面掉隊；科技封鎖可能從AI芯片擴展到通用算力、存儲、基礎(chǔ)軟件等數(shù)字化基礎(chǔ)能力。因此，需要制定三項同時發(fā)力的“突圍方案”：加快國產(chǎn)AI芯片的自主研發(fā)和生態(tài)建設(shè)；加大力度投資大模型等軟件技術(shù)，降低對英偉達等公司的依賴；加強與國際科技合作，推動中國AI計算的全球化發(fā)展。

二、解決方案一：用好買家身份

作為全球芯片市場最大買家，中國企業(yè)應(yīng)該利用好這個身份，擺脫中美科技貿(mào)易中的思維誤區(qū)。我們往往認為游戲規(guī)則是由美國政府和企業(yè)制定的，只能被動接受，但實際上作為買家應(yīng)該擁有更多話語權(quán)。針對中國市場的AI芯片禁令，最直接傷害的是以英偉達為代表的美國科技巨頭，因為中國市場對他們的AI芯片需求最大。英偉達CEO黃仁勛曾表示，如果被剝奪了中國市場，他們將沒有應(yīng)急措施，世界上沒有另一個中國。因此，我們應(yīng)該認識到作為買家的力量，并利用好這個身份來維護自己的利益。

我們可以看到美國科技公司和政府之間的矛盾?？萍脊咀非笊虡I(yè)利益，而政府則追求政治利益。美國科技公司一直在嘗試反對和繞過禁令，例如英偉達推出針對中國市場的特供版GPU。

三、解決方案2：以云代卡，算力集中

在可見的較長時間里，美國對中國AI芯片封禁只會加強，這給AI大模型發(fā)展帶來挑戰(zhàn)。許多業(yè)內(nèi)人士認為，大模型發(fā)展雖快，但沒有呈現(xiàn)此前科技風口的迅猛局面，投資缺錢、計算缺卡是主要原因。

為解決中國AI產(chǎn)業(yè)在禁令之下的算力缺口問題，企業(yè)需要加大云端AI算力配置和投入，推動以云代卡。事實上，在高端AI芯片可能被禁的大趨勢下，中國幾大公有云廠商都開始加強囤積英偉達高端GPU。這不僅因為自身需要加大大模型投入，打開MaaS市場，也對AI算力有直接需求。此外，GPU轉(zhuǎn)化為云資源池后可以長期復(fù)用，對云廠商來說具有進可攻、退可守的優(yōu)勢。因此，今年上半年出現(xiàn)高端AI芯片流向云廠商、中小企業(yè)難以獲得芯片的局面。

客觀來看，這種高端AI芯片集中向云的舉動有利于中國市場統(tǒng)籌應(yīng)對AI芯片禁令，也符合東數(shù)西算戰(zhàn)略思路。另一趨勢是，隨著大模型參數(shù)和使用數(shù)據(jù)量不斷加大，本地化卡池訓(xùn)練已經(jīng)越來越緊張，在云端進行千卡、萬卡訓(xùn)練成為未來主要發(fā)展方向，因此企業(yè)用戶會更加積極地走向云端。

同時，云端AI算力不僅限于囤積英偉達GPU。隨著政策推動和自主AI芯片采購力度的加大，云端化和自主化結(jié)合的AI算力將成為發(fā)展趨勢。根據(jù)IDC數(shù)據(jù)，2023上半年中國AI服務(wù)器已經(jīng)使用50萬塊自主開發(fā)的AI加速器芯片。華為已經(jīng)推出昇騰AI云服務(wù)，提供自主AI算力服務(wù)。在東數(shù)西算背景下，各地建立一批采用自主AI算力的AI計算中心，保障云端AI算力穩(wěn)定可靠供給。

然而，很多企業(yè)仍然傾向于采購本地AI算力。一方面是因為英偉達GPU市場緊缺，保值性高，甚至可以作為企業(yè)的核心資產(chǎn)。另一方面是因為云端AI算力存在排隊、宕機、軟件服務(wù)缺失等問題，影響開發(fā)者體驗。為進一步提高開發(fā)者的云端AI算力使用體驗，公有云廠商需要進一步努力。

四、方案三：讓國產(chǎn)AI算力爆發(fā)式成長

面對新一輪AI芯片禁令，中國AI產(chǎn)業(yè)并非依賴英偉達的高端GPU，而是經(jīng)過多年發(fā)展，AI芯片產(chǎn)業(yè)已經(jīng)得到巨大發(fā)展。雖然英偉達市場份額仍占主導(dǎo)，國產(chǎn)AI算力已經(jīng)具備一定市場占比，但在核心性能、軟件生態(tài)和出貨能力方面仍需不斷提升?？陀^上，禁令的倒逼將加速國產(chǎn)AI算力的成長與成熟周期。

為了實現(xiàn)這個目標，有幾件事非常重要：

1、形成產(chǎn)業(yè)共識，避免概念混淆

雖然AI芯片市場呈現(xiàn)出眾多品牌和類型參與者，但其中存在的問題也不容忽視。對于類腦芯片等前沿技術(shù)，目前仍處于暢想階段，而一些AI芯片廠商僅能自用，無法面向市場出貨，同時還有大量廠商處于早期建設(shè)階段，短期內(nèi)對AI計算自主化貢獻有限。

為應(yīng)對英偉達高端GPU禁售問題，需要將關(guān)注點集中在可行、有效的GPU替代方案上，避免過多的聯(lián)想和發(fā)散。只有形成產(chǎn)業(yè)共識，才能更好地解決問題。

2、走向規(guī)?；逃?，避免PPT造芯

目前國內(nèi)能夠出貨的AI芯片廠商主要集中在華為、百度、燧原科技和海光信息等少數(shù)幾家。大量半導(dǎo)體廠商與AI企業(yè)還停留在打造芯片的計劃與愿景上，導(dǎo)致政策支持與投資市場期待的國產(chǎn)AI芯片發(fā)展停滯，甚至有些企業(yè)可能只是在這一階段享受金融市場紅利而缺乏實質(zhì)性進展。

為推動產(chǎn)業(yè)發(fā)展，未來的產(chǎn)業(yè)導(dǎo)向應(yīng)該重將AI芯片從計劃轉(zhuǎn)向出貨，幫助廠商獲得直接商業(yè)回饋，讓產(chǎn)品與產(chǎn)能接受市場檢驗，逐步塑造正向現(xiàn)金流。

3、加強軟件生態(tài)，強化遷移能力

英偉達GPU重要性不僅在于硬件性能，更在于其CUDA和PyTorch等軟件生態(tài)的強大能力。因此，發(fā)展國產(chǎn)AI芯片不能忽視軟件能力的提升。在加強自主軟件生態(tài)建設(shè)的同時，還需要關(guān)注基于英偉達生態(tài)的AI模型遷移能力和遷移成本。

許多廠商已經(jīng)在這方面進行探索，例如海光信息的DCU與CUDA在生態(tài)和編程環(huán)境上高度相似，使得CUDA用戶能夠以較低代價快速遷移到海光的ROCm平臺。此前，PyTorch2.1版本宣布支持華為昇騰，顯示出國產(chǎn)AI芯片已經(jīng)具備一定的規(guī)?；绊懥?，可以更多地融入全球軟件生態(tài)。未來要實現(xiàn)國產(chǎn)AI計算的爆發(fā)，離不開國產(chǎn)AI基礎(chǔ)軟件生態(tài)的蓬勃發(fā)展。

4、加大對“主品牌”支持，形成規(guī)?；?yīng)

在中國，為加速AI計算的成熟并實現(xiàn)自主化替代，應(yīng)盡快形成一超多強的市場格局，避免生態(tài)割裂和IT投資浪費。在這個過程中，市場機制將起到?jīng)Q定性作用。然而，在當前芯片禁令背景下，國產(chǎn)AI計算崛起已刻不容緩，應(yīng)加速形成一個“主品牌”來快速替代英偉達等進口芯片。

目前看來，華為昇騰系列是最有可能成為國產(chǎn)AI算力的主品牌之一?？拼笥嶏w董事長劉慶峰曾表示，華為GPU已經(jīng)與英偉達A100并駕齊驅(qū)。數(shù)據(jù)顯示，昇騰310的整數(shù)精度算力達到16TOPS，而昇騰910的整數(shù)精度算力更是高達640TOPS，這意味著昇騰910的性能已接近英偉達A100。

同時，昇騰是目前唯一在市場上占據(jù)一定份額的國產(chǎn)AI算力品牌，并在軟件方面培育類似英偉達CUDA的異構(gòu)計算架構(gòu)CANN和AI計算框架MindSpore。從核心性能、軟件生態(tài)和市場占有率三個角度來看，昇騰已經(jīng)具備加快成長并實現(xiàn)AI算力大規(guī)模國產(chǎn)化替代的可能性。

短期內(nèi)推動國產(chǎn)AI算力快速成長的主要途徑包括規(guī)范行業(yè)標準、強化軟件建設(shè)以及提高自主品牌的支持。英偉達禁令是中國AI行業(yè)不愿面對、盡力避免，但又諱莫如深的問題。

英偉達將針對中國市場推出新的AI芯片，以應(yīng)對美國出口限制

據(jù)知情人士透露，NVIDIA已研發(fā)出為中國市場量身打造的新型改良AI芯片系列，包括HGX H20、L20 PCle和L2 PCle。在美國政府針對中國高科技行業(yè)加強出口限制的大背景下，NVIDIA的這一舉動被業(yè)界視為對相關(guān)政策調(diào)整的直接回應(yīng)。此舉可能暗示該公司正在尋找遵守規(guī)定的同時保持市場競爭力的策略。

據(jù)業(yè)內(nèi)人士透露，英偉達為中國市場研發(fā)新一代改進型AI芯片系列，包括HGX H20、L20 PCIe和L2 PCIe。這些芯片都基于英偉達的H100系列芯片，并采用了不同的架構(gòu)。

HGX H20采用NVIDIA Hopper架構(gòu)，并配備高達96 GB的HBM3內(nèi)存，提供4TBB/s的帶寬。適用于要求極高的計算場景，展現(xiàn)出了卓越的性能。

L20 PCIe和L2 PCIe則采用NVIDIA Ada Lovelace架構(gòu)，并針對不同計算需求提供多樣化的選擇。L20 PCIe配備48 GB GDDR6 w/ ECC內(nèi)存，而L2 PCIe則擁有24 GB GDDR6 w/ ECC內(nèi)存。特別值得注意的是，H20型號沒有RT Core，而L20和L2 PCIe則增加了這一功能，表明它們在光線追蹤能力上有所加強。

這些新系列芯片可能通過調(diào)整性能參數(shù)來滿足中國市場的特殊要求并規(guī)避某些出口禁令中的敏感技術(shù)。雖然這樣的產(chǎn)品定制化可能會帶來技術(shù)創(chuàng)新，但同時也可能帶來技術(shù)分裂的風險，引發(fā)行業(yè)對技術(shù)標準分化的擔憂。

分析人士認為，NVIDIA的這一舉措是其全球供應(yīng)鏈戰(zhàn)略的重要組成部分，反映出公司對全球經(jīng)濟形勢的靈活適應(yīng)。此舉將有助于NVIDIA維持在中國市場的業(yè)務(wù)活動和客戶關(guān)系，同時也可能推動中國本土廠商加速技術(shù)自立自強的步伐。

盡管美國的出口限制給中國市場的技術(shù)產(chǎn)品帶來了挑戰(zhàn)，但據(jù)知情人士透露，英偉達已經(jīng)采取了針對性的技術(shù)調(diào)整，以符合出口規(guī)則，確保其產(chǎn)品可以順利進入中國市場。據(jù)悉，英偉達預(yù)計將在11月16日之后宣布這一新系列產(chǎn)品，屆時將有更多細節(jié)公布。盡管英偉達尚未對此消息作出官方回應(yīng)，但市場對這些可能的新產(chǎn)品已經(jīng)充滿期待。

藍海大腦大模型訓(xùn)練平臺

藍海大腦大模型訓(xùn)練平臺提供強大的算力支持，包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓撲，滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴展，同時可以擴展至萬卡AI集群，滿足大模型流水線和數(shù)據(jù)并行的通信需求。強大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù)，當BMC收到PSU故障或錯誤警告（如斷電、電涌，過熱），自動強制系統(tǒng)的CPU進入ULFM（超低頻模式，以實現(xiàn)最低功耗）。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應(yīng)用于深度學(xué)習、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

一、為什么需要大模型？

1、模型效果更優(yōu)

大模型在各場景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強

大模型能夠進行內(nèi)容生成（AIGC），助力內(nèi)容規(guī)?；a(chǎn)

3、靈活定制場景

通過舉例子的方式，定制大模型海量的應(yīng)用場景

4、標注數(shù)據(jù)更少

通過學(xué)習少量行業(yè)數(shù)據(jù)，大模型就能夠應(yīng)對特定業(yè)務(wù)場景的需求

二、平臺特點

1、異構(gòu)計算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案，用于調(diào)度和管理多種異構(gòu)計算資源，包括CPU、GPU等。通過強大的虛擬化管理功能，能夠輕松部署底層計算資源，并高效運行各種模型。同時充分發(fā)揮不同異構(gòu)資源的硬件加速能力，以加快模型的運行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲

支持多存儲類型協(xié)議，包括塊、文件和對象存儲服務(wù)。將存儲資源池化實現(xiàn)模型和生成數(shù)據(jù)的自由流通，提高數(shù)據(jù)的利用率。同時采用多副本、多級故障域和故障自恢復(fù)等數(shù)據(jù)保護機制，確保模型和數(shù)據(jù)的安全穩(wěn)定運行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲，并通過分布式網(wǎng)絡(luò)機制進行轉(zhuǎn)發(fā)，透傳物理網(wǎng)絡(luò)性能，顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面，采用嚴格的權(quán)限管理機制，確保模型倉庫的安全性。在數(shù)據(jù)存儲方面，提供私有化部署和數(shù)據(jù)磁盤加密等措施，保證數(shù)據(jù)的安全可控性。同時，在模型分發(fā)和運行過程中，提供全面的賬號認證和日志審計功能，全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

1、處理器CPU:

Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、顯卡GPU：

NVIDIA L40S GPU 48GB

NVIDIA NVLink-A100-SXM640GB

NVIDIA HGX A800 80GB

NVIDIA Tesla H800 80GB HBM2

NVIDIA A800-80GB-400Wx8-NvlinkSW

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
27

文章
4590

瀏覽量
128133
人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46060

瀏覽量
234951
英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3637

瀏覽量
89827

英偉達H20芯片助力，預(yù)計在華銷售額將破120億美元

近期，半導(dǎo)體行業(yè)的權(quán)威研究機構(gòu)SemiAnalysis發(fā)布了一項引人矚目的預(yù)測，指出英偉達公司的H20芯片將在當前財年顯著提振其在中國市場的

發(fā)表于 07-08 10:05 ?676次閱讀

英偉達H20 AI芯片:中國市場新動向與業(yè)績預(yù)期

在科技行業(yè)的持續(xù)關(guān)注下，英偉達再次成為焦點。據(jù)英國《金融時報》7月5日的報道，英偉達計劃在接下來的幾個月內(nèi)向中國市場交付超過100萬顆新款

發(fā)表于 07-05 16:56 ?795次閱讀

英偉達下調(diào)中國特供H20芯片價格

英偉達近日針對中國市場調(diào)整了其特供的AI芯片H20系列的價格，以應(yīng)對需求不佳的局面。據(jù)供應(yīng)鏈人士透露，目前

發(fā)表于 05-28 09:44 ?1177次閱讀

英偉達H20芯片價格下調(diào)，供應(yīng)充足，顯示市場需求疲軟

據(jù)知情人披露，因供貨過剩導(dǎo)致Nvidia H20芯片售價下調(diào)，而中國市場在該公司2024財年的營收貢獻率高達17%，這無疑凸顯出該國業(yè)務(wù)的挑戰(zhàn)性，同時給英偉

發(fā)表于 05-24 14:22 ?610次閱讀

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

能，加速模型的訓(xùn)練和推理過程。 2. 生成式 AI 解決方案與英偉達 Grace CPU、新一代網(wǎng)絡(luò)芯

發(fā)表于 05-13 17:16

英偉達Blackwell AI芯片售價3-4萬美元，晶體管數(shù)破2000億

此外，黃仁勛還明確指出中國市場對于Nvidia的重要性。他表示：“我們正全力以赴，以求最大程度地激活英偉達在華業(yè)務(wù)。目前針對中國市場，我們已經(jīng)推出

發(fā)表于 03-20 15:52 ?1261次閱讀

黃仁勛回應(yīng)中國市場問題推出L20和H20芯片

黃仁勛回應(yīng)中國市場問題推出L20和H20芯片在黃仁勛接受全球媒體采訪時黃仁勛強調(diào)了中國市場的

發(fā)表于 03-20 15:45 ?984次閱讀

消息稱英偉達中國特定AI芯片H20開啟預(yù)售

據(jù)報道，英偉達最近推出了專為中國市場設(shè)計的AI芯片H20系列，并已經(jīng)開始接受經(jīng)銷商的預(yù)購。定價方

發(fā)表于 02-04 14:31 ?1051次閱讀

英偉達H20芯片在華銷量低迷，訂單量縮減

據(jù)悉，去年11月，由于美國實施新的出口管制措施，業(yè)界普遍預(yù)測英偉達將面向中國市場推出三款A(yù)I

發(fā)表于 01-19 09:30 ?1400次閱讀

英偉達推出為中國大陸定制的H20 AI GPU芯片

盡管英偉達H20降低了AI算力，但其具有更低的售價、支持NVLink高速互聯(lián)技術(shù)以及CUDA等優(yōu)勢。

發(fā)表于 01-03 14:30 ?1613次閱讀

英偉達為中國“降規(guī)”：H800變身為H20，技術(shù)如何實現(xiàn)、性能夠用嗎？

按正常的設(shè)計、生產(chǎn)周期和產(chǎn)品發(fā)布節(jié)奏來推斷，特供中國市場的H20 / L20等型號的芯片在這個時間節(jié)點發(fā)布，不太可能是重做光罩、重新投片的產(chǎn)物，一個相對合理的推論——即它們是通過半導(dǎo)體

發(fā)表于 11-30 16:37 ?4695次閱讀

英偉達特供版芯片性能降80%！

報道中提到，英偉達的這三款A(yù)I芯片并非“改良版”，而是“縮水版”，其分別是HGX H20、

發(fā)表于 11-14 17:09 ?815次閱讀

港媒：英偉達再為中國推3款“改良”芯片？最快11月16日之后公布

中國內(nèi)地的一家經(jīng)銷商表示，英偉達針對中國區(qū)已開發(fā)出最新改良版系列芯片：

發(fā)表于 11-13 15:12 ?401次閱讀

英偉達確認為中國推三款改良AI芯片性能暴降80%

據(jù)報道，nvidia的3種ai芯片不是“改良版”，而是“縮水版”，分別是hgx h20、l20 pcle和

發(fā)表于 11-13 10:46 ?648次閱讀

傳英偉達新AI芯片H20綜合算力比H100降80%

但據(jù)悉，三種新型AI芯片不是“改良型”，而是“縮小型”。用于ai模型教育的hgx h20的帶寬和計算速度是有限的。整體計算能力理論上比nvi

發(fā)表于 11-13 09:41 ?1437次閱讀

搜索歷史

多GPU訓(xùn)練大型模型：資源分配與優(yōu)化技巧｜英偉達將推出面向中國的改良芯片HGX H20、L20 PCIe、L2 PCIe

評論

英偉達H20芯片助力，預(yù)計在華銷售額將破120億美元

英偉達H20 AI芯片:中國市場新動向與業(yè)績預(yù)期

英偉達下調(diào)中國特供H20芯片價格

英偉達H20芯片價格下調(diào)，供應(yīng)充足，顯示市場需求疲軟

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

英偉達Blackwell AI芯片售價3-4萬美元，晶體管數(shù)破2000億

黃仁勛回應(yīng)中國市場問題推出L20和H20芯片

消息稱英偉達中國特定AI芯片H20開啟預(yù)售

英偉達H20芯片在華銷量低迷，訂單量縮減

英偉達推出為中國大陸定制的H20 AI GPU芯片

英偉達為中國“降規(guī)”：H800變身為H20，技術(shù)如何實現(xiàn)、性能夠用嗎？

英偉達特供版芯片性能降80%！

港媒：英偉達再為中國推3款“改良”芯片？最快11月16日之后公布

英偉達確認為中國推三款改良AI芯片性能暴降80%

傳英偉達新AI芯片H20綜合算力比H100降80%

搜索歷史

多GPU訓(xùn)練大型模型：資源分配與優(yōu)化技巧｜英偉達將推出面向中國的改良芯片HGX H20、L20 PCIe、L2 PCIe

評論

多GPU訓(xùn)練大型模型：資源分配與優(yōu)化技巧｜英偉達將推出面向中國的改良芯片HGX H20、L20 PCIe、L2 PCIe