五年沉淀只做精品的app网址,国产裸体歌舞一区二区,亚洲人成综合第一网

ChatGPT 的爆火掀起了 AI 大模型狂飆熱潮，隨著國內(nèi)外原來越多的 AI 大模型應(yīng)用落地，AI 算力需求快速增加。在算力的背后，網(wǎng)絡(luò)起到至關(guān)重要的作用——網(wǎng)絡(luò)性能決定 GPU 集群算力，網(wǎng)絡(luò)可用性決定 GPU 集群算力穩(wěn)定性。因此，高性能與高可用的網(wǎng)絡(luò)對 AI 大模型的構(gòu)建尤為重要。

6 月 26 日，騰訊云舉辦《面向 AI 大模型的高性能網(wǎng)絡(luò)》溝通會，首次對外完整披露自研星脈高性能計算網(wǎng)絡(luò)，并梳理了騰訊的網(wǎng)絡(luò)架構(gòu)演進歷程。會后，騰訊云副總裁王亞晨、騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔接受了 InfoQ 在內(nèi)的媒體采訪，進一步分享面向 AI 大模型的高性能網(wǎng)絡(luò)是如何構(gòu)建的。

據(jù)了解，星脈網(wǎng)絡(luò)具備業(yè)界最高的 3.2T 通信帶寬，可提升 40% 的 GPU 利用率、節(jié)省 30%~60% 的模型訓(xùn)練成本，進而能為 AI 大模型帶來 10 倍通信性能提升?；隍v訊云新一代算力集群，可支持 10 萬卡的超大計算規(guī)模。

王亞晨表示：“星脈網(wǎng)絡(luò)是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡(luò)服務(wù)，將助力算力瓶頸的突破，進一步釋放 AI 潛能，全面提升企業(yè)大模型的訓(xùn)練效率，在云上加速大模型技術(shù)的迭代升級和落地應(yīng)用?！?/p>

AI 大模型時代需要什么樣的網(wǎng)絡(luò)？大帶寬、高利用率、無損

AI 大模型訓(xùn)練需要海量算力的支撐，而這些算力無法由單臺服務(wù)器提供，需要由大量的服務(wù)器作為節(jié)點，通過高速網(wǎng)絡(luò)組成集群，服務(wù)器之間互聯(lián)互通，相互協(xié)作完成任務(wù)。有數(shù)據(jù)顯示，GPT-3.5 的訓(xùn)練使用了微軟專門建設(shè)的 AI 計算系統(tǒng)，由 1 萬個 V100 GPU 組成的高性能網(wǎng)絡(luò)集群，總算力消耗約 3640 PF-days (假如每秒計算一千萬億次，需要計算 3640 天)。

如此大規(guī)模、長時間的 GPU 集群訓(xùn)練任務(wù)，僅僅是單次計算迭代內(nèi)梯度同步需要的通信量就達到了百 GB 量級，此外還有各種并行模式、加速框架引入的通信需求。如果網(wǎng)絡(luò)的帶寬不夠大、延時長，不僅會讓算力邊際遞減，還增加了大模型訓(xùn)練的時間成本。因此，大帶寬、高利用率、無損的高性能網(wǎng)絡(luò)至關(guān)重要。

王亞晨表示，大模型運算實際上是一個通信過程，一部分 GPU 進行運算，運算完成后還需要與其他 GPU 之間交互數(shù)據(jù)。通信帶寬越大，數(shù)據(jù)傳輸越快，GPU 利用率越高，等待時間就會越少。此外，大模型訓(xùn)練對時延和丟包要求也比較高?！凹僭O(shè)有很多 GPU 運算同一個任務(wù)，因為有木桶效應(yīng)存在，一定要等花費時間最長的 GPU 運算完之后，才能完成一個運算任務(wù)。AI 對于時延的敏感度比 CPU 高很多，所以一定要把木桶效應(yīng)消除，把時延控制在非常短的水平，讓 GPU 的效率更高。此外，和帶寬、時延相比，丟包對 GPU 效率的影響更加明顯，一旦丟包就需要重傳，重新進行 GPU 的訓(xùn)練。”

王亞晨認為，大集群不等于大算力。集群訓(xùn)練會引入額外的通信開銷，導(dǎo)致 N 個 GPU 算力達不到單個 GPU 算力的 N 倍。這也意味著，一味地增加 GPU 卡或計算節(jié)點，并不能線性地提升算力收益。“GPU 利用率的合理水平大概是在 60% 左右?！蓖鮼喅空f道。

要想通過集群發(fā)揮出更強的算力，計算節(jié)點需協(xié)同工作并共享計算結(jié)果，需要優(yōu)化服務(wù)器之間的通信、拓撲、模型并行、流水并行等底層問題。高速、低延遲的網(wǎng)絡(luò)連接可以縮短兩個節(jié)點之間同步梯度信息的時間，使得整個訓(xùn)練過程變得更快。同時，降低不必要的計算資源消耗，使計算節(jié)點能夠?qū)Ｗ⒂谶\行訓(xùn)練任務(wù)。

AI 大模型驅(qū)動 DCN 網(wǎng)絡(luò)代際演進

據(jù)介紹，騰訊網(wǎng)絡(luò)主要提供的功能是“連接”，一是連接用戶到機器的流量，二是連接機器到機器的流量。目前，騰訊的網(wǎng)絡(luò)架構(gòu)主要分三大部分：

ECN 架構(gòu)，表示不同類型的客戶通過多種網(wǎng)絡(luò)方式接入云上虛擬網(wǎng)絡(luò)，這一塊主要是外聯(lián)架構(gòu)，主要包括終端用戶、企業(yè)用戶、物聯(lián)網(wǎng)用戶分別通過運營商專線、企業(yè)專線、邊緣網(wǎng)關(guān)接入騰訊數(shù)據(jù)中心。

DCI 網(wǎng)絡(luò)，主要是數(shù)據(jù)中心之間的互聯(lián)，實現(xiàn)一個城市多數(shù)據(jù)中心或者多個城市的數(shù)據(jù)中心進行互聯(lián)，底層會用到光纖傳輸。

DCN，主要是數(shù)據(jù)中心的網(wǎng)絡(luò)，這部分的任務(wù)是實現(xiàn)數(shù)據(jù)中心里面超過 10 萬或者幾十萬服務(wù)器進行無阻塞的連接。

騰訊通過 ECN、DCI、DCN 等網(wǎng)絡(luò)，把用戶和業(yè)務(wù)服務(wù)器連接起來，并且把數(shù)百萬臺服務(wù)器連接起來。

王亞晨表示，AI 大模型的發(fā)展驅(qū)動了 DCN 網(wǎng)絡(luò)代際演進。

在移動互聯(lián)網(wǎng)時代，騰訊的業(yè)務(wù)以 to C 為主，數(shù)據(jù)中心網(wǎng)絡(luò)服務(wù)器規(guī)模并不大，當(dāng)時主要解決的是數(shù)據(jù)中心、服務(wù)器之間的互聯(lián)，以及運營商之間的互聯(lián)。所以那時數(shù)據(jù)中心流量特征很明顯，基本都是外部訪問的流量，對網(wǎng)絡(luò)的時延和丟包要求也不高。

隨著移動互聯(lián)網(wǎng)以及云的快速發(fā)展，數(shù)據(jù)中心網(wǎng)絡(luò)流量模型發(fā)生了變化，除了有從運營商訪問過來的南北向流量，也有數(shù)據(jù)中心之間互訪的東西向流量，對網(wǎng)絡(luò)的時延要求也是從前的 10 倍。為了降低設(shè)備故障對網(wǎng)絡(luò)的影響，騰訊采用多平面設(shè)計，并引入了控制器的概念，把轉(zhuǎn)發(fā)面和控制面進行分離。用定制的設(shè)備、多平面以及 SDN 的路由器控制，將故障的解決時間控制在一分鐘之內(nèi)。

在 AI 大模型時代，數(shù)據(jù)中心網(wǎng)絡(luò)流量模型進一步發(fā)生變化?！暗搅?AI 大模型時代，我們發(fā)現(xiàn)東西向流量比以前大了很多，尤其是 AI 在訓(xùn)練的時候，幾乎沒有什么南北向流量。我們預(yù)計如果大模型逐漸成熟，明年大模型數(shù)據(jù)中心流量南北向流量可能會有所增長，因為推理需求會上來。但就現(xiàn)在而言，東西向流量需求非常大，我們 DCN 網(wǎng)絡(luò)設(shè)計會把南北向流量和東西向流量分開，以前是耦合在一張網(wǎng)絡(luò)里，基礎(chǔ)網(wǎng)絡(luò)都是一套交換機，只是分不同層。但到了 GPU 時代，我們需要專門為 GPU 構(gòu)建一層高性能網(wǎng)絡(luò)?！蓖鮼喅空f道。

基于此，騰訊打造出了高性能網(wǎng)絡(luò)星脈：具備業(yè)界最高的 3.2T 通信帶寬，能提升 40% 的 GPU 利用率，節(jié)省 30%~60% 的模型訓(xùn)練成本，為 AI 大模型帶來 10 倍通信性能提升?；隍v訊云新一代算力集群 HCC，可支持 10 萬卡的超大計算規(guī)模。

高性能網(wǎng)絡(luò)星脈是如何設(shè)計的？

據(jù)李翔介紹，騰訊網(wǎng)絡(luò)大概由大大小小幾十個組件組成，數(shù)據(jù)中心網(wǎng)絡(luò)是其中最大、歷史最悠久的一個。在 PC 和移動互聯(lián)網(wǎng)時代，數(shù)據(jù)中心網(wǎng)絡(luò)主要解決的是規(guī)模問題。而進入算力時代，業(yè)務(wù)對算力網(wǎng)絡(luò)有了更高的要求。

“舉個例子，如果說過去兩個階段數(shù)據(jù)中心網(wǎng)絡(luò)是‘村村通’，解決大規(guī)模部署和廣覆蓋的問題，那么在算力時代，數(shù)據(jù)中心網(wǎng)絡(luò)就是全自動化、無擁塞的高速公路?！崩钕璞硎?，AI 大模型對互聯(lián)有比較高的要求，幾千張 GPU 協(xié)同計算，如果出現(xiàn)任何一個丟包阻塞，那么全部都要降速，這種降速 1 分鐘就有幾十萬的損失。

基于此，騰訊云開始搭建算力集群。4 月 14 日，騰訊云正式發(fā)布面向大模型訓(xùn)練的新一代 HCC（High-Perf ormance Computing Cluster）高性能計算集群。網(wǎng)絡(luò)層面，計算節(jié)點間存在海量的數(shù)據(jù)交互需求，隨著集群規(guī)模擴大，通信性能會直接影響訓(xùn)練效率。騰訊自研的星脈網(wǎng)絡(luò)，為新一代集群帶來了業(yè)界最高的 3.2T 的超高通信帶寬。

據(jù)介紹，騰訊對大模型集群網(wǎng)絡(luò)做了以下幾大優(yōu)化：

（1）采用高性能 RDMA 網(wǎng)絡(luò)

RDMA（GPU 之間直接通信），是一種高性能、低延遲的網(wǎng)絡(luò)通信技術(shù)，主要用于數(shù)據(jù)中心高性能計算，允許計算節(jié)點之間直接通過 GPU 進行數(shù)據(jù)傳輸，無需操作系統(tǒng)內(nèi)核和 CPU 的參與。這種數(shù)據(jù)傳輸方法可以顯著提高吞吐量并降低延遲，從而使計算節(jié)點之間的通信更加高效。

過往的數(shù)據(jù)中心 VPC 網(wǎng)絡(luò)，在源服務(wù)器與目標服務(wù)器之間傳輸時，需要經(jīng)過多層協(xié)議棧的處理，過往數(shù)據(jù)每一層都會產(chǎn)生延遲，而騰訊自研的星脈 RDMA 網(wǎng)絡(luò)，可以讓 GPU 之間直接進行數(shù)據(jù)通信。

打個比方，就像之前貨物在運輸途中需要多次分揀和打包，現(xiàn)在通過高速傳送帶、不經(jīng)過中間環(huán)節(jié)，貨物直接送到目的地

同時，由于星脈 RDMA 直接在 GPU 中傳輸數(shù)據(jù)，CPU 資源得以節(jié)省，從而提高計算節(jié)點的整體性能和效率。

（2）自研網(wǎng)絡(luò)協(xié)議（TiTa）

在網(wǎng)絡(luò)協(xié)議上，騰訊云通過自研 TiTa 協(xié)議，讓數(shù)據(jù)交換不擁塞、時延低，使星脈網(wǎng)絡(luò)可以實現(xiàn) 90% 負載 0 丟包。

網(wǎng)絡(luò)協(xié)議是在計算節(jié)點之間傳輸數(shù)據(jù)的規(guī)則和標準，主要關(guān)注數(shù)據(jù)傳輸?shù)目刂品绞?，能改善網(wǎng)絡(luò)連接性能、通信效率和延遲問題。

為了滿足大型模型訓(xùn)練中的超低時延、無損和超大帶寬要求，傳統(tǒng)的網(wǎng)絡(luò)協(xié)議由于其固有的設(shè)計與性能限制，無法滿足這些需求，還需要對“交通規(guī)則”進行優(yōu)化。

星脈網(wǎng)絡(luò)采用的自研端網(wǎng)協(xié)同協(xié)議 TiTa，可提供更高的網(wǎng)絡(luò)通信性能，特別是在滿足大規(guī)模參數(shù)模型訓(xùn)練的需求方面。TiTa 協(xié)議內(nèi)嵌擁塞控制算法，以實時監(jiān)控網(wǎng)絡(luò)狀態(tài)并進行通信優(yōu)化，使得數(shù)據(jù)傳輸更加流暢且延遲降低。

（3）定制化高性能集合通信庫 TCCL

通信庫在訓(xùn)練過程中負責(zé)管理計算節(jié)點間的數(shù)據(jù)通信。面對定制設(shè)計的高性能組網(wǎng)架構(gòu)，業(yè)界開源的 GPU 集合通信庫（比如 NCCL）并不能將網(wǎng)絡(luò)的通信性能發(fā)揮到極致，從而影響大模型訓(xùn)練的集群效率。

為解決星脈網(wǎng)絡(luò)的適配問題，騰訊云還為星脈定制了高性能集合通信庫 TCCL（Tencent Collective Communication Library），相對業(yè)界開源集合通信庫，可以提升 40% 左右的通信性能。

并在網(wǎng)卡設(shè)備管理、全局網(wǎng)絡(luò)路由、拓撲感知親和性調(diào)度、網(wǎng)絡(luò)故障自動告警等方面融入了定制設(shè)計的解決方案。

（4）多軌道網(wǎng)絡(luò)架構(gòu)

星脈網(wǎng)絡(luò)對通信流量做了基于多軌道的流量親和性規(guī)劃，使得集群通信效率達 80% 以上。

多軌道流量聚合架構(gòu)將不同服務(wù)器上位于相同位置的網(wǎng)卡，都歸屬于同一 ToR switch；不同位置的網(wǎng)卡，歸屬于不同的 ToR switch。由于每個服務(wù)器有 8 張計算平面網(wǎng)卡，這樣整個計算網(wǎng)絡(luò)平面從物理上劃分為 8 個獨立并行的軌道平面。

在多軌道網(wǎng)絡(luò)架構(gòu)中，AI 訓(xùn)練產(chǎn)生的通信需求（AllReduce、All-to-All 等）可以用多個軌道并行傳輸加速，并且大部分流量都聚合在軌道內(nèi)傳輸（只經(jīng)過一級 ToR switch），小部分流量才會跨軌道傳輸（需要經(jīng)過二級 switch），大幅減輕了大規(guī)模下的網(wǎng)絡(luò)通信壓力。

（5）異構(gòu)網(wǎng)絡(luò)自適應(yīng)通信

大規(guī)模 AI 訓(xùn)練集群架構(gòu)中，GPU 之間的通信實際上由多種形式的網(wǎng)絡(luò)來承載的：機間網(wǎng)絡(luò)（網(wǎng)卡 + 交換機）與機內(nèi)網(wǎng)絡(luò)（NVLink/NVSwitch 網(wǎng)絡(luò)、PCIe 總線網(wǎng)絡(luò)）。

星脈網(wǎng)絡(luò)將機間、機內(nèi)兩種網(wǎng)絡(luò)同時利用起來，達成異構(gòu)網(wǎng)絡(luò)之間的聯(lián)合通信優(yōu)化，使大規(guī)模 All-to-All 通信在業(yè)務(wù)典型 message size 下的傳輸性能提升達 30%。

（6）自研全棧網(wǎng)絡(luò)運營系統(tǒng)

為確保星脈網(wǎng)絡(luò)的高可用性，騰訊云還自研了端到端全棧網(wǎng)絡(luò)運營系統(tǒng)，先是實現(xiàn)了端網(wǎng)部署一體化以及一鍵故障定位，提升高性能網(wǎng)絡(luò)的易用性，進而通過精細化監(jiān)控與自愈手段，提升可用性，為極致性能的星脈網(wǎng)絡(luò)提供全方位運營保障。

具體應(yīng)用成效方面，大模型訓(xùn)練系統(tǒng)的整體部署時間可以從 19 天縮減至 4.5 天，保證基礎(chǔ)配置 100% 準確，并讓系統(tǒng)故障的排查時間由天級降低至每分鐘級，故障的自愈時間縮短到秒級。

寫在最后

AI 大模型時代給網(wǎng)絡(luò)帶來了新的機遇與挑戰(zhàn)。隨著 GPU 算力的持續(xù)提升，GPU 集群網(wǎng)絡(luò)架構(gòu)也需要不斷迭代升級。

王亞晨表示，未來，星脈網(wǎng)絡(luò)將圍繞算力網(wǎng)卡、高效轉(zhuǎn)發(fā)、在網(wǎng)計算、高速互聯(lián)四大方向持續(xù)迭代?！斑@四個迭代方向也與我們面臨的痛點相關(guān)，目前我們重點發(fā)力算力網(wǎng)卡和高效轉(zhuǎn)發(fā)這兩大方向。其中，算力網(wǎng)卡需要與交換機做配合，實現(xiàn)更優(yōu)的、類似主動預(yù)測控制的機制，讓網(wǎng)絡(luò)更不容易擁塞；高效轉(zhuǎn)發(fā)方面，之后可能會變成定長包的轉(zhuǎn)發(fā)機制，這樣也能保證整體效率?！?/p>

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4673

瀏覽量
128594
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
8963

瀏覽量
85087
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2278

瀏覽量
2360
AI大模型

AI大模型

+關(guān)注

關(guān)注
0

文章
307

瀏覽量
276

原文標題：AI 大模型狂飆的背后：高性能計算網(wǎng)絡(luò)是如何“織”成的？

文章出處：【微信號：AI前線，微信公眾號：AI前線】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

ai模型訓(xùn)練需要什么配置

AI模型訓(xùn)練是一個復(fù)雜且資源密集的過程，它依賴于高性能的硬件配置來確保訓(xùn)練的效率和效果。一、處理器（CPU） CPU是計算機的核心部件，負責(zé)處理各種計算任務(wù)。在AI模型訓(xùn)練中，CPU

發(fā)表于 10-17 18:10 ?566次閱讀

【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 未知領(lǐng)域的感受

國慶前就收到《大模型時代的基礎(chǔ)架構(gòu)》一書，感謝電子發(fā)燒友論壇。歡度國慶之余，今天才靜下心來體驗此書，書不厚，200余頁，彩色圖例，印刷精美！當(dāng)初申請此書，主要是看到副標題“大模型算力中心建設(shè)指南

發(fā)表于 10-08 10:40

大模型時代的算力需求

現(xiàn)在AI已進入大模型時代，各企業(yè)都爭相部署大模型，但如何保證大模型的算力，以及相關(guān)的穩(wěn)定性和性能，是一個極為重要的問題，帶著這個極為重要的問

發(fā)表于 08-20 09:04

AI智能眼鏡都需要什么芯片

國內(nèi)的廠家又該如何跟上這一潮流趨勢？那咱們國內(nèi)廠商的AI智能眼鏡究竟需要什么樣的芯片來支撐它的運行呢？如果你對以上問題感興趣的話就來聽我嘮嘮吧。接下來介紹設(shè)計AI智

發(fā)表于 07-11 08:17 ?782次閱讀

<b class='flag-5'>AI</b>智能眼鏡都<b class='flag-5'>需要什么</b>芯片

ai開發(fā)需要什么配置

AI開發(fā)是一個復(fù)雜的過程，涉及到多個方面的配置。硬件配置 AI開發(fā)需要高性能的硬件支持，主要包括以下幾個方面： 1.1 CPU AI開發(fā)需要

發(fā)表于 07-02 09:54 ?1033次閱讀

科技云報道：“老三樣”不管用了，網(wǎng)絡(luò)安全要靠啥？

新時代需要新方法

發(fā)表于 04-18 16:01 ?241次閱讀

生成式 AI 進入模型驅(qū)動時代

人意識到，需要針對特定的應(yīng)用對模型進行更廣泛的訓(xùn)練。因此，只要說到“生成式AI”這個詞，我們很自然地就會聯(lián)想到要使用經(jīng)過訓(xùn)練的模型。但是，生成式AI

發(fā)表于 04-13 08:12 ?471次閱讀

AI時代怎么樣不被淘汰？訊飛AI鼠標助力你在AI時代成長

AI時代怎么樣不被淘汰？訊飛AI鼠標助力你在AI時代成長隨著人工智能的發(fā)展，

發(fā)表于 03-23 11:41 ?651次閱讀

防止AI大模型被黑客病毒入侵控制（原創(chuàng)）聆思大模型AI開發(fā)套件評測4

在訓(xùn)練一只聰明的AI小動物解決實際問題，通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型并進行推理，讓電腦也能像人一樣根據(jù)輸入信息做出決策。在上述示例中，我創(chuàng)建了一個簡單的深度學(xué)習(xí)

發(fā)表于 03-19 11:18

AI大模型怎么解決芯片過剩?

AI大模型

電子發(fā)燒友網(wǎng)官方
發(fā)布于 :2024年01月02日 15:42:05

AI大模型可以設(shè)計電路嗎?

AI大模型

電子發(fā)燒友網(wǎng)官方
發(fā)布于 :2024年01月02日 15:09:29

【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

曦兒：冬至快樂 AI：謝謝，今天冬至，你是打算吃湯圓還是吃餃子呢，嗯，不管是吃什么，都祝你幸福，節(jié)日快樂不管你是同意與否，時代的車輪正在滾滾而來，并且終將碾壓舊時代，就像是之前的蒸汽機器

發(fā)表于 12-22 10:18

ChatGPT時代，我們需要什么樣的連接器？

如果說一年前我們談?wù)?b class='flag-5'>AI（人工智能）替代人類這個話題，還有點科幻的色彩，那么今天看來，其現(xiàn)實感已經(jīng)變得越來越強。導(dǎo)致這一變化的根本原因就是ChatGPT來了！表面上看，由OpenAI開發(fā)

發(fā)表于 12-20 10:05 ?432次閱讀

智能裝備時代，我們需要什么樣的導(dǎo)電滑環(huán)？

滑環(huán)是機電一體化、自動化等設(shè)備上不可或缺的裝置，其負責(zé)兩個相對旋轉(zhuǎn)部件間的功率、信號、液氣的傳輸。

發(fā)表于 12-14 13:51 ?326次閱讀

智能汽車CAN FD總線需要什么樣的降噪對策？

智能汽車CAN FD總線需要什么樣的降噪對策？

發(fā)表于 11-30 09:37 ?568次閱讀