97在线看观看免费,美女视频色,HEYZO高无码国产精品

近日，Intel、AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise，HPE)、Meta和微軟(Microsoft)在內(nèi)的八家公司宣布他們已經(jīng)為人工智能數(shù)據(jù)中心的網(wǎng)絡(luò)制定了新的互聯(lián)技術(shù)UALink（Ultra Accelerator Link），以打破英偉達(dá)NVLink技術(shù)壟斷的消息受到了廣泛的關(guān)注。

“本期奇說芯語Kiwi Talks 將從萬卡集群大模型算力需求的挑戰(zhàn)說起，來解讀這場軍備賽的背后原理…”

智算網(wǎng)絡(luò)催生萬卡集群

隨著大模型的持續(xù)爆發(fā)，其對(duì)算力的需求也在迅猛增長，這促使算力集群不斷向萬卡以上的規(guī)模演進(jìn)。這一趨勢不僅代表著計(jì)算能力的飛躍，也對(duì)網(wǎng)絡(luò)提出了前所未有的超高要求。

萬卡集群是指由一萬張及以上的加速卡（包括GPU、TPU及其他專用AI加速芯片）組成的高性能計(jì)算系統(tǒng)，主要用于加速人工智能模型的訓(xùn)練和推理過程。這種集群的構(gòu)建旨在解決大模型訓(xùn)練對(duì)算力需求的巨大增長問題，尤其是現(xiàn)在模型參數(shù)量從百億級(jí)、千億級(jí)邁向萬億級(jí)。大模型的訓(xùn)練和推理任務(wù)需要海量的計(jì)算資源和高效的網(wǎng)絡(luò)連接。

萬卡級(jí)別的算力集群意味著將有數(shù)以萬計(jì)的高性能計(jì)算節(jié)點(diǎn)協(xié)同工作，它們之間的數(shù)據(jù)傳輸和同步必須達(dá)到毫秒級(jí)甚至微秒級(jí)的延遲，以確保模型訓(xùn)練的高效性和準(zhǔn)確性。首先，大模型訓(xùn)練對(duì)于GPU之間的互聯(lián)通信要求極高，無論是機(jī)內(nèi)GPU的通信還是服務(wù)器之間的GPU通信。特別是在模型并行和數(shù)據(jù)并行等模式下，通信數(shù)據(jù)量更是達(dá)到了百GB級(jí)別。因此，網(wǎng)絡(luò)必須支持高速互聯(lián)協(xié)議，并且能夠提供足夠的單端口帶寬和總帶寬。

我們知道PCIe（Peripheral Component Interconnect Express）：它是一種計(jì)算機(jī)總線標(biāo)準(zhǔn)，用于在計(jì)算機(jī)內(nèi)部連接各種設(shè)備和組件（例如顯卡、存儲(chǔ)設(shè)備、擴(kuò)展卡等）。PCIe接口以串行方式傳輸數(shù)據(jù)，具有較高的通信帶寬，適用于連接各種設(shè)備。然而，由于其基于總線結(jié)構(gòu)，同時(shí)連接多個(gè)設(shè)備時(shí)可能會(huì)受到帶寬的限制受限于帶寬、延遲、數(shù)據(jù)傳輸效率，已成為大規(guī)模計(jì)算集群的互聯(lián)瓶頸。

英偉達(dá)NVLink的無損網(wǎng)絡(luò)護(hù)城河

英偉達(dá)的NVLink是其開發(fā)并推出的一種總線及其通信協(xié)議。NVLink采用點(diǎn)對(duì)點(diǎn)結(jié)構(gòu)、串列傳輸，用于中央處理器（CPU）與圖形處理器（GPU）之間的連接，也可用于多個(gè)圖形處理器之間的相互連接。與PCI Express不同，一個(gè)設(shè)備可以包含多個(gè)NVLink，并且設(shè)備之間采用網(wǎng)格網(wǎng)絡(luò)而非中心集線器方式進(jìn)行通信。該協(xié)議于2014年3月首次發(fā)布，采用專有的高速信號(hào)互連技術(shù)（NVHS）。目前NVLink已經(jīng)升級(jí)到5.0版本。第五代 NVLink 大幅提高了大型多 GPU 系統(tǒng)的可擴(kuò)展性。單個(gè) NVIDIA Blackwell Tensor Core GPU 支持多達(dá) 18 個(gè) NVLink 100 GB/s 連接，總帶寬可達(dá) 1.8 TB/s，比上一代產(chǎn)品提高了兩倍，是 PCIe 5.0 帶寬的 14 倍之多。

NVLink 就是這種“多節(jié)點(diǎn)無損網(wǎng)絡(luò)”的代表，由一個(gè)強(qiáng)大的軟件協(xié)議組成，通常通過印在計(jì)算機(jī)板上的多對(duì)導(dǎo)線實(shí)現(xiàn)，可以讓處理器以極高的速度收發(fā)共享內(nèi)存池中的數(shù)據(jù)。NVLink 設(shè)計(jì)的主要設(shè)計(jì)目的，就是突破PCIe的屏障，達(dá)成GPU-GPU及CPU-GPU的片間高效數(shù)據(jù)交互。

NVLink雖擁有優(yōu)秀的性能，但私有協(xié)議無法兼容不同來源的產(chǎn)品，這樣的封閉生態(tài)已成為行業(yè)發(fā)展掣肘。受到巨大的需求推動(dòng)，以及為抵抗這種市場擠壓，AMD、谷歌、微軟、英特爾（Intel）、博通（Broadcom）、思科（Cisco）構(gòu)成聯(lián)盟建立一個(gè)開放的行業(yè)互聯(lián)標(biāo)準(zhǔn)即UALink。UALink將使系統(tǒng)OEM、IT專業(yè)人員和系統(tǒng)集成商能夠?yàn)槠淙斯ぶ悄苓B接數(shù)據(jù)中心創(chuàng)建一條更易于集成、更具靈活性和可擴(kuò)展性的途徑。

據(jù)官方消息，UALink 1.0規(guī)范支持連接多達(dá)1024個(gè)AI加速器，并允許在一個(gè)計(jì)算集群（Pod）內(nèi)，讓接入的GPU等加速器附帶的內(nèi)存之間實(shí)現(xiàn)直接加載和存儲(chǔ)。

奇異摩爾賦能萬卡集群互聯(lián)

目前包括各大芯片廠商以及生態(tài)內(nèi)的服務(wù)器廠商開始不斷提及甚至對(duì)標(biāo)英偉達(dá)NVLink，都想要打破其所造的護(hù)城河。整個(gè)行業(yè)生態(tài)包括奇異摩爾在內(nèi)的企業(yè)正在積極探索如何解決滿足集群通信間通訊，片間互聯(lián)的高效互聯(lián)的解決方案。

目前，奇異摩爾基于自身的互聯(lián)技術(shù)優(yōu)勢，較早布局IO Die、Base Die等高性能互聯(lián)芯粒，并基于Kiwi-Link統(tǒng)一互聯(lián)架構(gòu)，提供涵蓋集群間、片間、Die間的全鏈路高性能互聯(lián)解決方案

GPU片間互聯(lián)

奇異摩爾的高性能網(wǎng)絡(luò)加速芯粒 – Kiwi NDSA，內(nèi)建RoCE V2高性能 RDMA (Remote Direct Memory Access) 和數(shù)十種卸載/加速引擎，可作為獨(dú)立芯粒應(yīng)用于GPU的傳輸加速器。奇異摩爾自研的全球首創(chuàng)GPU Link Chiplet “NDSA-G2G”，通過RDMA和D2D技術(shù)，在芯片間搭建了高速數(shù)據(jù)交換網(wǎng)絡(luò)，可實(shí)現(xiàn)近TB/s的超高速數(shù)據(jù)傳輸，其性能達(dá)到全球領(lǐng)先水平，滿足AI芯片對(duì)于片間交換不斷增長的需求。

集群間通信

奇異摩爾 Kiwi NDSA SNIC是全球首款支持800G帶寬的RDMA NIC產(chǎn)品，具備極高的集群擴(kuò)展能力，可以大幅提升集群節(jié)點(diǎn)間的交互效率，使得更大規(guī)模的集群設(shè)計(jì)成為可能。除帶寬升級(jí)到800G之外，延時(shí)也降至納秒級(jí)，并支持?jǐn)?shù)十GB的超大規(guī)模數(shù)據(jù)包，性能媲美目前全球標(biāo)桿ASIC產(chǎn)品。

業(yè)界紛紛提出集群通訊互聯(lián)的重要性

中國移動(dòng)研究院網(wǎng)絡(luò)與IT技術(shù)研究所主任研究員陳佳媛在近期公開演講中提及必須突破GPU卡間互聯(lián)技術(shù)瓶頸，提高卡間互聯(lián)帶寬，提升端口數(shù)量以滿足集群算力縱向擴(kuò)展升級(jí)需求；低延遲通信，減少GPU通信跳數(shù)，優(yōu)化數(shù)據(jù)傳輸路徑。新華三集團(tuán)高級(jí)副總裁、云與計(jì)算存儲(chǔ)產(chǎn)品線總裁徐潤安此前也談到算力互聯(lián)。在他看來，過去，大家的目標(biāo)可能是做更強(qiáng)算力的單顆芯片，現(xiàn)在會(huì)從另一個(gè)角度努力，怎樣將芯片做成更大集群，同時(shí)使得集群的通信效果更高，集群的處理能力更強(qiáng);

浪潮信息高級(jí)副總裁劉軍發(fā)表的觀點(diǎn)是，實(shí)現(xiàn)更大的算力已經(jīng)不在芯片，而是在算法層面做創(chuàng)新，比如怎么把算力分布到系統(tǒng)層面上，怎么解決卡間互聯(lián)問題，怎么讓更多的GPU高效協(xié)同。

寫在最后，數(shù)據(jù)中心和算力集群是AI的核心，網(wǎng)絡(luò)則是它的命脈，它們共同構(gòu)筑了AI大模型底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施，實(shí)現(xiàn)了數(shù)據(jù)和智能的無縫傳遞。然而AI芯片性能及軟件生態(tài)存在的差距，萬卡集群建設(shè)存在芯片間、卡之間、集群間的互聯(lián)問題，這些都需要更開放的平臺(tái)去持續(xù)地解決。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴