0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

芯片巨頭聯(lián)手,改革以太網(wǎng),擺脫英偉達?

晶揚電子 ? 來源:半導(dǎo)體行業(yè)觀察 ? 2023-07-24 09:21 ? 次閱讀

英特爾和微軟等幾家科技巨頭計劃開發(fā)開放的“Ultra Ethernet”解決方案堆棧,以滿足人工智能和高性能計算工作負載不斷增長的網(wǎng)絡(luò)需求。

周三,這些公司通過一個名為“Ultra Ethernet Consortium”(UEC:超以太網(wǎng)聯(lián)盟)的新組織宣布了他們的計劃,該聯(lián)盟尋求通過“全行業(yè)合作”“為高性能網(wǎng)絡(luò)構(gòu)建一個完整的基于以太網(wǎng)的通信堆棧架構(gòu)”。

該聯(lián)盟由 Linux 基金會成立,其他創(chuàng)始人包括網(wǎng)絡(luò)芯片巨頭 Broadcom、網(wǎng)絡(luò)硬件供應(yīng)商 Cisco 和 Arista Networks、英特爾芯片競爭對手 AMD、服務(wù)器巨頭 Hewlett Packard Enterprise、Facebook 母公司 Meta 和解決方案提供商巨頭擁有的網(wǎng)絡(luò)安全業(yè)務(wù) Evidian阿托斯。

該集團正在攻克一個快速增長的領(lǐng)域,這可能為渠道合作伙伴帶來重大機遇。研究公司 650 Group 表示,數(shù)據(jù)中心人工智能網(wǎng)絡(luò)市場預(yù)計今年將增長至 30 億美元,到 2027 年將達到 100 億美元。

“這并不是要徹底改革以太網(wǎng),”Ultra Ethernet Consortium主席J Metz 博士在一份聲明中表示?!斑@是關(guān)于調(diào)整以太網(wǎng)以提高具有特定性能要求的工作負載的效率。我們正在研究每一層——從物理層一直到軟件層——以找到大規(guī)模提高效率和性能的最佳方法。”

據(jù)超以太網(wǎng)聯(lián)盟 (UEC) 在新聞稿中所說,他們正在匯集領(lǐng)先的公司進行全行業(yè)合作,為高性能網(wǎng)絡(luò)構(gòu)建一個完整的基于以太網(wǎng)的通信堆棧架構(gòu)。人工智能 (AI) 和高性能計算 (HPC) 工作負載正在快速發(fā)展,需要一流的功能、性能、互操作性和總體擁有成本,同時又不犧牲開發(fā)人員和最終用戶的友好性。超級以太網(wǎng)解決方案堆棧將利用以太網(wǎng)的普遍性和靈活性來處理各種工作負載,同時具有可擴展性和成本效益。

該聯(lián)盟將致力于最大限度地減少通信堆棧的變化,同時維護和促進以太網(wǎng)互操作性。

據(jù)報道,UEC 為改進以太網(wǎng)而做出的首批努力之一是目前稱為 UEC 傳輸?shù)募夹g(shù)。

Metz 表示,UEC 傳輸正在開發(fā)中,以幫助提供比目前 RDMA 更好的以太網(wǎng)傳輸。雖然仍將支持 RDMA,但 UEC 旨在提供更靈活的傳輸,不需要無損網(wǎng)絡(luò)。這將允許多對多人工智能工作負載所需的多路徑和無序數(shù)據(jù)包傳輸?shù)裙δ堋?/p>

“UEC 傳輸是一種處理傳輸層的新形式,它具有一些語義調(diào)整、擁塞通知協(xié)議和一些安全增強功能,”Metz 說。

UEC 技術(shù)咨詢委員會主席 Uri Elzur 告訴 SDxCentral,通過即插即用和合規(guī)性測試確?;ゲ僮餍詫⑹俏磥淼闹攸c。Elzur 表示,UEC 的目標是確保其開放性和可互操作性。

“為了實現(xiàn)我們的目標,必須改變一系列事情,同時我們保留以太網(wǎng)環(huán)境的優(yōu)點,并在此基礎(chǔ)上構(gòu)建一個堆棧,”Elzur 說。

該聯(lián)盟的技術(shù)目標是開發(fā)規(guī)范、API 和源代碼來定義:

以太網(wǎng)通信的協(xié)議、電信號和光信號特征、應(yīng)用程序接口和/或數(shù)據(jù)結(jié)構(gòu)。

鏈路級和端到端網(wǎng)絡(luò)傳輸協(xié)議可擴展或替換現(xiàn)有鏈路和傳輸協(xié)議。

鏈路級和端到端擁塞、遙測和信令機制;上述各項均適用于人工智能、機器學習和高性能計算環(huán)境。

軟件、存儲、管理和安全結(jié)構(gòu)可促進各種工作負載和操作環(huán)境。

UEC 將遵循模塊化、兼容、可互操作層和緊密集成的系統(tǒng)方法,為要求苛刻的工作負載提供全面改進。創(chuàng)始公司正在為聯(lián)盟的四個工作組做出極具價值的貢獻:物理層、鏈路層、傳輸層和軟件層。

現(xiàn)代AI工作的網(wǎng)絡(luò)需求

網(wǎng)絡(luò)對于高效且經(jīng)濟高效的人工智能模型訓(xùn)練變得越來越重要。GPT-3、Chinchilla 和 PALM 等大型語言模型 (LLM) 以及 DLRM 和 DHEN 等推薦系統(tǒng)在數(shù)千個 GPU 的集群上進行訓(xùn)練。

訓(xùn)練由頻繁的計算和通信階段組成,其中下一階段訓(xùn)練的啟動取決于整個 GPU 套件通信階段的完成。最后到達的消息控制所有 GPU 的進度。這種尾部延遲(Tail latency,通過通信階段最后一條消息的到達時間來衡量)是系統(tǒng)性能的關(guān)鍵指標。

參數(shù)數(shù)量、嵌入表條目和上下文緩沖區(qū)的字數(shù)而言,大型模型的規(guī)模不斷增加。例如,2020 年,GPT-3 是最先進的,擁有 1750 億個參數(shù)。最近,他們宣布了 GPT-4 模型,預(yù)計有 1 萬億個參數(shù),而 DLRM 擁有數(shù)萬億個參數(shù),并且預(yù)計還會增長。這些越來越大的模型需要越來越大的集群來訓(xùn)練并在網(wǎng)絡(luò)上驅(qū)動更大的消息。當網(wǎng)絡(luò)性能不佳時,這些昂貴的集群就得不到充分利用。連接這些計算資源的網(wǎng)絡(luò)必須盡可能高效且經(jīng)濟高效。

高性能計算 (HPC) 工作的要求也同樣很高,而且 HPC 和人工智能在分布式計算資源的規(guī)模和高效利用方面的需求日益趨同。雖然 AI 工作負載通常非常需要帶寬,但 HPC 還包括對延遲更加敏感的工作負載。

以太網(wǎng)的優(yōu)勢

目前,許多大型集群(包括用于人工智能訓(xùn)練的 GPU 的超大規(guī)模部署)已經(jīng)在基于以太網(wǎng)的 IP 網(wǎng)絡(luò)上運行,利用了它們的許多優(yōu)勢:

廣泛的多供應(yīng)商生態(tài)系統(tǒng),由來自許多參與方的可互操作以太網(wǎng)交換機、NIC、電纜、收發(fā)器、光學器件、管理工具和軟件組成

經(jīng)過驗證的 IP 網(wǎng)絡(luò)尋址和路由規(guī)模,可實現(xiàn)機架規(guī)模、建筑規(guī)模和數(shù)據(jù)中心規(guī)模網(wǎng)絡(luò)

一系列用于測試、測量、部署和高效運營以太網(wǎng)的工具

通過競爭性生態(tài)系統(tǒng)和規(guī)模經(jīng)濟降低成本的歷史經(jīng)驗

IEEE 以太網(wǎng)標準經(jīng)過驗證的能力,能夠在許多物理層和光層上快速、定期地推進

我們預(yù)計這些優(yōu)勢將成為關(guān)鍵要求,并且以太網(wǎng)在未來將越來越多地主導(dǎo)各種規(guī)模的人工智能和高性能計算工作負載。

未來人工智能和高性能計算網(wǎng)絡(luò)的關(guān)鍵需求

即使考慮到使用以太網(wǎng)的優(yōu)點,也可以而且應(yīng)該進行改進。網(wǎng)絡(luò)必須不斷發(fā)展,以更好地提供前所未有的性能,以適應(yīng)未來網(wǎng)絡(luò)規(guī)模的擴大和帶寬的提高。最重要的是需要網(wǎng)絡(luò)支持盡快將消息傳遞到所有參與端點,即使是少數(shù)端點也不會出現(xiàn)長時間延遲。應(yīng)盡量減少“尾部延遲”。

為了實現(xiàn)低尾部延遲,UEC 規(guī)范通過滿足下一代應(yīng)用程序的以下關(guān)鍵網(wǎng)絡(luò)要求,提供了重大改進:

1、Multi-pathing and packet spraying

2、Flexible delivery order

3、Modern congestion control mechanisms

4、End-to-end telemetry

5、Larger scale, stability, and reliability

最后一點給前面的所有點帶來了額外的負擔。高性能系統(tǒng)幾乎沒有容錯空間,而在較大的網(wǎng)絡(luò)中,容錯空間會變得更加復(fù)雜。,隨著系統(tǒng)的發(fā)展,確定性和可預(yù)測性變得更加困難,需要新的方法來實現(xiàn)整體穩(wěn)定性。

超以太網(wǎng)聯(lián)盟的目標

在白皮書中,UCE表示,超以太網(wǎng)聯(lián)盟的成員認為,現(xiàn)在是重新開始并用超以太網(wǎng)傳輸取代傳統(tǒng) RoCE 協(xié)議的時候了。超以太網(wǎng)傳輸是一種現(xiàn)代傳輸協(xié)議,旨在提供 AI 和 HPC 應(yīng)用程序所需的性能,同時保留超以太網(wǎng)生態(tài)系統(tǒng)的優(yōu)勢。

TCP/IP 和以太網(wǎng)成功的兩個基本教訓(xùn)是,傳輸協(xié)議應(yīng)提供丟失恢復(fù)功能,并且無損結(jié)構(gòu)在不觸發(fā)隊頭阻塞和擁塞擴散的情況下運行非常具有挑戰(zhàn)性。UEC 傳輸遵循這些原則,建立在分布式路由算法和基于端點的可靠性和擁塞控制的成熟路徑之上。UEC 傳輸協(xié)議通過提供以下功能超越了現(xiàn)狀:

開放協(xié)議規(guī)范從一開始就設(shè)計為在IP 和以太網(wǎng)上運行

多路徑、數(shù)據(jù)包噴射傳送(packet-spraying delivery ),充分利用 AI 網(wǎng)絡(luò),不會造成擁塞或隊頭阻塞,無需集中式負載均衡算法和路由控制器

Incast 管理機制,以最小的丟包控制到目標主機的最終鏈路上的扇入

高效的速率控制算法,允許傳輸快速提升至線速,同時不會導(dǎo)致競爭流的性能損失

用于無序數(shù)據(jù)包傳送的 API,可選擇按順序完成消息,最大限度地提高網(wǎng)絡(luò)和應(yīng)用程序的并發(fā)性,并最大限度地減少消息延遲

可擴展未來網(wǎng)絡(luò),支持 1,000,000 個端點

性能和最佳網(wǎng)絡(luò)利用率,無需針對網(wǎng)絡(luò)和工作負載調(diào)整擁塞算法參數(shù)

旨在在商用硬件上實現(xiàn) 800G、1.6T 和未來更快以太網(wǎng)的線速性能

UEC 規(guī)范將超越傳輸層,定義標準語義層、改進的低延遲交付機制以及一致的 AI 和 HPC API,并提供標準的多供應(yīng)商支持,以便通過 UEC 傳輸協(xié)議實現(xiàn)這些 API。

英偉達可能遭遇重創(chuàng)?

一位解決方案提供商高管表示,超以太網(wǎng)聯(lián)盟的一個可能目標是提供 Nvidia InfiniBand 網(wǎng)絡(luò)解決方案的替代方案,該解決方案針對 AI 和 HPC 工作負載。他發(fā)現(xiàn)值得注意的是,英偉達并不是該組織的成員。

“他們正在嘗試找到一種處理這些織物的替代方法,”位于明尼蘇達州伯恩斯維爾的 HPC 系統(tǒng)集成商 Nor-Tech 的工程副總裁 Dominic Daninger 說。

英偉達沒有回應(yīng)置評請求。

Daninger 表示,如果成功構(gòu)建可互操作且速度更快的基于以太網(wǎng)的解決方案堆棧,該團隊可能會削弱 Nvidia 在人工智能和 HPC 領(lǐng)域的主導(dǎo)地位。這是因為 Nvidia 推出了 InfiniBand 解決方案,該解決方案是該公司通過2021 年收購 Mellanox獲得的,作為連接 GPU 集群以執(zhí)行此類工作負載的最佳低延遲解決方案。

他表示:“英特爾、AMD 和博通等公司可能有興趣擺脫與 Nvidia 的加速器和連接結(jié)構(gòu)的束縛?!?/p>

該團隊的目標是開發(fā)超越“當今專業(yè)技術(shù)”性能的基于以太網(wǎng)的架構(gòu),重點關(guān)注功能、性能、總體擁有成本、互操作性以及為用戶和開發(fā)人員提供的友好環(huán)境。

從技術(shù)角度來看,超以太網(wǎng)聯(lián)盟正在尋求開發(fā)規(guī)范、API 和源代碼,以定義基于以太網(wǎng)的解決方案堆棧中的多個方面。

堆棧中的這些方面包括支持各種工作負載和操作環(huán)境所需的軟件、存儲、管理和安全構(gòu)造。它們還涵蓋鏈路和傳輸協(xié)議以及電氣和光學信號特征以及以太網(wǎng)通信的應(yīng)用程序接口和數(shù)據(jù)結(jié)構(gòu)。

超以太網(wǎng)聯(lián)盟預(yù)計首批采用其規(guī)范的產(chǎn)品將于 2024 年問世。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    60

    文章

    9748

    瀏覽量

    170648
  • 以太網(wǎng)
    +關(guān)注

    關(guān)注

    40

    文章

    5288

    瀏覽量

    169663
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    235008
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3637

    瀏覽量

    89852
  • RDMA
    +關(guān)注

    關(guān)注

    0

    文章

    74

    瀏覽量

    8894

原文標題:芯片巨頭聯(lián)手,改革以太網(wǎng),擺脫英偉達?

文章出處:【微信號:晶揚電子,微信公眾號:晶揚電子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI芯片巨頭英偉漲超4% 英偉市值暴增7500億

    誰是美股最靚的仔?在人工智能浪潮之下AI芯片巨頭英偉肯定有一席之地,特別是現(xiàn)在全球資本市場動蕩之際,業(yè)界分析師多認為英偉
    的頭像 發(fā)表于 08-13 15:33 ?947次閱讀

    車載以太網(wǎng)與傳統(tǒng)以太網(wǎng)的區(qū)別

    車載以太網(wǎng)與傳統(tǒng)以太網(wǎng)在多個方面存在顯著的差異,這些差異主要體現(xiàn)在傳輸速率、實時性、可靠性、物理層標準、應(yīng)用場景以及技術(shù)發(fā)展等方面。
    的頭像 發(fā)表于 07-25 11:12 ?691次閱讀

    工業(yè)以太網(wǎng)和普通以太網(wǎng)區(qū)別在哪

    工業(yè)以太網(wǎng)和普通以太網(wǎng)是兩種不同的以太網(wǎng)技術(shù),它們在設(shè)計、性能、應(yīng)用和可靠性等方面存在顯著差異。本文將詳細介紹這兩種以太網(wǎng)技術(shù)的區(qū)別。 設(shè)計差異 工業(yè)
    的頭像 發(fā)表于 06-11 10:30 ?1317次閱讀

    使用VN5620監(jiān)控記錄以太網(wǎng)總線數(shù)據(jù)#車載以太網(wǎng) #CANape

    以太網(wǎng)硬件
    北匯信息POLELINK
    發(fā)布于 :2024年06月09日 16:45:04

    車載以太網(wǎng)硬件接口VN5620設(shè)備展示與介紹#車載以太網(wǎng)

    車載以太網(wǎng)
    北匯信息POLELINK
    發(fā)布于 :2024年05月31日 10:27:03

    車載以太網(wǎng)接口VN5650使用場景介紹#車載以太網(wǎng)

    以太網(wǎng)
    北匯信息POLELINK
    發(fā)布于 :2024年05月11日 17:58:05

    英偉AI霸主地位遭巨頭聯(lián)手挑戰(zhàn),CUDA壟斷遭破局

    據(jù)最新外媒報道,科技界的巨頭們——高通、谷歌和英特爾等,已經(jīng)聯(lián)手英偉發(fā)起了一場挑戰(zhàn),意圖打破其在CUDA平臺上的壟斷局面。
    的頭像 發(fā)表于 03-28 14:39 ?795次閱讀

    以太網(wǎng)交換芯片公司有哪些

    以太網(wǎng)交換芯片公司有哪些?
    的頭像 發(fā)表于 03-22 16:49 ?1463次閱讀

    以太網(wǎng)交換芯片作用是什么

    以太網(wǎng)交換芯片是網(wǎng)絡(luò)設(shè)備中用于處理和轉(zhuǎn)發(fā)數(shù)據(jù)包的關(guān)鍵組件。
    的頭像 發(fā)表于 03-22 16:37 ?763次閱讀

    什么是以太網(wǎng)交換芯片技術(shù)?它有哪些設(shè)備和作用?

    以太網(wǎng)交換芯片技術(shù)是指用于實現(xiàn)以太網(wǎng)數(shù)據(jù)包交換和轉(zhuǎn)發(fā)的集成電路技術(shù)。這些芯片是現(xiàn)代網(wǎng)絡(luò)設(shè)備,特別是以太網(wǎng)交換機的核心組成部分,它們負責處理網(wǎng)
    的頭像 發(fā)表于 03-21 18:15 ?1553次閱讀

    以太網(wǎng)交換芯片是什么 以太網(wǎng)交換芯片的作用有哪些

    以太網(wǎng)交換芯片是一種專門設(shè)計用于處理以太網(wǎng)數(shù)據(jù)包的集成電路,它是網(wǎng)絡(luò)交換機的核心組件。這種芯片負責在網(wǎng)絡(luò)中轉(zhuǎn)發(fā)數(shù)據(jù)包,確保數(shù)據(jù)能夠從源端口傳輸?shù)侥康亩丝凇?/div>
    的頭像 發(fā)表于 03-21 16:14 ?1447次閱讀

    以太網(wǎng)交換芯片廠商有哪些

    以太網(wǎng)交換芯片廠商眾多,其中一些主要的廠商包括思科、華為、博通、美滿、瑞昱、英偉、英特爾以及盛科通信等。
    的頭像 發(fā)表于 03-18 14:17 ?1041次閱讀

    以太網(wǎng)交換芯片發(fā)展歷程及行業(yè)分類

    目前以太網(wǎng)交換芯片主要有商用和自研兩種,自用廠商以思科、華為等為主,商用廠商主要包括博通、美滿、瑞昱、英偉、英特爾、盛科通信等。
    發(fā)表于 12-04 10:15 ?1833次閱讀
    <b class='flag-5'>以太網(wǎng)</b>交換<b class='flag-5'>芯片</b>發(fā)展歷程及行業(yè)分類

    工業(yè)以太網(wǎng)有何優(yōu)勢?工業(yè)以太網(wǎng)物理層介紹

    現(xiàn)代生活中,工業(yè)以太網(wǎng)發(fā)揮的作用愈來愈重要。為增進大家對工業(yè)以太網(wǎng)的認識,本文將基于 3 方面介紹工業(yè)以太網(wǎng):1.何為工業(yè)以太網(wǎng)物理層,2.工業(yè)以太
    的頭像 發(fā)表于 11-09 15:15 ?538次閱讀

    車載以太網(wǎng)基礎(chǔ)視頻——應(yīng)用層#車載以太網(wǎng)

    車載以太網(wǎng)
    北匯信息POLELINK
    發(fā)布于 :2023年09月22日 09:05:01