0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

打破英偉達霸權,Meta放了個大招!

芯片半導體 ? 來源:芯片半導體 ? 2023-09-27 17:21 ? 次閱讀

我們從一開始就說過,開放計算項目( Open Compute Project)的發(fā)起者 Meta Platforms 不可能想從 Nvidia 購買完整的超級計算機系統(tǒng),以推進其人工智能研究并將更新的大型語言模型和推薦引擎投入生產(chǎn)。以 Facebook 為核心平臺的 Meta Platforms 喜歡設計和構建自己的東西,但由于缺乏兼容 OAM 的 GPU 和矩陣加速器而措手不及,他們別無選擇,只能購買使用InfiniBand模式互連的 N-1 代 DGX SuperPOD系統(tǒng)。

現(xiàn)在,當 Meta Platforms 展望社交網(wǎng)絡內(nèi)人工智能的未來以及支撐計算引擎的互連時,他們意識到,必須以令人難以置信的規(guī)模結合在一起,才能與超大規(guī)模和云構建器競爭對手競爭,于是,他們又將目光投向了以太網(wǎng)互連(Ethernet interconnects)。這就是為什么Meta Platforms 成為超以太網(wǎng)聯(lián)盟( Ultra Ethernet Consortium)的創(chuàng)始公司之一。

這個聯(lián)盟是由以太網(wǎng) ASIC 供應商和交換機制造商組成的組織,他們并不是真的想相互合作,而是在受到互聯(lián)網(wǎng)巨頭及其新的人工智能新貴競爭迫使的情況下,他們想去找到一種方法,讓以太網(wǎng)可以與InfiniBand一樣好,也能像后者一樣適用于 AI 和 HPC 網(wǎng)絡,但使其擴展到其運行所需的規(guī)模。

對于今天的Meta Platforms來說,這意味著是大約 32,000 個計算引擎,然后是數(shù)十萬臺設備,然后在不久的將來的某些時候將超過 100 萬臺設備。

從當前看來,擁有這個想法的企業(yè)包括了交換機 ASIC 領域的 Broadcom、Cisco Systems 和 Hewlett Packard Enterprise(我們認為很快還有 Marvell),云巨頭中的 Microsoft 和 Meta Platforms,以及交換機制造商中的 Cisco、HPE 和 Arista Networks。

他們正在團結在一起,面對一個共同的敵人——InfiniBand。他們的宗旨則是——敵人的敵人就是朋友。

歸根到底,這是一條很簡單的數(shù)學題。

InfiniBand很好,但也貴

在 21世紀的前十年,當超大規(guī)模企業(yè)和云構建商真正開始構建大規(guī)?;A設施時,任何分布式系統(tǒng)的網(wǎng)絡部分(包括交換機、網(wǎng)絡接口和電纜)只占整個系統(tǒng)成本的不到 10%。

而當?shù)谝淮?100 Gb/秒設備問世時,由于設計不正確,成本非常高,很快網(wǎng)絡成本就占到集群成本的 15% 或更多。隨著價格實惠的 100 Gb/秒以太網(wǎng)的出現(xiàn),以及現(xiàn)在速度達到 200 Gb/秒和 400 Gb/秒的速度,成本現(xiàn)在再次降至 10% 以下,但僅限于運行應用程序的前端網(wǎng)絡。

對于超大規(guī)模企業(yè)和云構建者之間的人工智能訓練和推理基礎設施,Nvidia 會簡單明了地告訴您,網(wǎng)絡占集群成本的 20%。Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛解釋說:“InfiniBand 在相同帶寬下的大規(guī)模性能比以太網(wǎng)高出 20%,因此“InfiniBand 實際上是免費的。”

但事實上,它(指代InfiniBand)不是免費的。你仍然需要拿出現(xiàn)金,而且它占集群成本的 20%。大家都知道GPU 計算引擎的成本非常高,但與基于 CPU 的 Web 基礎設施集群的總體成本相比,這還是令人印象深刻的。人工智能系統(tǒng)的 InfiniBand 網(wǎng)絡的成本,從節(jié)點到節(jié)點,肯定比在其他基礎設施集群上運行數(shù)據(jù)庫、存儲和應用程序的以太網(wǎng)昂貴得多。當然,我們也承認,后者的帶寬會相對較對。

雖然兩大陣型都在彰顯自己并攻擊對方,但在650group看來,雖然以太網(wǎng)與 InfiniBand有很多爭論,甚至有說法指出一種技術是如何以犧牲另一種技術為代價或消亡而取得成功的,存在,但這些爭論都是錯誤的。

“以太網(wǎng)和 InfiniBand 各有優(yōu)勢,并且在同一市場中蓬勃發(fā)展。他們各有優(yōu)劣勢?!?50group強調。

事實上,作為一種網(wǎng)絡互聯(lián)技術,InfiniBand以其高可靠性、低時延、高帶寬等特點在超級計算機集群中得到廣泛應用。此外,隨著人工智能的進步,尤其是英偉達在GPU上的壟斷,InfiniBand成為了GPU服務器的首選網(wǎng)絡互連技術。

cb81ad20-5d15-11ee-939d-92fbcf53809c.png

650group也指出,InfiniBand 有幾個優(yōu)點。首先,該技術已經(jīng)存在 20 年,并且主要專注于 HPC 網(wǎng)絡;其次,它是一項從一開始就為 HPC 和 AI 網(wǎng)絡構建的技術‘第三,人工智能可以使用低延遲和協(xié)議內(nèi)置的項目,例如網(wǎng)絡內(nèi)數(shù)據(jù)處理,這有助于進一步加速人工智能。一個很好的例子是 InfiniBand 的 SHARP 網(wǎng)內(nèi)計算技術將 AI 數(shù)據(jù)縮減操作(AI 訓練的關鍵要素)吞吐量提高了兩倍,這使得 InfiniBand 成為 AI 平臺性能最高的網(wǎng)絡,并成為人工智能平臺的領先解決方案。

以太網(wǎng)也是人工智能平臺中領先的外部和管理網(wǎng)絡。

自1980年9月30日推出以來,以太網(wǎng)標準已成為局域網(wǎng)中使用最廣泛的通信協(xié)議。與 InfiniBand 不同,以太網(wǎng)的設計考慮了以下主要目標:信息如何在多個系統(tǒng)之間輕松流動?這是一個典型的具有分布式和兼容性設計的網(wǎng)絡。傳統(tǒng)以太網(wǎng)主要采用TCP/IP來構建網(wǎng)絡,目前已逐漸發(fā)展為RoCE。

一般來說,以太網(wǎng)主要用于將多臺計算機或其他設備(例如打印機、掃描儀等)連接到局域網(wǎng)。它不僅可以通過光纖電纜將以太網(wǎng)連接到有線網(wǎng)絡,還可以通過無線組網(wǎng)技術實現(xiàn)無線網(wǎng)絡中的以太網(wǎng)??焖僖蕴W(wǎng)、千兆以太網(wǎng)、10 吉比特以太網(wǎng)和交換以太網(wǎng)都是以太網(wǎng)的主要類型。

cb8d984c-5d15-11ee-939d-92fbcf53809c.png

博通資深VP Ram Velaga 幾個月前在社交平臺中更是指出,以太網(wǎng)速度一直比Infiniband快至少2倍。今天,以太網(wǎng)的速度為每秒800千兆位,而Infiniband的速度為400Gbps。他表示,在 Infiniband 上以 400Gbps 的速度完成 1MB 消息傳輸需要 20 微秒,而在以太網(wǎng)上以 800Gbps 的速度完成 10 微秒。

Meta的Alexis Black Bjorlin在 OCP 2022 上更是介紹了在網(wǎng)絡中用于推薦工作負載的時間百分比。按照她的觀點,用以太網(wǎng)取代Infiniband將使網(wǎng)絡時間減少一半。這在整個AI基礎設施上節(jié)省了10%-25%+的成本,且更可持續(xù)!

cba0d736-5d15-11ee-939d-92fbcf53809c.jpg

但即使如此,如前文所說,英偉達憑借在GPU的強勢關系,他們已經(jīng)在Infiniband的選擇上擁有了更多地話語權。于是,Ultra Ethernet Consortium(超以太聯(lián)盟,UCE)橫空出世。

超以太聯(lián)盟,卷土重來

之所以說是卷土重來,是因為這個聯(lián)盟從某種意義上來說是為了完成以太網(wǎng)的未竟任務。

據(jù)白皮書介紹,超以太網(wǎng)聯(lián)盟的目標是創(chuàng)建一個“完整的基于以太網(wǎng)的通信堆棧架構”,該架構將像以太網(wǎng)一樣普遍且經(jīng)濟高效,同時提供超級計算互連的性能。該聯(lián)盟的創(chuàng)始成員包括文章開頭談到的那些積極參與 HPC 和網(wǎng)絡的公司,包括英特爾、AMD、HPE、Arista、Broadcom、思科、Meta 和微軟,該項目本身由 Linux 基金會托管。

UEC 主席 J Metz 博士在接受采訪的時候告訴The Register,該項目的目標不是改變以太網(wǎng),而是對其進行調整,以更好地適應 AI 和 HPC 工作負載更苛刻的特征。

“以太網(wǎng)是我們構建的基礎技術,因為它是業(yè)界持久、靈活和適應性強的基本網(wǎng)絡技術的最佳范例,”他說?!癠EC 的目標是專注于如何在以太網(wǎng)上最好地承載 AI 和 HPC 工作負載流量。當然,之前已經(jīng)有過一些嘗試,但沒有一個是針對高要求的 AI 和 HPC 進行全新設計的工作負載,但沒有一個是開放的、易于使用的并贏得了廣泛的采用?!彼M一步指出。

針對網(wǎng)絡堆棧的多個層,該項目工作組的任務是開發(fā)物理層和鏈路層的“增強性能、延遲和管理的規(guī)范”,以及開發(fā)傳輸層和軟件層的規(guī)范。

根據(jù)白皮書,網(wǎng)絡對于 AI 模型的訓練變得越來越重要,而 AI 模型的規(guī)模正在不斷膨脹。有些擁有數(shù)萬億個參數(shù),需要在大型計算集群上進行訓練,并且網(wǎng)絡需要盡可能高效才能保持這些集群繁忙。

雖然 AI 工作負載往往非常需要帶寬,但 HPC 還包括對延遲更加敏感的工作負載,并且需要滿足這兩個要求。為了滿足這些需求,UEC 確定了以下理想特性:靈活的delivery順序(flexible delivery order);現(xiàn)代擁塞控制機制(modern congestion control mechanisms);多路徑和數(shù)據(jù)包擴散(multi-pathing and packet spraying);加上更大的可擴展性和端到端遙測(greater scalability and end-to-end telemetry)。

根據(jù)白皮書,舊技術使用的嚴格數(shù)據(jù)包排序會阻止無序數(shù)據(jù)直接從網(wǎng)絡傳遞到應用程序,從而限制了效率。支持放寬數(shù)據(jù)包排序要求的現(xiàn)代 API 對于減少“尾部延遲”(tail latencies)至關重要。

多路徑和數(shù)據(jù)包擴散涉及沿著源和目標之間的所有可用網(wǎng)絡路徑同時發(fā)送數(shù)據(jù)包,以實現(xiàn)最佳性能。

如果多個發(fā)送方都針對同一節(jié)點,則 AI 和 HPC 中的網(wǎng)絡擁塞主要是交換機和接收節(jié)點之間的鏈路問題。然而,UEC 聲稱,當前管理擁塞的算法并不能滿足針對人工智能優(yōu)化的網(wǎng)絡的所有需求。

首先,UEC 的目標似乎是用可提供所需特性的新傳輸層協(xié)議取代融合以太網(wǎng)上的 RDMA (RoCE) 協(xié)議。這種超以太網(wǎng)傳輸將支持多路徑、packet-spraying傳輸、高效的速率控制算法,并向人工智能和高性能計算工作負載公開一個簡單的 API——或者至少這是其意圖。

HPE 對 UEC 的參與引人注目,因為它已經(jīng)擁有基于以太網(wǎng)的 HPC 互連。正如The Next Platform的作者在文章中詳細描述的那樣,Cray Slingshot 技術是以太網(wǎng)的“超集” ,同時保持與標準以太網(wǎng)框架的兼容性,并且在 HPE 最近參與的許多超級計算機項目中得到了應用,例如Frontier 百億億次系統(tǒng)。

HPE 高性能互連總經(jīng)理 Mike Vildibill 表示,該公司支持 UEC 的動機是希望確保 Slingshot 在開放的生態(tài)系統(tǒng)中運行。“我們希望符合 UEC 的 NIC 能夠體驗到 Slingshot 結構的一些性能和可擴展性優(yōu)勢,”他說。Vildibil 證實,HPE 未來將繼續(xù)開發(fā) Slingshot,但他認為總會有一些第三方 NIC 或 SmartNIC 可能具有其 Slingshot NIC 上未實現(xiàn)的功能。

“因此,UEC 提供了一種機制來建立強大的第三方 NIC 生態(tài)系統(tǒng),以確保我們能夠支持廣泛的客戶需求,同時提供 Slingshot 的一些獨特功能,”他說。

目前,UEC 正處于開發(fā)的早期階段,關鍵技術概念仍在確定和研究中。Metz 博士表示,第一批批準草案可能會在 2023 年底或 2024 年初準備就緒,第一批基于標準的產(chǎn)品也預計將于明年推出。

芯片廠商積極參與,Meta放了個大招

雖然UEC正在推進,但很多廠商正在通過其產(chǎn)品來打破英偉達的壟斷。

以最積極的芯片廠商博通為例,今年夏天,Nvidia 承諾推出 Spectrum-X 平臺,為生成型 AI 工作負載提供“無損以太網(wǎng)”。但博通的Ram Velaga 強調,這并不是新鮮事,英偉達的產(chǎn)品,也并沒有什么特別之處是博通不具備的。

他解釋說,Nvidia 使用 Spectrum-X 實際上所做的是構建一個垂直集成的以太網(wǎng)平臺,該平臺擅長以最小化尾延遲并減少 AI 作業(yè)完成時間的方式管理擁塞。但Velaga 認為,這與 Broadcom 對其Tomahawk5和Jericho3-AI交換機 ASIC所做的沒有什么不同。他還認為 Nvidia 承認以太網(wǎng)對于處理人工智能中的 GPU 流更有意義。

我們需要稍微解析一下,Nvidia 的 Spectrum-X 不是產(chǎn)品。它是硬件和軟件的集合,其中大部分我們在過去已經(jīng)介紹過。核心組件包括Nvidia的51.2Tbit/s Spectrum-4以太網(wǎng)交換機和BlueField-3數(shù)據(jù)處理單元(DPU)。

其基本思想是,只要您同時使用 Nvidia 的交換機及其 DPU,它們就會協(xié)同工作以緩解流量擁塞,并且(如果 Nvidia 可信的話)完全消除數(shù)據(jù)包丟失。

雖然英偉達聲稱這是其全新的功能單元,但 Velaga 認為“無損以太網(wǎng)”的想法只是營銷?!芭c其說它是無損的,不如說你可以有效地管理擁塞,從而擁有一個非常高效的以太網(wǎng)結構,”他說。換句話說,與以太網(wǎng)網(wǎng)絡不同,數(shù)據(jù)包丟失是必然的,它是規(guī)則的例外。無論如何,這就是想法。

Velaga 聲稱,這種擁塞管理已經(jīng)內(nèi)置于 Broadcom 最新一代的交換機 ASIC 中 - 只是它們可以與任何供應商或云服務提供商的 smartNIC 或 DPU 配合使用。Velaga 還表示,Nvidia 試圖實現(xiàn)的垂直整合與以太網(wǎng)是沖突的。

“以太網(wǎng)今天成功的全部原因是它是一個非常開放的生態(tài)系統(tǒng),”他說。

作為以太網(wǎng)的另一個支持者, Meta Platforms近日也在其主辦的 Networking Scale 2023 活動上展示了融合以太網(wǎng)上采用 RDMA 的以太網(wǎng)(一種借鑒了 InfiniBand 的許多想法的低延遲以太網(wǎng))。

據(jù)nextplatform報道,該公司談到了如何使用以太網(wǎng)進行中等規(guī)模的人工智能訓練和推理集群,以及其近期計劃如何擴展到具有 32,000 個 GPU 共享數(shù)據(jù)的系統(tǒng),并使規(guī)模比它一直用于創(chuàng)建和訓練 LLaMA 1 和 LLaMA 2 模型的最初 2,000 個 GPU 集群提高了16 倍。需要強調一下,Meta Platforms 從 Nvidia 購買的研究超級計算機系統(tǒng)最多擁有 16,000 個 GPU,其中大部分是 Nvidia 的“Ampere”A100 GPU,其中相對較小的份額是更新且容量更大的“Hopper”H100 模塊。

“人工智能模型每兩到三年就會增長 1,000 倍,”該公司網(wǎng)絡基礎設施團隊軟件工程總監(jiān) Rajiv Krishnamurthy 解釋道?!拔覀冊?Meta 內(nèi)部觀察到了這一點,我認為根據(jù)我們在行業(yè)中觀察到的情況,這似乎是一種長期趨勢。這個數(shù)字很難理解。因此,從物理角度來看,這會轉化為數(shù)萬個 GPU 集群大小,這意味著它們正在生成萬億次計算。這是由 EB 級數(shù)據(jù)存儲支持的?!?/p>

“而從網(wǎng)絡角度來看,您正在考慮操縱每秒大約太比特的數(shù)據(jù)。工作負載本身就很挑剔。由此人們了解到,典型的 AI HPC 工作負載具有非常低的延遲要求,而且從數(shù)據(jù)包的角度來看,他們無法容忍丟失。”Rajiv Krishnamurthy 說。

為此,Meta Platforms 希望用于 AI 訓練的生產(chǎn)集群的規(guī)模比其 2022 年 1 月購買的 Nvidia RSC 機器的規(guī)模擴大 2 倍,并在去年全年不斷擴大規(guī)模,達到 16,000 個 GPU 的完整配置。然后,不久之后,就會討論 48,000 個 GPU,然后是 64,000 個 GPU,依此類推。

在Meta看來,構建一個可以進行 LLM 訓練(目前在Meta Platforms 上使用 LLaMA 2)和推理以及 Reco 訓練和推理(在本例中為自主開發(fā)的深度學習推薦模型或 DLRM)的系統(tǒng)非常困難,而且考慮到這四種工作負載的不同要求,這甚至可以說是不可能的,正如 Meta Platforms 人工智能系統(tǒng)部門的研究科學家 Jongsoo Park 在這個蜘蛛圖中所示:

cbae0dca-5d15-11ee-939d-92fbcf53809c.jpg

Park 表示,Meta Platforms 擁有 32,000 個 H100,在 FP8 四分之一精度浮點數(shù)學生產(chǎn)中產(chǎn)生約 30% 的峰值性能,Meta Platforms 將能夠在一天內(nèi)訓練具有 650 億個參數(shù)的 LLaMA2 模型。為了實現(xiàn)這一目標,很多事情都必須改變,其中包括將訓練令牌(token)批次增加到 2,000 以上,并在數(shù)千個 GPU 上進行擴展。全局訓練批量大小還必須在 32,000 個 GPU 上保持不變,并使用他所謂的 3D 并行性(數(shù)據(jù)并行、張量并行和管道并行技術的組合)將工作分散到 GPU 上。Park 表示,由于參數(shù)和數(shù)據(jù)量變得如此之大,數(shù)據(jù)并行性正在耗盡,因此沒有辦法解決這個問題。

cbbd3d36-5d15-11ee-939d-92fbcf53809c.jpg

為此,Meta一直在改個其系統(tǒng),以滿足客戶需求。

在幾年前,DLRM 訓練和推理可以在單個節(jié)點上完成。然后,通過第一代以太網(wǎng) RoCE 集群,Meta 可以將多個節(jié)點集群在一起,但集群規(guī)模相當有限。為了獲得所需的規(guī)模,它必須轉向 InfiniBand 和以太網(wǎng) RoCE v2,前者存在財務問題,后者存在一些技術問題,但該公司到目前為止已經(jīng)解決了。

Meta Platforms 擔任網(wǎng)絡工程師Lapukhov 表示,從基本構建模塊開始,基于 Nvidia 加速器的八路 GPU 服務器可以在節(jié)點內(nèi)具有數(shù)十個加速器的設備之間提供 450 GB/秒的帶寬。模型并行流量在節(jié)點內(nèi)互連上運行,在本例中為 NVLink,但也可以是 PCI-Express 交換基礎設施。從這里開始,模型必須使用某種形式的 RDMA(InfiniBand 或以太網(wǎng) RoCE)跨數(shù)千個節(jié)點(具有數(shù)萬個聚合 GPU 計算引擎)進行數(shù)據(jù)并行擴展,并且您可以以 50 GB/秒的速度交付具有合理數(shù)量的網(wǎng)絡接口卡的節(jié)點之間的帶寬。

對于以太網(wǎng) AI 網(wǎng)絡,Meta Platforms 使用與數(shù)據(jù)中心規(guī)模前端網(wǎng)絡應用程序相同的 Clos 拓撲,而不是在 AI 訓練和 HPC 集群中使用 InfiniBand 的用戶普遍青睞的fat tree 拓撲。

為了達到 32,256 個 GPU,該公司在一個機架中放置了兩臺服務器,每臺服務器配有 8 個 Nvidia H100 GPU。就機架而言,這并不是特別密集,但它的密度并不比 Nvidia 本身對其 DGX H100 集群所做的密集。這意味著有 2,000 個機架需要連接,如下所示:

cbc9aae4-5d15-11ee-939d-92fbcf53809c.jpg

如果仔細觀察,它實際上是 8 個集群,每個集群有 4,096 個 GPU,每個集群在兩層網(wǎng)絡中交叉鏈接。

每個機架都有一對服務器,總共有 16 個 GPU 和一個架頂交換機。目前尚不清楚服務器或交換機中有多少個端口,但每個 GPU 最好有一個上行端口,這意味著每臺服務器有 8 個端口。(這就是 Nvidia 對其 DGX 設計所做的事情。)整個 enchilada 中總共有 2,016 個 TOR。隨著網(wǎng)絡的發(fā)展,交換機的數(shù)量相當多。

這些架頂交換機使用 18 個集群交換機(您可以稱之為主干)交叉連接成一個集群,整個集群中有 144 個交換機。然后還有另外 18 個具有 7:1 超額訂閱錐度的聚合交換機,將 8 個子集群相互鏈接。即 2,178 個交換機互連 4,032 個節(jié)點。由于這些數(shù)據(jù)密集型 GPU 的帶寬需求,該比率為 1.85:1。

Lapukhov 的這張表很酷,它表明就 AI 模型而言,子集群粒度實際上約為 256 到 512 個 GPU:

cbd74c12-5d15-11ee-939d-92fbcf53809c.jpg

這顯示了支撐人工智能的集體操作如何映射到網(wǎng)絡上:

cbe45326-5d15-11ee-939d-92fbcf53809c.jpg

要點就是這樣,這并不奇怪。當您制作更大的結構以跨越更多 GPU 時,您會向網(wǎng)絡添加更多層,這意味著更多延遲,這會降低 GPU 的利用率,至少在 GPU 等待集體操作完成的某些時間在集群周圍傳播。但完全共享數(shù)據(jù)并行全收集操作往往會發(fā)送小消息(通常為 1 MB 或更?。绻軌蚝芎玫靥幚硇∠?,則可以通過通信和計算的細粒度重疊來實現(xiàn)張量并行。

聽起來好像有人需要大型 NUMA 節(jié)點來進行推理和訓練。。。。這正是 NVLink 的作用和 NVSwitch 的擴展。

那么這在 Meta Platforms 數(shù)據(jù)中心中是什么樣子的呢?那么,前端數(shù)據(jù)中心結構如下所示:

cbf67740-5d15-11ee-939d-92fbcf53809c.jpg

我們將數(shù)據(jù)中心劃分為四個房間,每個房間都有一些聚合網(wǎng)絡,然后核心網(wǎng)絡將數(shù)據(jù)中心中心自己區(qū)域內(nèi)的房間連接在一起。為了將人工智能添加到服務器機房,集群訓練交換機(CTSW)和機架訓練交換機(RTSW)與其他應用服務器添加到同一機房,并且可以與應用服務器交錯。在四個數(shù)據(jù)大廳中,Meta可以容納數(shù)以萬計的緊密耦合的 GPU:

cc031f90-5d15-11ee-939d-92fbcf53809c.jpg

這是網(wǎng)絡平面的 3D 表示(如果這樣更容易可視化):

cc0ff01c-5d15-11ee-939d-92fbcf53809c.jpg

早在過去,Meta Platforms 使用 100 Gb/秒以太網(wǎng)和 RoCE v1 并取得了一些成功:

cc1c26b6-5d15-11ee-939d-92fbcf53809c.jpg

隨著轉向以太網(wǎng) RoCE v2(延遲和數(shù)據(jù)包保護功能得到極大改善),Meta Platforms 將 8 個 200 Gb/秒的端口連接到每臺服務器,并使用 400 Gb 將這些端口與機架和集群交換機交叉耦合/秒端口。

cc2bf5f0-5d15-11ee-939d-92fbcf53809c.jpg

在第二代 AI 架構中,他們已將每個 GPU 的主機下行鏈路速度提升至 400 Gb/秒,并且仍在運行更高級別的網(wǎng)絡訂閱不足,無法保持比特順利傳輸。

Nextplatform的作者認為,在未來的很多年里,情況都會如此。但如果超以太網(wǎng)聯(lián)盟采用Neta的方式,以太網(wǎng)將更像 InfiniBand,并將擁有多個供應商,從而為所有超大規(guī)模提供商和云構建商提供更多選擇和更大的競爭壓力,以降低網(wǎng)絡價格。

不過,不要指望它的成本會低于集群成本的 10%——只要 GPU 的成本仍然很高。但有意思的是,隨著 GPU 成本的下降,來自網(wǎng)絡的集群成本份額將會上升,從而給 InfiniBand 帶來更大的壓力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 以太網(wǎng)

    關注

    40

    文章

    5287

    瀏覽量

    169648
  • 人工智能
    +關注

    關注

    1787

    文章

    46060

    瀏覽量

    234972
  • Meta
    +關注

    關注

    0

    文章

    231

    瀏覽量

    11257
  • 英偉達
    +關注

    關注

    22

    文章

    3637

    瀏覽量

    89838

原文標題:打破英偉達霸權,Meta放了個大招!

文章出處:【微信號:TenOne_TSMC,微信公眾號:芯片半導體】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉Blackwell架構揭秘:下一個AI計算里程碑?# 英偉# 英偉Blackwell

    英偉行業(yè)資訊
    jf_02331860
    發(fā)布于 :2024年08月26日 10:58:09

    英偉TITAN AI顯卡曝光,性能狂超RTX 409063%!# 英偉# 顯卡

    顯卡英偉
    jf_02331860
    發(fā)布于 :2024年07月24日 17:18:28

    打破英偉CUDA壁壘?AMD顯卡現(xiàn)在也能無縫適配CUDA了

    、英特爾等廠商雖然在努力追趕,但目前還未能看到有威脅英偉地位的可能。 ? 最近一家英國公司Spectral Compute推出了一款方案,可以為AMD的GPU原生編譯CUDA源代碼,目前正在RNDA2、RDNA3上進行規(guī)模測試。這或許可以
    的頭像 發(fā)表于 07-19 00:16 ?4082次閱讀

    英偉壟斷地位遭挑戰(zhàn),谷歌、高通聯(lián)手打破

    然而,一家名為UXL的聯(lián)合體正在努力打破這一局面。該機構由高通、谷歌、英特爾、ARM等諸多知名科技巨頭構成,意欲引導開發(fā)者從對英偉芯片的依賴中走出,降低英偉
    的頭像 發(fā)表于 03-26 15:24 ?385次閱讀

    Meta將率先使用英偉最新人工智能芯片

    近日,Meta向外媒透露,他們預計將在今年晚些時候收到英偉最新旗艦人工智能芯片的首批出貨,這也標志著英偉正式開啟了B200芯片的出貨之旅
    的頭像 發(fā)表于 03-22 10:16 ?434次閱讀

    Meta:預計今年晚些時候收到首批英偉最新旗艦AI芯片

    Meta公司近日透露,他們預計將在今年晚些時候迎來英偉最新旗艦人工智能芯片的首批到貨。這一消息引發(fā)了業(yè)界的廣泛關注,標志著Meta在人工智能領域的布局又邁出了堅實的一步。
    的頭像 發(fā)表于 03-21 11:35 ?444次閱讀

    今日看點丨Meta將率先使用英偉最新人工智能芯片;三星計劃推出AI芯片 采用LPDDR而非HBM

    1. Meta 將率先使用英偉最新人工智能芯片 ? Facebook的所有者Meta社交平臺的一位發(fā)言人外媒透露,預計英偉
    發(fā)表于 03-21 10:34 ?578次閱讀

    英偉為什么越漲越便宜?英偉的市盈率一直在下降?

    英偉為什么越漲越便宜?英偉的市盈率一直在下降? 在2023年英偉的股價漲了兩倍多;龍年開年
    的頭像 發(fā)表于 03-12 18:02 ?1363次閱讀

    英偉市值單日飆升2770億美元,打破Meta創(chuàng)下的紀錄

    元。這一漲幅不僅刷新了英偉自身的市值紀錄,更是創(chuàng)下了美股單個交易日的市值增幅最高紀錄,超越了Meta在2月2日創(chuàng)下的1970億美元市值增幅紀錄。
    的頭像 發(fā)表于 02-25 11:19 ?610次閱讀

    打破美股紀錄 英偉市值單日市值增加2770億美元!

    2月23日消息,英偉 2024 財年第四季度財報公布之后,該公司單日市值增加2770億美元(約1.99萬億元人民幣),打破 Meta 三周前剛剛創(chuàng)下的1970億美元美股紀錄。
    的頭像 發(fā)表于 02-23 13:50 ?521次閱讀

    英偉涉足定制芯片,聚焦云計算與AI市場

     作為全球高端AI芯片市場80%份額的霸主,英偉自2023以來股價上漲超過兩倍,2024年市值高達1.73萬億美元。知名公司如微軟、OpenAI、Meta紛紛采購英偉
    的頭像 發(fā)表于 02-18 11:08 ?532次閱讀

    Meta將斥資數(shù)十億美元購買英偉AI芯片

    近日,Meta宣布將斥資數(shù)十億美元購買英偉AI芯片,以推動其人工智能領域的發(fā)展。這一舉措表明Meta對人工智能技術的重視,并計劃通過采用先進的硬件技術來推動其內(nèi)部的人工智能研究。
    的頭像 發(fā)表于 01-19 15:20 ?1596次閱讀

    英偉擴大臺積電投片,滿足AI處理器需求

    雖然美方的出口限制對英偉的AI芯片銷售造成困擾,但英偉仍然依靠于各大核心客戶如微軟、Meta、谷歌、AWS、甲骨文和CoreWeave等
    的頭像 發(fā)表于 12-15 09:38 ?545次閱讀

    #英偉 #顯卡 英偉全新旗艦顯卡RTX 5090性能暴漲70%

    顯卡英偉
    深圳市浮思特科技有限公司
    發(fā)布于 :2023年11月20日 14:19:25

    不堪忍受英偉霸權,微軟、OpenAI紛紛自研AI芯片

    英偉能被撼動嗎?
    的頭像 發(fā)表于 10-11 14:25 ?573次閱讀