0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

光進銅退,已成定局?

半導體芯科技SiSC ? 來源:半導體行業(yè)觀察 ? 作者:半導體行業(yè)觀察 ? 2024-09-21 11:06 ? 次閱讀

來源:半導體行業(yè)觀察 翻譯自Timothy Prickett Morgan

如今,眾所周知的是,用于連接分布式系統(tǒng)的交換機并不是網(wǎng)絡(luò)中最昂貴的部分,而光收發(fā)器和光纖電纜才是成本的主要部分。由于這一點,以及光學元件運行時溫度高且經(jīng)常發(fā)生故障,人們除非必要,否則不會使用光學元件。

因此,我們有了銅纜,越來越多地直接從交換機 ASIC 及其連接的設(shè)備驅(qū)動,用于短距離傳輸,以及光纜用于長距離傳輸,這些設(shè)備是為 AI 和 HPC 系統(tǒng)提供 1000、10000 或 100000 臺設(shè)備所必需的。早在 5 月份,當Broadcom 推出其“Thor 2”網(wǎng)絡(luò)接口卡芯片時,以及在 Nvidia 于 3 月份推出GB200 NVL72 機架式系統(tǒng)之后,我們就曾打趣過這個問題,在可以的時候使用銅纜,在必須的時候使用光纜。Broadcom 和 Nvidia 都會告訴你,機器的經(jīng)濟性和可靠性取決于這種方法。

GB200 NVL72 系統(tǒng)將這一原則發(fā)揮到了極致。該系統(tǒng)使用 5184 條大銅纜將 72 個“Blackwell”GPU 捆綁在一起,形成一個全對全共享內(nèi)存配置,NVL72 系統(tǒng)核心的九臺 NVLink Switch 4 交換機中的 200 Gb/秒 SerDes 可以通過銅線直接驅(qū)動每個 Blackwell GPU 上的 1.8 TB/秒 NVLink 5 端口,無需重定時器,當然也不需要長途數(shù)據(jù)中心網(wǎng)絡(luò)中使用的光收發(fā)器。

據(jù) Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛介紹,與使用光收發(fā)器和重定時器相比,這種方法非常有效,可節(jié)省約 20 千瓦的電力,將機架功耗從原來的 120 千瓦降至 100 千瓦。(黃仁勛最初給出的規(guī)格說明稱,NVL72 的功率為 120 千瓦,但現(xiàn)在的規(guī)格表顯示,如果使用全銅互連,機架級節(jié)點的功率為 100 千瓦。我們認為,他在講話時未使用光學器件,因此節(jié)省了 20 千瓦的功率。)

無論如何,這張 NVL72 節(jié)點的圖片足以讓您想在商品市場上購買銅:

wKgaombr-9yAXIMrAAHlThy3NTc868.jpg

Ayar Labs 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官馬克·韋德 (Mark Wade) 卻不相信這些,該公司發(fā)明了名為 TeraPHY 的光學 I/O 芯片以及用于驅(qū)動該芯片的名為 SuperNova 的外部激光光源。

“我認為銅纜已經(jīng)不起作用了,”韋德在本周的人工智能硬件峰會上發(fā)表主題演講之前向The Next Platform解釋道。“目前沒有一家公司在應(yīng)用層面真正實現(xiàn)了顯著的經(jīng)濟產(chǎn)出。問題不在于銅纜何時失效,光學器件何時成本持平并變得可靠。銅纜已經(jīng)無法以經(jīng)濟的方式支持人工智能工作負載。是的,投資者資助的淘金熱已經(jīng)持續(xù)了兩年,這確實推動了玩家硬件的所有利潤。但銅纜已經(jīng)無法支持高效、經(jīng)濟、高性能的人工智能工作負載系統(tǒng)。該行業(yè)實際上正在努力擺脫技術(shù)已經(jīng)失敗的困境,硬件制造商需要大幅提高這些系統(tǒng)的成本效益吞吐量。否則,我們都將走向互聯(lián)網(wǎng)式的危機?!?/p>

顯然,這些話非常有說服力,尤其是考慮到 Nvidia、AMD、臺灣半導體制造公司、SK 海力士、三星、美光科技等 GPU 加速器供應(yīng)鏈各部分的訂單量和實力。但請聽聽韋德的說法,因為他將提出一個有趣的案例。

Ayar Labs 顯然有既得利益,可以迫使公司轉(zhuǎn)向封裝在 GPU 上的光學 I/O 以及將它們互連的交換機,為了證明這一點,該公司構(gòu)建了一個系統(tǒng)架構(gòu)模擬器,該模擬器不僅關(guān)注各種技術(shù)的進給和速度,還關(guān)注它們在 chewing on和 generating tokens方面的盈利能力。

wKgaombr--GAGaLrAACbDj19GOk790.jpg

現(xiàn)在,Wade 承認,這個用 Python 編寫且尚未命名的模擬器并不是“周期精確的 RTL 模擬器”(cycle accurate RTL simulator),但表示它的設(shè)計旨在整合一大堆關(guān)鍵組件的規(guī)格——GPU 速度和饋送、HBM 內(nèi)存和容量、封裝外 I/O、網(wǎng)絡(luò)、CPU 主機、GPU 的 DRAM 擴展內(nèi)存等等——并預(yù)測各種 AI 基礎(chǔ)模型的性能以及處理每個token的相對成本。

AI 系統(tǒng)架構(gòu)模擬器關(guān)注三個性能指標,而不僅僅是大多數(shù)人談?wù)摰膬蓚€。它們是吞吐量和交互性,每個人都對此著迷,但也將處理的盈利能力納入考量。提醒一下:

wKgaombr--KAO9MxAADZYdsitSg816.jpg

顯然,Ayar Labs 認為 AI 集群節(jié)點的所有關(guān)鍵元素——CPU、GPU、擴展 DRAM 內(nèi)存以及用于連接 GPU 的節(jié)點內(nèi)擴展交換——都應(yīng)該使用光學而不是電互連,具體來說,AI 服務(wù)器應(yīng)該使用由其 SuperNova 激光器泵浦(pumped )的 TeraPHY 設(shè)備。

但在我們開始進行系統(tǒng)架構(gòu)比較之前,Wade 為他的論點添加了另一個層次,區(qū)分了三種不同類型的 AI 應(yīng)用領(lǐng)域:

第一種是批處理( batch processing),其中查詢組被捆綁在一起并一起處理,就像五十年前的大型機事務(wù)更新一樣。(好吧,就像大型機在今天的夜班期間所做的大量工作一樣。)批處理級別需要每秒 25 個tokens或更少的交互級別。人機交互(我們習慣于以生成文本或圖像的 API 形式公開的應(yīng)用程序)需要以每秒 25 到 50 個tokens的速度運行。而機器對機器代理應(yīng)用程序的圣杯,其中各種 AI 以高速相互通信以解決特定問題 - 需要每秒 50 個tokens以上的交互率(interactivity rates)。

后一種應(yīng)用在使用電氣互連的經(jīng)濟實惠的系統(tǒng)上很難實現(xiàn),正如 Ayar Labs 模擬器所示。公平地說,像 Nvidia 這樣的公司之所以如此粗暴地使用電氣互連和銅線,是因為個別光學元件的可靠性和成本問題仍需要解決。

但 Wade 表示,這些問題正在得到解決,而且其 TeraPHY 和 SuperNova 組合可以與 2026 年及以后推出的 GPU 一代相交叉。

話雖如此,讓我們來看看 Blackwell GPU 的饋送和速度,以及Nvidia 2026 年路線圖上的未來“Rubin”GPU 以及 2027 年內(nèi)存升級,可能會采用當前的電氣/銅線方式和假設(shè)的光纖/光纖方式進行架構(gòu)??匆幌逻@個:

wKgZombr--KAay69AAEUCUbiaAs003.jpg

Nvidia GB200 節(jié)點有一個“Grace”CG100 Arm CPU 和一對 Blackwell GB100 GPU 加速器,因此顯示的計算容量是規(guī)格表上的一半??雌饋?GB200 將獲得 192 GB 的 HBM 容量和 8 TB/秒的完整帶寬,而 HGX B100 和 HGX B200 卡將獲得容量僅為 180 GB 的 Blackwell。至少目前如此。擴展電氣 I/O 來自每個 Blackwell 芯片上的 NVLink 5 控制器,該控制器有 18 個端口,運行速度為 224 Gb/秒,為 Blackwell GPU 提供 900 GB/秒的總傳輸和接收帶寬(總計 1.8 TB/秒)。

Wade 對 Rubin GPU 的外觀做了一些假設(shè),我們認為它很有可能由四個通過 NVLink 6-C2C SerDes 互連的受限光罩(reticle-limited) GPU 芯片組成,就像 Blackwell 是兩個通過 NVLink 5-C2C SerDes 互連的受限光罩 GPU 一樣。我們知道 Rubin HBM 內(nèi)存將提升至 288 GB,我們和 Wade 都預(yù)計 Rubin 設(shè)備中的帶寬將提升至每臺設(shè)備約 10 TB/秒。(2027 年,Rubin Ultra kicker 中的帶寬可能會進一步提升至 12 TB/秒。)可以合理地假設(shè) NVLink 6 端口將再次將電氣互連的性能提高一倍,達到單向 1.8 TB/秒,這可能是通過將每個端口的信號量增加一倍來實現(xiàn)的。

Ayar Labs 模擬器用 TeraPHY 光纖鏈路替換 NVLink 6-C2C,這樣,每個方向的帶寬將增加 5.7 倍,達到 5 TB/秒。模擬器還假設(shè),與機架式 Blackwell 系統(tǒng)中使用的 NVSwitch 4 ASIC 相比,NVSwitch 5 芯片在 Rubin 一代中的性能將翻倍,而 Nvidia 將再次直接從 NVSwitch 5 芯片中驅(qū)動電信號。如果您通過 Ayar Labs AI 系統(tǒng)架構(gòu)模擬器運行這兩個假設(shè)的 Nvidia 場景,并測量吞吐量和盈利能力(在互聯(lián)網(wǎng)時代我們稱之為每 SWaP 的美元,SWaP 是空間、瓦特和功率的縮寫),在一系列交互中,您會得到這張漂亮的圖表:

wKgaombr--OAOEA5AACVwWfxVDc605.jpg

正如您所看到的,在具有電信號的 64 GPU 系統(tǒng)中,從 Blackwell 轉(zhuǎn)移到 Rubin 并沒有真正在一定交互水平的吞吐量方面產(chǎn)生太大的變化,并且每瓦特每單位工作成本也不會有太大變化。看起來,對于給定的工作單位,Rubin 的成本將與 Blackwell 相同,至少對于 Wade 所做的假設(shè)而言是如此。(考慮到現(xiàn)在在 AI 領(lǐng)域的高層,時間就是金錢,這對我們來說是合理的。)

現(xiàn)在事情會變得有趣起來。讓我們看看 OpenAI 的 GPT-4 大型語言模型如何在 Ayar Labs 模擬器中針對不同規(guī)模的不同 Nvidia GPU 在盈利能力與交互性方面對運行推理進行對比:

wKgZombr--SAeWWJAAETwcDY-5U958.jpg

這張圖表非常有趣。

首先,它表明八路 Hopper H100 節(jié)點對于批量 GenAI 來說是可以接受的,并且?guī)缀鯚o法進行人機對話。有了 32 個 GH200 超級芯片集群(配備 141 GB HBM3E 內(nèi)存),批量 GenAI 的成本大大降低,性能相對于較小的 H100 節(jié)點也有了很大的提高。配備 64 個 GPU 的 GB200 節(jié)點開始真正彎曲曲線,但在 64 個 GPU 的情況下,GB200 和未來的 GR200 之間的差異并不明顯。

但是,看看當 Rubin 推出光學 I/O 而不是電氣 NVLink 端口和電氣 NVSwitch 端口時會發(fā)生什么,并且機器擴展到 256 個連貫的 GPU,這在銅纜中是不可能的,因為您無法將那么多 GPU 彼此靠近以進行互連。機器對機器的多模型處理不僅成為可能。(再次,我們將指出:不要將機器聯(lián)網(wǎng)…… TeraPHY 確實如此。)假設(shè)的 Rubin GPU 的盈利能力和吞吐量相互作用的曲線在使用光學 I/O 時要好得多。

這張圖表表明了一些事情:Ayar Labs 正在試圖讓 Nvidia 收購它,或者試圖讓 Nvidia 使用其 OIO 芯片,或者嘗試過但失敗了,并利用這個故事試圖讓 AMD 收購它。英特爾現(xiàn)在連一杯咖啡都買不起。

現(xiàn)在,讓我們來看看 OpenAI 在 2026 年左右推出的最先進的 GPT 模型,我們假設(shè)它將被稱為 GPT-6,但為了安全起見,Wade 將其稱為 GPT-X。

隨著 2026 年 GPT-X 的推出,該模型的復(fù)雜度將翻倍,達到 32 個不同的模型(稱為專家模型),而 Wade 預(yù)計模型的層數(shù)將從 GPT-4 的 120 層增加到 128 層。(我們認為層數(shù)可能會更高,可能高達 192 層;我們拭目以待)。標記序列長度將保持穩(wěn)定,輸入為 32k,輸出為 8K,文本嵌入的模型維數(shù)將翻倍,達到 20,480。

如下所示,現(xiàn)有的 Hopper 和 Blackwell 配置從 8 個 GPU 擴展到 64 個 GPU,所有機器都被推入批量性能領(lǐng)域,只有采用銅 NVLink 互連的 Rubin 機架式機器才能進入人機領(lǐng)域。但是,借助節(jié)點內(nèi)和節(jié)點間的光學 I/O 以及擴展到 256 個 Rubin GPU,Nvidia 可以構(gòu)建一臺可以擴展到人機和機器對機器領(lǐng)域的推理機,同時在交互性和成本方面提供可接受的改進。

wKgaombr--SAW09bAAETURMVgvY857.jpg

該圖表是 Ayar Labs、Eliyan、Avicena、Lightmatter 和 Celestial AI 等公司的廣告。我們強烈懷疑 Rubin 會將 NVLink 轉(zhuǎn)移到光學互連,坦率地說,考慮到Nvidia 多年前所做的原型設(shè)計以及 Nvidia 已經(jīng)與 Ayar Labs 以及很可能與上面提到的其他一些公司合作的工作,我們已經(jīng)預(yù)料到這樣的機器了。

NVLink 只是一種協(xié)議,現(xiàn)在或許是時候?qū)⑵滢D(zhuǎn)移到光學傳輸中了。我們迫不及待地想看看 Nvidia 會在這里做些什么。在機架中塞入更多 GPU 并將功率密度提高到 200 千瓦或人們談?wù)摰寞偪竦?500 千瓦可能不是答案。光學互連會將這個鐵芯稍微隔開一點,也許足以防止光學器件出現(xiàn)不良行為。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 半導體
    +關(guān)注

    關(guān)注

    334

    文章

    26315

    瀏覽量

    209971
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4591

    瀏覽量

    128141
  • 交換機
    +關(guān)注

    關(guān)注

    20

    文章

    2572

    瀏覽量

    98248
收藏 人收藏

    評論

    相關(guān)推薦

    硅光電池的狹縫寬度對實驗結(jié)果的影響

    硅光電池的狹縫寬度對實驗結(jié)果的影響主要體現(xiàn)在以下幾個方面: 1. 衍射效應(yīng)與干涉條紋 衍射效應(yīng) :在光學實驗中,硅光電池前的狹縫光闌寬度決定了的衍射效應(yīng)。當狹縫寬度越窄時,衍射現(xiàn)象會越顯
    的頭像 發(fā)表于 09-21 11:33 ?56次閱讀

    驅(qū)動芯片退飽和保護(DESAT)應(yīng)用指導

    電子發(fā)燒友網(wǎng)站提供《驅(qū)動芯片退飽和保護(DESAT)應(yīng)用指導.pdf》資料免費下載
    發(fā)表于 08-29 11:23 ?0次下載
    驅(qū)動芯片<b class='flag-5'>退</b>飽和保護(DESAT)應(yīng)用指導

    無氧包鋁的網(wǎng)線哪個好用

    無氧包鋁的網(wǎng)線各有其特點,選擇哪個更好用主要取決于具體的使用場景和需求。以下是對兩者的詳細比較: 一、無氧網(wǎng)線 優(yōu)點: 高純度:無氧網(wǎng)線通常具有99.99%以上的
    的頭像 發(fā)表于 07-17 10:15 ?1154次閱讀

    網(wǎng)線無氧和光纖哪個好

    領(lǐng)域。 光纖:是一種通過信號來傳輸信息的通信線,由玻璃或塑料等材料制成,具有高速傳輸和抗干擾能力優(yōu)越等特點。 傳輸速度: 無氧網(wǎng)線:其傳輸速度雖快,但與光纖相比仍有所不及。光纖利用光信號而非電信號傳輸數(shù)據(jù),避免了
    的頭像 發(fā)表于 07-11 10:34 ?279次閱讀

    園區(qū):Wi-Fi 7時代下的數(shù)智化新篇章

    在智慧城市構(gòu)建的宏偉藍圖中,CWW(智慧園區(qū))作為其核心單元,正經(jīng)歷著一場前所未有的技術(shù)革新。隨著Wi-Fi 7技術(shù)的迅猛普及,一場“退”的園區(qū)網(wǎng)絡(luò)變革正悄然興起,標志著全
    的頭像 發(fā)表于 07-05 17:02 ?826次閱讀

    什么是IGBT的退飽和?為什么IGBT會發(fā)生退飽和現(xiàn)象?

    什么是IGBT的退飽和?為什么IGBT會發(fā)生退飽和現(xiàn)象? IGBT是一種高性能功率半導體器件,結(jié)合了MOSFET和BJT的優(yōu)點。它在高電壓和高電流應(yīng)用中具有低開啟電阻、低導通壓降和高開關(guān)速度等優(yōu)點
    的頭像 發(fā)表于 02-19 14:33 ?3340次閱讀

    退飽和電路的實現(xiàn)機理是什么樣的?IGBT退飽和過程和保護

    退飽和電路的實現(xiàn)機理是什么樣的?IGBT退飽和過程和保護 退飽和電路的實現(xiàn)機理是當IGBT工作在飽和狀態(tài)時,通過引入一定的電路設(shè)計和調(diào)整,使IGBT在過載或故障情況下能夠自動退出飽和狀態(tài),以保護
    的頭像 發(fā)表于 02-18 14:51 ?2146次閱讀

    纜會被光纖完全取代嗎?為什么光纖目前取代不了纜?

    的引入,人們開始思考光纖是否有可能完全取代纜。在回答這個問題之前,我們需要了解光纖和纜各自的特點,以及它們在不同場景下的優(yōu)勢和劣勢。 首先,讓我們來看一下光纖的特點。光纖是一種將信號傳輸?shù)拿浇?,由玻璃或?/div>
    的頭像 發(fā)表于 02-04 10:25 ?841次閱讀

    各種線束端子退針方法

    各種線束端子退針方法? 線束端子退針是指將線束的引線從端子上拆下的過程。在某些情況下,我們可能需要退針處理線束,例如更換損壞的線束或進行維護等。下面我將詳細介紹一些常見的線束端子退針方
    的頭像 發(fā)表于 12-09 14:07 ?6612次閱讀

    python運行完后為什么會閃退

    Python是一種高級編程語言,用于開發(fā)各種應(yīng)用程序和腳本。當你運行一個Python程序時,計算機會首先加載并解釋代碼,然后按照代碼的邏輯執(zhí)行相應(yīng)的操作。然而,有時候程序可能會突然閃退,也就是意外
    的頭像 發(fā)表于 11-29 15:14 ?7460次閱讀

    包鋁電線的優(yōu)缺點 包鋁電線和純電線的區(qū)別

    包鋁電線的優(yōu)缺點 包鋁電線和純電線的區(qū)別? 包鋁電線的優(yōu)缺點和電線的區(qū)別 引言:
    的頭像 發(fā)表于 11-22 17:45 ?3w次閱讀

    退飽和電路的短路保護方式

    退飽和電路主要作用是對功率器件進行短路保護,那么短路保護的方式有幾種。
    的頭像 發(fā)表于 11-14 15:44 ?2464次閱讀
    <b class='flag-5'>退</b>飽和電路的短路保護方式

    為啥有的keil工程老是閃退

    為啥有的keil工程老是閃退,有少部分老是閃退
    發(fā)表于 11-01 06:08

    什么是退耦元件?退耦器件的選擇要求

    為實現(xiàn)多級之間浪涌保護的能量配合,我們一般都會在線路上串聯(lián)適當?shù)钠骷?,這些器件就被我們稱為退耦器件,退耦器件一般有電阻和電感,在信息系統(tǒng)一般選用阻性元件,因為這一類傳輸信號頻率相對比較高,在不影響
    的頭像 發(fā)表于 10-31 11:37 ?999次閱讀

    #美 #上海博會 美光是否能走出如今的困境?美將參加上海博會

    深圳市浮思特科技有限公司
    發(fā)布于 :2023年10月11日 12:01:56