0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

千瓦芯片時(shí)代的熱管理變革

半導(dǎo)體芯科技SiSC ? 來源:半導(dǎo)體芯科技SiSC ? 作者:半導(dǎo)體芯科技SiS ? 2024-01-04 17:36 ? 次閱讀

來源:半導(dǎo)體芯科技編譯

隨著摩爾定律的放緩,芯片,尤其是用于人工智能和高性能計(jì)算(HPC)的芯片,逐漸變得炙手可熱。2023 年,隨著英偉達(dá)(Nvidia)GH200 超級芯片的到來,我們看到加速器的功率進(jìn)入了千瓦級。

我們早已知道這些芯片會(huì)很熱門--Nvidia 在兩年前就已經(jīng)開始預(yù)告這款 CPU-GPU 芯片。直到最近,我們才知道原始設(shè)備制造商和系統(tǒng)構(gòu)建商將如何應(yīng)對這種功率密集型部件。大多數(shù)系統(tǒng)會(huì)采用液體冷卻嗎?還是大多數(shù)會(huì)堅(jiān)持使用空氣冷卻?他們會(huì)在一個(gè)盒子里塞進(jìn)多少臺這樣的加速器,盒子又有多大?

現(xiàn)在,第一批基于 GH200 的系統(tǒng)已經(jīng)投放市場,很明顯,外形尺寸在很大程度上是由功率密度決定的。從根本上說,這取決于散熱的表面積有多大。

深入研究 Supermicro、Gigabyte、QCT、Pegatron、HPE 等公司目前提供的系統(tǒng),您很快就會(huì)注意到一個(gè)趨勢。每個(gè)機(jī)架單元 (RU) 高達(dá) 500 W – Supermicro 的 MGX ARS-111GL-NHR 為 1 kW – 這些系統(tǒng)主要采用風(fēng)冷。雖然溫度較高,但散熱負(fù)荷仍在可控范圍內(nèi),每個(gè)機(jī)架的功率約為 21-24 kW。這完全在現(xiàn)代數(shù)據(jù)中心供電和熱管理能力范圍內(nèi),尤其是那些使用后門熱交換器的數(shù)據(jù)中心。

但是,當(dāng)系統(tǒng)制造商開始在每個(gè)機(jī)箱中安裝超過 1 kW的加速器時(shí),情況就會(huì)發(fā)生變化。此時(shí),我們看到的大多數(shù) OEM 系統(tǒng)都改用了直接液冷技術(shù)。例如,Gigabyte的 H263-V11 在一個(gè) 2U 機(jī)箱中最多可容納四個(gè) GH200 節(jié)點(diǎn)。

也就是說,每個(gè)機(jī)架單元的功率為 2 kW。因此,雖然像 Nvidia 的風(fēng)冷 DGX H100 系統(tǒng)(配備 8 個(gè) 700 瓦 H100 和雙藍(lán)寶石 Rapids CPU)的 TDP 較高,為 10.2 千瓦,但其功率密度實(shí)際上較低,為 1.2 kW/RU。

除了能更有效地從這些密集的加速器中傳遞熱量外,液體冷卻還有幾個(gè)優(yōu)點(diǎn)。系統(tǒng)功率越高,從系統(tǒng)中帶走熱量所需的靜壓和氣流就越大。這就意味著要使用更熱、更快的風(fēng)扇,從而消耗更多的功率——在某些情況下可能高達(dá)系統(tǒng)功率的 20%。

當(dāng)每個(gè)機(jī)架單元的功率超過 500 W 時(shí),大多數(shù)原始設(shè)備制造商和原始設(shè)計(jì)制造商似乎都會(huì)選擇液冷機(jī)箱,因?yàn)槔鋮s網(wǎng)卡、存儲(chǔ)和其他外設(shè)等低功耗組件所需的風(fēng)扇數(shù)量更少、速度更慢。

只要看看 HPE 的 Cray EX254n 刀片,就能知道液冷機(jī)箱的作用有多大。該平臺最多可支持四個(gè) GH200。在 1U 的計(jì)算刀片中就有 4 千瓦,這還不算用于為芯片提供數(shù)據(jù)的網(wǎng)卡。

當(dāng)然,HPE 的 Cray 部門對超高密度計(jì)算組件的冷卻確實(shí)很有心得。不過,這確實(shí)說明了系統(tǒng)構(gòu)建商在服務(wù)器上花費(fèi)的心思,不僅在系統(tǒng)層面,而且在機(jī)架層面。

機(jī)架級起飛

正如我們之前在介紹 Nvidia DGX H100 系統(tǒng)時(shí)提到的那樣,為多千瓦服務(wù)器單獨(dú)散熱是原始設(shè)備制造商非常熟悉的事情。但是,一旦要在機(jī)架上安裝這些系統(tǒng),情況就會(huì)變得復(fù)雜起來,機(jī)架電源和設(shè)備冷卻等因素都會(huì)發(fā)揮作用。

在我們的同類出版物《下一代平臺》(The Next Platform)上,我們深入探討了像 Digital Reality 這樣的數(shù)據(jù)中心運(yùn)營商為支持此類系統(tǒng)的密集部署而必須克服的挑戰(zhàn)。

在許多情況下,主機(jī)托管服務(wù)提供商需要重新設(shè)計(jì)其電源和冷卻基礎(chǔ)設(shè)施,以支持在單個(gè)機(jī)架中安裝四個(gè) DGX H100 系統(tǒng)所需的 40 多千瓦的功率和熱量。

但是,如果您的數(shù)據(jù)中心或主機(jī)托管服務(wù)提供商無法提供這種功率的機(jī)架,也無法承受這種熱量,那么在大部分機(jī)架都將空置的情況下,將這些系統(tǒng)的密度提高到這種程度就沒有多大意義了。

隨著 GH200 的推出,我們看到 Nvidia 不再關(guān)注單個(gè)系統(tǒng),而是更加關(guān)注機(jī)架規(guī)模的部署。在今年春季的 Computex 上,我們首次看到了 DGX GH200 集群。

該系統(tǒng)實(shí)際上由 256 個(gè) 2U 節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)都裝有一個(gè) GH200 加速器,而不是一堆密集的 GPU 節(jié)點(diǎn)。組合起來,該系統(tǒng)能夠提供高達(dá) exaFLOPS 的 FP8 性能,但在設(shè)施層面的部署要容易得多。現(xiàn)在的功耗不再是 1.2 kW/RU,而是接近 500 W/RU,這與大多數(shù)原始設(shè)備制造商使用自己的風(fēng)冷系統(tǒng)時(shí)的情況差不多。

最近,我們看到 Nvidia 在今年秋季的 Re:Invent 大會(huì)上與 AWS 合作發(fā)布了 GH200-NVL32,將其縮小到單個(gè)機(jī)架。

該系統(tǒng)在一個(gè)機(jī)架上安裝了 16 個(gè) 1U 機(jī)箱,每個(gè)機(jī)箱配備兩個(gè) GH200 節(jié)點(diǎn),并使用九個(gè) NVLink 交換機(jī)托盤將它們連接在一起。不用說,這些計(jì)算能力為 2 千瓦/RU 的小系統(tǒng)密度很高,因此從一開始就被設(shè)計(jì)為液冷系統(tǒng)。

更熱的芯片即將上市

雖然我們一直在關(guān)注 Nvidia 的 Grace Hopper 超級芯片,但這家芯片制造商并不是唯一一家為追求性能和效率而將 TDP 推向新極限的廠商。

本月早些時(shí)候,AMD 公布了其最新AI 和 HPC GPU 和 APU,該公司的 Instinct 加速器的功耗從上一代的 560 W 躍升至 760 W。

更重要的是,AMD 首席技術(shù)官馬克-帕普馬斯特(Mark Papermaster)告訴《The Register》,未來幾年仍有足夠的空間將 TDP 推得更高。

至于這是否會(huì)最終促使芯片制造商強(qiáng)制要求其旗艦產(chǎn)品采用液冷技術(shù),目前還沒有答案。據(jù) Papermaster 稱,AMD 將在其平臺上支持空氣和液體冷卻。但正如我們在 AMD 新的 MI300A APU 上看到的那樣,繼續(xù)選擇風(fēng)冷幾乎肯定意味著性能上的讓步。

MI300A的額定功率為550瓦,遠(yuǎn)遠(yuǎn)低于我們所認(rèn)為的850瓦,但如果有足夠的冷卻,它的運(yùn)行溫度會(huì)更高。在HPC調(diào)整系統(tǒng)中,如HPE、Eviden(Atos)或聯(lián)想開發(fā)的系統(tǒng),芯片可以配置為760 W。

與此同時(shí),英特爾正在探索使用兩相冷卻劑和珊瑚啟發(fā)設(shè)計(jì)的散熱片來冷卻 2 千瓦芯片的新方法,以促進(jìn)氣泡的形成。

這家芯片制造商還宣布與基礎(chǔ)設(shè)施和化學(xué)品供應(yīng)商建立廣泛的合作關(guān)系,以擴(kuò)大液體冷卻技術(shù)的使用范圍。該公司最新的合作旨在利用 Vertiv 的泵送兩相冷卻技術(shù)為英特爾即將推出的 Guadi3 AI 加速器開發(fā)冷卻解決方案。?

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    450

    文章

    49636

    瀏覽量

    417151
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5376

    瀏覽量

    133380
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266221
收藏 人收藏

    評論

    相關(guān)推薦

    80的變壓器可以帶多少個(gè)千瓦

    80的變壓器指的是變壓器的額定容量為80伏安(kVA)。要計(jì)算它可以帶多少個(gè)千瓦(kW),需要考慮變壓器的效率、負(fù)載類型、功率因數(shù)等因素。 變壓器的基本原理 變壓器是一種利用電磁感應(yīng)原理實(shí)現(xiàn)電能
    的頭像 發(fā)表于 08-25 16:10 ?646次閱讀

    熱管理需求顯著增加!VC和熱管的優(yōu)勢在哪里?

    帶來的器件失效,導(dǎo)熱硅脂、導(dǎo)熱凝膠、石墨導(dǎo)熱片、熱管和VC均熱板等技術(shù)相繼出現(xiàn)、持續(xù)演進(jìn),散熱管理已經(jīng)成為5G時(shí)代電子器件的“硬需求”。 由于在散熱效率方面極具優(yōu)勢,VC均熱板已逐漸成為5G手機(jī)散熱的主流方案,并加速向超薄化、結(jié)
    的頭像 發(fā)表于 07-12 11:54 ?349次閱讀
    <b class='flag-5'>熱管理</b>需求顯著增加!VC和<b class='flag-5'>熱管</b>的優(yōu)勢在哪里?

    鴻蒙開發(fā)設(shè)備管理:ohos.thermal 熱管理

    該模塊提供熱管理相關(guān)的接口,包括熱檔位查詢及注冊回調(diào)等功能。
    的頭像 發(fā)表于 07-05 09:53 ?170次閱讀
    鴻蒙開發(fā)設(shè)備<b class='flag-5'>管理</b>:ohos.thermal <b class='flag-5'>熱管理</b>

    同星智能即將亮相新能源汽車熱管理論壇、中國車聯(lián)網(wǎng)安全大會(huì)

    同星一周展會(huì)TOSUN.EXHIBIT012024第二屆新能源汽車熱管理論壇隨著新能源汽車市場的迅速擴(kuò)張和智能化技術(shù)的飛躍,汽車熱管理系統(tǒng)正經(jīng)歷重大變革。這一變革不僅涵蓋傳統(tǒng)冷卻和空調(diào)
    的頭像 發(fā)表于 06-22 08:21 ?224次閱讀
    同星智能即將亮相新能源汽車<b class='flag-5'>熱管理</b>論壇、中國車聯(lián)網(wǎng)安全大會(huì)

    18千瓦380V用多大電容補(bǔ)償器

    千瓦)和電壓(380V),但沒有提供功率因數(shù)。 如果已知功率因數(shù),可以使用以下公式計(jì)算所需的電容補(bǔ)償器容量: Qc?=P×2πftan(arccos(PFc?))? 其中: QcQ_cQc? 是所需的電容器容量(單位為千瓦乘乘乘以乘以,KVAR); PPP 是系統(tǒng)的有用功
    的頭像 發(fā)表于 06-06 14:26 ?309次閱讀
    18<b class='flag-5'>千瓦</b>380V用多大電容補(bǔ)償器

    18.5千瓦電機(jī)就地補(bǔ)償需要多大電容

    要確定18.5千瓦電機(jī)的就地補(bǔ)償所需的電容量,需要考慮幾個(gè)因素,包括電機(jī)的功率因數(shù)、供電系統(tǒng)的電壓和頻率等。通常情況下,電機(jī)的功率因數(shù)越低,就需要更大容量的電容器來進(jìn)行補(bǔ)償。 一般來說,電機(jī)的就地
    的頭像 發(fā)表于 05-24 14:09 ?544次閱讀
    18.5<b class='flag-5'>千瓦</b>電機(jī)就地補(bǔ)償需要多大電容

    比亞迪宋PLUS DM-i動(dòng)力系統(tǒng)更新,電機(jī)最大功率降至160千瓦

    值得注意的是,新款比亞迪宋PLUSDM-i的動(dòng)力系統(tǒng)有所改變。其搭載的型號為“BYD472QC”的發(fā)動(dòng)機(jī),雖然仍為1.5升插電式混合動(dòng)力系統(tǒng),但最大功率已由原先的81千瓦降低至74千瓦
    的頭像 發(fā)表于 05-13 15:45 ?587次閱讀

    電池模組的熱管理系統(tǒng)是如何設(shè)計(jì)的,有哪些高效的熱管理方案?

    電池模組的熱管理系統(tǒng)是電動(dòng)汽車和儲(chǔ)能系統(tǒng)中至關(guān)重要的組成部分。它負(fù)責(zé)維持電池在最佳工作溫度范圍內(nèi)運(yùn)行,以確保電池的性能、安全性和壽命。
    的頭像 發(fā)表于 04-17 10:54 ?462次閱讀

    極狐阿爾法S5續(xù)航超500公里,四驅(qū)版動(dòng)力390千瓦?

     據(jù)了解,阿爾法 S5 風(fēng)阻系數(shù)低至 0.1925,四驅(qū)版本則配上前+后異步雙電機(jī)的組合,最大綜合功率達(dá)到 390 千瓦,綜合扭矩為 690 牛?米。配備的四驅(qū)功能與多駕駛模式可提供出色的操控體驗(yàn)。
    的頭像 發(fā)表于 03-27 14:15 ?403次閱讀

    怎么計(jì)算電線平方承受的千瓦

    電線是電能傳輸?shù)闹匾M成部分,在電力系統(tǒng)中起著關(guān)鍵的作用。為了保護(hù)電線線路的安全運(yùn)行,需要準(zhǔn)確計(jì)算電線的承載能力。電線的承載能力是指其能夠承受的最大功率,通常以千瓦(kW)為單位來表示。本文將詳細(xì)
    的頭像 發(fā)表于 01-16 10:53 ?1520次閱讀

    路特斯純電轎車Emeya開啟預(yù)訂,預(yù)售價(jià)80萬元起

    該車配備前后雙電機(jī),前電機(jī)最大輸出功率225千瓦,后電機(jī)最大輸出功率450千瓦,峰值扭矩985?!っ住T撥嚀碛?02千瓦時(shí)電池組,CLTC工況續(xù)航里程超過600公里,350千瓦快速充電
    的頭像 發(fā)表于 12-27 14:45 ?520次閱讀

    電源管理入門:Thermal熱管理

    熱管理指的是在電子設(shè)備或系統(tǒng)中通過各種方式控制其溫度來保證其正常工作或延長壽命的過程。其中包括散熱設(shè)計(jì)、溫度監(jiān)測、溫度控制等方面。熱管理的重要性越來越凸顯,尤其在高性能計(jì)算、人工智能等領(lǐng)域的應(yīng)用中更為重要。
    的頭像 發(fā)表于 11-29 10:09 ?3306次閱讀
    電源<b class='flag-5'>管理</b>入門:Thermal<b class='flag-5'>熱管理</b>

    印度首個(gè)360千瓦超級充電站由CHARGE+ZONE建成

    首批超級充電站計(jì)劃于2023年11月在孟買和維洛爾的CCD啟用。這些站點(diǎn)配備了180千瓦雙槍充電器和360千瓦電源柜。這是該技術(shù)首次在印度引入。CHARGE+ZONE的超級充電器旨在將交流(AC)轉(zhuǎn)換為直流(DC),直接向電動(dòng)汽車電池提供高功率直流電壓和電流,以實(shí)現(xiàn)快速充
    的頭像 發(fā)表于 11-21 15:33 ?564次閱讀
    印度首個(gè)360<b class='flag-5'>千瓦</b>超級充電站由CHARGE+ZONE建成

    22千瓦的電機(jī)用多少平方線?

    22千瓦的電機(jī)用多少平方線?本文主要以精準(zhǔn)計(jì)算和估算兩種方法得住結(jié)果。
    的頭像 發(fā)表于 10-23 14:58 ?4047次閱讀

    專家訪談 | 為什么新能源車企都在比拼“熱管理”?

    熱管理”對于大部份傳統(tǒng)車消費(fèi)者來說,既陌生又無感。但到了純電汽車時(shí)代,由于電池成本很高,電池的能耗成了車企和用戶關(guān)注的焦點(diǎn),熱管理的重要性就被凸顯。新能源汽車為什么需要熱管理?目前主
    的頭像 發(fā)表于 10-08 14:58 ?929次閱讀
    專家訪談 | 為什么新能源車企都在比拼“<b class='flag-5'>熱管理</b>”?