91久久高清国语自产拍,少妇泬喷水18p,久久久久久久女国产乱让韩

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）作為英偉達(dá)在CPU與GPU技術(shù)開發(fā)上的集大成之作，Grace Hopper很大程度上象征著復(fù)雜計(jì)算領(lǐng)軍產(chǎn)品。盡管英偉達(dá)竭盡所能地去堆這一“超級(jí)芯片”的性能，但英偉達(dá)還是選擇將Grace Hopper（GH200）描述成了世界上最萬(wàn)能的計(jì)算平臺(tái)，這也得益于它同時(shí)在AI計(jì)算和HPC計(jì)算領(lǐng)域展現(xiàn)的可怕性能。

AI計(jì)算性能

相信絕大多數(shù)人已經(jīng)從市場(chǎng)瘋搶A100、H100的現(xiàn)狀，對(duì)Hopper GPU（H100）的性能有了大致的了解，但Grace Hopper作為一個(gè)異構(gòu)計(jì)算平臺(tái)，在與傳統(tǒng)的x86 CPU與H100對(duì)比上，也有著不小的性能差距。

首要區(qū)別自然就是連接Grace CPU和Hopper GPU的NVLink-C2C，這一高帶寬低延遲的互聯(lián)技術(shù)可謂是目前唯一能發(fā)揮H100近乎全部實(shí)力的方案。支持最高144TB內(nèi)存的同時(shí)，提供900GB/s的帶寬。

英偉達(dá)官方也對(duì)部分AI計(jì)算負(fù)載進(jìn)行了測(cè)試，在終端應(yīng)用上對(duì)比x86+Hopper與Grace Hopper的一體化方案有何異同。其性能差距可以說是巨大的，就拿最常見的大語(yǔ)言模型推理來說，GH200可以做到x86平臺(tái)的4.5倍性能表現(xiàn)，而DLRM（深度學(xué)習(xí)推薦模型）訓(xùn)練與圖神經(jīng)網(wǎng)絡(luò)（GNN）訓(xùn)練的性能也可以分別達(dá)到3.5倍和1.9倍。

其實(shí)這里的差異還是體現(xiàn)在互聯(lián)方案的帶寬上，例如x86+Hopper的方案還是在使用PCIe方案，該方案在batch size較小時(shí)性能落后還不算明顯，一旦到了更大的batch size，PCIe的帶寬就成了瓶頸，而不斷以高帶寬輸送數(shù)據(jù)給H100的NVLink-C2C則可以實(shí)現(xiàn)比PCIe高出數(shù)倍的性能。

HPC計(jì)算性能

Grace Hopper的另一大應(yīng)用領(lǐng)域自然就是HPC了。HPC主要集中在一些科學(xué)、工程的復(fù)雜計(jì)算上，比如天氣預(yù)測(cè)、生命科學(xué)、流體力學(xué)等。然而與此同時(shí)，不少商業(yè)相關(guān)的HPC計(jì)算也在進(jìn)一步推動(dòng)HPC的發(fā)展，甚至更早用上最新的芯片技術(shù)，比如油藏模擬等。

著名油藏模擬軟件ECHELON的開發(fā)商Stone Ridge，在最近獲得了早期訪問權(quán)，對(duì)英偉達(dá)的H100-PCIe、H100-NVL和Grace-Hopper來了場(chǎng)性能測(cè)試。早在Volta和Ampere架構(gòu)時(shí)，Stone Ridge就對(duì)不同架構(gòu)的GPU進(jìn)行了測(cè)試，而如今的H100相較這些舊GPU已經(jīng)在CUDA核心、內(nèi)存容量和內(nèi)存帶寬上有了數(shù)倍的提升。

這些還只是表面上的變化，英偉達(dá)還引入了諸多架構(gòu)改進(jìn)，提高了ML和HPC應(yīng)用程序的性能。而Grace Hopper相較傳統(tǒng)的x86+GPU方案就更具優(yōu)勢(shì)了，首先Grace本身就是一個(gè)強(qiáng)大的CPU，每個(gè)內(nèi)核都有四個(gè)128位適量單元，超高的內(nèi)存帶寬以及超大的L2+L3緩存。其次，NVLink的存在大大減少了CPU和GPU之間的通信時(shí)間。

不同架構(gòu)不同版本的英偉達(dá)GPU在ECHELON模型上的性能對(duì)比 / Stone Ridge

Stone Ridge選擇了不同細(xì)胞規(guī)模的模型，從83000個(gè)細(xì)胞到670萬(wàn)個(gè)細(xì)胞，其中Grace Hopper都展現(xiàn)出了不俗的性能，最高可達(dá)Volta架構(gòu)的V100的5.7倍。值得一提的是，由于CPU采用了新的Arm架構(gòu)，所以ECHELON必須重新編譯才能在系統(tǒng)上運(yùn)行，不過對(duì)于ECHELON來說，重新編譯并不要花太多力氣，他們?cè)诓恍薷拇a的情況就成功重編譯在GH200上正常運(yùn)行。如果對(duì)代碼進(jìn)行進(jìn)一步優(yōu)化的話，還有機(jī)會(huì)獲得更高的性能表現(xiàn)。如此高的性能提升，意味著油藏勘探模擬的時(shí)間可以被大幅縮短，從而加快油藏評(píng)估的速度。

結(jié)語(yǔ)

可以說無論是A100還是H100，都只是英偉達(dá)在AI與HPC戰(zhàn)線擴(kuò)大戰(zhàn)果的第一步棋，明年Q2交付到各大系統(tǒng)中的GH200才是最大的殺手锏，也很可能會(huì)成為更搶手的數(shù)據(jù)中心與超算中心硬件產(chǎn)品。這也恰好證明了英偉達(dá)給它的定位，世界上最萬(wàn)能的計(jì)算平臺(tái)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴