0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何打造超越英偉達(dá)性能的GPU

半導(dǎo)體產(chǎn)業(yè)縱橫 ? 來(lái)源:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 2024-04-08 12:39 ? 次閱讀

計(jì)算很容易,而數(shù)據(jù)移動(dòng)和存儲(chǔ)卻變得越來(lái)越困難。

雖然很多人關(guān)注各種計(jì)算引擎的浮點(diǎn)和整數(shù)處理架構(gòu),但研究人員卻花費(fèi)越來(lái)越多的時(shí)間研究?jī)?nèi)存層次結(jié)構(gòu)和互連層次結(jié)構(gòu)。這是因?yàn)橛?jì)算很容易,而數(shù)據(jù)移動(dòng)和存儲(chǔ)卻變得越來(lái)越困難。

用一些簡(jiǎn)單的數(shù)字來(lái)說(shuō)明這一點(diǎn):在過(guò)去的二十年中,CPUGPU 的計(jì)算能力增加了 90,000 倍,但 DRAM 內(nèi)存帶寬僅增加了 30 倍,互連帶寬也僅增加了 30 倍。近年來(lái),該行業(yè)在某些方面取得了進(jìn)步,但計(jì)算與內(nèi)存的平衡仍然很遙遠(yuǎn),這意味著在用于大量 AI 和 HPC 工作負(fù)載的內(nèi)存不足的計(jì)算引擎上花費(fèi)過(guò)多。

正是考慮到這一點(diǎn),研究人員考慮了 Eliyan 創(chuàng)建的網(wǎng)絡(luò)中物理層 (PHY) 的架構(gòu)創(chuàng)新,這些創(chuàng)新在本周的 MemCon 2024 會(huì)議上以不同且非常有用的方式展現(xiàn)。聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Ramin Farjadrad 花了一些時(shí)間向大家展示 NuLink PHY 及其用例如何隨著時(shí)間的推移而發(fā)展,以及如何使用它們來(lái)構(gòu)建比使用 PHY 更好、更便宜、更強(qiáng)大的計(jì)算引擎當(dāng)前基于硅中介層的封裝技術(shù)。

PHY 是一種物理網(wǎng)絡(luò)傳輸設(shè)備,它將交換芯片、網(wǎng)絡(luò)接口或計(jì)算引擎上或內(nèi)部的任何數(shù)量的其他類(lèi)型的接口鏈接到物理介質(zhì)(銅線、光纖、無(wú)線電信號(hào)),而物理介質(zhì)又連接它們相互之間或網(wǎng)絡(luò)上。

硅中介層是一種特殊的電路橋,用于將 HBM堆疊式 DRAM 內(nèi)存連接到計(jì)算引擎,例如 GPU 和定制 ASIC,這些引擎通常用于 HPC 和 AI 領(lǐng)域的帶寬敏感應(yīng)用。有時(shí) HBM 使用也需要高帶寬內(nèi)存的常規(guī) CPU。

Eliyan 于 2021 年在圣何塞成立,目前擁有 60 名員工。該公司剛剛獲得了 6000 萬(wàn)美元的第二輪融資,由內(nèi)存制造商三星Tiger Global Capital 領(lǐng)投 B 輪融資。Eliyan 于 2022 年 11 月在 A 輪融資中籌集了 4000 萬(wàn)美元,由 Tracker Capital Management 領(lǐng)投,Celesta Capital、英特爾、Marvell 和內(nèi)存制造商美光科技 (Micron Technology) 出資。

Farjadrad 在互聯(lián)網(wǎng)熱潮期間在 Sun Microsystems 和 LSI Logic 擔(dān)任設(shè)計(jì)工程師,曾擔(dān)任 Velio Communications(現(xiàn)為 LSI Logic 的一部分)的交換機(jī) ASIC 首席工程師和聯(lián)合創(chuàng)始人,并且是聯(lián)合創(chuàng)始人和首席技術(shù)Aquantia 的官員,該公司為汽車(chē)市場(chǎng)生產(chǎn)以太網(wǎng) PHY。2019 年 9 月,Marvell 收購(gòu)了 Aquantia,并讓 Farjadrad 負(fù)責(zé)網(wǎng)絡(luò)和汽車(chē) PHY。Marvell 已成為最大的 PHY 制造商之一,在設(shè)計(jì)這些系統(tǒng)關(guān)鍵組件方面與 Broadcom、Alphawave Semi、Nvidia、Intel、Synopsis、Cadence 以及現(xiàn)在的 Eliyan 等公司競(jìng)爭(zhēng)。

Eliyan 的其他聯(lián)合創(chuàng)始人包括 Syrus Ziai,他是工程和運(yùn)營(yíng)主管,并曾擔(dān)任高通公司 Ikanos 的工程副總裁。多年來(lái),PsiQuantum 和 Nuvia 以及業(yè)務(wù)和企業(yè)發(fā)展主管 Patrick Soheili 曾負(fù)責(zé) eSilicon 的產(chǎn)品管理和人工智能戰(zhàn)略主管。該公司因在 Apple iPod 音樂(lè)播放器中創(chuàng)建 ASIC 以及開(kāi)發(fā) 2.5D ASIC 封裝和 HBM 內(nèi)存控制器而聞名。當(dāng)然,eSilicon 于 2019 年底被 Inphi 以 2.13 億美元收購(gòu),擴(kuò)大了其 PHY 能力,2021 年 4 月,Marvell 在 2020 年 10 月以 100 億美元收購(gòu) Inphi,完成了這一循環(huán)。

PHY 以及 I/O SerDes 和重定時(shí)器都有資金。SerDes 與交換機(jī) ASIC 中使用的那些用于將從設(shè)備發(fā)出的并行數(shù)據(jù)轉(zhuǎn)換為通過(guò)電線、光纖或空中傳輸?shù)拇袛?shù)據(jù)一樣,是一種特殊的 PHY,并且從某種思維方式來(lái)看,SerDes 也是一種特殊的 PHY。隨著帶寬的增加以及可以推送干凈信號(hào)的銅線長(zhǎng)度的減少,重定時(shí)器將越來(lái)越多地被使用。

接下來(lái),一起談?wù)?2.5D 封裝。

2.5D 封裝

隨著摩爾定律在晶體管密度方面的增長(zhǎng)速度放緩,并且晶體管的成本隨著每一種后續(xù)工藝技術(shù)的發(fā)展而不是下降,我們都已經(jīng)意識(shí)到現(xiàn)代芯片蝕刻工藝的掩模版限制。使用普通極紫外 (EUV) 水浸光刻技術(shù),可以在硅晶圓上蝕刻晶體管的最大尺寸為 26 毫米*33 毫米。

許多人可能沒(méi)有意識(shí)到,這也是硅中介層尺寸的限制,硅中介層允許小芯片在有機(jī)基板頂部相互鏈接,有機(jī)基板就像每個(gè)計(jì)算引擎插槽及其附屬 HBM 內(nèi)存下方的主板。該硅中介層的尺寸取決于用于創(chuàng)建中間板的技術(shù)。中介層采用與芯片相同的光刻工藝制造,但如今使用一些技術(shù),中介層可以達(dá)到 2,500 mm 2,而不是像芯片那樣具有858 mm 2的掩模版限制,并使用其他接近 1,900 mm 2 ;據(jù) Farjadrad 稱(chēng),計(jì)劃將其提高到 3,300 mm 2 。有機(jī)基板插座沒(méi)有這樣的面積限制。當(dāng)您談?wù)撔⌒酒?2.5D 封裝時(shí),這一點(diǎn)很重要。

Farjadrad 向大家介紹了與 Eliyan 的 NuLink PHY 競(jìng)爭(zhēng)的不同 2.5D 方法的饋送、速度和局限性。

以下是臺(tái)積電如何通過(guò)硅片晶圓芯片 (CoWoS) 工藝實(shí)現(xiàn) 2.5D,該工藝用于創(chuàng)建 Nvidia 和 AMD GPU 及其 HBM 堆棧等:

4e4c39d8-f30b-11ee-a297-92fbcf53809c.png

從技術(shù)上講,上圖顯示了臺(tái)積電的 CoWoS-R 內(nèi)插器技術(shù),該技術(shù)通常用于將 GPU、CPU 和其他加速器鏈接到 HBM 內(nèi)存。CoWoS 的硅中介層僅限于大約兩個(gè)標(biāo)線單元,這正是Nvidia 上周剛剛推出的“Blackwell”B100 和 B200 GPU的尺寸。這并非巧合。這已經(jīng)是英偉達(dá)所能做到的最大規(guī)模了。

臺(tái)積電擁有一種不那么引人注目的 CoWoS-L 技術(shù),該技術(shù)制造起來(lái)更加復(fù)雜,就像其他方法中使用的嵌入式橋一樣。

一種橋接技術(shù)稱(chēng)為帶有嵌入式橋接的晶圓級(jí)扇出技術(shù),該技術(shù)由芯片封裝商 Amkor Technology 倡導(dǎo),并有來(lái)自 ASE Holdings 的一種名為 FOCoS-B 的變體。以下是這種封裝方法的速度:

4e5e78c8-f30b-11ee-a297-92fbcf53809c.png

高跡線密度意味著您可以以低功耗獲得高芯片間帶寬,但范圍有限,布線能力也有限。

英特爾將硅橋直接放入容納小芯片的有機(jī)基板中(減去中介層)的方法與 Eliyan 對(duì) NuLink 所做的類(lèi)似:

4e797d9e-f30b-11ee-a297-92fbcf53809c.png

然而,EMIB 受到生產(chǎn)周期長(zhǎng)、產(chǎn)量低、覆蓋范圍和可布線性有限等問(wèn)題的困擾。

這樣就剩下了 Eliyan 提出的修改后的 2D MCM 流程 NuLink:

4e9f5852-f30b-11ee-a297-92fbcf53809c.png

Farjadrad說(shuō),NuLink是一種PHY,其數(shù)據(jù)速率約為傳統(tǒng)MCM封裝的10倍,NuLink PHY之間的走線長(zhǎng)度可以達(dá)到2厘米至3厘米,這比CoWoS和其他2.5D封裝選項(xiàng)支持的0.1毫米走線長(zhǎng)度增加了20倍至30倍。正如你所看到的,走線上的額外距離,以及NuLink PHY在這些走線上具有雙向信令的事實(shí),使計(jì)算引擎設(shè)計(jì)變得與眾不同。

在當(dāng)前的架構(gòu)中,當(dāng)你在內(nèi)存和ASIC之間運(yùn)行數(shù)據(jù)包時(shí),數(shù)據(jù)包數(shù)據(jù)不是同時(shí)雙向的,我們需要自己的特殊協(xié)議來(lái)維護(hù)內(nèi)存一致性,確保讀取和寫(xiě)入之間沒(méi)有沖突。我們知道當(dāng)我們制作一個(gè)PHY時(shí),我們需要為特定的應(yīng)用制作一個(gè)相關(guān)的協(xié)議。這是我們最大的區(qū)別之一。擁有最好的PHY是一回事,但將其與AI應(yīng)用的正確專(zhuān)業(yè)知識(shí)相結(jié)合是另一個(gè)重要因素,我們知道如何做到這一點(diǎn)。

當(dāng) NuLink 于 2022 年 11 月首次推出時(shí),它還沒(méi)有這個(gè)名字,Eliyan 還沒(méi)有提出使用 PHY 創(chuàng)建通用內(nèi)存接口 (UMI) 的方法。NuLink只是一種實(shí)現(xiàn)UCI-Express小芯片互連協(xié)議的方法,并支持Farjadrad和他的團(tuán)隊(duì)在幾年前創(chuàng)建的原始Bunch of Wires(BoW)小芯片互連所支持的任何協(xié)議,并作為擬議標(biāo)準(zhǔn)捐贈(zèng)給開(kāi)放計(jì)算項(xiàng)目。以下是 Eliyan 如何將 NuLink 與各種內(nèi)存和小芯片互連協(xié)議進(jìn)行堆疊:

4eb88ade-f30b-11ee-a297-92fbcf53809c.png

Intel MDFIO 是 Multi-Die Fabric I/O 的縮寫(xiě),用于將“Sapphire Rapids”至強(qiáng) SP 處理器中的四個(gè)計(jì)算小芯片相互連接;EMIB 用于將這些小芯片鏈接到具有 HBM 的 Sapphire Rapids 的 Max 系列 CPU 變體的 HBM 內(nèi)存堆棧。OpenHBI 基于 JEDEC HBM3 電氣互連,也是 OCP 標(biāo)準(zhǔn)。我們?cè)谶@里寫(xiě)的UCI-Express 是一種時(shí)髦的 PCI-Express,帶有 CXL 相干性覆蓋層,旨在成為小芯片的晶粒到晶粒互連。英偉達(dá)(Nvidia)的NVLink現(xiàn)在用于將Blackwell GPU復(fù)合體上的小芯片粘合在一起,但該表中缺少英特爾的XeLink,用于“Ponte Vecchio”Max 系列GPU上的GPU小芯片。與UCI-Express不同,NuLink PHY是雙向的,這意味著您可以擁有與UCI-Express一樣多或更多的電線,但走線的帶寬增加了一倍或更多。

如您所見(jiàn),有一種昂貴的封裝選項(xiàng),它使用凸塊間距為 40 微米到 50 微米的凸塊,而裸片到芯片的距離僅為 2 毫米左右。PHY 的帶寬密度可能非常高(小芯片上每毫米海灘的帶寬密度為 Tb/秒),并且功率效率因方法而異。延遲也全面低于 4 納秒。

在表格的右邊是互連PHY,它們可以與標(biāo)準(zhǔn)的有機(jī)基板封裝一起使用,并使用130微米的凸塊,因此是更便宜的選擇。其中包括 Cadence 的 Ultralink PHY、AMD 的 Infinity Fabric PHY、Alphawave Semi 的 OIF 超短距離 (XSR) PHY 以及 NuLink 版本。

更長(zhǎng)的鏈路打開(kāi)了計(jì)算和內(nèi)存復(fù)合體的幾何形狀,并且還消除了ASIC和HBM之間的熱串?dāng)_效應(yīng)。堆疊內(nèi)存對(duì)熱量非常敏感,隨著 GPU 越來(lái)越熱,需要冷卻 HBM 才能正常工作。如果你能讓HBM離ASIC更遠(yuǎn),你就可以更快地運(yùn)行ASIC(Farjadrad估計(jì)大約20%),而且溫度更高,因?yàn)閮?nèi)存不夠近,無(wú)法直接受到ASIC熱量增加的影響。

此外,通過(guò)移除 GPU 等設(shè)備中的硅中介層或等效物,并轉(zhuǎn)向有機(jī)基板并使用更胖的凸塊和間隔組件,您可以將具有十幾個(gè) HBM 堆棧的雙 ASIC 設(shè)備的制造成本從大約 12,000 美元(芯片加封裝良率約為 50%)降低到良率為 87% 的設(shè)備(成本約為 6,800 美元)。

再看兩個(gè)對(duì)比 UCI-Express、BoW 和 UMI 的圖表。

4ed4391e-f30b-11ee-a297-92fbcf53809c.png

正如你所看到的,Eliyan 一直在推動(dòng)其 PHY 的雙向功能,現(xiàn)在有能力同時(shí)進(jìn)行雙向流量,它稱(chēng)之為 UMI-SMD。

4ef5ed66-f30b-11ee-a297-92fbcf53809c.png

因此,NuLink PHY(現(xiàn)在被命名為 UMI)比 UCI-Express 更小、更快,你能用它做什么?

首先,您可以構(gòu)建更大的計(jì)算引擎:

4f0dcfbc-f30b-11ee-a297-92fbcf53809c.png

24 個(gè)或更多的 HBM 堆棧和 10 到 12 個(gè)重構(gòu)的計(jì)算引擎包如何吸引您?這種設(shè)備需要四分之一到五分之一的時(shí)間來(lái)制造,因?yàn)樗窃跇?biāo)準(zhǔn)的有機(jī)基材上。在1990年代初,IBM從1989年左右的巔峰開(kāi)始下滑后,曾經(jīng)有一句話與IBM掛鉤:你可以找到更好的,但你不能支付更多。

以下是 Eliyan 認(rèn)為 HBM4 在未來(lái)可能會(huì)發(fā)揮的作用:

4f2f4520-f30b-11ee-a297-92fbcf53809c.png

使用 NuLink UMI PHY 幾乎可以再次將其切成兩半,為您選擇的 XPU 留出更多的邏輯空間?;蛘?,如果你想放棄中介層,制造一個(gè)更大的設(shè)備,并忍受一個(gè)13平方毫米UMI PHY,你也可以構(gòu)建一個(gè)更便宜的設(shè)備,并且仍然從每個(gè)HBM4堆棧中驅(qū)動(dòng)2 TB/秒。

早在 2022 年 11 月,當(dāng) Eliyan 提出其想法時(shí),它就將帶有連接到其 HBM 內(nèi)存的中介層的 GPU 與移除中介層并將 ASIC 加倍的機(jī)器進(jìn)行了比較(就像 Blackwell 所做的那樣),并將 24 個(gè) HBM 排名與這些 ASIC 小芯片進(jìn)行了對(duì)比。

4f348b8e-f30b-11ee-a297-92fbcf53809c.png

左邊是 Nvidia A100 和 H100 GPU 及其 HBM 內(nèi)存的架構(gòu)。中間是一張 Nvidia 圖表,顯示了隨著 AI 應(yīng)用程序可用的更多 HBM 內(nèi)存容量和更多 HBM 內(nèi)存帶寬,性能如何提高。眾所周知,H200 配備 141 GB HBM3E 內(nèi)存和 4.8 TB/秒帶寬,其工作量是 H100 的 1.6 到 1.9 倍,具有完全相同的 GH100 GPU,但只有 80 GB 的 HBM3 內(nèi)存,3.35 TB/秒帶寬。

內(nèi)存不是功耗的很大一部分,GPU 才是,我們迄今為止看到的少量證據(jù)表明,Nvidia、AMD 和 Intel 投入該領(lǐng)域的 GPU 都受到 HBM 內(nèi)存容量和帶寬的限制——并且已經(jīng)存在了很長(zhǎng)時(shí)間,因?yàn)橹圃爝@種堆疊內(nèi)存的困難。這些公司生產(chǎn)的是 GPU,而不是內(nèi)存,他們通過(guò)提供盡可能少的 HBM 內(nèi)存來(lái)對(duì)抗強(qiáng)大的計(jì)算量,從而最大限度地提高收入和利潤(rùn)。它們總是比上一代顯示更多,但 GPU 計(jì)算總是比內(nèi)存容量和帶寬增長(zhǎng)得更快。Eliyan 提出的設(shè)計(jì)可以使計(jì)算和內(nèi)存恢復(fù)平衡,并使這些設(shè)備更便宜。

也許這對(duì) GPU 制造商來(lái)說(shuō)有點(diǎn)太強(qiáng)大了,所以隨著 UMI 的推出,該公司已經(jīng)退縮了一點(diǎn),并展示了如何使用中介層和有機(jī)基板以及 NuLink PHY 的混合來(lái)制造更大、更平衡的 Blackwell GPU 復(fù)合體。

左下方是如何創(chuàng)建一個(gè) Blackwell-Blackwell 超級(jí)芯片,該芯片具有一個(gè)以 1.8 TB/秒的速度運(yùn)行的單個(gè) NVLink 端口,將兩個(gè)雙小芯片 Blackwell GPU 連接在一起:

4f582742-f30b-11ee-a297-92fbcf53809c.png

使用NuLink UMI方法,如上圖右側(cè)所示,有兩個(gè)端口在兩個(gè)Blackwell GPU之間提供大約12 TB /秒的帶寬 - 略高于Nvidia提供的10 TB /秒NVLink端口,這些端口在B100和B200中將兩個(gè)Blackwell芯片壓縮在一起。這是 Eliyan 超級(jí)芯片設(shè)計(jì)的帶寬的 6 倍,而不是 Nvidia B200 超級(jí)芯片設(shè)計(jì)(如果有的話)。如果 Nvidia 想要堅(jiān)持其 CoWoS 制造工藝,Eliyan 可以在中介層上放置相同的 8 組 HBM3E 內(nèi)存,但它可以在每個(gè) Blackwell 設(shè)備上再放置 8 組 HBM3E,總共 32 組 HBM3E,這將產(chǎn)生 768 GB 的容量和 25 TB/秒的帶寬。

這種UMI方法適用于任何XPU,也適用于任何類(lèi)型的存儲(chǔ)器,你可以做這樣瘋狂的事情,所有這些都在一個(gè)巨大的有機(jī)基板上,不需要中介層:

4f6ef684-f30b-11ee-a297-92fbcf53809c.png

任何存儲(chǔ)器、任何共同封裝的光學(xué)器件、任何PCI-Express或其他控制器都可以使用NuLink鏈接到任何XPU。至此,插槽真的變成了主板。

對(duì)于更大的綜合體,Eliyan 可以構(gòu)建 NuLink Switch。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • DRAM
    +關(guān)注

    關(guān)注

    40

    文章

    2298

    瀏覽量

    183204
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128564
  • 內(nèi)存
    +關(guān)注

    關(guān)注

    8

    文章

    2966

    瀏覽量

    73812
  • 網(wǎng)絡(luò)傳輸
    +關(guān)注

    關(guān)注

    0

    文章

    135

    瀏覽量

    17357
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3720

    瀏覽量

    90675

原文標(biāo)題:如何構(gòu)建比英偉達(dá)更好的GPU

文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    計(jì)算工作負(fù)載、釋放百億億次計(jì)算能力和萬(wàn)億參數(shù)人工智能模型的全部潛力提供關(guān)鍵基礎(chǔ)。 NVLink釋放數(shù)萬(wàn)億參數(shù)AI模型的加速性能,顯著提升大型多GPU系統(tǒng)的可擴(kuò)展性。每個(gè)英偉達(dá)Black
    發(fā)表于 05-13 17:16

    267.英偉達(dá)對(duì)中俄出口高端GPU芯片受新限制

    gpu英偉達(dá)
    小凡
    發(fā)布于 :2022年10月04日 15:13:52

    英偉達(dá)發(fā)布新一代 GPU 架構(gòu)圖靈和 GPU 系列 Quadro RTX

    在 8 月 14 日的 SIGGRAPH 2018 大會(huì)上,英偉達(dá) CEO 黃仁勛正式發(fā)布了新一代 GPU 架構(gòu) Turing(圖靈),以及一系列基于圖靈架構(gòu)的 GPU,包括全球首批支
    發(fā)表于 08-15 10:59

    英偉達(dá)GPU慘遭專(zhuān)業(yè)礦機(jī)碾壓,黃仁勛宣布砍掉加密貨幣業(yè)務(wù)!

    的加密貨幣業(yè)務(wù)的下滑原因不能簡(jiǎn)單歸結(jié)于加密貨幣市場(chǎng)的總體趨勢(shì)。 GPU挖礦效率不敵專(zhuān)用挖礦芯片,礦工紛紛流失英偉達(dá)的加密貨幣業(yè)務(wù)部門(mén)的核心問(wèn)題是對(duì)GPU挖礦的需求下降。由于用于制造顯卡
    發(fā)表于 08-24 10:11

    英偉達(dá)GPU卡多卡互聯(lián)NVLink,系統(tǒng)累積的公差,是怎么解決的?是連接器吸收的?

    英偉達(dá)不斷推出GPU卡,并且實(shí)現(xiàn)多卡互聯(lián)NVLink,實(shí)際整個(gè)系統(tǒng)會(huì)累積到一個(gè)較大的公差,而目前市面上已有的連接器只能吸收較少的公差,這個(gè)是怎么做到匹配的呢?
    發(fā)表于 03-05 16:17

    英偉達(dá)DPU的過(guò)“芯”之處

    的領(lǐng)域就有超算、自動(dòng)駕駛和邊緣計(jì)算模式。其中,基于英偉達(dá)GPU的AI運(yùn)算平臺(tái)與ARM的生態(tài)系統(tǒng)結(jié)合,將不僅能夠強(qiáng)化英偉達(dá)
    發(fā)表于 03-29 14:42

    英偉達(dá)加速部署下一代GPU,7納米GPU性能有希望提升100%

      英偉達(dá)7納米GPU什么時(shí)候來(lái)?印第安納大學(xué)一場(chǎng)次時(shí)代平臺(tái)活動(dòng)中暗示了英偉達(dá)最近的動(dòng)向,他們很可能在今年夏天開(kāi)始在超級(jí)計(jì)算機(jī)上部署全新的T
    的頭像 發(fā)表于 02-04 15:46 ?3866次閱讀

    英偉達(dá):GPU讓AI的性能每年都成倍提升

    英偉達(dá)首席科學(xué)家Bill Dally在一年一度的中國(guó)GPU技術(shù)大會(huì)召開(kāi)前接受第一財(cái)經(jīng)記者獨(dú)家專(zhuān)訪時(shí)表示,GPU讓人工智能(AI)的性能每年都
    的頭像 發(fā)表于 12-15 13:37 ?2476次閱讀

    相比在硬件性能上超越英偉達(dá),軟件生態(tài)的趕超難度顯然更大

    英偉達(dá)在云端AI訓(xùn)練芯片市場(chǎng)超九成的市占率讓新入局的競(jìng)爭(zhēng)者們都將槍口指向這家當(dāng)紅AI公司。聲稱(chēng)AI性能英偉達(dá)
    的頭像 發(fā)表于 12-29 10:47 ?8815次閱讀

    英偉達(dá)通過(guò)GPU驅(qū)動(dòng)程序提升Starfield性能

    英偉達(dá)(Nvidia)正在推出一項(xiàng)更新,將為RTX 30和40系列卡的所有者提高Starfield的性能。英偉達(dá)表示,其自動(dòng)無(wú)線更新將啟用R
    的頭像 發(fā)表于 09-14 16:37 ?1021次閱讀

    英偉達(dá)用AI設(shè)計(jì)GPU算術(shù)電路有何優(yōu)勢(shì)

    大量的算術(shù)電路陣列為英偉達(dá)GPU提供了動(dòng)力,以實(shí)現(xiàn)前所未有的AI、高性能計(jì)算和計(jì)算機(jī)圖形加速。因此,改進(jìn)這些算術(shù)電路的設(shè)計(jì)對(duì)于提升 GPU
    發(fā)表于 12-05 11:05 ?392次閱讀

    如何打造超越英偉達(dá)性能GPU

    構(gòu)建一個(gè)開(kāi)放和兼容的生態(tài)系統(tǒng)也是提升GPU競(jìng)爭(zhēng)力的關(guān)鍵。通過(guò)提供全面的開(kāi)發(fā)工具、豐富的學(xué)習(xí)資源和強(qiáng)大的社區(qū)支持,可以吸引更多的開(kāi)發(fā)者和用戶使用和優(yōu)化GPU,從而不斷推動(dòng)技術(shù)進(jìn)步和創(chuàng)新。
    的頭像 發(fā)表于 04-08 14:15 ?351次閱讀

    英偉達(dá)GPU新品規(guī)劃與HBM市場(chǎng)展望

    在COMPUTEX 2024主題演講中,英偉達(dá)(NVIDIA)公布了其GPU產(chǎn)品的未來(lái)規(guī)劃。據(jù)英偉達(dá)透露,B100、B200和GB200系列
    的頭像 發(fā)表于 06-13 09:44 ?739次閱讀