0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

揭秘:英偉達(dá)H100最強替代者

智能計算芯世界 ? 來源:半導(dǎo)體行業(yè)觀察 ? 2023-11-13 16:13 ? 次閱讀

在撰寫本文時,NVIDIA H100 80GB PCIe 在 CDW 等在線零售商處的售價為 3.2 萬美元,并且缺貨了大約六個月??梢岳斫獾氖?,NVIDIA 的高端(幾乎)萬能 GPU 的價格非常高,需求也是如此。NVIDIA 為許多人工智能用戶和那些在企業(yè)中運行混合工作負(fù)載的用戶提供了一種替代方案,但這種方案并不引人注目,但這是非常好的。NVIDIA L40S 是面向圖形的 L40 的變體,本文一起深入了解。

NVIDIA A100、NVIDIA L40S 和 NVIDIA H100

首先,我們首先要說的是,如果您現(xiàn)在想要訓(xùn)練基礎(chǔ)模型(例如 ChatGPT),那么 NVIDIA H100 80GB SXM5 仍然是首選 GPU。一旦基礎(chǔ)模型經(jīng)過訓(xùn)練,通??梢栽诔杀竞凸娘@著降低的部件上根據(jù)特定領(lǐng)域的數(shù)據(jù)或推理來定制模型。

目前,用于高端推理的 GPU 主要有三種:NVIDIA A100、NVIDIA H100 和新的 NVIDIA L40S。我們將跳過NVIDIA L4 24GB,因為它更像是低端推理卡。

NVIDIA A100 和 H100 型號基于該公司各自代的旗艦 GPU。由于我們討論的是 PCIe 而不是 SXM 模塊,因此外形尺寸之間兩個最顯著的差異是 NVLink 和功耗。SXM 模塊專為更高功耗而設(shè)計(大約是 PCIe 版本的兩倍),并通過 NVLink 和多 GPU 組件中的 NVSwitch 拓?fù)溥M(jìn)行互連。

NVIDIA A100 PCIe于 2020 年以 40GB 型號推出,然后在 2021 年中期,該公司將產(chǎn)品更新為A100 80GB PCIe 附加卡。多年后,這些卡仍然很受歡迎。

NVIDIA H100 PCIe是專為主流服務(wù)器設(shè)計的低功耗 H100??紤] PCIe 卡的一種方法是,在電壓/頻率曲線的不同部分運行相似數(shù)量的芯片,旨在降低性能,但功耗也低得多。

即使在 H100 系列內(nèi)也存在一些差異。NVIDIA H100 PCIe 仍然是 H100,但在 PCIe 外形規(guī)格中,它降低了性能、功耗和一些互連(例如 NVLink 速度)。

7e56ff88-81c2-11ee-939d-92fbcf53809c.png

L40S 則完全不同。NVIDIA 采用了基礎(chǔ) L40(一款使用 NVIDIA 最新 Ada Lovelace 架構(gòu)的數(shù)據(jù)中心可視化 GPU),并更改了調(diào)整,使其更多地針對 AI 而不是可視化進(jìn)行調(diào)整。

NVIDIA L40S 是一款令人著迷的 GPU,因為它保留了 L40 的光線追蹤核心和 DisplayPort 輸出以及支持 AV1 的 NVENC / NVDEC 等功能。與此同時,NVIDIA 將更多的功率用于驅(qū)動 GPU 人工智能部分的時鐘。

我們將其放在圖表上以便更容易可視化。NVIDIA 的規(guī)格有時甚至?xí)鶕?jù) NVIDIA 來源單一視圖而有所不同,因此這是我們能找到的最好的規(guī)格,如果我們獲得規(guī)格更新,我們將對其進(jìn)行更新。我們還包括雙卡H100 NVL,它有兩個增強型 H100,它們之間有一個 NVLink 橋,因此將其視為雙卡解決方案,而其余的都是單卡。

7ed15512-81c2-11ee-939d-92fbcf53809c.png

與 L40 相比,L40S 是一款在人工智能訓(xùn)練和推理方面大幅改進(jìn)的卡,但人們可以很容易地看到共同的傳統(tǒng)。

如果您需要絕對的內(nèi)存容量、帶寬或 FP64 性能,則 L40 和 L40S 不適合。鑒于目前 AI 工作負(fù)載取代傳統(tǒng) FP64 計算的相對份額,大多數(shù)人都會接受這種權(quán)衡。

L40S 的內(nèi)存看起來可能比 NVIDIA A100 少得多,而且物理上確實如此,但這并不是故事的全部。NVIDIA L40S 支持NVIDIA Transformer Engine和 FP8。使用 FP8 可以極大地減小數(shù)據(jù)大小,因此,與 FP16 值相比,F(xiàn)P8 值可以使用更少的內(nèi)存,并且需要更少的內(nèi)存帶寬來移動。NVIDIA 正在推動 Transformer Engine,因為 H100 也支持它,有助于降低其 AI 部件的成本或提高其性能。

7f060334-81c2-11ee-939d-92fbcf53809c.png

L40S 有一組更注重可視化的視頻編碼/解碼,而 H100 則專注于解碼方面。

NVIDIA H100 速度更快。它還花費更多。從某種意義上說,在我們撰寫本文時,在列出公開價格的 CDW 上,H100 的價格約為 L40S 價格的 2.6 倍。

另一個重要問題是可用性。如今,獲得 NVIDIA L40S 比排隊等待 NVIDIA H100 快得多。

秘密在于,在 AI 硬件方面取得領(lǐng)先的一種新的常見方法是不使用 H100 進(jìn)行模型定制和推理。相反,我們又回到了我們多年前介紹過的熟悉的架構(gòu),即密集 PCIe 服務(wù)器。2017 年,當(dāng)我們進(jìn)行DeepLearning11 時,將 NVIDIA GeForce GTX 1080 Ti 塞進(jìn)服務(wù)器中的 10 倍 NVIDIA GTX 1080 Ti 單根深度學(xué)習(xí)服務(wù)器甚至是大公司(例如世界某些地區(qū)的搜索/網(wǎng)絡(luò)超大規(guī)模企業(yè))的首選架構(gòu)駕駛公司。

NVIDIA 更改了其 EULA,禁止此類配置,并且使其軟件更加關(guān)注用于 AI 推理和訓(xùn)練的數(shù)據(jù)中心部分,因此現(xiàn)在情況有所不同。

到 2023 年,考慮同樣的概念,但采用 NVIDIA L40S 技術(shù)(并且沒有服務(wù)器“humping”。)

通過購買 L40S 服務(wù)器并獲得比使用 H100 更低成本的 GPU,人們可以獲得類似的性能,而且價格可能更低。

NVIDIA L40S 與 H100 的其他考慮因素

L40S 還有其他幾個方面需要考慮。一是它支持NVIDIA Virtual GPU vGPU 16.1,而 H100 仍然只支持 vGPU 15。NVIDIA 正在將其 AI 芯片從 vGPU 支持方面進(jìn)行一些拆分。

7fa385b4-81c2-11ee-939d-92fbcf53809c.png

對于那些想要部署一種 GPU 機(jī)器然后能夠運行不同類型的工作負(fù)載的人來說,像 L40S 這樣的東西是有意義的。鑒于其可視化根源,它還擁有支持 AV1 和 RT 內(nèi)核的 NVIDIA 視頻編碼引擎。

L40S 不支持一項功能,那就是 MIG。我們之前已經(jīng)研究過 MIG,但它允許將 H100 分成最多 7 個不同大小的分區(qū)。這對于在公共云中拆分 H100 GPU 非常有用,以便可以在客戶之間共享 GPU 資源。對于企業(yè)來說,這通常是一個較低興奮度的功能。

此外,部署 L40S 的功耗較低,僅為 SXM5 系統(tǒng)功耗的一半。這對于那些想要橫向擴(kuò)展但每個機(jī)架可能沒有大量電力預(yù)算的人來說非常有吸引力。

最重要的是,L40S 的速度不如 H100,但憑借 NVIDIA 的 FP8 和 Transformer Engine 支持,對于許多人來說,它比 H100 更可用、更容易部署,而且通常價格更低。

最后的話

關(guān)于 NVIDIA H100 PCIe 與 L40S 以及為什么人們會使用任一版本,目前有很多非常糟糕的信息。希望這有助于在更大程度上澄清這一點。對我們來說,L40S 并不便宜,但它讓我們想起 6 多年前,當(dāng)時人工智能領(lǐng)域的做法是在服務(wù)器中使用成本較低的 NVIDIA GPU,然后使用更多的 GPU。NVIDIA 再次推出該型號,使用 L40S 和官方認(rèn)可的架構(gòu),支持多達(dá)數(shù)千個GPU。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102711
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128592
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3720

    瀏覽量

    90683

原文標(biāo)題:揭秘:英偉達(dá)H100最強替代者

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    英偉達(dá)發(fā)布新一代H200,搭載HBM3e,推理速度是H100兩倍!

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)日前,英偉達(dá)正式宣布,在目前最強AI芯片H100的基礎(chǔ)上進(jìn)行一次大升級,發(fā)布新一代H200芯片。
    的頭像 發(fā)表于 11-15 01:15 ?3387次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>發(fā)布新一代<b class='flag-5'>H</b>200,搭載HBM3e,推理速度是<b class='flag-5'>H100</b>兩倍!

    英偉達(dá)H100芯片市場降溫

    隨著英偉達(dá)新一代AI芯片GB200需求的不斷攀升,其上一代明星產(chǎn)品H100芯片卻遭遇了市場的冷落。據(jù)業(yè)內(nèi)人士透露,搭載H100的服務(wù)器通常以8卡的形式進(jìn)行出售或出租,而在去年,這類服務(wù)
    的頭像 發(fā)表于 10-28 15:42 ?255次閱讀

    英偉達(dá)超級計算機(jī)Eos揭秘

    英偉達(dá)將Eos描述為一個可以為“AI工廠”提供動力的系統(tǒng),因為它是一個非常大規(guī)模的SuperPod DGX H100系統(tǒng)。
    的頭像 發(fā)表于 04-24 10:15 ?498次閱讀

    英偉達(dá)H200帶寬狂飆

    英偉達(dá)H200帶寬的顯著提升主要得益于其強大的硬件配置和先進(jìn)的技術(shù)創(chuàng)新。H200配備了高達(dá)141GB的HBM3e顯存,與前代產(chǎn)品H100相比
    的頭像 發(fā)表于 03-07 16:44 ?856次閱讀

    英偉達(dá)H200和A100的差異

    英偉達(dá)H200和A100在多個方面存在差異。
    的頭像 發(fā)表于 03-07 16:18 ?2152次閱讀

    英偉達(dá)H200顯卡價格

    英偉達(dá)H200顯卡的具體價格尚未公布。根據(jù)上一代H100顯卡的價格范圍,預(yù)計H200的單片價格將超過40000美元。由于新芯片通常定價較高,
    的頭像 發(fā)表于 03-07 16:09 ?3739次閱讀

    英偉達(dá)H200和H100的比較

    英偉達(dá)H200和H100是兩款不同的AI芯片,它們各自具有獨特的特點和優(yōu)勢。以下是關(guān)于這兩款芯片的一些比較。
    的頭像 發(fā)表于 03-07 15:53 ?4035次閱讀

    AI計算需求激增,英偉達(dá)H100功耗成挑戰(zhàn)

    根據(jù)預(yù)測,若H100的年利用率保持在61%,那么單臺設(shè)備每年將耗電3740千瓦小時左右。如果英偉達(dá)在2023年售出150萬塊H100,2024年再增加至200萬塊,那么到2024年底,
    的頭像 發(fā)表于 12-28 09:29 ?2143次閱讀

    AMD正式發(fā)布 MI300X AI 加速器,力壓英偉達(dá)H100

    爭奪剩余的市場而戰(zhàn)。然而,MI300X對英偉達(dá)H100構(gòu)成了有力的競爭,甚至微軟的首席技術(shù)官最近都表示,他認(rèn)為AMD最終在這個市場上將非常有競爭力。
    的頭像 發(fā)表于 12-10 11:30 ?899次閱讀
    AMD正式發(fā)布 MI300X AI 加速器,力壓<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>H100</b>

    英偉達(dá)H100,沒那么缺貨了 !RTX 4090 ,大漲

    這樣,在云端使用 H100 GPU 的排隊時間可能會縮短。數(shù)據(jù)中心提供商和前比特幣挖礦公司正在開設(shè)具有 H100 集群的數(shù)據(jù)中心。這些公司承諾以大型云提供商成本的一小部分提供 H100 GPU 計算,而大型云提供商對
    的頭像 發(fā)表于 11-23 15:59 ?1655次閱讀

    英偉達(dá)推出用于人工智能工作的頂級芯片HGX H200

    近日,英偉達(dá)推出了一款用于人工智能工作的頂級芯片HGX H200。新的GPU升級了需求巨大的H100,內(nèi)存帶寬增加了1.4倍,內(nèi)存容量增加了1.8倍,提高了其處理密集生成人工智能工作的
    的頭像 發(fā)表于 11-15 14:34 ?1429次閱讀

    英偉達(dá)推出新款A(yù)I芯片H200 性能飆升90%但是估計依然被出口管制

    大,也是H100的升級版,號稱性能飆升90%;全球最強 AI 芯片。 據(jù)英偉達(dá)的消息,H200擁有141GB的內(nèi)存、4.8TB/秒的帶寬,并
    的頭像 發(fā)表于 11-14 16:45 ?1463次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>推出新款A(yù)I芯片<b class='flag-5'>H</b>200 性能飆升90%但是估計依然被出口管制

    世界最強AI芯H200發(fā)布,英偉達(dá):性能提升90%

    在備受關(guān)注的人工智能領(lǐng)域,英偉達(dá)表示,h200將進(jìn)一步提高性能。llama 2(700億個llm)的推理速度是h100的兩倍。未來的軟件更新有望為h
    的頭像 發(fā)表于 11-14 10:49 ?1102次閱讀

    英偉達(dá)特供版芯片將上市:性能最高不到H100的20%

    本周四,一些媒體首次報道了英偉達(dá)特供芯片的消息。報道稱,這三款新產(chǎn)品是在 H100 GPU 的基礎(chǔ)版本基礎(chǔ)上進(jìn)行修改的,采用的是最新架構(gòu),但性能大幅度縮減。H100 GPU 是一種用于
    的頭像 發(fā)表于 11-13 16:44 ?914次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>特供版芯片將上市:性能最高不到<b class='flag-5'>H100</b>的20%

    英偉達(dá)新AI芯片H20綜合算力比H100降80%

    但據(jù)悉,三種新型AI芯片不是“改良型”,而是“縮小型”。用于ai模型教育的hgx h20的帶寬和計算速度是有限的。整體計算能力理論上比nvidia的h100 gpu芯片低80%左右。h20是h
    的頭像 發(fā)表于 11-13 09:41 ?1635次閱讀