精品午夜国产幅利,亚洲午夜激情国产18禁

在當(dāng)今計(jì)算平臺(tái)上，大型 AI 模型可能需要數(shù)月來(lái)完成訓(xùn)練。而這樣的速度對(duì)于企業(yè)來(lái)說(shuō)太慢了。

隨著一些模型（例如大型語(yǔ)言模型）達(dá)到數(shù)萬(wàn)億參數(shù)，AI、高性能計(jì)算和數(shù)據(jù)分析變得日益復(fù)雜。

NVIDIA Hopper 架構(gòu)從頭開(kāi)始構(gòu)建，憑借強(qiáng)大的算力和快速的內(nèi)存來(lái)加速這些新一代 AI 工作負(fù)載，從而處理日益增長(zhǎng)的網(wǎng)絡(luò)和數(shù)據(jù)集。

Transformer 引擎是全新 Hopper 架構(gòu)的一部分，將顯著提升 AI 性能和功能，并助力在幾天或幾小時(shí)內(nèi)訓(xùn)練大型模型。

使用 Transformer 引擎訓(xùn)練 AI 模型

Transformer 模型是當(dāng)今廣泛使用的語(yǔ)言模型（例如 asBERT 和 GPT-3）的支柱。Transformer 模型最初針對(duì)自然語(yǔ)言處理用例而開(kāi)發(fā)，但因其通用性，現(xiàn)在逐步應(yīng)用于計(jì)算機(jī)視覺(jué)、藥物研發(fā)等領(lǐng)域。

與此同時(shí)，模型大小不斷呈指數(shù)級(jí)增長(zhǎng)，現(xiàn)在已達(dá)到數(shù)萬(wàn)億個(gè)參數(shù)。由于計(jì)算量巨大，訓(xùn)練時(shí)間不得不延長(zhǎng)到數(shù)月，而這樣就無(wú)法滿足業(yè)務(wù)需求。

Transformer 引擎采用 16 位浮點(diǎn)精度和新增的 8 位浮點(diǎn)數(shù)據(jù)格式，并整合先進(jìn)的軟件算法，將進(jìn)一步提升 AI 性能和功能。

AI 訓(xùn)練依賴浮點(diǎn)數(shù)，浮點(diǎn)數(shù)是小數(shù)，例如 3.14。TensorFloat32 (TF32) 浮點(diǎn)格式是隨 NVIDIA Ampere 架構(gòu)而面世的，現(xiàn)已成為 TensorFlow 和 PyTorch 框架中的默認(rèn) 32 位格式。

大多數(shù) AI 浮點(diǎn)運(yùn)算采用 16 位“半”精度 (FP16)、32 位“單”精度 (FP32)，以及面向?qū)I(yè)運(yùn)算的 64 位“雙”精度 (FP64)。Transformer 引擎將運(yùn)算縮短為 8 位，能以更快的速度訓(xùn)練更大的網(wǎng)絡(luò)。

與 Hopper 架構(gòu)中的其他新功能（例如，在節(jié)點(diǎn)之間提供直接高速互連的 NVLink Switch 系統(tǒng)）結(jié)合使用時(shí)，H100 加速服務(wù)器集群能夠訓(xùn)練龐大網(wǎng)絡(luò)，而這些網(wǎng)絡(luò)此前幾乎無(wú)法以企業(yè)所需的速度進(jìn)行訓(xùn)練。

更深入地研究 Transformer 引擎

Transformer 引擎采用軟件和自定義 NVIDIA Hopper Tensor Core 技術(shù)，該技術(shù)旨在加速訓(xùn)練基于常見(jiàn) AI 模型構(gòu)建模塊（即 Transformer）構(gòu)建的模型。這些 Tensor Core 能夠應(yīng)用 FP8 和 FP16 混合精度，以大幅加速 Transformer 模型的 AI 計(jì)算。采用 FP8 的 Tensor Core 運(yùn)算在吞吐量方面是 16 位運(yùn)算的兩倍。

模型面臨的挑戰(zhàn)是智能管理精度以保持準(zhǔn)確性，同時(shí)獲得更小、更快數(shù)值格式所能實(shí)現(xiàn)的性能。Transformer 引擎利用定制的、經(jīng)NVIDIA調(diào)優(yōu)的啟發(fā)式算法來(lái)解決上述挑戰(zhàn)，該算法可在 FP8 與 FP16 計(jì)算之間動(dòng)態(tài)選擇，并自動(dòng)處理每層中這些精度之間的重新投射和縮放。

Transformer Engine 使用每層統(tǒng)計(jì)分析來(lái)確定模型每一層的最佳精度（FP16 或 FP8），在保持模型精度的同時(shí)實(shí)現(xiàn)最佳性能。

與上一代 TF32、FP64、FP16 和 INT8 精度相比，NVIDIA Hopper 架構(gòu)還將每秒浮點(diǎn)運(yùn)算次數(shù)提高了三倍，從而在第四代 Tensor Core 的基礎(chǔ)上實(shí)現(xiàn)了進(jìn)一步提升。Hopper Tensor Core 與 Transformer 引擎和第四代 NVLink 相結(jié)合，可使 HPC 和 AI 工作負(fù)載的加速實(shí)現(xiàn)數(shù)量級(jí)提升。

加速 Transformer 引擎

AI 領(lǐng)域的大部分前沿工作都圍繞 Megatron 530B 等大型語(yǔ)言模型展開(kāi)。下圖顯示了近年來(lái)模型大小的增長(zhǎng)趨勢(shì)，業(yè)界普遍認(rèn)為這一趨勢(shì)將持續(xù)發(fā)展。許多研究人員已經(jīng)在研究用于自然語(yǔ)言理解和其他應(yīng)用的超萬(wàn)億參數(shù)模型，這表明對(duì) AI 計(jì)算能力的需求有增無(wú)減。

自然語(yǔ)言理解模型仍在快速增長(zhǎng)。

為滿足這些持續(xù)增長(zhǎng)的模型的需求，高算力和大量高速內(nèi)存缺一不可。NVIDIA H100 Tensor Core GPU 兩者兼?zhèn)?，再加?Transformer 引擎實(shí)現(xiàn)的加速，可助力 AI 訓(xùn)練更上一層樓。

通過(guò)上述方面的創(chuàng)新，就能夠提高吞吐量，將訓(xùn)練時(shí)間縮短 9 倍——從 7 天縮短到僅 20 個(gè)小時(shí)：

與上一代相比，NVIDIA H100 Tensor Core GPU 提供 9 倍的訓(xùn)練吞吐量，從而可在合理的時(shí)間內(nèi)訓(xùn)練大型模型。

Transformer 引擎還可用于推理，無(wú)需進(jìn)行任何數(shù)據(jù)格式轉(zhuǎn)換。以前，INT8 是實(shí)現(xiàn)出色推理性能的首選精度。但是，它要求經(jīng)訓(xùn)練的網(wǎng)絡(luò)轉(zhuǎn)換為 INT8，這是優(yōu)化流程的一部分，而 NVIDIA TensorRT 推理優(yōu)化器可輕松實(shí)現(xiàn)這一點(diǎn)。

使用以 FP8 精度訓(xùn)練的模型時(shí)，開(kāi)發(fā)者可以完全跳過(guò)此轉(zhuǎn)換步驟，并使用相同的精度執(zhí)行推理操作。與 INT8 格式的網(wǎng)絡(luò)一樣，使用 Transformer 引擎的部署能以更小的內(nèi)存占用空間運(yùn)行。

在 Megatron 530B 上，NVIDIA H100 的每 GPU 推理吞吐量比 NVIDIA A100 高 30 倍，響應(yīng)延遲為 1 秒，這表明它是適用于 AI 部署的上佳平臺(tái)：

對(duì)于低延遲應(yīng)用，Transformer 引擎還可將推理吞吐量提高 30 倍。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
28877

瀏覽量
266237
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3637

瀏覽量
89855
H100

H100

+關(guān)注

關(guān)注
0

文章
31

瀏覽量
261

原文標(biāo)題：GTC22 | H100 Transformer 引擎大幅加速 AI 訓(xùn)練，在不損失準(zhǔn)確性的情況下提供高達(dá) 6 倍的性能

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

英偉達(dá)發(fā)布新一代H200，搭載HBM3e，推理速度是H100兩倍！

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）日前，英偉達(dá)正式宣布，在目前最強(qiáng)AI芯片H100的基礎(chǔ)上進(jìn)行一次大升級(jí)，發(fā)布新一代H200芯片。

發(fā)表于 11-15 01:15 ?3118次閱讀

<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>發(fā)布新一代<b class='flag-5'>H</b>200，搭載HBM3e，推理速度是<b class='flag-5'>H100</b>兩<b class='flag-5'>倍</b>！

只能跑Transformer的AI芯片，卻號(hào)稱全球最快？

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）近日，一家由哈佛輟學(xué)生成立的初創(chuàng)公司Etched，宣布了他們?cè)诖蛟斓囊豢睢皩Ｓ谩?b class='flag-5'>AI芯片Sohu。據(jù)其聲稱該芯片的速度將是英偉達(dá)H100的20

發(fā)表于 07-01 09:03 ?1104次閱讀

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

NVIDIA NVLink，支持 FP4 AI 精度。 GB200 NVL72是一款性能卓越的計(jì)算平臺(tái)，采用更快的第二代Transformer引擎和FP8精度，可將大型語(yǔ)言模型的

發(fā)表于 05-13 17:16

英偉達(dá)H200和H100的比較

英偉達(dá)H200和H100是兩款不同的AI芯片，它們各自具有獨(dú)特的特點(diǎn)和優(yōu)勢(shì)。以下是關(guān)于這兩款芯片的一些比較。

發(fā)表于 03-07 15:53 ?3363次閱讀

英偉達(dá)：預(yù)計(jì)下一代AI芯片B100短缺，計(jì)劃擴(kuò)產(chǎn)并采用新架構(gòu)

近期熱門(mén)的 H100 芯片運(yùn)期短縮數(shù)天后，英偉達(dá)新型 AI 旗艦芯片 B100搭載全新的 Blackwell，有望使

發(fā)表于 02-25 09:29 ?742次閱讀

AI計(jì)算需求激增，英偉達(dá)H100功耗成挑戰(zhàn)

根據(jù)預(yù)測(cè)，若H100的年利用率保持在61%，那么單臺(tái)設(shè)備每年將耗電3740千瓦小時(shí)左右。如果英偉達(dá)在2023年售出150萬(wàn)塊H100，2024年再增加至200萬(wàn)塊，那么到2024年底，

發(fā)表于 12-28 09:29 ?1872次閱讀

AMD正式發(fā)布 MI300X AI 加速器，力壓英偉達(dá)H100

爭(zhēng)奪剩余的市場(chǎng)而戰(zhàn)。然而，MI300X對(duì)英偉達(dá)的H100構(gòu)成了有力的競(jìng)爭(zhēng)，甚至微軟的首席技術(shù)官最近都表示，他認(rèn)為AMD最終在這個(gè)市場(chǎng)上將非常有競(jìng)爭(zhēng)力。

發(fā)表于 12-10 11:30 ?833次閱讀

AMD正式發(fā)布 MI300X <b class='flag-5'>AI</b> <b class='flag-5'>加速</b>器，力壓<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>H100</b>

英偉達(dá)發(fā)布最新AI芯片H200：性能提升2倍，成本下降50%

很明顯，如果能在相同的功率范圍之內(nèi)實(shí)現(xiàn) 2 倍的性能提升，就意味著實(shí)際能耗和總體擁有成本降低了 50%。所以從理論上講，英偉達(dá)似乎可以讓 H

發(fā)表于 11-22 17:14 ?1372次閱讀

<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>發(fā)布最新<b class='flag-5'>AI</b>芯片<b class='flag-5'>H</b>200：<b class='flag-5'>性能</b>提升2<b class='flag-5'>倍</b>，成本下降50%

英偉達(dá)特供版芯片性能降80%！

報(bào)道中提到，英偉達(dá)的這三款AI芯片并非“改良版”，而是“縮水版”，其分別是HGX H20、L20 PCle和L2 PCle。用于AI模型

發(fā)表于 11-14 17:09 ?817次閱讀

英偉達(dá)推出新款AI芯片H200 性能飆升90%但是估計(jì)依然被出口管制

大，也是H100的升級(jí)版，號(hào)稱性能飆升90%；全球最強(qiáng) AI 芯片。據(jù)英偉達(dá)的消息，H200擁

發(fā)表于 11-14 16:45 ?1340次閱讀

<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>推出新款<b class='flag-5'>AI</b>芯片<b class='flag-5'>H</b>200 <b class='flag-5'>性能</b>飆升90%但是估計(jì)依然被出口管制

世界最強(qiáng)AI芯H200發(fā)布，英偉達(dá)：性能提升90%

在備受關(guān)注的人工智能領(lǐng)域，英偉達(dá)表示，h200將進(jìn)一步提高性能。llama 2（700億個(gè)llm）的推理速度是h100的兩

發(fā)表于 11-14 10:49 ?979次閱讀

英偉達(dá)特供版芯片將上市：性能最高不到H100的20%

本周四，一些媒體首次報(bào)道了英偉達(dá)特供芯片的消息。報(bào)道稱，這三款新產(chǎn)品是在 H100 GPU 的基礎(chǔ)版本基礎(chǔ)上進(jìn)行修改的，采用的是最新架構(gòu)，但性能大幅度縮減。

發(fā)表于 11-13 16:44 ?771次閱讀

<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>特供版芯片將上市：<b class='flag-5'>性能</b>最高不到<b class='flag-5'>H100</b>的20%

英偉達(dá)確認(rèn)為中國(guó)推三款改良AI芯片性能暴降80%

據(jù)報(bào)道，nvidia的3種ai芯片不是“改良版”，而是“縮水版”，分別是hgx h20、l20 pcle和l2 pcle。用于ai模型訓(xùn)練的hgx

發(fā)表于 11-13 10:46 ?652次閱讀

傳英偉達(dá)新AI芯片H20綜合算力比H100降80%

但據(jù)悉，三種新型AI芯片不是“改良型”，而是“縮小型”。用于ai模型教育的hgx h20的帶寬和計(jì)算速度是有限的。整體計(jì)算能力理論上比nvidia的h100 gpu芯片低80%左右。

發(fā)表于 11-13 09:41 ?1450次閱讀

MI300X能否與H100一較高下？

市場(chǎng)研究公司Omdia近日發(fā)布報(bào)告稱，預(yù)計(jì)英偉達(dá)二季度用于AI和高性能計(jì)算應(yīng)用的H100 GPU的出貨量超過(guò)了900噸。并且預(yù)計(jì)其在未來(lái)幾個(gè)

發(fā)表于 09-28 14:50 ?1493次閱讀

搜索歷史

英偉達(dá)H100 Transformer引擎加速AI訓(xùn)練準(zhǔn)確而且高達(dá)6倍性能

評(píng)論

英偉達(dá)發(fā)布新一代H200，搭載HBM3e，推理速度是H100兩倍！

只能跑Transformer的AI芯片，卻號(hào)稱全球最快？

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

英偉達(dá)H200和H100的比較

英偉達(dá)：預(yù)計(jì)下一代AI芯片B100短缺，計(jì)劃擴(kuò)產(chǎn)并采用新架構(gòu)

AI計(jì)算需求激增，英偉達(dá)H100功耗成挑戰(zhàn)

AMD正式發(fā)布 MI300X AI 加速器，力壓英偉達(dá)H100

英偉達(dá)發(fā)布最新AI芯片H200：性能提升2倍，成本下降50%

英偉達(dá)特供版芯片性能降80%！

英偉達(dá)推出新款AI芯片H200 性能飆升90%但是估計(jì)依然被出口管制

世界最強(qiáng)AI芯H200發(fā)布，英偉達(dá)：性能提升90%

英偉達(dá)特供版芯片將上市：性能最高不到H100的20%

英偉達(dá)確認(rèn)為中國(guó)推三款改良AI芯片性能暴降80%

傳英偉達(dá)新AI芯片H20綜合算力比H100降80%

MI300X能否與H100一較高下？

搜索歷史

英偉達(dá)H100 Transformer引擎加速AI訓(xùn)練 準(zhǔn)確而且高達(dá)6倍性能

評(píng)論

英偉達(dá)H100 Transformer引擎加速AI訓(xùn)練準(zhǔn)確而且高達(dá)6倍性能