0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

在MLPerf推理2.0上如何獲得人工智能模型所需的性能

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-08 15:53 ? 次閱讀

Megatron 530B 等機型正在擴大人工智能可以解決的問題范圍。然而,隨著模型的復雜性不斷增加,它們對人工智能計算平臺構(gòu)成了雙重挑戰(zhàn):

這些模型必須在合理的時間內(nèi)進行訓練。

他們必須能夠?qū)崟r進行推理工作。

我們需要的是一個多功能的人工智能平臺,它可以在各種各樣的模型上提供所需的性能,用于訓練和推理。

為了評估這種性能, MLPerf 是唯一一個行業(yè)標準人工智能基準,用于測試六個應用程序中的數(shù)據(jù)中心和邊緣平臺,測量吞吐量、延遲和能效。

在 MLPerf 推理 2.0 , NVIDIA 交付領先的結(jié)果在所有工作負載和場景,同時數(shù)據(jù)中心 GPU最新的參賽者,NVIDIA Jetson AGX ORIN SOC 平臺,為邊緣設備和機器人建造。

除了硬件,還需要大量的軟件和優(yōu)化工作才能充分利用這些平臺。 MLPerf 推理 2.0 的結(jié)果展示了如何獲得處理當今日益龐大和復雜的人工智能模型所需的性能。

下面我們來看一下 MLPerf 推理 2.0 的性能,以及其中的一些優(yōu)化,以及它們是如何構(gòu)建的。

計算數(shù)字

圖 1 顯示了最新的參賽者 NVIDIA Jetson AGX Orin 。

pYYBAGJP6iuABxnLAACkQTDDlRA696.png

圖 1 NVIDIA Jetson AGX Orin 性能改進

MLPerf v2.0 推斷邊閉合和邊閉合冪;數(shù)據(jù)中心和邊緣、離線吞吐量和功率的 MLPerf 結(jié)果的性能/瓦特。NVIDIA Xavier AGX Xavier:1.1-110 和 1.1-111 | Jetson AGX Orin:2.0-140 和 2.0-141 。 MLPerf 名稱和徽標是商標。資料來源: http://www.mlcommons.org/en 。

圖 1 顯示 Jetson AGX Orin 的性能是上一代的 5 倍。在測試的全部使用范圍內(nèi),它平均提高了約 3.4 倍的性能。此外, Jetson AGX Orin 的能效提高了 2.3 倍。

Jetson Orin AGX 是一個 SoC ,為多個并發(fā)人工智能推理管道提供多達 275 個人工智能計算頂層,并為多個傳感器提供高速接口支持。NVIDIA Jetson AGX ORIN 開發(fā)者工具包使您能夠創(chuàng)建先進的機器人和邊緣 AI 應用程序,用于制造、物流、零售、服務、農(nóng)業(yè)、智能城市、醫(yī)療保健和生命科學。

在數(shù)據(jù)中心領域,NVIDIA 繼續(xù)在所有應用領域提供全面的人工智能推理性能領先。

pYYBAGJP6jSAHoqvAADlUejP7Rc692.png

圖 2 NVIDIA A100 每臺加速器性能

MLPerf v2 。 0 推理關閉;使用數(shù)據(jù)中心脫機和服務器中報告的加速器計數(shù),根據(jù)各自提交的最佳 MLPerf 結(jié)果得出每加速器性能。高通 AI 100:2.0-130 ,來自 MLPerf v.1.1 的英特爾至強 8380 提交: 1.1-023 和 1.1-024 ,英特爾至強 8380H 1.1-026 ,NVIDIA A30:2.0-090 ,NVIDIA A100 ( Arm ): 2.0-077 ,NVIDIA A100 ( x86 ): 2.0-094 。 MLPerf 名稱和徽標是商標。

NVIDIA A100 在離線和服務器場景下的所有測試中都提供了最佳的每加速器性能。

我們提交了以下配置的 A100 :

A100 SXM 搭配 x86 CPUAMD Epyc 7742 )

A100 PCIe 與 x86 CPU ( AMD Epyc 7742 )配對

A100 SXM 配 Arm CPU (NVIDIA 安培架構(gòu) Altra Q80-30 )

Microsoft Azure 也使用其 A100 實例提交,我們也在這一數(shù)據(jù)中顯示了這一點。

所有配置都提供了大致相同的推理性能,這證明了我們 Arm 軟件堆棧的就緒性,以及 A100 本地和云中的總體性能。

A100 還提供了高達 105 倍的性能,比僅 CPU 提交( RNN-T ,服務器方案)。 A30 在除一項工作外的所有工作上都表現(xiàn)出領導水平。與 A100 一樣,它運行了所有數(shù)據(jù)中心類別測試。

關鍵優(yōu)化

提供出色的推理性能需要一種全堆棧方法,在這種方法中,優(yōu)秀的硬件與優(yōu)化且通用的軟件相結(jié)合。 NVIDIA TensorRT 和 NVIDIA Triton 推理服務器都在不同工作負載下提供出色的推理性能方面發(fā)揮著關鍵作用。

Jetson AGX-Orin 優(yōu)化

NVIDIA Orin 新 NVIDIA 安培架構(gòu) I GPU 由 NVIDIA TensorRT 8.4 支持。對于 MLPerf 性能而言,它是 SoC 中最重要的組件。擴展了大量優(yōu)化 GPU 內(nèi)核的 TensorRT 庫,以支持新的體系結(jié)構(gòu)。 TensorRT 生成器會自動拾取這些內(nèi)核。

此外, MLPerf 網(wǎng)絡中使用的插件都已移植到 NVIDIA Orin 并添加到 TensorRT 8.4 中,包括 res2 插件( resnet50 )和 qkv 到上下文插件( BERT )。與帶有離散 GPU 加速器的系統(tǒng)不同,輸入不會從主機內(nèi)存復制到設備內(nèi)存,因為 SoC DRAM 由 CPU 和 iGPU 共享。

除了 iGPU , NVIDIA 還使用了兩個深度學習加速器( DLA ),以在離線情況下在 CV 網(wǎng)絡( resnet50 、 ssd mobilenet 、 ssd-resnet34 )上實現(xiàn)最高的系統(tǒng)性能。

NVIDIA Orin 采用了新一代 DLA 硬件。為了利用這些硬件改進, DLA 編譯器添加了以下 NVIDIA Orin 功能,這些功能在升級到 TensorRT 的未來版本時自動可用,無需修改任何應用程序源代碼。

SRAM chaining: 在本地 SRAM 中保留中間張量,以避免對 DRAM 的讀寫,從而減少延遲和平臺 DRAM 的使用。它還減少了對 GPU 推理的干擾。

卷積+池融合: INT8 卷積+偏差+縮放+重新調(diào)整可以與后續(xù)池節(jié)點融合。

卷積+元素融合: INT8 卷積+元素和可以與后續(xù)的 ReLU 節(jié)點融合。

對兩個 DLA 加速器的批量大小進行了微調(diào),以獲得 GPU + DLA 聚合性能的適當平衡。該調(diào)整平衡了將 DLA 引擎 GPU 后備內(nèi)核的調(diào)度沖突降至最低的需求,同時減少了 SoC 共享 DRAM 帶寬的整體潛在不足。

3D UNet 醫(yī)學成像

雖然大多數(shù)工作負載與 MLPerf 推斷 v1 相比基本保持不變。 1 、使用 KITS19 數(shù)據(jù)集增強了 3D UNet 醫(yī)學成像工作量。這個新的腎腫瘤圖像數(shù)據(jù)集有更大的不同大小的圖像,每個樣本需要更多的處理。

KiTS19 數(shù)據(jù)集為實現(xiàn)高效節(jié)能推理帶來了新的挑戰(zhàn)。更具體地說:

KiTS19 中使用的輸入張量的形狀從 128x192x320 到 320x448x448 不等;最大輸入張量比最小輸入張量大 8.17 倍。

推理過程中需要大于 2GB 的張量。

在特定感興趣區(qū)域( ROI )形狀( 128x128x128 )上有一個滑動窗口,具有較大的重疊系數(shù)( 50% )。

為了解決這個問題,我們開發(fā)了一種滑動窗口方法來處理這些圖像:

根據(jù)重疊因子,將每個輸入張量切成 ROI 形狀。

使用循環(huán)處理給定輸入張量的所有滑動窗口切片。

加權(quán)并規(guī)范化每個滑動窗口的推理結(jié)果。

通過滑動窗口推斷的聚合結(jié)果的 ArgMax 獲得最終分割輸出。

poYBAGJP6j2AXg8eAACExe9yWus477.png

圖 3 3D UNet 使用滑動窗口方法執(zhí)行 KiTS19 腎臟腫瘤分割推斷任務

在圖 3 中,每個輸入張量被切片成具有重疊因子( 50% )的 ROI 形狀( 128x128x128 ),并輸入預訓練網(wǎng)絡。然后對每個滑動窗口輸出進行最佳加權(quán),以獲取歸一化 sigma = 0.125 的高斯核特征。

推理結(jié)果根據(jù)原始輸入張量形狀進行聚合,并對這些權(quán)重因子進行歸一化。然后, ArgMax 操作會切割分割信息,標記背景、正常腎細胞和腫瘤。

該實現(xiàn)將分割與基本事實進行比較,并計算骰子分數(shù)以確定基準測試的準確性。您還可以直觀地檢查結(jié)果。

我們的數(shù)據(jù)中心 GPU 已經(jīng)支持 INT8 精度超過 5 年,與 FP16 和 FP32 精度級別相比,這種精度在許多型號上帶來了顯著的加速,精度損失接近于零。

對于 3D UNet ,我們通過使用 TensorRT IInt8MinMaxCalibrator 校準校準集中的圖像來使用 INT8 。該實現(xiàn)在 FP32 參考模型中實現(xiàn)了 100% 的精度,從而實現(xiàn)了基準的高精度和低精度模式。

poYBAGJP6kqAESVZAAEQHd7KUMg866.png

圖 5 MLPerf 推理 v2 中使用的 NVIDIA 3D UNet KiTS19 實現(xiàn)。 0 提交

在圖 5 中,綠色框在設備( GPU )上執(zhí)行,黃色框在主機( CPU )上執(zhí)行。滑動窗口推理所需的一些操作被優(yōu)化為融合操作。

利用 GPUDirect RDMA 和存儲,可以最小化或消除主機到設備或設備到主機的數(shù)據(jù)移動。從 DGX-A100 系統(tǒng)中測量一個輸入樣本(其大小接近平均輸入大?。┑拿宽椆ぷ鞯难舆t。切片內(nèi)核和 ArgMax 內(nèi)核的延遲隨輸入圖像大小成比例變化。

以下是一些具體的優(yōu)化措施:

用于加權(quán)的高斯核補丁現(xiàn)在已預先計算并存儲在磁盤上,并在基準測試的定時部分開始之前加載到 GPU 內(nèi)存中。

加權(quán)和歸一化作為融合操作進行優(yōu)化,使用 27 個預計算的面片,用于 3D 輸入張量上 50% 重疊的滑動窗口。

編寫處理切片、加權(quán)和 ArgMax 的自定義 CUDA 內(nèi)核,以便所有這些操作都在 GPU 中完成,無需 H2D / D2H 數(shù)據(jù)傳輸。

INT8 線性內(nèi)存布局中的輸入張量使 H2D 傳輸中的數(shù)據(jù)量最小,因為 KiTS19 輸入集是單通道。

TensorRT 需要 NC / 32DHW32 格式的 INT8 輸入。我們使用一個定制的 CUDA 內(nèi)核,該內(nèi)核在 GPU 全局內(nèi)存中的一個連續(xù)內(nèi)存區(qū)域中執(zhí)行對零填充的切片,并將 INT8 線性輸入張量切片重新格式化為 INT8 NC / 32DHW32 格式。

GPU 中的零填充和重新格式化張量要比其他昂貴的 H2D 傳輸速度快得多, H2D 傳輸?shù)臄?shù)據(jù)要多 32 倍。這種優(yōu)化顯著提高了整體性能,并釋放了寶貴的系統(tǒng)資源。

TensorRT 引擎用于在每個滑動窗口切片上運行推理。因為 3D UNet 是密集的,我們發(fā)現(xiàn)增加批量大小會成比例地增加引擎的運行時間。

NVIDIA Triton 優(yōu)化

NVIDIA 提交繼續(xù)顯示 Triton 推理服務器的多功能性。這一輪, Triton 推理服務器還支持在 AWS 推理機上運行 NVIDIA Triton 。NVIDIA Triton 使用 Python 后端運行推理優(yōu)化 PyTorch 和 TensorFlow 模型。

使用NVIDIA Triton 和火炬神經(jīng)元, NVIDIA 提交獲得 85% 至 100% 的推斷推理的自然推斷性能。

poYBAGJP6lKAL9rAAACX4khGPFU905.png

圖 6 。 Triton 推理服務器性能

MLPerf v1 。 1 。關閉推理;每個加速器的性能源自使用數(shù)據(jù)中心脫機中報告的加速器計數(shù)的各個提交的最佳 MLPerf 結(jié)果。顯示所有提交工作負載的幾何平均值。 CPU 基于 MLPerf 推理 1.1 中的英特爾提交數(shù)據(jù)進行比較,以比較相同 CPU 的配置,提交 1.0-16 、 1.0-17 、 1.0-19 。 NVIDIA Triton 在 CPU 上: 2.0-100 和 2.0-101 。 A2:2.0-060 和 2.0-061 。 A30:2.0-091 和 2.0-092 。 A100:2.0-094 和 2.0-096 。 MLPerf 名稱和徽標是商標。

NVIDIA Triton 現(xiàn)在支持 AWS 推理處理器,并提供與僅在 AWS Neuron SDK 上運行幾乎相同的性能。

它需要一個平臺

NVIDIA 推理領導力來自于打造最優(yōu)秀的人工智能加速器,用于培訓和推理。但優(yōu)秀的硬件只是開始。

NVIDIA TensorRT 和 Triton 推理服務器軟件在跨這一組不同的工作負載提供出色的推理性能方面發(fā)揮著關鍵作用。他們可以在 NGC ,NVIDIA 中心,以及其他 GPU 優(yōu)化的軟件,用于深度學習,機器學習,和 HPC 。

NGC 容器化軟件使加速平臺的建立和運行變得更加容易,因此您可以專注于構(gòu)建真正的應用程序,并加快實現(xiàn)價值的時間。 NGC 可以通過您首選的云提供商的市場免費獲得。

關于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集團的高級產(chǎn)品營銷經(jīng)理,專注于超規(guī)模、深度學習和推理。

Ashwin Nanjappa 是 NVIDIA TensorRT 團隊的工程經(jīng)理。他領導 MLPerf 推理計劃,展示 NVIDIA 加速器的性能和能效。他還參與改進 TensorRT DL 推理庫的性能。在加入NVIDIA 之前,他曾參與培訓和部署 CV 的 DL 模型、深度相機的 GPU 加速 ML / CV 算法,以及手機和 DVD 播放器中的多媒體庫。他擁有來自新加坡國立大學( NUS )的計算機科學博士學位,重點是 GPU 算法用于三維計算幾何。

Jinho 是NVIDIA DLSIM 團隊的高級深度學習架構(gòu)師。他正在研究 NVIDIA 加速器上的深度學習工作負載的性能建模和分析,并有助于NVIDIA MLPIFF 推理實現(xiàn)。在加入NVIDIA 之前,他曾在英特爾和 Arm 從事服務器 CPU 和 SoC 體系結(jié)構(gòu)及微體系結(jié)構(gòu)方面的工作。他擁有南加州大學計算機工程博士學位,專注于計算機體系結(jié)構(gòu)。

Ian 是 NVIDIA TensorRT 團隊的高級系統(tǒng)軟件工程師,他專注于 MLPerf 推理。在加入 TensorRT 團隊之前,他曾為 NVIDIA 自動駕駛軟件開發(fā)實時調(diào)度系統(tǒng)。伊恩畢業(yè)于多倫多大學工程科學專業(yè),主修電氣和計算機工程。

Madhumitha Sridhara 是 TensorRT 團隊的高級軟件工程師,專注于使用 Triton 推理服務器的 NVIDIA MLPerf推理提交。她擁有卡內(nèi)基梅隆大學計算機工程碩士學位和印度卡納塔克邦蘇拉特卡爾國家理工學院電子通信工程學士學位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4793

    瀏覽量

    102423
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4590

    瀏覽量

    128137
  • 服務器
    +關注

    關注

    12

    文章

    8700

    瀏覽量

    84534
  • MLPerf
    +關注

    關注

    0

    文章

    33

    瀏覽量

    612
收藏 人收藏

    評論

    相關推薦

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結(jié)經(jīng)驗,擬按照要求準備相關體會材料。看能否有助于入門和提高ss
    發(fā)表于 09-09 15:36

    FPGA人工智能中的應用有哪些?

    FPGA(現(xiàn)場可編程門陣列)人工智能領域的應用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和
    發(fā)表于 07-29 17:05

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型處理復雜任務
    的頭像 發(fā)表于 07-24 11:38 ?493次閱讀

    人工智能模型工業(yè)網(wǎng)絡安全領域的應用

    隨著人工智能技術的飛速發(fā)展,人工智能模型作為一種具有強大數(shù)據(jù)處理能力和復雜模式識別能力的深度學習模型,已經(jīng)多個領域展現(xiàn)了其獨特的優(yōu)勢和廣
    的頭像 發(fā)表于 07-10 14:07 ?402次閱讀

    人工智能模型有哪些

    人工智能(Artificial Intelligence, AI)作為21世紀最具影響力的技術之一,正以前所未有的速度改變著我們的生活、工作乃至整個社會結(jié)構(gòu)。AI模型作為AI技術的核心,是實現(xiàn)智能
    的頭像 發(fā)表于 07-04 17:28 ?463次閱讀

    人工智能與大模型的關系與區(qū)別

    科技日新月異的今天,人工智能(AI)已成為推動社會進步的重要力量。而在人工智能的眾多分支中,大模型(Large Models)作為近年來興起的概念,以其巨大的參數(shù)數(shù)量和強大的計算能力
    的頭像 發(fā)表于 07-04 16:07 ?1940次閱讀

    模型應用之路:從提示詞到通用人工智能(AGI)

    模型人工智能領域的應用正迅速擴展,從最初的提示詞(Prompt)工程到追求通用人工智能(AGI)的宏偉目標,這一旅程充滿了挑戰(zhàn)與創(chuàng)新。本文將探索大
    的頭像 發(fā)表于 06-14 10:20 ?1859次閱讀
    大<b class='flag-5'>模型</b>應用之路:從提示詞到通用<b class='flag-5'>人工智能</b>(AGI)

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    人工智能模型規(guī)模和復雜性呈指數(shù)級增長,對先進計算能力和內(nèi)存容量的需求變得至關重要。Blackwell圖形處理器架構(gòu)通過
    發(fā)表于 05-13 17:16

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    Aidlite-SDK模型推理 https://v2.docs.aidlux.com/sdk-api/aidlite-sdk/aidlite-python 人工智能 5G AIoT技術實踐入門與探索_V2 59分
    發(fā)表于 05-10 16:46

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    化能力和適應性。自然語言處理任務中,大語言模型展現(xiàn)出卓越的語言理解和生成能力。此外,大語言模型還能在創(chuàng)新和探索中發(fā)揮作用,推動科學和技術的發(fā)展??傊?,大語言模型的涌現(xiàn)能力為其
    發(fā)表于 05-04 23:55

    華為全面推進智能戰(zhàn)略,聚焦人工智能核心技術提升產(chǎn)品競爭力

    其中包括,深化人工智能關鍵技術研發(fā),尤其是提供具有持續(xù)性能的大模型訓練和推理所需的算力,建立共贏的生態(tài)系統(tǒng);利用AI提升華為產(chǎn)品和解決方案的
    的頭像 發(fā)表于 04-18 10:00 ?383次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛嵌入式
    發(fā)表于 02-26 10:17

    OpenAI發(fā)布人工智能文生視頻大模型Sora

    近日,人工智能領域的領軍企業(yè)OpenAI宣布推出其最新的人工智能文生視頻大模型——Sora。這款模型繼承DALL-E 3卓越畫質(zhì)和遵循指令
    的頭像 發(fā)表于 02-20 13:54 ?712次閱讀

    澎峰科技發(fā)布大模型推理引擎PerfXLLM

    自從2020年6月OpenAI發(fā)布chatGPT之后,基于 Transformer 網(wǎng)絡結(jié)構(gòu)的 語言大模型(LLM) 引發(fā)了全世界的注意與追捧,成為了人工智能領域的里程碑事件。 但大模型推理
    的頭像 發(fā)表于 11-25 15:35 ?905次閱讀
    澎峰科技發(fā)布大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLLM

    人工智能模型、應用場景、應用部署教程超詳細資料

    人工智能是IC行業(yè)近幾年的熱詞,目前此技術已經(jīng)有很多成熟的模型和落地案例。在此跟大家做個分享,更多詳細資料,請自行搜索:【展銳坦克邦】,坦克邦-智算天地集算法模型、部署說明于一體,為廣大客戶提供了
    發(fā)表于 11-13 14:49