婷婷色爱区综合五月激情,亚洲自拍露出极品

NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 體系結(jié)構(gòu)，可加速各種工作負(fù)載，如大規(guī)模人工智能推理、企業(yè)培訓(xùn)和數(shù)據(jù)中心主流服務(wù)器的 HPC 應(yīng)用程序。 A30 PCIe 卡將第三代 Tensor 內(nèi)核與大容量 HBM2 內(nèi)存（ 24 GB ）和快速 GPU 內(nèi)存帶寬（ 933 GB / s ）組合在一個(gè)低功耗外殼中（最大 165 W ）。

A30 支持廣泛的數(shù)學(xué)精度：

雙精度（ FP64 ）

單精度（ FP32 ）

半精度（ FP16 ）

腦浮 16 （ BF16 ）

整數(shù)（ INT8 ）

它還支持 Tensor Float 32 （ TF32 ）和 Tensor Core FP64 等創(chuàng)新技術(shù)，提供了一個(gè)單一的加速器來加速每個(gè)工作負(fù)載。

圖 1 顯示了 TF32 ，其范圍為 FP32 ，精度為 FP16 。 TF32 是 PyTorch 、 TensorFlow 和 MXNet 中的默認(rèn)選項(xiàng)，因此在上一代 NVIDIA Volta 架構(gòu)中實(shí)現(xiàn)加速不需要更改代碼。

A30 的另一個(gè)重要特點(diǎn)是多實(shí)例 GPU （ MIG ）能力。 MIG 可以最大限度地提高從大到小工作負(fù)載的 GPU 利用率，并確保服務(wù)質(zhì)量（ QoS ）。單個(gè) A30 最多可以被劃分為四個(gè) MIG 實(shí)例，以同時(shí)運(yùn)行四個(gè)應(yīng)用程序，每個(gè)應(yīng)用程序都與自己的流式多處理器（ SMs ）、內(nèi)存、二級緩存、 DRAM 帶寬和解碼器完全隔離。有關(guān)更多信息，請參閱支持的 MIG 配置文件。

對于互連， A30 支持 PCIe Gen4 （ 64 GB / s ）和高速第三代 NVLink （最大 200 GB / s ）。每個(gè) A30 都可以支持一個(gè) NVLink 橋接器與一個(gè)相鄰的 A30 卡連接。只要服務(wù)器中存在一對相鄰的 A30 卡，這對卡就應(yīng)該通過跨越兩個(gè) PCIe 插槽的 NVLink 橋接器連接，以獲得最佳橋接性能和平衡的橋接拓?fù)洹?/p>

性能和平衡的橋接拓?fù)洹?/p>

除了表 1 中總結(jié)的硬件優(yōu)勢外， A30 可以實(shí)現(xiàn)比 T4 GPU 更高的每美元性能。 A30 還支持端到端軟件堆棧解決方案：

圖書館

GPU 加速了 PyTorch 、 TensorFlow 和 MXNet 等深度學(xué)習(xí)框架

優(yōu)化的深度學(xué)習(xí)模型

可從 NGC 和［2000］以上的容器中獲得

性能分析

為了分析 A30 相對于 T4 和 CPU 的性能改進(jìn)，我們使用以下數(shù)據(jù)集對 MLPerf 推斷 v1.1 。中的六個(gè)模型進(jìn)行了基準(zhǔn)測試：

ResNet-50v1 。 5 （ ImageNet ）

SSD 大尺寸 ResNet-34 （ COCO ）

3D Unet （布拉茨 2019 ）

DLRM （ 1TB 點(diǎn)擊日志，離線場景）

BERT （第 1.1 版，第 384 小節(jié)）

RNN-T （圖書館語言）

MLPerf 基準(zhǔn)測試套件涵蓋了廣泛的推理用例，從圖像分類和對象檢測到推薦，以及自然語言處理（ NLP ）。

圖 2 顯示了 A30 與 T4 和 BERT 在人工智能推理工作負(fù)載上的性能比較結(jié)果。對于 CPU 推斷， A30 比 CPU 快約 300 倍。

與T4相比，A30在使用這六種機(jī)型進(jìn)行推理時(shí)提供了大約3-4倍的性能加速比。性能加速是由于30個(gè)較大的內(nèi)存大小。這使得模型的批量更大，內(nèi)存帶寬更快（幾乎是3倍T4），可以在更短的時(shí)間內(nèi)將數(shù)據(jù)發(fā)送到計(jì)算核心。

圖 2 使用 MLPerf 比較 A30 與 T4 和 CPU 的性能。

CPU:8380H （不在 3D Unet 上提交）

除了人工智能推理之外， A30 還可以快速預(yù)訓(xùn)練人工智能模型，例如 BERT 大型 TF32 ，以及使用 FP64 張量核加速 HPC 應(yīng)用。帶有 TF32 的 A30 Tensor Cores 的性能比 T4 高出 10 倍，無需對代碼進(jìn)行任何更改。它們還提供了自動混合精度的額外 2 倍提升，使吞吐量增加了 20 倍。

硬件解碼器

在構(gòu)建視頻分析或視頻處理管道時(shí)，必須考慮以下幾個(gè)操作：

計(jì)算模型或預(yù)處理步驟的需求。這取決于 Tensor 內(nèi)核、 GPU DRAM 和其他硬件組件，它們可以加速模型或幀預(yù)處理內(nèi)核。

傳輸前的視頻流編碼。這樣做是為了最小化網(wǎng)絡(luò)上所需的帶寬。為了加快這一工作量，請使用 NVIDIA 硬件解碼器。

圖 3 在不同 GPU 上處理的流的數(shù)量

使用 DeepStream 5.1 測試性能。它代表了 e2e 在視頻捕獲和解碼、預(yù)處理、批處理、推理和后處理方面的性能。已關(guān)閉輸出渲染以獲得最佳性能，運(yùn)行 ResNet10 、 ResNet18 和 ResNet50 網(wǎng)絡(luò)以推斷 H.264 1080p30 視頻流。

A30 旨在通過提供四個(gè)視頻解碼器、一個(gè) JPEG 解碼器和一個(gè)光流解碼器來加速智能視頻分析（ IVA ）。

要使用這些解碼器和計(jì)算資源來分析視頻，請使用 NVIDIA DeepStream SDK ，它為基于人工智能的多傳感器處理、視頻、音頻和圖像理解提供了一個(gè)完整的流分析工具包。有關(guān)更多信息，請參閱 TAO 工具包與 DeepStream 的集成或者使用 NVIDIA DeepStream 構(gòu)建實(shí)時(shí)編校應(yīng)用程序，第 1 部分：培訓(xùn) 。

接下來呢？

A30 代表了數(shù)據(jù)中心最強(qiáng)大的端到端人工智能和 HPC 平臺，使研究人員、工程師和數(shù)據(jù)科學(xué)家能夠交付真實(shí)世界的結(jié)果，并將解決方案大規(guī)模部署到生產(chǎn)中。有關(guān)更多信息，請參閱 NVIDIA A30 Tensor Core GPU 數(shù)據(jù)表和 NVIDIA A30 GPU 加速器產(chǎn)品簡介。

關(guān)于作者

Maggie Zhang 是 NVIDIA 的深度學(xué)習(xí)工程師，致力于深度學(xué)習(xí)框架和應(yīng)用程序。她在澳大利亞新南威爾士大學(xué)獲得計(jì)算機(jī)科學(xué)和工程博士學(xué)位，在那里她從事 GPU / CPU 異構(gòu)計(jì)算和編譯器優(yōu)化。

Tanay Varshney 是 NVIDIA 的一名深入學(xué)習(xí)的技術(shù)營銷工程師，負(fù)責(zé)廣泛的 DL 軟件產(chǎn)品。他擁有紐約大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位，專注于計(jì)算機(jī)視覺、數(shù)據(jù)可視化和城市分析的橫斷面。

Davide Onofrio 是 NVIDIA 的高級深度學(xué)習(xí)軟件技術(shù)營銷工程師。他在 NVIDIA 專注于深度學(xué)習(xí)技術(shù)開發(fā)人員關(guān)注內(nèi)容的開發(fā)和演示。戴維德在生物特征識別、虛擬現(xiàn)實(shí)和汽車行業(yè)擔(dān)任計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)工程師已有多年經(jīng)驗(yàn)。他的教育背景包括米蘭理工學(xué)院的信號處理博士學(xué)位。Ivan Belyavtsev 是一名圖形開發(fā)工程師，主要致力于開發(fā)人員支持和優(yōu)化基于虛擬引擎的游戲。他還是 Innopolis 大學(xué)游戲開發(fā)領(lǐng)域的計(jì)算機(jī)圖形學(xué)導(dǎo)師。

Shar Narasimhan 是 AI 的高級產(chǎn)品營銷經(jīng)理，專門從事 NVIDIA 的 Tesla 數(shù)據(jù)中心團(tuán)隊(duì)的深度學(xué)習(xí)培訓(xùn)和 OEM 業(yè)務(wù)。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4793

瀏覽量
102429
人工智能

人工智能

+關(guān)注

關(guān)注
1787

文章
46061

瀏覽量
235018
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120593

AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè)，致力于開發(fā) AI 推理專用型半導(dǎo)體器件和硬件，最大限度提升推理工作負(fù)載的存儲器帶寬使用，并通過將此解決方案應(yīng)用于

發(fā)表于 09-18 09:37 ?177次閱讀

AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器

英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù)，與同樣剛推出的 Llama 3.1

發(fā)表于 07-25 09:48 ?568次閱讀

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 變革

作為極具開創(chuàng)性的一站式“交鑰匙”私有云人工智能（private-cloud AI）解決方案，NVIDIA AI Computing by HPE 包含了可持續(xù)的加速計(jì)算產(chǎn)品組合以及全生

發(fā)表于 06-20 17:36 ?596次閱讀

英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM

英偉達(dá)近日宣布推出一項(xiàng)革命性的AI模型推理服務(wù)——NVIDIA NIM。這項(xiàng)服務(wù)將極大地簡化AI模型部署過程，為全球的2800萬英偉達(dá)開發(fā)者提供前所未有的便利。

發(fā)表于 06-04 09:15 ?538次閱讀

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

計(jì)算工作負(fù)載、釋放百億億次計(jì)算能力和萬億參數(shù)人工智能模型的全部潛力提供關(guān)鍵基礎(chǔ)。 NVLink釋放數(shù)萬億參數(shù)AI模型的加速性能，顯著提升大型多GPU

發(fā)表于 05-13 17:16

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個(gè)開源庫，用于優(yōu)化從 PC 到云端的 NVID

發(fā)表于 04-28 10:36 ?393次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實(shí)踐中，唯品會 AI 平臺與 NVIDIA 團(tuán)隊(duì)合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將

發(fā)表于 04-20 09:39 ?504次閱讀

全新NVIDIA RTX A400和A1000 GPU全面加強(qiáng)AI設(shè)計(jì)與生產(chǎn)力工作流

兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。

發(fā)表于 04-18 10:29 ?346次閱讀

NVIDIA 發(fā)布全新交換機(jī)，全面優(yōu)化萬億參數(shù)級 GPU 計(jì)算和 AI 基礎(chǔ)設(shè)施

NVIDIA 軟件實(shí)現(xiàn)了跨 ?Blackwell GPU、新交換機(jī)和 BlueField-3 SuperNIC 的分布式計(jì)算，大幅提升了 AI、數(shù)據(jù)處理、高性能計(jì)算和云工作

發(fā)表于 03-19 10:05 ?261次閱讀

使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測

這家云計(jì)算巨頭的計(jì)算機(jī)視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。

發(fā)表于 02-29 14:04 ?458次閱讀

瞬變對AI加速卡供電的影響

圖形處理單元(GPU)、張量處理單元(TPU)和其他類型的專用集成電路(ASIC)通過提供并行處理能力來實(shí)現(xiàn)高性能計(jì)算，以滿足加速人工智能(AI)訓(xùn)練和推理工作

發(fā)表于 12-01 18:10 ?330次閱讀

瞬變對AI加速卡供電的影響

圖形處理單元（GPU）、張量處理單元（TPU）和其他類型的專用集成電路（ASIC）通過提供并行處理能力來實(shí)現(xiàn)高性能計(jì)算，以滿足加速人工智能（AI）訓(xùn)練和推理工作

發(fā)表于 11-16 17:23 ?821次閱讀

創(chuàng)新企業(yè)云福利：騰訊云 × NVIDIA 初創(chuàng)加速計(jì)劃

助力生成式 AI、大模型訓(xùn)練與推理、自動駕駛、圖像處理等場景初創(chuàng)企業(yè)加速成長，最高獲贈 10 萬元扶持基金、NVIDIA 深度學(xué)習(xí)培訓(xùn)中心（DLI）優(yōu)惠課程，以及免費(fèi)的

發(fā)表于 11-13 20:40 ?487次閱讀

周四研討會預(yù)告 | 注冊報(bào)名 NVIDIA AI Inference Day - 大模型推理線上研討會

由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會，將幫助您了解 NVIDIA 開源大型語言模型（LLM）

發(fā)表于 10-26 09:05 ?284次閱讀

Oracle 云基礎(chǔ)設(shè)施提供新的 NVIDIA GPU 加速計(jì)算實(shí)例

生成式 AI 和大語言模型（LLM）不斷推動突破性創(chuàng)新，訓(xùn)練和推理對算力的需求也隨之急劇上升。這些現(xiàn)代生成式 AI 應(yīng)用需要全棧加速計(jì)算，首先要有能夠快速、準(zhǔn)確處理大量

發(fā)表于 09-25 20:40 ?470次閱讀