NVIDIA打破AI推理性能記錄

　NVIDIA憑借A100進(jìn)一步擴(kuò)大了在MLPerf基準(zhǔn)測試中的領(lǐng)先優(yōu)勢，實現(xiàn)了比CPU快237倍的AI推理性能，助力企業(yè)將AI研究轉(zhuǎn)化為生產(chǎn)力。

　　加利福尼亞州圣克拉拉市— 2020年10月22日— NVIDIA今日宣布，其AI計算平臺在最新一輪MLPerf基準(zhǔn)測試中再次打破性能記錄，在這一業(yè)內(nèi)唯一評估硬件、軟件和服務(wù)的第三方AI性能基準(zhǔn)測試中進(jìn)一步擴(kuò)大了其領(lǐng)先優(yōu)勢。

　　在今年第二輪MLPerf 推理測試中，NVIDIA創(chuàng)下了數(shù)據(jù)中心與邊緣計算系統(tǒng)全部六個應(yīng)用領(lǐng)域的記錄。此次測試中，計算機(jī)視覺測試從最初的兩項擴(kuò)展到四項，涵蓋了AI應(yīng)用增長最快的領(lǐng)域，包括：推薦系統(tǒng)、自然語言理解、語音識別和醫(yī)療影像。

　　憑借NVIDIA? A100 Tensor Core GPU出色的推理性能，各個行業(yè)的機(jī)構(gòu)將AI研究轉(zhuǎn)化為日常運營中的生產(chǎn)力。金融機(jī)構(gòu)使用對話式AI更快速地回答客戶問題，零售商們使用AI保證貨架庫存充足，醫(yī)療機(jī)構(gòu)使用AI分析數(shù)百萬張醫(yī)療影像，以更準(zhǔn)確地診斷疾病，從而挽救生命。

　　NVIDIA加速計算部門總經(jīng)理兼副總裁Ian Buck表示：“我們正處在一個轉(zhuǎn)折點，各個行業(yè)都致力于更好地利用AI，從而提供新的服務(wù)并尋求業(yè)務(wù)的發(fā)展?！?/p>

　　“NVIDIA為MLPerf上取得的成績付出了巨大的努力，將助力各企業(yè)的AI性能提升到新的高度，以改善我們的日常生活?！?/p>

　　在MLPerf最新結(jié)果出爐之際，NVIDIA 的AI推理業(yè)務(wù)也已得到迅速擴(kuò)展。五年前，只有少數(shù)領(lǐng)先的高科技公司使用GPU進(jìn)行推理?，F(xiàn)在，企業(yè)可通過各大云和數(shù)據(jù)中心基礎(chǔ)設(shè)施供應(yīng)商來使用NVIDIA的AI平臺。各行業(yè)都在使用NVIDIA 的AI推理平臺改善業(yè)務(wù)運營，提供更多的服務(wù)。

　　此外，NVIDIA GPU首次在公有云中實現(xiàn)了超越CPU的AI推理能力?；?NVIDIA GPU的總體云端AI推理計算能力每兩年增長約10倍。

　　NVIDIA問鼎AI推理性能的新高峰

　　NVIDIA及其合作伙伴提交了基于NVIDIA加速平臺的MLPerf 0.7的測試結(jié)果。該平臺包含NVIDIA數(shù)據(jù)中心GPU、邊緣AI加速器和經(jīng)過優(yōu)化的NVIDIA軟件。

　　NVIDIA 于今年早些時候發(fā)布了A100。憑借其第三代Tensor Core核心和多實例GPU技術(shù)，A100在ResNet-50測試中的領(lǐng)先優(yōu)勢進(jìn)一步擴(kuò)大。在上一輪測試中，它以30倍比6倍的成績擊敗了CPU的測試結(jié)果。另外，此次MLPerf Inference 0.7基準(zhǔn)測試中，新增了針對數(shù)據(jù)中心推理性能的推薦系統(tǒng)測試。在該測試中，A100所展現(xiàn)出的性能比最先進(jìn)的CPU高出237倍。

　　這意味著，一套DGX A100系統(tǒng)可以提供相當(dāng)于近1000臺雙插槽CPU服務(wù)器的性能，能為客戶AI推薦系統(tǒng)模型從研發(fā)走向生產(chǎn)的過程，提供極高的成本效益。

　　基準(zhǔn)測試結(jié)果顯示，NVIDIA T4 Tensor Core GPU仍然是主流企業(yè)、邊緣服務(wù)器和高成本效益云實例的可靠推理平臺。在同一測試中，NVIDIA T4 GPU的性能比CPU高出28倍。此外，NVIDIA Jetson AGX Xavier? 已成為基于Soc的邊緣設(shè)備中最強大的平臺。

　　這些結(jié)果離不開高度優(yōu)化的軟件堆棧，包括NVIDIA TensorRT? 推理優(yōu)化器和NVIDIA Triton? 推理服務(wù)軟件。這兩款軟件堆棧均可在NGC?（NVIDIA的軟件目錄）中獲取。

　　除NVIDIA提交的結(jié)果外，還有11家NVIDIA合作伙伴提交了基于NVIDIA GPU的1，029個測試結(jié)果，占數(shù)據(jù)中心和邊緣類別中參評測試結(jié)果總數(shù)的85％以上。

閱讀全文

NVIDIA(101461) NVIDIA(101461)
gpu(126255) gpu(126255)
數(shù)據(jù)中心(69334) 數(shù)據(jù)中心(69334)
AI(263628) AI(263628)
AI加速器(8545) AI加速器(8545)

英特爾FPGA 助力Microsoft Azure機(jī)器學(xué)習(xí)提供AI推理性能

Machine Learning SDK 相集成以供預(yù)覽?？蛻艨梢允褂?Azure 大規(guī)模部署的英特爾? FPGA（現(xiàn)場可編程邏輯門陣列）技術(shù)，為其模型提供行業(yè)領(lǐng)先的人工智能（AI） 推理性能。

2018-05-16 17:25:03

6184

NVIDIA擴(kuò)大AI推理性能領(lǐng)先優(yōu)勢，首次在Arm服務(wù)器上取得佳績

最新MLPerf基準(zhǔn)測試表明，NVIDIA已將其在AI推理性能和能效方面的高標(biāo)準(zhǔn)擴(kuò)展到Arm以及x86計算機(jī)。

2021-09-23 14:18:06

2518

MLPerf V2.0推理結(jié)果放榜，NVIDIA表現(xiàn)搶眼

不久前，AI性能基準(zhǔn)評測平臺MLPerf公布了2022年首次推理（Inference v2.0）測試成績，NVIDIA的AI平臺表現(xiàn)依然搶眼。

2022-04-15 22:12:00

2738

NVIDIA 如何應(yīng)對會話式AI帶來的推理挑戰(zhàn)？

NVIDIA Turing GPU和Xavier 芯片系統(tǒng)在首個獨立AI推理基準(zhǔn)測試 ——MLPerf Inference 0.5中取得第一名。

2019-11-08 16:53:29

5054

性能提升20倍！NVIDIA A100 GPU打破16項AI芯片性能記錄

年5月的行業(yè)基準(zhǔn)測試組織，致力于機(jī)器學(xué)習(xí)硬件、軟件和服務(wù)的訓(xùn)練和推理性能測試，囊括行業(yè)中幾乎所有知名企業(yè)和機(jī)構(gòu)，比如Intel、NVIDIA、Google、微軟、阿里巴巴等。 DGX Su

2020-07-31 08:03:00

5270

CEVA推出新型SensPro2系列高功效傳感器中樞DSP，AI推理能力提高兩倍

時間、麥克風(fēng)和慣性測量單元（IMU）的多種傳感器。SensPro2?系列建立在CEVA業(yè)界領(lǐng)先的傳感器中樞DSP領(lǐng)先地位上，在相同的工藝節(jié)點上，為計算機(jī)視覺提供了六倍DSP處理性能提升，為雷達(dá)處理提供了八倍DSP性能提升，并在AI推理性能方面提升了兩倍，其功率效率相比前代產(chǎn)品提高了20%。

2021-01-21 16:15:41

1050

NVIDIA Jetson介紹

首發(fā)極術(shù)社區(qū)如對Arm相關(guān)技術(shù)感興趣，歡迎私信 aijishu20加入技術(shù)微信群。分享內(nèi)容NVIDIA Jetson是嵌入式計算平臺，具有低功耗、高性能和小體積等特點，可加速各行業(yè)的AI應(yīng)用落地

2021-12-14 08:05:01

NVIDIA Jetson的相關(guān)資料分享

Jetson概述爆炸式增長的AI模型的復(fù)雜性專為自主機(jī)器開發(fā)人員設(shè)計的AI計算板加快AI處理的SDK“JetPack”概述NVIDIA Jetson是NVIDIA公司嵌入式單板計算機(jī)的一系列

2021-11-09 08:26:45

NVIDIA 在首個AI推理基準(zhǔn)測試中大放異彩

的BERT、GNMT 和Jasper 等AI模型開源優(yōu)化幫助開發(fā)者實現(xiàn)頂尖推理性能。NVIDIA的客戶和合作伙伴中包括有會話式AI領(lǐng)域的一流公司，比如Kensho、微軟、Nuance、Optum等。最后要

2019-11-08 19:44:51

Arm Neoverse V1的AWS Graviton3在深度學(xué)習(xí)推理工作負(fù)載方面的作用

類型在運行兩種常見的 FP32 ML 模型時的 ML 推理性能。我們將在以后的博客中介紹量化推理 (INT8) 的性能。工作負(fù)載[MLCommons]在其[MLPerf 推理基準(zhǔn)套件]中提供了代表性

2022-08-31 15:03:46

Dllite_micro （輕量級的 AI 推理框架）

DLLite-Micro 是一個輕量級的 AI 推理框架，可以為 OpenHarmony OS 的輕量設(shè)備和小型設(shè)備提供深度模型的推理能力DLLite-Micro 向開發(fā)者提供清晰、易上手的北向接口

2021-08-05 11:40:11

三星打破上網(wǎng)本既有模式性能尺寸接近傳統(tǒng)筆記本

三星打破上網(wǎng)本既有模式性能尺寸接近傳統(tǒng)筆記本CNET科技資訊網(wǎng)7月1日國際報道 Nvidia證實，三星將推出一款采用其Ion芯片組的上網(wǎng)本，打破這類產(chǎn)品既有的模式。 Nvidia筆記本電腦產(chǎn)品部門

2009-07-01 21:47:27

充分利用Arm NN進(jìn)行GPU推理

的是要知道它提供的選項來提高推理性能。作為開發(fā)人員，您會尋找可以壓縮的每一毫秒，尤其是在需要實現(xiàn)實時推理時。讓我們看一下Arm NN中可用的優(yōu)化選項之一，并通過一些實際示例評估它可能產(chǎn)生

2022-04-11 17:33:06

基于SRAM的方法可以加速AI推理

基于SRAM的方法可加速AI推理

2020-12-30 07:28:28

如何在RK3399上搭建Tengine AI推理框架呢

Tengine是什么？如何在RK3399這一 Arm64 平臺上搭建 Tengine AI 推理框架，并運行圖像識別相關(guān)應(yīng)用？

2022-03-07 07:53:43

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。將權(quán)重轉(zhuǎn)換為 ONNX 文件，然后轉(zhuǎn)換為中間表示（IR）。無法確定如何獲得更好的推理性能。

2023-08-15 06:58:00

嵌入式邊緣AI應(yīng)用開發(fā)指南

的參考。評估TI處理器模型性能的方式有兩種：TDA4VM入門套件評估模塊(EVM)或TI Edge AI Cloud，后者是一項免費在線服務(wù)，可支持遠(yuǎn)程訪問TDA4VM EVM，以評估深度學(xué)習(xí)推理性能。借助

2022-11-03 06:53:28

求助，為什么將不同的權(quán)重應(yīng)用于模型會影響推理性能？

生成兩個 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運行更多樣化的權(quán)重是否會影響 Myriad X 上的推理性能？

2023-08-15 07:00:25

深度剖析OpenHarmony AI調(diào)度管理與推理接口

1 簡介AI任務(wù)管理與統(tǒng)一的推理能力提供了接口的統(tǒng)一標(biāo)準(zhǔn)系統(tǒng)上CPU提供了AI任務(wù)調(diào)度管理的能力，對AI的能力進(jìn)行了開放的推理和推理，同時，提供了一個不同的生命周期框架層級的應(yīng)用程序。推理接口

2022-03-25 11:15:36

深度學(xué)習(xí)推理和計算-通用AI核心

，支持廣泛的應(yīng)用程序和動態(tài)工作負(fù)載。本文將討論這些行業(yè)挑戰(zhàn)可以在不同級別的硬件和軟件設(shè)計采用Xilinx VERSAL AI核心，業(yè)界首創(chuàng)自適應(yīng)計算加速平臺超越了CPU/GPU和FPGA的性能。

2020-11-01 09:28:57

一種大規(guī)模IP網(wǎng)絡(luò)多鏈路擁塞推理算法

基于最小集覆蓋理論的擁塞鏈路推理算法，僅對共享瓶頸鏈路進(jìn)行推理，當(dāng)擁塞路徑存在多條鏈路擁塞時，算法的推理性能急劇下降．針對該問題，提出一種基于貝葉斯最大后驗（Bayesian maxlmum

2017-12-27 10:35:00

貝葉斯IP網(wǎng)絡(luò)擁塞鏈路推理

針對CLINK算法在路由改變時擁塞鏈路推理性能下降的問題，建立一種變結(jié)構(gòu)離散動態(tài)貝葉斯網(wǎng)模型，通過引入馬爾可夫性及時齊性假設(shè)簡化該模型，并基于簡化模型提出一種IP網(wǎng)絡(luò)擁塞鏈路推理算法（VSDDB

2018-01-16 18:46:26

英特爾FPGA為人工智能(AI)提供推理性能

Azure Machine Learning SDK 相集成以供預(yù)覽?？蛻艨梢允褂?Azure 大規(guī)模部署的英特爾 FPGA（現(xiàn)場可編程邏輯門陣列）技術(shù)，為其模型提供行業(yè)領(lǐng)先的人工智能 (AI) 推理性能。 “作為一家整體技術(shù)提供商，我們通過與 Microsoft 密切合作為人工智能提供支持。

2018-05-20 00:10:00

2865

Xavier的硬件架構(gòu)特性！Xavier推理性能評測

Xavier主要用于邊緣計算的深度神經(jīng)網(wǎng)絡(luò)推理，其支持Caffe、Tensorflow、PyTorch等多種深度學(xué)習(xí)框架導(dǎo)出的模型。為進(jìn)一步提高計算效率，還可以使用TensorRT對訓(xùn)練好的模型利用

2019-04-17 16:55:40

17861

Nvidia打破實時對話AI的訓(xùn)練和推理用時記錄

Nvidia用于開發(fā)和運行可理解和響應(yīng)請求的對話式AI的GPU強化平臺，已經(jīng)達(dá)成了一些重要的里程碑，并打破了一些記錄。

2019-08-15 14:26:25

2278

NVIDIA在最新AI推理基準(zhǔn)測試中大獲成功

MLPerf Inference 0.5是業(yè)內(nèi)首個獨立AI推理基準(zhǔn)套件，其測試結(jié)果證明了NVIDIA Turing數(shù)據(jù)中心GPU以及 NVIDIA Xavier 邊緣計算芯片系統(tǒng)的性能。

2019-11-29 14:45:02

2696

世界上最復(fù)雜的AI芯片Colossus MK2或GC200 IPU？

Graphcore表示，MK2的BERT-Large訓(xùn)練性能比MK1改進(jìn)了9.3倍，BERT-3Layer推理性能提高了8.5倍，EfficientNet-B3培訓(xùn)的性能提高了7.4倍。

2020-07-20 14:58:00

3213

DeepCube宣布推出唯一基于軟件的推理加速器

DeepCube專注于深度學(xué)習(xí)技術(shù)的研發(fā)，這些技術(shù)可改善AI系統(tǒng)的實際部署。該公司的眾多專利創(chuàng)新包括更快，更準(zhǔn)確地訓(xùn)練深度學(xué)習(xí)模型的方法，以及在智能邊緣設(shè)備上大大提高的推理性能的方法。

2020-09-10 14:40:37

1878

利用NVIDIA模型分析儀最大限度地提高深度學(xué)習(xí)的推理性能

你已經(jīng)建立了你的深度學(xué)習(xí)推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。你如何進(jìn)一步加快你的模型的運行速度？進(jìn)入 NVIDIA模型分析器

2020-10-21 19:01:03

407

浪潮AI服務(wù)器NF5488A5一舉創(chuàng)造18項性能紀(jì)錄

美國東部時間10月21日，全球備受矚目的權(quán)威AI基準(zhǔn)測試MLPerf公布今年的推理測試榜單，浪潮AI服務(wù)器NF5488A5一舉創(chuàng)造18項性能紀(jì)錄，在數(shù)據(jù)中心AI推理性能上遙遙領(lǐng)先其他廠商產(chǎn)品

2020-10-23 16:59:44

1615

NVIDIA A100 GPU推理性能237倍碾壓CPU

）的12個提交者增加了近一倍。結(jié)果顯示，今年5月NVIDIA（Nvidia）發(fā)布的安培（Ampere）架構(gòu)A100 Tensor Core GPU，在云端推理的基準(zhǔn)測試性能是最先進(jìn)Intel CPU

2020-10-23 17:40:02

3929

浪潮AI服務(wù)器，屠榜刷新全球18項性能測試記錄

美國東部時間10月21日，全球倍受矚目的權(quán)威AI基準(zhǔn)測試MLPerf公布今年的推理測試榜單，浪潮AI服務(wù)器NF5488A5一舉創(chuàng)造18項性能記錄，在數(shù)據(jù)中心AI推理性能上遙遙領(lǐng)先其他廠商產(chǎn)品。

2020-10-26 16:30:44

1709

浪潮AI服務(wù)器NF5488A5的實測數(shù)據(jù)分享，單機(jī)最大推理路數(shù)提升88%

近日，在GTC China元腦生態(tài)技術(shù)論壇上，中科極限元、趨動科技、睿沿科技等元腦生態(tài)伙伴分享了多個場景下浪潮AI服務(wù)器NF5488A5的實測數(shù)據(jù)，結(jié)果表明浪潮NF5488A5大幅提升了智能語音、圖像識別等AI模型的訓(xùn)練和推理性能，促進(jìn)了產(chǎn)業(yè)AI解決方案的開發(fā)與應(yīng)用。

2020-12-24 15:25:01

2123

NVIDIA預(yù)訓(xùn)練模型和遷移學(xué)習(xí)工具包3.0助力快速實現(xiàn)生產(chǎn)級AI

一個支持邊緣實時推理的姿態(tài)估計模型，其推理性能比OpenPose模型快9倍。

2021-06-25 11:55:52

1450

NVIDIA在推理方面取得突破，從云端到邊緣實現(xiàn)更智能、更具互動性的對話式AI

NVIDIA于今日發(fā)布公司第八代AI軟件TensorRT? 8。該軟件將語言查詢推理時間縮短了一半，使開發(fā)者能夠從云端到邊緣構(gòu)建全球最佳性能的搜索引擎、廣告推薦和聊天機(jī)器人。

2021-07-21 15:07:57

3208

阿里云震旦異構(gòu)計算加速平臺基于NVIDIA Tensor Core GPU

。并基于8張NVIDIA A100 GPU和開放規(guī)則，以離線場景下每秒處理107.8萬張圖片的成績，打破MLPerf 1.0推理性能測試紀(jì)錄。阿里云自研震旦異構(gòu)計算加速平臺，適配GPU、ASIC等多種異構(gòu)

2021-08-13 10:17:29

3119

NVIDIA GPU助力提升模型訓(xùn)練和推理性價比

，其中的模型數(shù)量達(dá)數(shù)千個，日均調(diào)用服務(wù)達(dá)到千億級別。無量推薦系統(tǒng)，在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計算，是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計。傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn) 傳統(tǒng)推薦系統(tǒng)具有以下特點：訓(xùn)練是基于參數(shù)

2021-08-23 17:09:03

4486

NVIDIA發(fā)布Triton 推理服務(wù)器重大更新，全球超過25000余家公司部署NVIDIA AI推理平臺

NVIDIA 認(rèn)證系統(tǒng)可以幫助客戶在高性能、經(jīng)濟(jì)高效且可擴(kuò)展的基礎(chǔ)設(shè)施上為各種現(xiàn)代 AI 應(yīng)用識別、獲取和部署系統(tǒng)，該認(rèn)證系統(tǒng)現(xiàn)在包含兩個新的邊緣AI類別。

2021-11-10 14:27:21

1216

NVIDIA宣布其AI推理平臺的重大更新

軟件的新功能，該軟件為所有AI模型和框架提供跨平臺推理；同時也包含對NVIDIA TensorRT的更新，該軟件優(yōu)化AI模型并為NVIDIA GPU上的高性能推理提供運行時優(yōu)化。 NVIDIA還推出了NVIDIA A2 Tensor Core GPU，這是一款用于邊

2021-11-12 14:42:53

1684

深度學(xué)習(xí)工程之道|MegEngine推理性能優(yōu)化技術(shù)綜述，CPU上極限加速

MegEngine「訓(xùn)練推理一體化」的獨特范式，通過靜態(tài)圖優(yōu)化保證模型精度與訓(xùn)練時一致，無縫導(dǎo)入推理側(cè)，再借助工業(yè)驗證的高效卷積優(yōu)化技術(shù)...

2022-02-07 10:59:49

NVIDIA發(fā)布最新Orin芯片提升邊緣AI標(biāo)桿

在首次參加行業(yè) MLPerf 基準(zhǔn)測試時，基于 NVIDIA Ampere 架構(gòu)的低功耗系統(tǒng)級芯片 NVIDIA Orin 就創(chuàng)造了新的AI推理性能紀(jì)錄，并在邊緣提升每個加速器的性能。

2022-04-08 10:14:44

4200

NVIDIA推理平臺和全棧方法提供最佳性能

現(xiàn)在，您和開發(fā)人員社區(qū)的其他成員都可以使用這些成果，主要是以開源軟件的形式。此外， TensorRT 和 Triton 推理服務(wù)器可從?NVIDIA NGC?免費獲得，以及預(yù)訓(xùn)練模型、深度學(xué)習(xí)框架

2022-04-08 16:31:31

931

NVIDIA TensorRT助力打造AI計算機(jī)視覺算法推理平臺

“在使用 NVIDIA TensorRT和NVIDIA T4 GPU對平臺賦能后，“極星”推理平臺的算法推理效率得到了進(jìn)一步的提升，更好地支持速接入各類算法、數(shù)據(jù)及智能設(shè)備，實現(xiàn)AI自閉環(huán)能力，并通過應(yīng)用服務(wù)和標(biāo)準(zhǔn)化接口，幫助終端客戶低成本實現(xiàn)AI與業(yè)務(wù)的結(jié)合，快速構(gòu)建智能應(yīng)用。

2022-04-13 14:49:19

862

使用NVIDIA Triton推理服務(wù)器簡化邊緣AI模型部署

　　NVIDIA Triton 有助于在每個數(shù)據(jù)中心、云和嵌入式設(shè)備中實現(xiàn)標(biāo)準(zhǔn)化的可擴(kuò)展生產(chǎn) AI 。它支持多個框架，在 GPU 和 DLA 等多個計算引擎上運行模型，處理不同類型的推理查詢。通過與 NVIDIA JetPack 的集成， NVIDIA Triton 可用于嵌入式應(yīng)用。

2022-04-18 15:40:02

2306

NVIDIA助力騰訊AI LAB打造一體AI生態(tài)

　　在虛擬人項目中，NVIDIA CUDA技術(shù)大幅提升了渲染速度，NVIDIA TensorRT 方便快速地加速深度學(xué)習(xí)模型的推理，結(jié)合MPS技術(shù)，實現(xiàn)了單卡多路推流，使整體推理效率達(dá)到了原來的三倍！性能的大幅提升，既提升了GPU的利用率，又降低了AI技術(shù)的使用成本。

2022-04-21 10:50:24

751

NVIDIA自動駕駛網(wǎng)絡(luò)會議將6月9日舉辦

NVIDIA DRIVE Orin 現(xiàn)已投產(chǎn)，可在深度神經(jīng)網(wǎng)絡(luò)推理性能方面實現(xiàn)重大飛躍。6 月 9 日，NVIDIA 將舉辦一場網(wǎng)絡(luò)會議，介紹 DNN 架構(gòu)設(shè)計以及 NVIDIA TensorRT 的范圍，旨在為生產(chǎn)提供經(jīng)過優(yōu)化的推理引擎。

2022-05-21 10:24:05

1154

如何在OpenVINO 開發(fā)套件中“無縫”部署PaddlePaddle BERT模型

OpenVINO 開發(fā)套件是Intel平臺原生的深度學(xué)習(xí)推理框架，自2018年推出以來，Intel已經(jīng)幫助數(shù)十萬開發(fā)者大幅提升了AI推理性能，并將其應(yīng)用從邊緣計算擴(kuò)展到企業(yè)和客戶端。

2022-06-24 11:05:30

1153

MLPerf是邊緣AI推理的新行業(yè)基準(zhǔn)

　　最新的 AI 推理基準(zhǔn)顯然具有重要意義，因為它是目前可用的最接近真實世界 AI 推理性能的衡量標(biāo)準(zhǔn)。但隨著它的成熟和吸引更多的提交，它也將成為成功部署技術(shù)堆棧的晴雨表和新實施的試驗場。

2022-07-08 15:37:55

1246

英特爾四大層面，提升DeepRec訓(xùn)練和推理能力

DeepRec 集成了英特爾開源的跨平臺深度學(xué)習(xí)性能加速庫oneDNN (oneAPI Deep Neural Network Library)，該程序庫已經(jīng)針對大量主流算子實現(xiàn)了性能優(yōu)化。與搭載 BF16 指令的第三代英特爾至強可擴(kuò)展處理器同時使用，可顯著提高模型訓(xùn)練和推理性能。

2022-07-10 10:56:19

864

用于深度學(xué)習(xí)推理的高性能工具包

　　綜上所述，這個新版本的 OpenVINO 工具包提供了許多好處，不僅優(yōu)化了用戶部署應(yīng)用程序的體驗，還增強了性能參數(shù)。它使用戶能夠開發(fā)具有易于部署、更多深度學(xué)習(xí)模型、更多設(shè)備可移植性和更高推理性能且代碼更改更少的應(yīng)用程序。

2022-07-12 10:08:57

864

騰訊云與NVIDIA仍持續(xù)為AI推理加速進(jìn)行合作

Kit 不僅大大提升了 GPU 集群上多機(jī)多卡分布式訓(xùn)練的效率，對于 GPU 上的模型推理也通過集成 NVIDIA TensorRT 帶來了顯著加速。雙方團(tuán)隊就 GPU 推理加速這一話題將進(jìn)行持續(xù)深入的合作，推出定制化的優(yōu)化方案，為業(yè)界客戶帶來顯著的性能收益。

2022-08-31 09:24:07

1235

騰訊云TI平臺利用NVIDIA Triton推理服務(wù)器構(gòu)造不同AI應(yīng)用場景需求

騰訊云 TI 平臺 TI-ONE 利用 NVIDIA Triton 推理服務(wù)器構(gòu)造高性能推理服務(wù)部署平臺，使用戶能夠非常便捷地部署包括 TNN 模型在內(nèi)的多種深度學(xué)習(xí)框架下獲得的 AI 模型，并且顯著提升推理服務(wù)的吞吐、提升 GPU 利用率。

2022-09-05 15:33:01

1419

螞蟻鏈AIoT團(tuán)隊與NVIDIA合作加速AI推理

螞蟻鏈 AIoT 團(tuán)隊與 NVIDIA 合作，將量化感知訓(xùn)練(QAT)技術(shù)應(yīng)用于深度學(xué)習(xí)模型性能優(yōu)化中，并通過 NVIDIA TensorRT 高性能推理 SDK 進(jìn)行高效率部署，通過 INT8 推理，吞吐量提升了 3 倍，助力螞蟻鏈版權(quán) AI 平臺中的模型推理服務(wù)大幅降本增效。

2022-09-09 09:53:52

872

NVIDIA 發(fā)布AI 驅(qū)動的性能倍增器NVIDIA DLSS 3

NVIDIA 發(fā)布 NVIDIA DLSS 3--一款由 AI 驅(qū)動的性能倍增器，開啟 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染游戲和應(yīng)用的新時代。

2022-09-22 10:36:12

880

在Azure機(jī)器學(xué)習(xí)上提高人工智能模型推理性能

每個 AI 應(yīng)用程序都需要強大的推理引擎。無論您是部署圖像識別服務(wù)、智能虛擬助理還是欺詐檢測應(yīng)用程序，可靠的推理服務(wù)器都能提供快速、準(zhǔn)確和可擴(kuò)展的預(yù)測，具有低延遲（對單個查詢的響應(yīng)時間較短）和高吞吐量（在給定時間間隔內(nèi)處理大量查詢）。然而，檢查所有這些方框可能很難實現(xiàn)，而且成本高昂。

2022-10-11 09:49:22

790

使用GPUNet在NVIDIA GPU上擊敗SOTA推理性能

高效的體系結(jié)構(gòu)搜索和部署就緒模型是 NAS 設(shè)計方法的關(guān)鍵目標(biāo)。這意味著幾乎不與領(lǐng)域?qū)＜疫M(jìn)行交互，并且有效地使用集群節(jié)點來培訓(xùn)潛在的架構(gòu)候選。最重要的是，生成的模型已準(zhǔn)備好部署。

2022-10-11 10:14:43

677

通過稀疏性支持和變壓器優(yōu)化增強AI推理

　　NVIDIA 張量RT 是一個高性能推理平臺，對于利用 NVIDIA 張量核心 GPU 的強大功能至關(guān)重要。TensorRT 8 是一個具有增強功能的軟件開發(fā)工具包，旨在提高性能和準(zhǔn)確性，以應(yīng)對邊緣和嵌入式設(shè)備中發(fā)生的越來越多的 AI 推理。它允許對張量流和PyTorch神經(jīng)網(wǎng)絡(luò)進(jìn)行廣泛的計算推斷。

2022-10-18 09:32:46

390

NVIDIA Triton推理服務(wù)器的基本特性及應(yīng)用案例

推理識別是人工智能最重要的落地應(yīng)用，其他與深度學(xué)習(xí)相關(guān)的數(shù)據(jù)收集、標(biāo)注、模型訓(xùn)練等工作，都是為了得到更好的最終推理性能與效果。

2022-10-26 09:43:57

1370

低門檻AI部署工具FastDeploy開源！

為了解決AI部署落地難題，我們發(fā)起了FastDeploy項目。FastDeploy針對產(chǎn)業(yè)落地場景中的重要AI模型，將模型API標(biāo)準(zhǔn)化，提供下載即可運行的Demo示例。相比傳統(tǒng)推理引擎，做到端到端的推理性能優(yōu)化。

2022-11-08 14:28:12

1576

三行代碼完成AI模型的部署！

為了解決AI部署落地難題，我們發(fā)起了FastDeploy項目。FastDeploy針對產(chǎn)業(yè)落地場景中的重要AI模型，將模型API標(biāo)準(zhǔn)化，提供下載即可運行的Demo示例。相比傳統(tǒng)推理引擎，做到端到端的推理性能優(yōu)化。FastDeploy還支持在線（服務(wù)化部署）和離線部署形態(tài)，滿足不同開發(fā)者的部署需求。

2022-11-10 10:18:32

909

MLPerf世界紀(jì)錄技術(shù)分享：優(yōu)化卷積合并算法提升Resnet50推理性能

（3D-UNet）、目標(biāo)物體檢測（SSD-ResNet34）、語音識別（RNN-T）、自然語言理解（BERT）以及智能推薦（DLRM）。在MLPerf V2.0推理競賽中，浪潮AI服務(wù)器基于ImageNet數(shù)據(jù)集在離線場景中運行Resnet50，達(dá)到了449,856 samples/s的計算性能，位居世界第一。

2022-11-10 14:43:40

1197

OneFlow 將 Stable Diffusion的推理性能推向了一個全新的SOTA

起初，AI 作圖需要幾天，再縮減到幾十分鐘，再到幾分鐘，出圖時間在不斷加速，問題是，究竟快到什么程度，才會在專業(yè)的美術(shù)從業(yè)者甚至普通大眾之間普及開來？

2022-11-30 10:03:57

704

在 NGC 上玩轉(zhuǎn)新一代推理部署工具 FastDeploy，幾行代碼搞定 AI 部署

模型，并提供開箱即用的云邊端部署體驗，實現(xiàn) AI 模型端到端的推理性能優(yōu)化。歡迎廣大開發(fā)者使用 NVIDIA 與飛槳聯(lián)合深度適配的 NGC 飛槳容器，在 NVIDIA GPU 上進(jìn)

2022-12-13 19:50:05

909

如何最大化推理性能？Triton 社區(qū)技術(shù)交流活動與您暢聊

、NVIDIA 的技術(shù)專家將帶來 AI Infra 、推理引擎相關(guān)的專題分享，包括目前各企業(yè)面臨的模型推理挑戰(zhàn)、Triton 的應(yīng)用及落地的具體方案等，現(xiàn)身說法，干貨十足。此外，還有來自

2023-02-15 16:10:05

207

寧暢率先支持NVIDIA L4 和 L40 GPU

了基于L4和L40的NVIDIA推理平臺，得益于對全新FP8 精度的支持，其可提供高達(dá)4倍的性能提升，將視頻和圖形處理性能也提升了4倍。NVIDIA L4 Tensor Core G

2023-03-22 14:27:49

525

NVIDIA推出用于大型語言模型和生成式AI工作負(fù)載的推理平臺

日 – NVIDIA于今日推出四款推理平臺。這些平臺針對各種快速興起的生成式AI應(yīng)用進(jìn)行了優(yōu)化，能夠幫助開發(fā)人員快速構(gòu)建用于提供新服務(wù)和洞察的AI驅(qū)動的專業(yè)應(yīng)用。 ? 這些平臺將NVIDIA的全棧推理

2023-03-22 14:48:39

256

GTC23 | NVIDIA 推出用于大型語言模型和生成式 AI 工作負(fù)載的推理平臺

日 – NVIDIA 于今日推出四款推理平臺。這些平臺針對各種快速興起的生成式 AI 應(yīng)用進(jìn)行了優(yōu)化，能夠幫助開發(fā)人員快速構(gòu)建用于提供新服務(wù)和洞察的 AI 驅(qū)動的專業(yè)應(yīng)用。這些平臺將 NVIDIA

2023-03-23 06:55:02

654

NVIDIA 在 MLPerf 測試中將推理帶到新高度

的第三方基準(zhǔn)測試，MLPerf 仍是衡量 AI 性能的權(quán)威標(biāo)準(zhǔn)。自 MLPerf 誕生以來，NVIDIA 的 AI 平臺在訓(xùn)練和推理這兩個方面一直展現(xiàn)出領(lǐng)先優(yōu)勢，包括最新發(fā)布的 MLPerf

2023-04-08 00:30:08

389

攜程攜手英特爾優(yōu)化AI推理性能，提升性能的同時降低TCO

的多元化，給人工智能（AI）技術(shù)在旅游行業(yè)的應(yīng)用帶來更多機(jī)遇和挑戰(zhàn)。例如自然語言處理（NLP）、機(jī)器翻譯、計算機(jī)視覺、搜索排序等 AI 技術(shù)的快速發(fā)展和日臻成熟，可以為游客提供更便捷的服務(wù)和更精準(zhǔn)的內(nèi)容。作為一站式旅行平臺，攜程旅行已經(jīng)將諸多AI 技術(shù)應(yīng)用

2023-06-09 20:30:02

333

192個自研核心，AmpereOne的絕對性能壓制

AI推理性能對比 / Ampere 從性能對比上，我們可以看出AmpereOne在AI推理負(fù)載上的領(lǐng)先，比如在生成式AI和推薦算法上，AmpereOne的單機(jī)架性能是AMD EYPC 9654 Genoa的兩倍或以上，但兩者卻有著近乎相同的系統(tǒng)功耗，AmpereOne的優(yōu)勢在此展現(xiàn)得一覽無余。

2023-06-13 15:03:51

789

研揚BOXER-8640AI –全能AI解決方案

1792個CUDA和56個Tensor內(nèi)核，使其算力能夠達(dá)到200TOPS。這使得BOXER-8640AI能夠同時在多個視頻流中利用顛覆性的轉(zhuǎn)換推理性能。研揚專業(yè)設(shè)計

2023-03-15 14:26:20

426

如何使用NVIDIA Triton 推理服務(wù)器來運行推理管道

使用集成模型在 NVIDIA Triton 推理服務(wù)器上為 ML 模型管道提供服務(wù)

2023-07-05 16:30:34

1082

英特爾? AMX 加速AI推理性能，助阿里電商推薦系統(tǒng)成功應(yīng)對峰值負(fù)載壓力

達(dá)沃斯論壇｜英特爾王銳：AI驅(qū)動工業(yè)元宇宙，釋放數(shù)實融合無窮潛力英特爾研究院發(fā)布全新AI擴(kuò)散模型，可根據(jù)文本提示生成360度全景圖英特爾內(nèi)部代工模式的最新進(jìn)展原文標(biāo)題：英特爾? AMX 加速AI推理性能，助阿里電商推薦系統(tǒng)成功應(yīng)對峰值負(fù)載

2023-07-08 14:15:03

294

英特爾? AMX 助力百度ERNIE-Tiny AI推理性能提升2.66倍，盡釋AI加速潛能

科技賦能千行百業(yè) 人民網(wǎng)攜手英特爾啟動“數(shù)智加速度”計劃 WAIC 2023：英特爾以技術(shù)之力推動邊緣人工智能發(fā)展，打造數(shù)字化未來“芯”時代英特爾 AMX 加速AI推理性能，助阿里電商推薦系統(tǒng)成功應(yīng)對峰值負(fù)載壓力原文標(biāo)題：英特爾? AMX 助力百度ERNIE-T

2023-07-14 20:10:05

245

新的 MLPerf 推理網(wǎng)絡(luò)部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡(luò)和 GPUDirect RDMA 的強大能力

中，網(wǎng)絡(luò)軟、硬件對于端到端推理性能的影響。在網(wǎng)絡(luò)評測中，有兩類節(jié)點：前端節(jié)點生成查詢，這些查詢通過業(yè)界標(biāo)準(zhǔn)的網(wǎng)絡(luò)（如以太網(wǎng)或 InfiniBand 網(wǎng)絡(luò)）發(fā)送到加速節(jié)點，由加速器節(jié)點進(jìn)行處理和執(zhí)行推理。圖 1：單節(jié)點封閉測試環(huán)境與多節(jié)點網(wǎng)絡(luò)測試環(huán)境圖 1 顯示了在單個節(jié)點上運行的封閉測試環(huán)

2023-07-19 19:10:03

603

第四代英特爾? 至強? 可擴(kuò)展處理器助東華發(fā)思特“神農(nóng) AI 中臺”推理性能提升4.5倍

工智能市場規(guī)模在 2023 年將超過 147 億美元，到 2026年將超過 264 億美元 1 。在端到端的 AI 整體應(yīng)用流程中，AI 推理是其中的關(guān)鍵環(huán)節(jié)。在 AI 推理的算力設(shè)備選擇方面，CPU 服務(wù)器具備更強的靈活性、敏捷性，能夠支持大數(shù)據(jù)、云計算、虛擬化等多種業(yè)務(wù)的彈

2023-07-28 19:45:06

470

百度商業(yè) AI 技術(shù)創(chuàng)新大賽圓滿落幕，NVIDIA 特設(shè)女性專屬獎項為技術(shù)創(chuàng)新添彩！

商業(yè) AI 技術(shù)創(chuàng)新大賽在北京百度科技園圓滿落幕，來自各大高校的 12 支技術(shù)團(tuán)隊，分別在“商業(yè)轉(zhuǎn)化行為預(yù)測”、“AIGC 推理性能優(yōu)化”兩大賽道取得了豐碩的創(chuàng)新成果。 NVIDIA 全球副總裁劉念寧、百度集團(tuán)副總裁，移動生態(tài)商業(yè)體系負(fù)責(zé)人王鳳陽、NVIDIA 中國區(qū)工程和

2023-08-21 21:05:02

388

生成式AI時代要來了嗎 NVIDIA生成式AI獲新突破

這些性能強大的新系統(tǒng)將利用 NVIDIA Omniverse 平臺加速高計算密集度的復(fù)雜應(yīng)用，包括 AI 訓(xùn)練和推理、3D 設(shè)計和可視化、視頻處理、工業(yè)數(shù)字化等。

2023-08-23 14:20:18

224

升騰910和含光800性能對比昇騰910和含光800性能對比

是高性能的AI推理芯片。該芯片推理性能達(dá)到78563 IPS，能效比500 IPS/W。含光800AI芯片基于RISC-V和阿里自有算法，含光800芯片性能的突破得益于軟硬件的協(xié)同創(chuàng)新：硬件層面采用自研芯片架構(gòu)，通過推理加速等技術(shù)有效解決芯片性能瓶頸問題；軟件層面集成了達(dá)摩院先進(jìn)算法，針對CNN及視

2023-08-31 17:31:24

1805

NVIDIA Grace Hopper 超級芯片橫掃 MLPerf 推理基準(zhǔn)測試

從云端到網(wǎng)絡(luò)邊緣，NVIDIA GH200、H100 和 L4 GPU 以及 Jetson Orin 模組在運行生產(chǎn)級 AI 時均展現(xiàn)出卓越性能。 NVIDIA GH200 Grace Hopper

2023-09-12 20:40:04

249

NVIDIA Grace Hopper超級芯片橫掃M(jìn)LPerf推理基準(zhǔn)測試

從云端到網(wǎng)絡(luò)邊緣，NVIDIA GH200、H100和L4 GPU以及Jetson Orin模組在運行生產(chǎn)級 AI 時均展現(xiàn)出卓越性能。 ? ? ? NVIDIA GH200 Grace

2023-09-13 09:45:40

139

昇騰910和含光800性能對比

的AI推理芯片。該芯片推理性能達(dá)到78563 IPS，能效比500 IPS/W。含光800AI芯片基于RISC-V和阿里自有算法，含光800芯片性能的突破得益于軟硬件的協(xié)同創(chuàng)新：硬件層面采用自研芯片架構(gòu)，通過推理加速等技術(shù)有效解決芯片性能瓶頸問題；軟件層面集成了達(dá)摩院先進(jìn)算法，針對CNN及視覺類算法

2023-10-16 17:29:42

1021

Nvidia 通過開源庫提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫，將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。正如對相同硬件一輪又一輪改進(jìn)

2023-10-23 16:10:19

284

周四研討會預(yù)告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會，將幫助您了解 NVIDIA 開源大型語言模型（LLM）推理加速庫 TensorRT-LLM ?及其功能

2023-10-26 09:05:02

174

現(xiàn)已公開發(fā)布！歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型（Large Language Models）的推理性能

2023-10-27 20:05:02

478

利用 NVIDIA Jetson 實現(xiàn)生成式 AI

上以交互速率運行的 Llama-2-70B 模型。圖 1. 領(lǐng)先的生成式 AI 模型在? Jetson AGX Orin 上的推理性能 如要在 Jetson 上快速測試最新的模型和應(yīng)用，請使用 Jetson 生成式 AI 實驗室提供的教程和資源。

2023-11-07 21:25:01

398

點亮未來：TensorRT-LLM 更新加速 AI 推理性能，支持在 RTX 驅(qū)動的 Windows PC 上運行新模型

的 Windows PC 和工作站提高生產(chǎn)力帶來前所未有的機(jī)會。NVIDIA RTX 技術(shù)使開發(fā)者更輕松地創(chuàng)建 AI 應(yīng)用，從而改變?nèi)藗兪褂糜嬎銠C(jī)的方式。在微軟 Ignite 2023 技術(shù)大會上發(fā)布的

2023-11-16 21:15:03

408

Google的第五代TPU，推理性能提升2.5倍

　Gridspace 機(jī)器學(xué)習(xí)主管Wonkyum Lee表示：“我們的速度基準(zhǔn)測試表明，在 Google Cloud TPU v5e 上訓(xùn)練和運行時，AI 模型的速度提高了 5 倍。我們還看到推理

2023-11-24 10:27:30

206

用上這個工具包，大模型推理性能加速達(dá)40倍

作者：英特爾公司沈海豪、羅嶼、孟恒宇、董波、林俊編者按：只需不到9行代碼，就能在CPU上實現(xiàn)出色的LLM推理性能。英特爾 ?Extension for Transformer 創(chuàng)新

2023-12-01 20:40:03

552

英特爾發(fā)布第五代至強可擴(kuò)展處理器：性能和能效大幅提升，AI 加速

此外，至強可擴(kuò)展處理器被譽為行業(yè)首屈一指的內(nèi)置AI加速器數(shù)據(jù)中心處理器，全新第五代產(chǎn)品更能優(yōu)化參數(shù)量高達(dá)200億的大型語言模型，使其推理性能提升42％。眼下，它還是唯一歷次刷新MLPerf訓(xùn)練及推理基準(zhǔn)測試表現(xiàn)記錄并持續(xù)進(jìn)步的CPU。

2023-12-15 11:02:55

437

CPU也可以完美運行大模型英特爾第五代至強重磅發(fā)布

處理器,它來了! 若是用一句話來概括它的特點,那就是——AI味道越發(fā)得濃厚。以訓(xùn)練、推理大模型為例: ? ? ? ? ? ? 與第四代相比,訓(xùn)練性能提升多達(dá)29%,推理性能提升高達(dá)42%; ? ? ? ? ? ? 與第三代相比,AI訓(xùn)練和推理性能提升高達(dá)14倍。什么概念? 現(xiàn)在若

2023-12-22 11:52:06

338