0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA A100 GPU推理性能237倍碾壓CPU

工程師鄧生 ? 來源:雷鋒網(wǎng) ? 作者:包永剛 ? 2020-10-23 17:40 ? 次閱讀

MLPerf組織今天發(fā)布最新的推理基準測試(Benchmark)MLPerf Inference v0.7結(jié)果,總共有23個組織提交了結(jié)果,相比上一個版本(MLPerf Inference v0.5)的12個提交者增加了近一倍。

結(jié)果顯示,今年5月NVIDIA(Nvidia)發(fā)布的安培(Ampere)架構(gòu)A100 Tensor Core GPU,在云端推理的基準測試性能是最先進Intel CPU的237倍。

MLPerf Inference V0.7部分結(jié)果截圖

最新的AI推理測試結(jié)果意味著,NVIDIA未來可能在AI推理和訓(xùn)練市場都占據(jù)領(lǐng)導(dǎo)地位,給云端AI推理市場擁有優(yōu)勢的Intel帶來更大壓力的同時,也將讓其他追趕者面臨更大挑戰(zhàn)。

MLPerf推理基準測試進一步完善的價值

與2019年的MLPerf Inference v0.5版本相比,最新的0.7版本將測試從AI研究的核心視覺和語言的5項測試,擴展了到了包括推薦系統(tǒng)、自然語言理解、語音識別和醫(yī)療影像應(yīng)用的6項測試,并且有分別針對云端和終端推理的測試,還加入了手機和筆記本電腦的結(jié)果。

擴展的測試項從MLPerf和業(yè)界兩個角度都有積極意義。

MLPerf Inference v0.5測試項

MLPerf Inference v0.7數(shù)據(jù)中心測試項

MLPerf Inference v0.7邊緣端測試項

任何一個基準測試都需要給業(yè)界具有參考價值的指標(biāo)。MLPerf基準測試是在業(yè)界缺乏對AI芯片公認的評價標(biāo)準的2018年誕生,因此,MLPerf組織既需要給出各方都認可的成績,還需要根據(jù)AI行業(yè)的發(fā)展完善評價標(biāo)準。

不過,AI行業(yè)發(fā)展迅速,AI模型的參數(shù)越來越多,應(yīng)用的場景也越來越廣泛。評價AI芯片和系統(tǒng)的推理性能需要涵蓋可編程性、延遲、準確性、模型大小、吞吐量、能效等指標(biāo),也需要選擇更具指導(dǎo)價值的模型和應(yīng)用。

此次增加的推薦系統(tǒng)測試對于互聯(lián)網(wǎng)公司意義重大。在王喆的《深度學(xué)習(xí)推薦系統(tǒng)》一書中提到,2019年天貓“雙11”的成交額是2684億元,假設(shè)推薦系統(tǒng)進行了優(yōu)化,整體的轉(zhuǎn)化率提高1%,那么增加的成交額大約為26.84億元。

另外,MLPerf Inference v0.7中增加醫(yī)療影像3D U-Net模型測試與新冠大流行以及AI在醫(yī)療行業(yè)的重要性與日俱增密切相關(guān),比如一家初創(chuàng)公司使用AI簡化了超聲心電圖的采集工作,在新冠大流行初期發(fā)揮了作用。

基準測試從v0.5到v0.7,能夠為要選用AI芯片和系統(tǒng)的公司提供更直觀和有價值的參考是MLPerf基準測試的價值所在,比如,幫助金融結(jié)構(gòu)的會話式AI更快速回答客戶問題,幫助零售商使用AI保證貨架庫存充足。

與此同時,這也將促進MLPerf組織在業(yè)界的受認可程度,從接近翻倍的提交成績的組織就能看出來。

GPU云端推理性能最高是CPU的237倍

過去幾年,云端AI訓(xùn)練市場NVIDIA擁有絕對優(yōu)勢,云端AI推理市場被Intel賺取了大部分利潤是事實。這讓不少人都產(chǎn)生了GPU更適合訓(xùn)練而CPU更適合推理的認知,但MLPerf最新的推理測試結(jié)果可能會改變這一觀點。

MLPerf Inference V0.7的測試結(jié)果顯示,在數(shù)據(jù)中心OFFLINE(離線)測試模式下,賽靈思U250和IntelCooper Lake在各個測試模型下與NVIDIAT4的差距不大,但A100對比CPU、FPGA和自家的T4就有明顯的性能差距。

在SERVER模式下的推薦系統(tǒng)DLRM模型下,A100 GPU對比IntelCooper Lake有最高237倍的性能差距,在其他模型下也有比較顯著的差距。值得注意的是,Intel的Cooper Lake系統(tǒng)的狀態(tài)還是預(yù)覽,其余三款芯片的系統(tǒng)都已經(jīng)可用。

A100 GPU的優(yōu)勢也在邊緣推理中也十分明顯。在單數(shù)據(jù)流(Singel-Stream)測試中,A100對比NVIDIAT4和面向邊緣終端的NVIDIAJetson AGX Xavier有幾倍到十幾倍的性能優(yōu)勢。在多數(shù)據(jù)流(Multi-Stream)測試中,A100對比另外兩款自家產(chǎn)品在不同AI模型中有幾倍到二十多倍的性能優(yōu)勢。

在邊緣OFFLINE模式下,A100對比T4和Jetson AGX Xavier也有幾倍到二十多倍的性能優(yōu)勢。

這很好地說明A100的安培架構(gòu)以及其第三代Tensor Core優(yōu)勢的同時,也表明了NVIDIA能夠覆蓋整個AI推理市場。

在此次提交結(jié)果的23家公司中,除了NVIDIA外還有11家其合作伙伴提交了基于NVIDIA GPU的1029個測試結(jié)果,占數(shù)據(jù)中心和邊緣類別中參評測試結(jié)果總數(shù)的85%以上。

從提交結(jié)果的合作伙伴的系統(tǒng)中可以看到,NVIDIAT4仍然是企業(yè)的邊緣服務(wù)器推理平臺的主要選擇。A100提升到新高度的性能意味著未來企業(yè)邊緣服務(wù)器在選擇AI推理平臺的時候,可以從T4升級到A100,對于功耗受限的設(shè)備,可以選擇Jeston系列產(chǎn)品。

特別值得注意的是,NVIDIA GPU首次在公有云中實現(xiàn)了超越CPU的AI推理能力。

臨界點到來?AI推理芯片市場競爭門檻更高

五年前,只有少數(shù)領(lǐng)先的高科技公司使用GPU進行推理。如今,NVIDIAGPU首次在公有云市場實現(xiàn)超越CPU的AI推理能力,或許意味著AI推理市場臨界點的到來。NVIDIA還預(yù)測,基于其GPU的總體云端AI推理計算能力每兩年增長約10倍,增長速度高于CPU。

另外,NVIDIA還強調(diào)基于A100高性能系統(tǒng)的成本效益。NVIDIA表示,一套DGX A100系統(tǒng)可以提供相當(dāng)于近1000臺雙插槽CPU服務(wù)器的性能,能為客戶AI推薦系統(tǒng)模型從研發(fā)走向生產(chǎn)的過程,具有極高的成本效益。

同時,NVIDIA也在不斷優(yōu)化推理軟件堆棧,進一步提升在推理市場的競爭力。

最先感受到影響的會是Intel,但在云端AI推理市場體現(xiàn)出顯著變化至少需要幾年時間,因為企業(yè)在更換平臺的時候會更加謹慎,生態(tài)的護城河此時也更能體現(xiàn)出價值。

但無論如何,我們都看到NVIDIA在AI市場的強勢地位。雷鋒網(wǎng)七月底報道,在MLPerf發(fā)布的MLPerf Training v0.7基準測試中,A100 Tensor Core GPU,和HDR InfiniBand實現(xiàn)多個DGX A100 系統(tǒng)互聯(lián)的龐大集群DGX SuperPOD系統(tǒng)在性能上開創(chuàng)了八個全新里程碑,共打破16項紀錄。

安培架構(gòu)A100在MLPerf最新的訓(xùn)練和推理成績表明NVIDIA不僅給云端AI訓(xùn)練的競爭者更大的壓力,也可能改變AI推理市場的格局。

NVIDIA將其在云端訓(xùn)練市場的優(yōu)勢進一步拓展到云端和邊緣推理市場符合AI未來的發(fā)展趨勢。有預(yù)測指出,隨著AI模型的成熟,市場對云端AI訓(xùn)練需求的增速將會降低,云端AI推理的市場規(guī)模將會迅速增加,并有望在2022年超過訓(xùn)練市場。

另據(jù)市場咨詢公司ABI Research的數(shù)據(jù),預(yù)計到2025年,邊緣AI芯片市場收入將達到122億美元,云端AI芯片市場收入將達到119億美元,邊緣AI芯片市場將超過云端AI芯片市場。

憑借強大的軟硬件生態(tài)系統(tǒng),NVIDIA和Intel依舊會是AI市場的重要玩家,只是隨著他們競爭力的不斷提升,其他參與AI市場競爭的AI芯片公司們面臨的壓力也隨之增加。
責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102711
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128592
收藏 人收藏

    評論

    相關(guān)推薦

    英偉達發(fā)布新一代H200,搭載HBM3e,推理速度是H100

    和B100兩款芯片。來源:英偉達官網(wǎng) ? 首款搭載HBM3e 的GPU推理速度幾乎是H100 的兩 ? 與
    的頭像 發(fā)表于 11-15 01:15 ?3387次閱讀
    英偉達發(fā)布新一代H200,搭載HBM3e,<b class='flag-5'>推理</b>速度是H<b class='flag-5'>100</b>兩<b class='flag-5'>倍</b>!

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    近期,第五代英特爾?至強?可擴展處理器通過了中國電子技術(shù)標(biāo)準化研究院組織的人工智能服務(wù)器系統(tǒng)性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?261次閱讀
    開箱即用,AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性能</b>

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價值?!?/div>
    的頭像 發(fā)表于 08-23 15:48 ?353次閱讀

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    架構(gòu)在高性能計算方面的應(yīng)用有哪些? **1. **人工智能訓(xùn)練和推理 Blackwell 架構(gòu)的 GPU 核心在訓(xùn)練性能上相較前代 Hopper H
    發(fā)表于 05-13 17:16

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱
    的頭像 發(fā)表于 04-20 09:39 ?614次閱讀

    超微電腦借助英偉達Blackwell架構(gòu),打造頂尖生成式AI系統(tǒng)

    Grace Blackwell Superchip、B200和B100 Tensor Core GPU等尖端產(chǎn)品,專為優(yōu)化AI訓(xùn)練和推理性能而設(shè)計。
    的頭像 發(fā)表于 03-25 10:27 ?515次閱讀

    英偉達H200和A100的區(qū)別

    英偉達H200和A100兩款芯片在性能、架構(gòu)、內(nèi)存以及應(yīng)用場景等多個方面存在顯著的區(qū)別。
    的頭像 發(fā)表于 03-07 16:23 ?3248次閱讀

    英偉達H200和A100的差異

    英偉達H200和A100在多個方面存在差異。
    的頭像 發(fā)表于 03-07 16:18 ?2152次閱讀

    Torch TensorRT是一個優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個端到端的機器學(xué)習(xí)框架。而TensorRT則是NVIDIA的高性能深度學(xué)習(xí)推理軟件工具包。Torch TensorRT就是這兩者的結(jié)合。
    的頭像 發(fā)表于 01-09 16:41 ?1452次閱讀
    Torch TensorRT是一個優(yōu)化PyTorch模型<b class='flag-5'>推理性能</b>的工具

    英偉達和華為/海思主流GPU型號性能參考

    一句話總結(jié),H100 vs. A100:3 性能,2 價格 值得注意的是,HCCS vs. NVLINK的
    發(fā)表于 12-29 11:43 ?5185次閱讀
    英偉達和華為/海思主流<b class='flag-5'>GPU</b>型號<b class='flag-5'>性能</b>參考

    用上這個工具包,大模型推理性能加速達40

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU上實現(xiàn)出色的LLM推理性能。 英特爾 ?Extension for Transformer 創(chuàng)新
    的頭像 發(fā)表于 12-01 20:40 ?1084次閱讀
    用上這個工具包,大模型<b class='flag-5'>推理性能</b>加速達40<b class='flag-5'>倍</b>

    Google的第五代TPU,推理性能提升2.5

     Gridspace 機器學(xué)習(xí)主管Wonkyum Lee表示:“我們的速度基準測試表明,在 Google Cloud TPU v5e 上訓(xùn)練和運行時,AI 模型的速度提高了 5 。我們還看到推理
    發(fā)表于 11-24 10:27 ?555次閱讀
    Google的第五代TPU,<b class='flag-5'>推理性能</b>提升2.5<b class='flag-5'>倍</b>

    對英偉達A100芯片算力服務(wù)收費價格上調(diào)100%,這家企業(yè)的硬氣來自哪里?

    半導(dǎo)體芯情了解到,A100是英偉達最新推出的一款高性能計算芯片,采用了全新的Ampere架構(gòu),Ampere架構(gòu)是NVIDIA于 GTC 2020發(fā)布的GPU架構(gòu),
    的頭像 發(fā)表于 11-14 16:30 ?1160次閱讀
    對英偉達<b class='flag-5'>A100</b>芯片算力服務(wù)收費價格上調(diào)<b class='flag-5'>100</b>%,這家企業(yè)的硬氣來自哪里?

    揭秘:英偉達H100最強替代者

    目前,用于高端推理GPU 主要有三種:NVIDIA A100NVIDIA H100 和新的
    的頭像 發(fā)表于 11-13 16:13 ?1524次閱讀
    揭秘:英偉達H<b class='flag-5'>100</b>最強替代者

    CPU、GPU和內(nèi)存知識科普

    本文內(nèi)容包括CPU、內(nèi)存和GPU知識,本期重點更新GPUCPU部分知識。比如:GPU更新包括架構(gòu)演進,最新產(chǎn)品
    的頭像 發(fā)表于 11-13 11:47 ?1801次閱讀
    <b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>和內(nèi)存知識科普