0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá) A100 GPU 全面上市,推理性能比 CPU 快 237 倍

工程師鄧生 ? 來源:IT之家 ? 作者:孤城 ? 2020-11-04 15:34 ? 次閱讀

根據(jù)英偉達(dá)官方的消息,在 AWS 運(yùn)行 NVIDIA GPU 十周年之際,AWS 發(fā)布了采用全新 A100 的 Amazon EC2 P4d 實(shí)例。

IT之家了解到,現(xiàn)在已全面上市的全新 AWS P4d 實(shí)例采用最新 NVIDIA A100 Tensor Core GPU。A100 計(jì)算卡采用了 7nm 工藝的 GA100 GPU,這款 GPU 擁有 6912 CUDA 核心和 432 張量核心。GPU 封裝尺寸為 826mm2,集成了 540 億個(gè)晶體管。

英偉達(dá)表示,全新的 P4d 實(shí)例,為機(jī)器學(xué)習(xí)訓(xùn)練和高性能計(jì)算應(yīng)用提供 AWS 上性能與成本效益最高的 GPU 平臺(tái)。與默認(rèn)的 FP32 精度相比,全新實(shí)例將 FP16 機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間減少多達(dá) 3 倍,將 TF32 機(jī)器學(xué)習(xí)模型的訓(xùn)練的時(shí)間減少多達(dá) 6 倍。

這些實(shí)例還提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基準(zhǔn)測(cè)試中一騎絕塵,實(shí)現(xiàn)了比 CPU 快 237 倍的性能。

每個(gè) P4d 實(shí)例均內(nèi)置八個(gè) NVIDIA A100 GPU,通過 AWS UltraClusters,客戶可以利用 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 提供的可擴(kuò)展高性能存儲(chǔ),按需、可擴(kuò)展地同時(shí)訪問多達(dá) 4,000 多個(gè) GPU。P4d 提供 400Gbps 網(wǎng)絡(luò),通過使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技術(shù),進(jìn)一步加速深度學(xué)習(xí)訓(xùn)練的工作負(fù)載。EFA 上的 NVIDIA GPUDirect RDMA 在服務(wù)器之間可通過 GPU 傳輸數(shù)據(jù),無需通過 CPU 和系統(tǒng)內(nèi)存,從而確保網(wǎng)絡(luò)的低延遲。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10810

    瀏覽量

    210878
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4678

    瀏覽量

    128612
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8356

    瀏覽量

    132324
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3722

    瀏覽量

    90706
  • A100
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    7781
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英偉達(dá)發(fā)布新一代H200,搭載HBM3e,推理速度是H100

    和B100兩款芯片。來源:英偉達(dá)官網(wǎng) ? 首款搭載HBM3e 的GPU ,推理速度幾乎是H100 的兩
    的頭像 發(fā)表于 11-15 01:15 ?3390次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>發(fā)布新一代H200,搭載HBM3e,<b class='flag-5'>推理</b>速度是H<b class='flag-5'>100</b>兩<b class='flag-5'>倍</b>!

    開箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

    近期,第五代英特爾?至強(qiáng)?可擴(kuò)展處理器通過了中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測(cè)試(AISBench)。英特爾成為首批通過AISBench大語(yǔ)言模型(LLM)推理性能測(cè)試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?263次閱讀
    開箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    英偉達(dá)全面轉(zhuǎn)向開源GPU內(nèi)核模塊

    英偉達(dá)公司近期宣布了一項(xiàng)重大決策,即全面轉(zhuǎn)向開源GPU內(nèi)核模塊,并計(jì)劃最終以此取代閉源驅(qū)動(dòng)程序。這一戰(zhàn)略轉(zhuǎn)變標(biāo)志著英偉
    的頭像 發(fā)表于 07-19 15:26 ?528次閱讀

    英偉達(dá)GPU新品規(guī)劃與HBM市場(chǎng)展望

    在COMPUTEX 2024主題演講中,英偉達(dá)(NVIDIA)公布了其GPU產(chǎn)品的未來規(guī)劃。據(jù)英偉達(dá)透露,B
    的頭像 發(fā)表于 06-13 09:44 ?742次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    架構(gòu)在高性能計(jì)算方面的應(yīng)用有哪些? **1. **人工智能訓(xùn)練和推理 Blackwell 架構(gòu)的 GPU 核心在訓(xùn)練性能上相較前代 Hopper H
    發(fā)表于 05-13 17:16

    英偉達(dá)發(fā)布性能大幅提升的新款B200 AI GPU

    英偉達(dá)宣稱,B200在性能以往最好的GPU30
    的頭像 發(fā)表于 03-20 09:37 ?718次閱讀

    英偉達(dá)H200和A100的區(qū)別

    英偉達(dá)H200和A100兩款芯片在性能、架構(gòu)、內(nèi)存以及應(yīng)用場(chǎng)景等多個(gè)方面存在顯著的區(qū)別。
    的頭像 發(fā)表于 03-07 16:23 ?3283次閱讀

    英偉達(dá)H200和A100的差異

    英偉達(dá)H200和A100在多個(gè)方面存在差異。
    的頭像 發(fā)表于 03-07 16:18 ?2172次閱讀

    英偉達(dá)縮短AI GPU交付周期,持續(xù)推進(jìn)算力產(chǎn)業(yè)鏈發(fā)展

    與此同時(shí),隨著人工智能的迅猛發(fā)展及其廣泛應(yīng)用,對(duì)像H100A100這類專為數(shù)據(jù)中心設(shè)計(jì)的高性能GPU的需求也大幅增長(zhǎng)。而包括Yotta在內(nèi)的多家公司因此紛紛加大向
    的頭像 發(fā)表于 02-18 09:36 ?471次閱讀

    2024年,GPU能降價(jià)嗎?

    首當(dāng)其沖的就是A100GPU。OpenAI使用的是3,617臺(tái)HGXA100服務(wù)器,包含近3萬塊英偉達(dá)GPU。國(guó)內(nèi)云計(jì)算相關(guān)專家認(rèn)為,做好A
    的頭像 發(fā)表于 01-03 15:57 ?798次閱讀
    2024年,<b class='flag-5'>GPU</b>能降價(jià)嗎?

    英偉達(dá)和華為/海思主流GPU型號(hào)性能參考

    一句話總結(jié),H100 vs. A100:3 性能,2 價(jià)格 值得注意的是,HCCS vs. NVLINK的
    發(fā)表于 12-29 11:43 ?5226次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>和華為/海思主流<b class='flag-5'>GPU</b>型號(hào)<b class='flag-5'>性能</b>參考

    用上這個(gè)工具包,大模型推理性能加速達(dá)40

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU上實(shí)現(xiàn)出色的LLM推理性能。 英特爾 ?Extension for Transformer 創(chuàng)新
    的頭像 發(fā)表于 12-01 20:40 ?1086次閱讀
    用上這個(gè)工具包,大模型<b class='flag-5'>推理性能</b>加速達(dá)40<b class='flag-5'>倍</b>

    英偉達(dá)發(fā)布最新AI芯片H200:性能提升2,成本下降50%

    很明顯,如果能在相同的功率范圍之內(nèi)實(shí)現(xiàn) 2 性能提升,就意味著實(shí)際能耗和總體擁有成本降低了 50%。所以從理論上講,英偉達(dá)似乎可以讓 H200
    的頭像 發(fā)表于 11-22 17:14 ?1533次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>發(fā)布最新AI芯片H200:<b class='flag-5'>性能</b>提升2<b class='flag-5'>倍</b>,成本下降50%

    英偉達(dá)新一代人工智能(AI)芯片HGX H200

    基于英偉達(dá)的“Hopper”架構(gòu)的H200也是該公司第一款使用HBM3e內(nèi)存的芯片,這種內(nèi)存速度更快,容量更大,因此更適合大語(yǔ)言模型。英偉達(dá)稱:借助HBM3e,H200以每秒4.8TB
    發(fā)表于 11-15 11:17 ?765次閱讀

    對(duì)英偉達(dá)A100芯片算力服務(wù)收費(fèi)價(jià)格上調(diào)100%,這家企業(yè)的硬氣來自哪里?

    半導(dǎo)體芯情了解到,A100英偉達(dá)最新推出的一款高性能計(jì)算芯片,采用了全新的Ampere架構(gòu),Ampere架構(gòu)是NVIDIA于 GTC 2020發(fā)布的
    的頭像 發(fā)表于 11-14 16:30 ?1166次閱讀
    對(duì)<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>A100</b>芯片算力服務(wù)收費(fèi)價(jià)格上調(diào)<b class='flag-5'>100</b>%,這家企業(yè)的硬氣來自哪里?