0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

最新MLPerf v3.1測(cè)試結(jié)果認(rèn)證,Gaudi2在GPT-J模型上推理性能驚人

looger123 ? 來源:looger123 ? 作者:looger123 ? 2023-09-12 17:54 ? 次閱讀

英特爾產(chǎn)品在全新MLCommons AI推理性能測(cè)試中盡顯優(yōu)勢(shì)

今日,MLCommons公布針對(duì) 60 億參數(shù)大語言模型及計(jì)算機(jī)視覺與自然語言處理模型GPT-J的 MLPerf推理v3.1 性能基準(zhǔn)測(cè)試結(jié)果,其中包括英特爾所提交的基于Habana?Gaudi?2 加速器、第四代英特爾?至強(qiáng)?可擴(kuò)展處理器,以及英特爾?至強(qiáng)?CPU Max 系列的測(cè)試結(jié)果。該結(jié)果顯示了英特爾在AI推理方面極具競(jìng)爭(zhēng)力的表現(xiàn),并進(jìn)一步加強(qiáng)了其對(duì)加速從云到網(wǎng)絡(luò)到邊緣再到端的工作負(fù)載中大規(guī)模部署AI的承諾。

英特爾執(zhí)行副總裁兼數(shù)據(jù)中心人工智能事業(yè)部總經(jīng)理Sandra Rivera表示:“正如最新的 MLCommons結(jié)果顯示,我們擁有強(qiáng)大的、具有競(jìng)爭(zhēng)力的人工智能產(chǎn)品組合以滿足客戶對(duì)高性能、高效率的深度學(xué)習(xí)推理及訓(xùn)練的需求,同時(shí),針對(duì)各種規(guī)模的人工智能模型,英特爾產(chǎn)品組合均具有領(lǐng)先的性價(jià)比優(yōu)勢(shì)?!?/p>

根據(jù)6月披露的MLCommonsAI訓(xùn)練結(jié)果和Hugging Face性能基準(zhǔn)測(cè)試驗(yàn)證,Gaudi2 在先進(jìn)的視覺語言模型上,性能可以超越英偉達(dá)的H100處理器,而今天的結(jié)果進(jìn)一步證明了英特爾能夠提供滿足AI計(jì)算需求的、英偉達(dá)H100和A100的唯一可行的替代方案。

考慮到客戶的個(gè)性化需求,英特爾正在通過能夠幫助解決AI工作負(fù)載中推理與訓(xùn)練問題的產(chǎn)品,讓AI無處不在。英特爾的AI產(chǎn)品為客戶提供了可根據(jù)各自性能、效率及目標(biāo)成本進(jìn)行靈活匹配以獲取最佳AI解決方案的理想選擇,同時(shí)亦幫助客戶開放生態(tài)系統(tǒng)。

關(guān)于Habana Gaudi2的測(cè)試結(jié)果:

Habana Gaudi2在GPT-J模型上的推理結(jié)果強(qiáng)有力地驗(yàn)證了其具有競(jìng)爭(zhēng)力的性能。

·Gaudi2 在GPT-J-99 和GPT-J-99.9 上的服務(wù)器查詢和離線樣本的推理性能分別為78.58 次/秒和84.08 次/秒。

·與英偉達(dá)H100相比,Gaudi2提供了令人信服的卓越性能,H100相對(duì)于Gaudi2僅表現(xiàn)出 1.09 倍(服務(wù)器)和 1.28 倍(離線)的輕微性能優(yōu)勢(shì)。

·Gaudi2 擁有高于英偉達(dá)A100 2.4 倍(服務(wù)器)、 2 倍(離線)的性能。

·Gaudi2 提交的結(jié)果采用 FP8數(shù)據(jù)類型,并在這種新數(shù)據(jù)類型上達(dá)到了 99.9% 的準(zhǔn)確率。

隨著每6-8周公布的 Gaudi2 軟件更新,英特爾將繼續(xù)在 MLPerf 基準(zhǔn)測(cè)試中展現(xiàn)其產(chǎn)品的性能提升,以及持續(xù)擴(kuò)大的模型覆蓋范圍。

wKgZomUANVWAY6S7AAJVP79DRaA450.png

Habana Gaudi2 在GPT-J模型上的推理結(jié)果驗(yàn)證了其具有競(jìng)爭(zhēng)力的性能

關(guān)于第四代至強(qiáng)可擴(kuò)展處理器的測(cè)試結(jié)果:

英特爾提交了基于第四代英特爾至強(qiáng)可擴(kuò)展處理器的7個(gè)推理基準(zhǔn)測(cè)試,其中包括GPT-J模型。結(jié)果顯示,包括視覺、語言處理、語音和音頻翻譯模型,以及更大的 DLRM v2 深度學(xué)習(xí)推薦模型及ChatGPT-J 模型在內(nèi),第四代至強(qiáng)處理器對(duì)于通用 AI 工作負(fù)載擁有出色的性能。此外,截至目前,英特爾仍是唯一一家使用行業(yè)標(biāo)準(zhǔn)的深度學(xué)習(xí)生態(tài)系統(tǒng)軟件提交公開 CPU 結(jié)果的廠商

·第四代英特爾至強(qiáng)可擴(kuò)展處理器是通過流行的AI框架與庫構(gòu)建及部署通用AI工作負(fù)載的理想選擇。對(duì)于GPT-J對(duì)約 1000-1500 字新聞稿進(jìn)行100 字總結(jié)的任務(wù),第四代至強(qiáng)可擴(kuò)展處理器可在離線模式下完成每秒兩段的總結(jié)提要,在實(shí)時(shí)服務(wù)器模式下完成每秒一段的總結(jié)提要。

·英特爾首次提交了英特爾至強(qiáng)CPU Max 系列的MLPerf 結(jié)果,該系列可提供高達(dá)64 GB的高帶寬內(nèi)存。對(duì)于 GPT-J而言,它是僅有的能夠達(dá)到 99.9% 準(zhǔn)確度的 CPU,這對(duì)于對(duì)精度要求極高的應(yīng)用來說至關(guān)重要。

·英特爾與OEM廠商合作提交了測(cè)試結(jié)果,進(jìn)一步展示了其AI性能的可擴(kuò)展性,以及基于英特爾至強(qiáng)處理器的通用服務(wù)器的可獲取性,充分滿足客戶服務(wù)水平協(xié)議 (SLA)。

wKgZomUANVeAKtKpAAF_ItEkqC0102.png

第四代至強(qiáng)可擴(kuò)展處理器是構(gòu)建及部署通用AI工作負(fù)載的理想選擇

MLPerf 是業(yè)內(nèi)享有盛名的 AI 性能基準(zhǔn)測(cè)試,旨在實(shí)現(xiàn)公平、可重復(fù)的產(chǎn)品性能比較。英特爾計(jì)劃為下一個(gè) MLPerf測(cè)試提交新的AI訓(xùn)練性能結(jié)果。持續(xù)的性能更新彰顯了英特爾致力于幫助客戶、助力AI技術(shù)演進(jìn)所邁出的每一步,無論是低成本的AI處理器,還是面向網(wǎng)絡(luò)、云和企業(yè)用戶的高性能AI硬件加速器或是 GPU。

更多內(nèi)容:基于MLPerf v.31 推理的性能指標(biāo)(基準(zhǔn)結(jié)果)|MLCommons公告

說明:相關(guān)配置說明,請(qǐng)查看MLCommons網(wǎng)頁。 結(jié)果可能不同。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19100

    瀏覽量

    228814
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    351

    瀏覽量

    15281
  • MLPerf
    +關(guān)注

    關(guān)注

    0

    文章

    35

    瀏覽量

    625
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    澎峰科技高性能模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應(yīng)用的高性能推理框架也不斷推出,大有百家爭(zhēng)鳴之勢(shì)。在這種情況下,澎峰科技作為全球領(lǐng)先的智能計(jì)算服務(wù)提供商,
    的頭像 發(fā)表于 09-29 10:14 ?331次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLM解析

    浪潮信息AS13000G7榮獲MLPerf? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一

    眾,3D-UNet和CosmoFlow兩個(gè)模型共計(jì)八項(xiàng)測(cè)試中,斬獲五項(xiàng)冠軍。 MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)
    的頭像 發(fā)表于 09-28 16:46 ?176次閱讀
    浪潮信息AS13000G7榮獲<b class='flag-5'>MLPerf</b>? AI存儲(chǔ)基準(zhǔn)<b class='flag-5'>測(cè)試</b>五項(xiàng)<b class='flag-5'>性能</b>全球第一

    開箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

    。 中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院賽西實(shí)驗(yàn)室依據(jù)國(guó)家標(biāo)準(zhǔn)《人工智能服務(wù)器系統(tǒng)性能測(cè)試規(guī)范》(征求意見稿)相關(guān)要求,使用AISBench?2.0測(cè)試工具,完成了第五代英特爾至強(qiáng)可擴(kuò)展處理器的AI大模型
    的頭像 發(fā)表于 09-06 15:33 ?261次閱讀
    開箱即用,AISBench<b class='flag-5'>測(cè)試</b>展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國(guó)最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型推理性能,方便了
    的頭像 發(fā)表于 08-23 15:48 ?353次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    類任務(wù)上表現(xiàn)出色,甚至零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù),類似于人類的系統(tǒng)2,如數(shù)字推理等。然而,隨著參數(shù)量的增加,大語言
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    的進(jìn)步,大語言模型的應(yīng)用范圍和影響力將持續(xù)擴(kuò)大,成為AI領(lǐng)域的重要推動(dòng)力。其中,GPT系列模型的發(fā)展尤為引人注目,從GPTGPT-2,再到
    發(fā)表于 05-04 23:55

    自然語言處理應(yīng)用LLM推理優(yōu)化綜述

    當(dāng)前,業(yè)界將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時(shí),同時(shí)也探索從大模型自回歸解碼特點(diǎn)出發(fā),通過調(diào)整推理過程和引入新的
    發(fā)表于 04-10 11:48 ?541次閱讀
    自然語言處理應(yīng)用LLM<b class='flag-5'>推理</b>優(yōu)化綜述

    蘋果ReALM模型實(shí)體識(shí)別測(cè)試中超越OpenAI GPT-4.0

    “我們的模型識(shí)別各種類型實(shí)體方面都有顯著提升,即使是小尺寸模型,屏幕實(shí)體識(shí)別準(zhǔn)確性也已超過原有的系統(tǒng)5%以上。
    的頭像 發(fā)表于 04-02 11:23 ?405次閱讀

    Torch TensorRT是一個(gè)優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個(gè)端到端的機(jī)器學(xué)習(xí)框架。而TensorRT則是NVIDIA的高性能深度學(xué)習(xí)推理軟件工具包。Torch TensorRT就是這兩者的結(jié)合。
    的頭像 發(fā)表于 01-09 16:41 ?1452次閱讀
    Torch TensorRT是一個(gè)優(yōu)化PyTorch<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b>的工具

    英特爾Gaudi2C處理器或?yàn)?b class='flag-5'>Gaudi2的簡(jiǎn)化版,Gaudi3預(yù)計(jì)2024年面世

    對(duì)于Gaudi2C和Gaudi2之間的差別,有推測(cè)認(rèn)為它可能是“部分”改動(dòng)后的產(chǎn)品,針對(duì)中國(guó)市場(chǎng)專門定制。Tomshardware則猜測(cè)可能是Gaudi2的簡(jiǎn)化版。
    的頭像 發(fā)表于 12-20 13:44 ?1073次閱讀

    英特爾發(fā)布第五代至強(qiáng)可擴(kuò)展處理器:性能和能效大幅提升,AI 加速

    此外,至強(qiáng)可擴(kuò)展處理器被譽(yù)為行業(yè)首屈一指的內(nèi)置AI加速器數(shù)據(jù)中心處理器,全新第五代產(chǎn)品更能優(yōu)化參數(shù)量高達(dá)200億的大型語言模型,使其推理性能提升42%。眼下,它還是唯一歷次刷新MLPerf訓(xùn)練及
    的頭像 發(fā)表于 12-15 11:02 ?794次閱讀

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    場(chǎng)景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)圖像分類、目標(biāo)識(shí)別、人臉識(shí)別、文字識(shí)別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    用上這個(gè)工具包,大模型推理性能加速達(dá)40倍

    作者: 英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊 編者按: 只需不到9行代碼, 就能在CPU實(shí)現(xiàn)出色的LLM推理性能。 英特爾 ?Extension for Transformer 創(chuàng)新
    的頭像 發(fā)表于 12-01 20:40 ?1084次閱讀
    用上這個(gè)工具包,大<b class='flag-5'>模型</b><b class='flag-5'>推理性能</b>加速達(dá)40倍

    Google的第五代TPU,推理性能提升2.5倍

     Gridspace 機(jī)器學(xué)習(xí)主管Wonkyum Lee表示:“我們的速度基準(zhǔn)測(cè)試表明, Google Cloud TPU v5e 訓(xùn)練和運(yùn)行時(shí),AI
    發(fā)表于 11-24 10:27 ?555次閱讀
    Google的第五代TPU,<b class='flag-5'>推理性能</b>提升2.5倍

    NNCF壓縮與量化YOLOv8模型與OpenVINO部署測(cè)試

    OpenVINO2023版本衍生出了一個(gè)新支持工具包NNCF(Neural Network Compression Framework – 神經(jīng)網(wǎng)絡(luò)壓縮框架),通過對(duì)OpenVINO IR格式模型的壓縮與量化更好的提升模型Op
    的頭像 發(fā)表于 11-20 10:46 ?1451次閱讀
    NNCF壓縮與量化YOLOv8<b class='flag-5'>模型</b>與OpenVINO部署<b class='flag-5'>測(cè)試</b>