0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英特爾AMX助華棲云多場景AI推理性能大幅提升多達96倍

英特爾中國 ? 來源:英特爾中國 ? 2024-01-13 10:46 ? 次閱讀

AI技術(shù)應(yīng)用已經(jīng)深入到各行各業(yè),特別是云服務(wù)提供商將AI能力集成到云服務(wù)中,能夠更好地滿足用戶對性能、效率和體驗的需求。而在主流媒體全面進入互聯(lián)網(wǎng)陣地的大趨勢下,媒體行業(yè)面臨融合、高效、智能化的挑戰(zhàn)。成都華棲云科技有限公司(簡稱:華棲云)正是這樣一家面向蓬勃興起的泛媒體、大視頻時代的企業(yè)用戶市場,為用戶提供媒體云服務(wù)的提供商。

為了給用戶帶來更加智慧的應(yīng)用體驗,大幅提升內(nèi)容來源的寬度,內(nèi)容生產(chǎn)的速度、內(nèi)容發(fā)布的廣度,華棲云媒體云平臺正在集成廣泛的AI技術(shù),推動光學(xué)字符識別(OCR) 識別、圖像超分修復(fù)、人體姿態(tài)識別、大型語言模型 (LLM) 等應(yīng)用的落地。

對于最終用戶而言,這些 AI 技術(shù)對于媒體云基礎(chǔ)設(shè)施帶來了 AI 推理等方面的算力挑戰(zhàn),用戶需要通過高性能、低成本、高靈活度的算力方案,來滿足實際應(yīng)用的嚴苛需求。于是,華棲云與英特爾合作,在媒體云平臺上驗證了第四代英特爾至強可擴展處理器及其內(nèi)置的英特爾高級矩陣擴展(英特爾AMX)加速器。驗證結(jié)果顯示,在英特爾AMX 的加持下,第四代英特爾至強可擴展處理器可顯著提升大型語言模型、人體姿態(tài)識別、CLIP 圖像文本分類處理模型、OCR 識別、圖像超分修復(fù)等模型的推理能力,提供了高性價比、高靈活性的 AI 基礎(chǔ)設(shè)施構(gòu)建選項。

英特爾AMX及CPU大模型推理與主流GPU性能一致

華棲云之所以選擇基于英特爾 CPU 的 AI 推理方案,是因為該方案能夠充分利用媒體云已有的服務(wù)器資源,在架構(gòu)上無需進行大幅變動,性價比較高,且在性能上足以滿足智能資源管理、智能審核、智能生產(chǎn)等場景所需。

現(xiàn)在,AIGC技術(shù)得到越來越多應(yīng)用。華棲云同樣采用了基于大語言模型的 AIGC 技術(shù),使智能媒體云平臺能夠自動進行要點歸納及內(nèi)容創(chuàng)作、改寫,做到一課一虛擬助教,提高師生教學(xué)互動能力。此外,AIGC 技術(shù)還能用于課程內(nèi)容識別理解等更多場景,帶來智慧教育新體驗。所以,大語言模型的推理能力對于華棲云至關(guān)重要。

華棲云采用內(nèi)置AI加速器英特爾AMX的第四代英特爾至強可擴展處理器,在大語言模型推理性能上表現(xiàn)出強勁實力。在華棲云的測試中,對比了某主流 GPU 與第四代英特爾至強可擴展處理器的大語言模型推理性能,測試數(shù)據(jù)如圖1 所示,兩者性能基本保持在同一層面。這得益于英特爾AMX 針對廣泛的硬件和軟件優(yōu)化,通過提供矩陣類型的運算,顯著增加了人工智能應(yīng)用程序的每時鐘指令數(shù) (IPC),可為 AI 工作負載中的訓(xùn)練和推理上提供顯著的性能提升。從而使華棲云使用CPU不額外增加成本的情況下,獲得了同樣的AI推理性能。

70fe09d6-b1b9-11ee-8b88-92fbcf53809c.png

圖1:大語言模型推理性能測試1

英特爾助華棲云多個AI推理場景性能大幅提升

除了大語言模型推理之外,華棲云多項AI推理性能均在英特爾至強可擴展處理器和英特爾AMX的加持下得到顯著提升。

第一,對比語言圖像預(yù)訓(xùn)練 (CLIP)是一種在各種(圖像、文本)對上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),可以用自然語言指示它在給定圖像的情況下推理最相關(guān)的文本片段,而無需直接針對任務(wù)進行優(yōu)化。在媒體云平臺場景中,CLIP 不僅提供了先進的圖像分類結(jié)果,而且還提供了對象分類、視頻中的動作識別和 OCR 等其他視覺任務(wù)。CLIP 有助于媒體云平臺在不構(gòu)建巨大數(shù)據(jù)集的前提下,訓(xùn)練高質(zhì)量的模型,同時降低計算成本。

華棲云 CLIP 算法推理性能測試數(shù)據(jù)如圖 2 所示,在將模型轉(zhuǎn)化為BF16 后,第四代英特爾至強可擴展處理器的 CLIP 推理性能相較第二代英特爾至強可擴展處理器最高提升了 95.63 倍2。

711d3d2e-b1b9-11ee-8b88-92fbcf53809c.png

圖2:華棲云 CLIP 算法推理性能測試3

第二,OCR 識別在媒體云平臺中,常用于圖像中的信息提取,如課件識別、版面識別、試卷識別等。華棲云在測試中,對比了第二代英特爾至強可擴展處理器與第四代英特爾至強可擴展處理器的單線程吞吐性能差異。測試數(shù)據(jù)如圖 3 所示,對比第二代英特爾至強可擴展處理器,第四代英特爾至強可擴展處理器的性能最高可提升約 6.41 倍4。

7131926a-b1b9-11ee-8b88-92fbcf53809c.png

圖3:OCR 單線程吞吐測試5

第三,超分辨率 (Super-Resolution) 是指通過硬件或軟件的方法提高原有圖像的分辨率,超分辨率算法有效提高放大后圖像的質(zhì)量,同時節(jié)約帶寬、存儲等方面的資源。ESRGAN 是一種基于生成對抗網(wǎng)絡(luò) (GAN) 的圖像超分辨率算法,其主要思想是通過學(xué)習(xí)低分辨率 (LR) 圖像與其高分辨率 (HR) 對應(yīng)物之間的映射,來實現(xiàn)從 LR 圖像到 HR 圖像的映射過程,從而實現(xiàn)圖像的超分辨率。SwinIR 則是一種基于 Swin Transformer 的圖像超分辨率重建算法,相對于傳統(tǒng)的 Transformer 模型,在處理圖像等二維數(shù)據(jù)時,具有更好的并行性和更高的計算效率。

華棲云測試了第二代/第四代英特爾至強可擴展處理器在ESRGAN 算法推理中的性能表現(xiàn),測試數(shù)據(jù)如圖 4 所示,在將模型轉(zhuǎn)化為 BF16 后,第四代英特爾至強可擴展處理器的ESRGAN 推理性能相較第二代英特爾至強可擴展處理器最高提升了 3 倍6。

7147808e-b1b9-11ee-8b88-92fbcf53809c.png

圖4:ESRGAN 算法吞吐性能測試7

SwinIR 模型推理性能測試數(shù)據(jù)如圖 5 所示,在將模型轉(zhuǎn)化為BF16 后,第四代英特爾至強可擴展處理器的 SwinIR 推理性能相較第二代英特爾至強可擴展處理器最高提升了 7.4 倍8。

7156acda-b1b9-11ee-8b88-92fbcf53809c.png

圖5:SwinIR 模型推理性能測試9

第四,人體姿態(tài)識別算法能夠通過圖像獲取并識別人體骨架信息,通過算法判斷動作類別和姿態(tài),從而實現(xiàn)動作識別。華棲云在智能媒體云平臺中采用了基于 OpenPose 方法與 EfficientHRNet 方法的多人 2D 姿勢估計網(wǎng)絡(luò),針對圖像中的每個人,網(wǎng)絡(luò)都會檢測到一個人體姿勢:一個由關(guān)鍵點和關(guān)鍵點之間的連接組成的身體骨架。

華棲云基于 OpenPose 方法的人體姿態(tài)識別算法推理性能測試數(shù)據(jù)如圖 6 所示,在將模型轉(zhuǎn)化為 BF16 后,第四代英特爾至強可擴展處理器的 OpenPose 推理性能相較第二代英特爾至強可擴展處理器最高提升了 64.82 倍10。

7170307e-b1b9-11ee-8b88-92fbcf53809c.png

圖6:基于 OpenPose 方法的人體姿態(tài)識別推理性能測試11

基于CPU的AI推理方案為華棲云降低TCO并增加靈活性

在采用內(nèi)置了英特爾AMX 的第四代英特爾至強可擴展處理器之后,華棲云提升了多種典型算法的推理性能,滿足了教育、廣電等客戶對于智能媒體云平臺的性能要求,為客戶帶來以下價值:

在保證模型精度的前提下,顯著提升多個 AI 模型的性能表現(xiàn),有助于提供更加高效的智能媒體云服務(wù); 通過軟件優(yōu)化充分釋放了硬件潛力,支持有效利用服務(wù)器資源,無需獨立、專用的 AI 加速器,有助于降低媒體云平臺構(gòu)建的 TCO; 通用的 CPU 平臺不僅能夠高效支撐 AI 推理,而且能夠靈活應(yīng)對編解碼、轉(zhuǎn)碼等負載,更具可擴展性。

AIGC 等AI技術(shù)的應(yīng)用正在為媒體行業(yè)注入充沛的活力,推動媒體行業(yè)的智能化轉(zhuǎn)型。華棲云以超高清智能媒體處理云平臺為驅(qū)動引擎,在泛媒體、大教育、政企等行業(yè)形成了成熟的云服務(wù)及云解決方案。通過與英特爾合作,并利用英特爾AMX 等創(chuàng)新技術(shù),華棲云正在推動新一代智能融媒體平臺覆蓋媒體內(nèi)容生產(chǎn)、管理、發(fā)布、運營和數(shù)據(jù)化管理全流程應(yīng)用。

英特爾AMX及英特爾至強可擴展處理器以不遜于GPU的AI推理性能,為華棲云降低了云平臺TCO的同時,提供了更大的靈活性和擴展性,支持華棲云智能媒體云平臺以新思維、新技術(shù)重塑媒體全鏈路生產(chǎn)與運營模型,建立集內(nèi)容、產(chǎn)品、用戶、數(shù)據(jù)一體的全媒體融合運營體系,實現(xiàn)媒體基于內(nèi)容的價值再造。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19100

    瀏覽量

    228814
  • 英特爾
    +關(guān)注

    關(guān)注

    60

    文章

    9861

    瀏覽量

    171289
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    142

    瀏覽量

    16309
  • ai技術(shù)
    +關(guān)注

    關(guān)注

    1

    文章

    1250

    瀏覽量

    24198
  • AI加速器
    +關(guān)注

    關(guān)注

    1

    文章

    67

    瀏覽量

    8625

原文標題:英特爾? AMX 助華棲云多場景 AI 推理性能大幅提升,最多達 96 倍

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    英特爾計劃明年AI PC出貨一億臺

    目標相較于原先2024年4000萬臺的目標有了大幅提升。這些AI PC將由英特爾AI處理器驅(qū)動,其中大部分將基于去年年底推出的Meteor
    的頭像 發(fā)表于 10-31 14:26 ?267次閱讀

    英特爾AI PC無所不能的實力

    百業(yè)的最后一公里問題。而客戶端的AI能力也在不斷提升,最終將解決個人AI的數(shù)據(jù)隱私和個性化問題??梢?,AI非常適合邊端三級架構(gòu),按照用戶
    的頭像 發(fā)表于 10-12 10:26 ?346次閱讀

    開箱即用,AISBench測試展示英特爾至強處理器的卓越推理性能

    。 中國電子技術(shù)標準化研究院賽西實驗室依據(jù)國家標準《人工智能服務(wù)器系統(tǒng)性能測試規(guī)范》(征求意見稿)相關(guān)要求,使用AISBench?2.0測試工具,完成了第五代英特爾至強可擴展處理器的AI大模型
    的頭像 發(fā)表于 09-06 15:33 ?261次閱讀
    開箱即用,AISBench測試展示<b class='flag-5'>英特爾</b>至強處理器的卓越<b class='flag-5'>推理性能</b>

    英特爾發(fā)布AI創(chuàng)作應(yīng)用AI Playground,將于今夏正式上線!

    AI PC入門應(yīng)用程序AI Playground,讓廣大用戶在本地即可快速實現(xiàn)AI個性化創(chuàng)作。 英特爾Xe2 GPU架構(gòu),帶來50%的性能
    的頭像 發(fā)表于 06-14 09:44 ?406次閱讀
    <b class='flag-5'>英特爾</b>發(fā)布<b class='flag-5'>AI</b>創(chuàng)作應(yīng)用<b class='flag-5'>AI</b> Playground,將于今夏正式上線!

    英特爾助力京東用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈

    英特爾助力京東用CPU加速AI推理,以大模型構(gòu)建數(shù)智化供應(yīng)鏈
    的頭像 發(fā)表于 05-27 11:50 ?474次閱讀
    <b class='flag-5'>英特爾</b>助力京東<b class='flag-5'>云</b>用CPU加速<b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型構(gòu)建數(shù)智化供應(yīng)鏈

    寧暢B5000 G5多節(jié)點服務(wù)器采用第五代英特爾至強可擴展處理器

    “基于第五代英特爾 至強 可擴展處理器的寧暢B5000 G5多節(jié)點服務(wù)器,可以在滿足大量AI推理場景在吞吐量、時延、容量、并發(fā)能力等方面的需求,而且與專用的GPU服務(wù)器相比,在靈活性方
    的頭像 發(fā)表于 05-27 11:46 ?749次閱讀
    寧暢B5000 G5多節(jié)點服務(wù)器采用第五代<b class='flag-5'>英特爾</b>至強可擴展處理器

    擎推出AI QuickSet軟件,支持英特爾銳炫Arc A系列顯卡

    今日,擎宣布將AI QuickSet軟件工具擴展至英特爾銳炫Arc A系列顯卡,使其能夠便捷地安裝Stable Diffusion web UI OpenVINO,結(jié)合英特爾Open
    的頭像 發(fā)表于 05-11 10:58 ?589次閱讀

    英特爾至強處理器優(yōu)化升級,助力打造未來高能效數(shù)據(jù)中心

    英特爾最新發(fā)布的第五代至強可擴展處理器,擁有多達64個核心,性能提升高達1.4。 英特爾于去年
    的頭像 發(fā)表于 02-26 17:39 ?655次閱讀

    阿里第八代企業(yè)級實例g8i搭載第五代英特爾至強可擴展處理器

    +CIPU」架構(gòu)體系,ECS g8i 實例的整機性能最高提升 85%*,AI 推理性能最高提升 7
    的頭像 發(fā)表于 01-15 11:28 ?870次閱讀
    阿里<b class='flag-5'>云</b>第八代企業(yè)級實例g8i搭載第五代<b class='flag-5'>英特爾</b>至強可擴展處理器

    英特爾專家為您揭秘第五代英特爾? 至強? 可擴展處理器如何為AI加速

    % 1 ,AI 推理性能提升42% 2 。 這一系列性能提升的背后,存在著怎樣的創(chuàng)新與突破?第五代英特爾
    的頭像 發(fā)表于 12-23 12:20 ?696次閱讀

    CPU也可以完美運行大模型 英特爾第五代至強重磅發(fā)布

    處理器,它來了! 若是用一句話來概括它的特點,那就是——AI味道越發(fā)得濃厚。 以訓(xùn)練、推理大模型為例: ? ? ? ? ? ? 與第四代相比,訓(xùn)練性能提升
    的頭像 發(fā)表于 12-22 11:52 ?597次閱讀
    CPU也可以完美運行大模型 <b class='flag-5'>英特爾</b>第五代至強重磅發(fā)布

    第五代英特爾至強可擴展處理器 AI 性能大幅提升英特爾加注推動人工智能無處不在

    Rapids)。期間,英特爾亦與生態(tài)伙伴分享了該全新產(chǎn)品在京東、百度智能、阿里、火山引擎的成功實踐及其應(yīng)用價值。 ? ? ? ?第五代英特爾
    的頭像 發(fā)表于 12-18 17:22 ?622次閱讀
    第五代<b class='flag-5'>英特爾</b>至強可擴展處理器 <b class='flag-5'>AI</b> <b class='flag-5'>性能</b><b class='flag-5'>大幅</b><b class='flag-5'>提升</b>,<b class='flag-5'>英特爾</b>加注推動人工智能無處不在

    英特爾發(fā)布第五代至強可擴展處理器:性能和能效大幅提升,AI 加速

    此外,至強可擴展處理器被譽為行業(yè)首屈一指的內(nèi)置AI加速器數(shù)據(jù)中心處理器,全新第五代產(chǎn)品更能優(yōu)化參數(shù)量高達200億的大型語言模型,使其推理性能提升42%。眼下,它還是唯一歷次刷新MLPerf訓(xùn)練及
    的頭像 發(fā)表于 12-15 11:02 ?794次閱讀

    用上這個工具包,大模型推理性能加速達40

    工具包中的LLM Runtime為諸多模型顯著降低時延,且首個token和下一個token的推理速度分別提升多達40和2.68,還能滿足
    的頭像 發(fā)表于 12-01 20:40 ?1084次閱讀
    用上這個工具包,大模型<b class='flag-5'>推理性能</b>加速達40<b class='flag-5'>倍</b>

    Google的第五代TPU,推理性能提升2.5

     Gridspace 機器學(xué)習(xí)主管Wonkyum Lee表示:“我們的速度基準測試表明,在 Google Cloud TPU v5e 上訓(xùn)練和運行時,AI 模型的速度提高了 5 。我們還看到推理
    發(fā)表于 11-24 10:27 ?555次閱讀
    Google的第五代TPU,<b class='flag-5'>推理性能</b><b class='flag-5'>提升</b>2.5<b class='flag-5'>倍</b>