0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

澎峰科技高性能大模型推理引擎PerfXLM解析

perfxlab ? 來(lái)源:perfxlab ? 2024-09-29 10:14 ? 次閱讀

自ChatGPT問(wèn)世以來(lái),大模型遍地開(kāi)花,承載大模型應(yīng)用的高性能推理框架也不斷推出,大有百家爭(zhēng)鳴之勢(shì)。在這種情況下,澎峰科技作為全球領(lǐng)先的智能計(jì)算服務(wù)提供商,在2023年11月25日發(fā)布了針對(duì)大語(yǔ)言模型的高性能推理框架,并受到廣泛關(guān)注。在歷經(jīng)數(shù)月的迭代開(kāi)發(fā)后,澎峰科技重磅發(fā)布升級(jí)版本,推出全新的高性能大模型推理引擎:PerfXLM。

PerfXLM采用了云端一體架構(gòu),支持云端推理和本地推理兩種模式。在硬件支持上,PerfXLM適配了包含多種國(guó)產(chǎn)處理器在內(nèi)的不同硬件,并針對(duì)硬件體系結(jié)構(gòu)特征進(jìn)行了深入性能優(yōu)化,大幅提升了大模型推理性能。

一、PerfXLM整體架構(gòu)

wKgZomb4uDOATSGEAAGRHaV4N2Q254.png

圖1.PerfXLM整體架構(gòu)

如圖1所示,PerfXLM整體架構(gòu)分為三層:

1.模型轉(zhuǎn)換層。將Torch或者Huggingface格式的大模型轉(zhuǎn)化為統(tǒng)一的內(nèi)部模型結(jié)構(gòu),并最終統(tǒng)一表達(dá)為ONNX圖。

2.推理引擎層。實(shí)現(xiàn)了ONNX圖解析、算子調(diào)度、統(tǒng)一內(nèi)存管理等功能,大幅提升硬件資源利用率;同時(shí),也提供了針對(duì)云端推理的專用Serving模塊,以獲得更高的硬件利用率和QPS響應(yīng)。

3.性能層。提供了針對(duì)大模型推理的高性能算子庫(kù),并針對(duì)各種主流硬件進(jìn)行了適配和優(yōu)化。

PerfXLM具有的三大特點(diǎn):

1.云端一體,同時(shí)支持云側(cè)和端側(cè)大模型推理,能夠讓大模型適用于各種應(yīng)用場(chǎng)景之中。

2.支持多異構(gòu)平臺(tái),支持了包括NVIDIA GPU、海光DCU、高通Adreno GPU、Intel iGPU、某國(guó)產(chǎn)GPU在內(nèi)的多種硬件設(shè)備

3.高性能定制優(yōu)化算子,實(shí)現(xiàn)了結(jié)合體系結(jié)構(gòu)特征和大模型推理應(yīng)用特征的定制優(yōu)化。

二、大模型推理中的MxN問(wèn)題

PerfXLM向上對(duì)接各種模型網(wǎng)絡(luò),向下適配各種硬件架構(gòu)。這就存在著一個(gè)組合問(wèn)題:假設(shè)需要支持M個(gè)模型和N種硬件,那么一共有MxN種組合方式。PerfXLM需要實(shí)現(xiàn)對(duì)主流模型的支持,目前主流模型大概有幾十種,國(guó)內(nèi)甚至一度“千模大戰(zhàn)”。同時(shí),PerfXLM也需要實(shí)現(xiàn)對(duì)主流硬件的支持,包括NVIDIA GPU、AMD GPU、海光DCU、沐曦GPU等通用GPU架構(gòu);X86、ARM、RISC-V等通用CPU架構(gòu);高通Adreno GPU、ARM MALI GPU等移動(dòng)GPU架構(gòu);華為昇騰、寒武紀(jì)MLU、燧原等專用處理器架構(gòu)等??紤]到模型和硬件的迅猛發(fā)展,這個(gè)組合數(shù)大概有上千種,這就對(duì)大模型推理框架提出了很高的兼容性要求。

面對(duì)這樣的一個(gè)復(fù)雜問(wèn)題,PerfXLM提出了一套解決方案:通過(guò)統(tǒng)一的模型表達(dá),實(shí)現(xiàn)了對(duì)不同大模型的快速支持;通過(guò)統(tǒng)一算子API的定義,實(shí)現(xiàn)了對(duì)大模型圖的快速算子構(gòu)建;通過(guò)融合體系結(jié)構(gòu)特征和應(yīng)用特征的算子庫(kù)的構(gòu)建,實(shí)現(xiàn)了對(duì)不同硬件的快速適配。

同時(shí),為了便于用戶使用,PerfXLM上層采用了與vllm一致的頂層API接口。用戶只需要在導(dǎo)入python模塊時(shí),簡(jiǎn)單地將vllm修改成perfxlm就能夠?qū)⒃械拇a運(yùn)行起來(lái)并且獲得更高的性能表現(xiàn)。具體的使用示例如下圖。

wKgZomb4uD-Adc2eAAJc5XOMSy4470.png

圖2. PerfXLM API接口

通過(guò)這樣的一套架構(gòu)體系,PerfXLM可以快速地支持新的模型和新的硬件。以近日Meta開(kāi)源的LLaMA3為例,假設(shè)算子完備的情況下,只需幾個(gè)小時(shí)的時(shí)間,就能夠?qū)⒃?a href="http://ttokpm.com/article/zt/" target="_blank">最新模型運(yùn)行在各種主流硬件設(shè)備上。

三、PerfXLM性能

云側(cè)和端側(cè)的應(yīng)用場(chǎng)景不同:云上側(cè)重于多用戶服務(wù),關(guān)注的是整體吞吐;端側(cè)側(cè)重于單用戶的使用體驗(yàn),關(guān)注的是在低算力硬件上的響應(yīng)速度和延遲。下面講描述PerfXLM在單Batch和多Batch下的性能。

1)PerXLM在NVIDIA GPU上的性能

wKgZomb4uEyAYA7yAAFPSvcTt64452.png

圖3. PerfXLM與vllm在A40上FP16的llama2性能對(duì)比

wKgZomb4uFeAKe8_AAFmM0A6MOo396.png

圖4. PerfXLM與vllm在4090上FP16的llama2性能對(duì)比

wKgaomb4uGOAezZcAAFj5n8whQM162.png

圖5.PerfXLM與vllm在A40上FP16的llama3性能對(duì)比

wKgZomb4uG2AHqYIAAFisDWGRBI637.png

圖6.PerfXLM與vllm在4090上FP16的llama3性能對(duì)比

2)PerfXLM在海光DCU上的性能

wKgaomb4uHeATR0GAAG5vAuXWHk595.png

圖7 PerfXLM與vllm在DCU Z100SM上的llama2性能對(duì)比

wKgaomb4uIKAbw6KAAGnzfy687A508.png

圖8 PerfXLM與vllm在DCU Z100SM上的llama3性能對(duì)比

3)PerfXLM在國(guó)產(chǎn)某GPU上的性能

wKgZomb4uIyADm2LAAEtoH1PkrM646.png

圖9 PerfXLM在某國(guó)產(chǎn)GPU上的性能

4)PerfXLM在高通Adreno GPU上的性能

wKgaomb4uJaAcdvlAADOB-FQEXM999.png

圖10 PerfXLM在高通Adreno的性能(單batch)

5)PerfXLM在Intel iGPU上的性能

wKgaomb4uKCARmNDAAFwkUzpcgk783.png

圖11 PerfXLM在Intel iGPU上的性能(單batch)

未來(lái),PerfXLM將繼續(xù)支持"更多的硬件 x更多的模型"。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 澎峰科技
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    3154
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2262

    瀏覽量

    2341

原文標(biāo)題:爆款·大模型推理引擎PerfXLM發(fā)布

文章出處:【微信號(hào):perfxlab,微信公眾號(hào):perfxlab】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    賽昉科技與科技結(jié)成合作伙伴關(guān)系,共同推動(dòng)RISC-V應(yīng)用生態(tài)發(fā)展

    中國(guó)北京和上海 - 2021年8月5日 - 上海賽昉科技有限公司(簡(jiǎn)稱:賽昉科技)與(北京)科技有限公司(簡(jiǎn)稱:科技)共同宣布,結(jié)成合作伙伴關(guān)系,賽昉科技的開(kāi)源單板計(jì)算機(jī)硬件平
    發(fā)表于 08-05 15:58

    賽昉科技與科技結(jié)成合作伙伴關(guān)系,共同推動(dòng)RISC-V應(yīng)用生態(tài)發(fā)展

    中國(guó)北京和上海 - 2021年8月5日 - 上海賽昉科技有限公司(簡(jiǎn)稱:賽昉科技)與(北京)科技有限公司(簡(jiǎn)稱:科技)共同宣布,結(jié)成合作伙伴關(guān)系,賽昉科技的開(kāi)源單板計(jì)算機(jī)硬件平
    發(fā)表于 08-06 15:53

    如何提高YOLOv4模型推理性能?

    使用 PyTorch 對(duì)具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。 將 權(quán)重轉(zhuǎn)換為 ONNX 文件,然后轉(zhuǎn)換為中間表示 (IR)。 無(wú)法確定如何獲得更好的推理性能
    發(fā)表于 08-15 06:58

    2023RISC-V中國(guó)峰會(huì),科技成果發(fā)布搶先看!

    高性能計(jì)算領(lǐng)域設(shè)計(jì)的計(jì)算型服務(wù)器。衡山系列預(yù)裝自研的高性能計(jì)算行業(yè)解決方案HPC SDK:數(shù)學(xué)計(jì)算庫(kù)PerfMPL、異構(gòu)計(jì)算框架PerfXAPI、科學(xué)計(jì)算軟件PerfXPy等,使能
    發(fā)表于 08-15 18:28

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    場(chǎng)景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)在圖像分類、目標(biāo)識(shí)別、人臉識(shí)別、文字識(shí)別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    推理引擎中去除TOPS的頂部

    毫無(wú)意義。真正重要的是推理引擎可以為模型、圖像大小、批量大小和過(guò)程以及 PVT(過(guò)程/電壓/溫度)條件提供多少吞吐量。這是衡量其性能的第一標(biāo)準(zhǔn),但令人驚訝的是,很少有供應(yīng)商提供它。
    的頭像 發(fā)表于 12-01 15:53 ?842次閱讀

    科技發(fā)布大模型推理引擎PerfXLLM

    要的巨額開(kāi)銷也引發(fā)了相關(guān)研究者的關(guān)注。如何高效地進(jìn)行推理,并盡可能地減少成本,從而促進(jìn)大模型應(yīng)用的落地成為了目前的關(guān)鍵問(wèn)題。 于是,科技研發(fā)了一款 大
    的頭像 發(fā)表于 11-25 15:35 ?1028次閱讀
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技發(fā)布大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLLM

    科技再獲數(shù)千萬(wàn)融資,加速算力時(shí)代

    解決方案產(chǎn)品,為我國(guó)數(shù)字化轉(zhuǎn)型升級(jí)打造智慧底座,同時(shí)確立公司在加速計(jì)算領(lǐng)域的國(guó)際領(lǐng)先地位。 科技(PerfXLab) 核心團(tuán)隊(duì)來(lái)自于中科院,于2016年在北京成立,致力于計(jì)算軟件棧技術(shù)的研發(fā),聚焦高性能計(jì)算、人工智能兩大領(lǐng)域
    發(fā)表于 01-26 18:11 ?480次閱讀
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技再獲數(shù)千萬(wàn)融資,加速算力時(shí)代

    科技與并行科技共拓AI大模型技術(shù)創(chuàng)新應(yīng)用服務(wù)

    4月17日,(北京)科技有限公司(以下簡(jiǎn)稱“科技”)與北京并行科技股份有限公司(以下簡(jiǎn)稱“并行科技”)簽署戰(zhàn)略合作協(xié)議。
    的頭像 發(fā)表于 04-23 09:54 ?393次閱讀
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技與并行科技共拓AI大<b class='flag-5'>模型</b>技術(shù)創(chuàng)新應(yīng)用服務(wù)

    PerfXCloud大模型開(kāi)發(fā)與部署平臺(tái)開(kāi)放注冊(cè)

    PerfXCloud?介紹 PerfXCloud是科技為開(kāi)發(fā)者和企業(yè)量身打造的AI開(kāi)發(fā)和部署平臺(tái)。它專注于滿足大模型的微調(diào)和推理需求,為用戶提供極致便捷的一鍵部署體驗(yàn)。 PerfX
    的頭像 發(fā)表于 07-02 10:27 ?336次閱讀
    PerfXCloud大<b class='flag-5'>模型</b>開(kāi)發(fā)與部署平臺(tái)開(kāi)放注冊(cè)

    科技CA100智能計(jì)算一體機(jī)核心優(yōu)勢(shì)解讀

    科技PerfXLM Solution完整軟件生態(tài),自研異構(gòu)計(jì)算軟件棧PerfXAPI,PerfMPL高性能數(shù)學(xué)庫(kù)、算子庫(kù)、領(lǐng)域加速包,
    的頭像 發(fā)表于 07-08 10:59 ?672次閱讀
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技CA100智能計(jì)算一體機(jī)核心優(yōu)勢(shì)解讀

    科技受聘為“主權(quán)級(jí)大模型”創(chuàng)新聯(lián)合體學(xué)術(shù)委員會(huì)委員

    日前,“主權(quán)級(jí)大模型“創(chuàng)新聯(lián)合體揭牌,科技CEO受聘為”主權(quán)級(jí)大模型“創(chuàng)新聯(lián)合體學(xué)術(shù)委員會(huì)委員。
    的頭像 發(fā)表于 09-02 17:37 ?719次閱讀

    科技受邀參加全球AI芯片峰會(huì),探討大模型推理引擎PerfXLM面向RISC-V的移植和優(yōu)化

    最高、影響力最強(qiáng)的產(chǎn)業(yè)峰會(huì)之一。 本屆峰會(huì)由芯東西與智猩猩共同主辦,以 「智算紀(jì)元 共筑芯路」 為主題。峰會(huì)采用“主會(huì)議+技術(shù)論壇+展覽展示”的全新形式。科技創(chuàng)始人&CEO張先軼博士受邀參加于9月7日下午舉辦的中國(guó)RISC-V計(jì)算創(chuàng)新論壇,屆時(shí)將與大家分享 「 面向R
    的頭像 發(fā)表于 09-05 16:22 ?280次閱讀
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技受邀參加全球AI芯片峰會(huì),探討大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>引擎</b><b class='flag-5'>PerfXLM</b>面向RISC-V的移植和優(yōu)化

    科技“云”校園行活動(dòng)回顧

    在金秋十月的尾巴,科技的“云”校園行活動(dòng)來(lái)到了湖南科技職業(yè)學(xué)院·軟件學(xué)院。科技為師生
    的頭像 發(fā)表于 10-24 11:22 ?272次閱讀

    云”校園行:湖南科技職業(yè)學(xué)院站,共啟校園創(chuàng)新之旅!

    活動(dòng)回顧 在金秋十月的尾巴,科技的“云”校園行活動(dòng)來(lái)到了 湖南科技職業(yè)學(xué)院·軟件學(xué)院 。
    的頭像 發(fā)表于 10-24 11:41 ?170次閱讀
    “<b class='flag-5'>澎</b><b class='flag-5'>峰</b>云”校園行:湖南科技職業(yè)學(xué)院站,共啟校園創(chuàng)新之旅!