0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探索ChatGLM2在算能BM1684X上INT8量化部署,加速大模型商業(yè)落地

算能開發(fā)者社區(qū) ? 2023-10-10 10:18 ? 次閱讀


1. 背景介紹

在2023年7月時我們已通過靜態(tài)設計方案完成了ChatGLM2-6B在單顆BM1684X上的部署工作,量化模式F16,模型大小12GB,平均速度約為3 token/s,詳見《算豐技術揭秘|探索ChatGLM2-6B模型與TPU部署》。為了進一步提升模型的推理效率與降低存儲空間,我們對模型進行了INT8量化部署,整體性能提升70%以上,模型大小降低到6.4GB,推理速度達到6.67 token/s。

2. 量化方案

首先TPU-MLIR原有的INT8量化方案并不適合直接應用于LLM。主要是因為無論PTQ的校準或者QAT的訓練對于LLM來說成本過高,對LLM的一輪PTQ的校準可能就需要1-2天時間;另外就是量化帶來的誤差在LLM上無法收斂,最終會導致模型精度大量損失。

在量化方案上我們沿用了ChatGLM2使用的W8A16策略,即只對GLMBlock中Linear Layer的權重進行per-channel量化存儲,在實際運算時仍將其反量化回F16進行運算。因為LLM中Linear Layer權重數(shù)值間差異非常小,對INT8量化較為友好,所以量化過后的結果與F16計算結果在余弦相似度上仍然能保持99%以上,精度上幾乎可以做到0損失。

3d05fb98-6713-11ee-9788-92fbcf53809c.pngW8A16 MatMul

3. TPU-MLIR實現(xiàn)

在Top到Tpu層的lowering階段,編譯器會自動搜尋模型中右矩陣輸入為權重,且該矩陣維數(shù)為2的MatMul,將其替換為W8A16MatMul算子。此處主要是為了與左右矩陣都為Acitvation的MatMul算子區(qū)分開(mm, bmm與linear layer在編譯器中會被統(tǒng)一轉換為MatMul算子)。以ChatGLM2中其中一個MatMul算子為例:L = (max_lengthx4096xf16), R = (4096x27392xf16),量化后的權重由原來的214MB降為107MB,額外產(chǎn)生的Scale (4096xf16)只占了0.008MB的存儲空間,基本上可以達到減半的效果。算子替換源碼與權重量化源碼可在TPU-MLIR倉庫中查看。

3d1228dc-6713-11ee-9788-92fbcf53809c.pngOp Replacement in TPU-MLIR

4. 后端性能提升原理

前一節(jié)介紹的量化只實現(xiàn)了存儲空間減半的效果,而性能提升主要在于W8A16MatMul后端算子的實現(xiàn)。如果對TPU架構不熟悉可通過TPU原理介紹(1)TPU原理介紹(2)兩期視頻了解(可關注b站“算能開發(fā)者”進行觀看)。按照算能當前的TPU架構,W8A16的計算過程主要分為5個步驟:

1. 從Global Memory中加載數(shù)據(jù)到Local Memory
2. 將INT8權重Cast為F16
3. 與Scale數(shù)據(jù)相乘完成反量化操作
4. 與Input Activation進行矩陣乘運算
5. 將計算結果存儲回Global Memory

3d277ab6-6713-11ee-9788-92fbcf53809c.pngW8A16Matmul Computation on TPU

因為Local Memory空間有限,對于大型數(shù)據(jù)通常需要進行切分,分批對數(shù)據(jù)進行加載、運算與存儲。為了提升效率,通常我們會利用GDMA與BDC指令并行,同時進行數(shù)據(jù)搬運與運算操作,所以Local Mmeory大致需要被需要被劃分為兩部分區(qū)域,同一個循環(huán)內一個區(qū)域用于數(shù)據(jù)運算,另一個區(qū)域存儲上一循環(huán)計算好的結果以及加載下一循環(huán)需要用到的數(shù)據(jù),如下圖所示。

3d378e06-6713-11ee-9788-92fbcf53809c.pngLocal Memory Partition

矩陣乘等式如下:

當矩陣乘運算中左矩陣數(shù)據(jù)量較小時,性能瓶頸主要在于右矩陣的數(shù)據(jù)加載上,即數(shù)據(jù)加載時間遠比數(shù)據(jù)運算時間要長很多。W8A16通過量化能夠將右矩陣的數(shù)據(jù)搬運總量縮小為原來的一半,而且額外多出的Cast與Scale運算時間可以被數(shù)據(jù)搬運時間覆蓋住,因此并不會影響到整體runtime,如下圖所示。

3d494614-6713-11ee-9788-92fbcf53809c.pngGDMA and BDC parallel
總而言之,從后端角度來說,當越小,越大時,W8A16帶來的性能提升收益越大。

從LLM的角度來看,我們以ChatGLM2為例,一次推理的完整流程分為一輪prefill與多輪decode。在prefill階段,基于我們當前的靜態(tài)設計方案,輸入詞向量會被補位為當前模型所支持的最大文本長度max_length (e.g., 512, 1024, 2048)。而decode階段則固定只取前一輪生成的一個token作為輸入。

3d53d2c8-6713-11ee-9788-92fbcf53809c.pngChatGLM2 Inference
因此max_length越長,GLMBlock接收的輸入數(shù)據(jù)量越大,Linear Layer的也就越大,這就會導致W8A16的性能提升越有限。而decode階段始終保持為1,此時W8A16就能帶來明顯的性能提升。3d711ad6-6713-11ee-9788-92fbcf53809c.pngMatMuls in ChatGLM2 prefill and decode phase

5. 效果展示

將W8A16量化應用于ChatGLM2-6B后,整體性能如下所示:

  1. 性能:整體性能得到70%以上的提升
  2. 精度:與F16下的回答略有不同,但答案正確性仍然可以保證
  3. 模型大?。河?2GB降為6.4GB

3d86cac0-6713-11ee-9788-92fbcf53809c.pngResult Comparison

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3112

    瀏覽量

    48658
  • 編譯器
    +關注

    關注

    1

    文章

    1617

    瀏覽量

    49015
  • LLM
    LLM
    +關注

    關注

    0

    文章

    264

    瀏覽量

    297
收藏 人收藏

    評論

    相關推薦

    RADXA微服務器試用體驗】+ GPT語音與視覺交互:2,圖像識別

    ├── yolov8s_opt.onnx# 導出的動態(tài)opt onnx模型 ├── yolov8s_qtable_fp16 # TPU-MLIR編譯時,用于BM1684X/
    發(fā)表于 07-14 23:36

    esp-dl int8量化模型數(shù)據(jù)集評估精度下降的疑問求解?

    一 試著將模型進行了esp-dlint16和int8量化,并在測試數(shù)據(jù)集上進行精度評估,其中int
    發(fā)表于 06-28 15:10

    產(chǎn)品應用 | 小盒子跑大模型!英碼科技基于BM1684X平臺實現(xiàn)大模型私有化部署

    當前,人工智能領域,大模型豐富人工智能應用場景中扮演著重要的角色,經(jīng)過不斷的探索,大模型進入到落地
    的頭像 發(fā)表于 06-14 16:29 ?635次閱讀
    產(chǎn)品應用 | 小盒子跑大<b class='flag-5'>模型</b>!英碼科技基于<b class='flag-5'>算</b><b class='flag-5'>能</b><b class='flag-5'>BM1684X</b>平臺實現(xiàn)大<b class='flag-5'>模型</b>私有化<b class='flag-5'>部署</b>

    用yolov5的best.pt導出成onnx轉化成fp32 bmodel后Airbox跑,報維度不匹配怎么處理?

    用官方的模型不出錯,用自己的yolov5訓練出來的best.pt導出成onnx轉化成fp32 bmodel后Airbox跑,出現(xiàn)報錯: linaro@bm1684:~/yolov5
    發(fā)表于 05-31 08:10

    bm1684運行demo報錯怎么解決?

    ../models/BM1684X/yolov5s_v6.1_3output_fp32_1b.bmodel[BMRT][bmcpu_setup:406] INFO:cpu_lib \'libcpuop.so
    發(fā)表于 05-20 07:24

    AI力核心板:Core-1688JD4

    采用SOPHON八核AI處理器BM1688,INT8力高達16TOPS,支持16路解碼+10路編碼+16路AI分析,支持6路senso
    的頭像 發(fā)表于 05-15 08:02 ?1180次閱讀
    AI<b class='flag-5'>算</b>力核心板:Core-1688JD4

    【AIBOX】裝在小盒子的AI足夠強嗎?

    Firefly推出大語言模型本地部署的產(chǎn)品:AIBOX-1684X,目前已適配主流的大語言模型,包括ChatGLM3-6B,以下是
    的頭像 發(fā)表于 05-15 08:02 ?387次閱讀
    【AIBOX】裝在小盒子的AI足夠強嗎?

    256Tops力!CSA1-N8S1684X力服務器

    (基于BM1684X的高力服務器)高力AI處理器BM1684X搭載了BM1684AI力So
    的頭像 發(fā)表于 03-23 08:02 ?1392次閱讀
    256Tops<b class='flag-5'>算</b>力!CSA1-N<b class='flag-5'>8S1684X</b><b class='flag-5'>算</b>力服務器

    RADXA微服務器試用體驗】Radxa Fogwise 1684X Mini 規(guī)格

    通過網(wǎng)絡可以了解到,RADXA微服務器的具體規(guī)格: 處理器:BM1684X 力:高達32Tops INT8峰值
    發(fā)表于 02-28 11:21

    三步完成英特爾獨立顯卡量化部署ChatGLM3-6B模型

    ChatGLM3 是智譜 AI 和清華大學 KEG 實驗室聯(lián)合發(fā)布的新一代對話預訓練模型。ChatGLM3-6B 是 ChatGLM3 系列中的開源
    的頭像 發(fā)表于 01-11 18:04 ?1528次閱讀
    三步完成<b class='flag-5'>在</b>英特爾獨立顯卡<b class='flag-5'>上</b><b class='flag-5'>量化</b>和<b class='flag-5'>部署</b><b class='flag-5'>ChatGLM</b>3-6B<b class='flag-5'>模型</b>

    yolov5量化INT8出錯怎么處理?

    bm1684 --tolerance 0.85,0.45 --model yolov5l_bm1684_int8.bmodel SOPHGO Toolchain
    發(fā)表于 01-10 06:40

    ChatGLM3-6BCPUINT4量化部署

    ChatGLM3 是智譜 AI 和清華大學 KEG 實驗室聯(lián)合發(fā)布的新一代對話預訓練模型。ChatGLM3-6B 是 ChatGLM3 系列中的開源
    的頭像 發(fā)表于 01-05 09:36 ?836次閱讀
    <b class='flag-5'>ChatGLM</b>3-6B<b class='flag-5'>在</b>CPU<b class='flag-5'>上</b>的<b class='flag-5'>INT</b>4<b class='flag-5'>量化</b>和<b class='flag-5'>部署</b>

    Yolo系列模型部署、精度對齊與int8量化加速

    基于PytorchQuantization導出的含有QDQ節(jié)點的onnx時,我們發(fā)現(xiàn)盡管量化版本的torch模型精度很高,但是TensorRT
    的頭像 發(fā)表于 11-23 16:40 ?1153次閱讀

    走向邊緣智能,美格智能攜手阿加犀成功力AI模組運行一系列大語言模型

    近日,美格智能發(fā)揮軟硬件一體協(xié)同開發(fā)能力,融合阿加犀卓越的AI優(yōu)化部署技術,搭載高通QCS8550平臺的高力AI模組,成功運行了一系列大語言
    的頭像 發(fā)表于 11-14 14:39 ?828次閱讀

    走向邊緣智能,美格智能攜手阿加犀成功力AI模組運行一系列大語言模型

    模型、RedPajama、ChatGLM2、Vicuna,展現(xiàn)出卓越的邊緣端大模型部署能力。▌構建智底座,
    的頭像 發(fā)表于 11-14 14:34 ?397次閱讀
    走向邊緣智能,美格智能攜手阿加犀成功<b class='flag-5'>在</b>高<b class='flag-5'>算</b>力AI模組<b class='flag-5'>上</b>運行一系列大語言<b class='flag-5'>模型</b>