0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA T4 GPU和TensorRT提高微信搜索速度

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2022-06-27 14:34 ? 次閱讀

騰訊公司深耕模型量化開發(fā),且長期與 NVIDIA 團隊合作,成功將深度學習模型精度從 FP32 壓縮到 FP16 以及 INT8?,F(xiàn)在,該技術再次獲得了新的重要突破。騰訊團隊利用全新設計的 QAT 訓練算法 Auto48,以及 INT4 推理能力,實現(xiàn)業(yè)界首次無損 INT4 在 NLP 領域落地使用的技術突破。服務上線后,不僅極大提升了微信中的搜索能力,在之前的基礎上更進一步為公司節(jié)省了約 30% 的計算資源,其中 NVIDIAT4、A10 GPUTensorRT 即為本案例的應用核心。

騰訊微信是目前國內最大的社交平臺及通訊工具之一。隨著微信生態(tài)環(huán)境的優(yōu)化,其功能也越來越豐富,搜索也成為其越來越重要的入口,這個入口可以用來搜索微信內部的功能、信息,以及搜索互聯(lián)網上的內容,目前微信搜一搜月活躍用戶已超過 7 億。而在搜索業(yè)務當中微信團隊使用了大量的神經網絡模型,包括自然語言理解、匹配排序等等,這些模型的訓練和推理也都大量依賴于 NVIDIA GPU,尤其在推理方面, NVIDIA GPU 及相應的解決方案皆滿足了業(yè)務所需的延遲和吞吐要求。

搜索業(yè)務由多個子模塊構成,包括查詢理解、匹配、搜索排序等等。由于搜索的業(yè)務特點,這些任務對線上服務的延遲和吞吐都十分敏感。而在最近幾年,隨著算力的提升以及算法的創(chuàng)新,眾多大型復雜的神經網絡模型也開始應用在這些任務上。一方面,現(xiàn)有的模型(例如 BERT/GPT)帶來的成本壓力顯著;另一方面,超大規(guī)模(十/百億參數(shù))模型帶來的精度提升使得大模型應用需求持續(xù)升溫。因此,這些大模型需要的計算資源和業(yè)務上的高要求對推理端的軟硬件都是很大的挑戰(zhàn),必須針對具體的硬件做極致的優(yōu)化?,F(xiàn)有的對于大模型的推理加速技術,比如模型壓縮、剪枝、低精度計算等等,都被證明能夠一定程度上實現(xiàn)性能加速、節(jié)約資源。然而,這些技術可能會帶來精度下降等負面影響,限制了這些技術的廣泛應用。因此,如何在保證精度效果以及服務吞吐延遲需求的情況下,高效地對這些模型進行推理成為了業(yè)務上的巨大挑戰(zhàn)。NVIDIA GPU 以及 TensorRT 給這一場景提供了解決方案。

為了滿足線上服務的需求,并且盡可能地節(jié)約成本,微信搜一搜選擇使用 NVIDIA T4 GPU 以及 TensorRT+CUTLASS 實現(xiàn)來進行線上大模型的推理。

線上服務對于吞吐和延遲有很高的要求,微信搜一搜選擇使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎來做線上推理服務,利用 NVIDIA 基于 TensorRT 實現(xiàn)的 INT8 BERT,可以很方便地在 INT8 精度下實現(xiàn)滿足需求的線上推理功能。利用 TensorRT 提供的“校準”(Calibration)功能結合量化感知訓練(Quantization Aware Training, QAT),可以方便地將 Float 精度模型轉換為 INT8 低精度模型,實現(xiàn)低精度推理。通過低精度推理,模型的單次推理時間大大縮短 30%。這個方案在線上取得了很好的效果。

在此基礎上,微信搜一搜希望進一步加快推理速度,節(jié)約計算資源,以便更好地服務用戶,節(jié)約成本。更低的低精度推理成為了很好的選擇。NVIDIA GPU 從圖靈(Turing)架構開始就有了 INT4 Tensor Core,其計算吞吐量最高可達 FP16 精度的 4 倍。并且低精度推理可以同時使用其他技術比如剪枝、蒸餾等相結合做進一步提升。微信搜一搜線上大量使用 NVIDIA T4 GPU,非常適合應用 INT4 推理,且 CUTLASS 對 INT4 GEMM 也有良好的支持。

然而當進一步將數(shù)據(jù)類型從 INT8 降低到 INT4 的時候,如果使用相同的 QAT 算法時,模型的精度會發(fā)生顯著的下降(超過 2%)。因此,微信搜一搜設計了全新的訓練算法—— Auto48。Auto48 是一套全新的自動化模型量化工具,能夠幫助用戶自動生成自定義壓縮率下,性能最優(yōu)的量化模型。在 QAT 算法的啟發(fā)下, Auto48 設計了全新的動態(tài)壓縮算法來極大地減小高壓縮率(INT4)帶來的壓縮誤差,并且結合了更有效的知識蒸餾相關技術,使得量化后的模型準確度得到了顯著的提高。進一步的, Auto48 還支持 INT8+INT4 混合精度的壓縮,這使得用戶可以自由的在壓縮率和精度之間做權衡,甚至實現(xiàn)無損壓縮。TensorRT 對于導入 QAT 訓練好的模型進行 INT8 低精度推理已經有了很好的支持。T4 GPU 在硬件上支持 INT4 Tensor Core,使用 CUTLASS 可以方便地構建出滿足多種需求的 INT4 GEMM 算子。這些算子不僅降低了推理時間,還保證了算子的功能的靈活性和擴展性?;?Auto48 訓練的模型,不僅得到了最佳性能,而且精度沒有損失,線上服務只需做少許改動即可,極大地簡化了部署的流程。

通過這樣的方案,微信搜一搜中的一些關鍵任務,比如查詢理解等自然語言理解任務,可以在精度沒有損失的情況下,達到 1.4 倍的加速效果,平均單句推理時間達到了 0.022ms。任務相應的計算資源節(jié)省了約 30%。近期微信搜一搜在部分任務上線了 INT4 模型服務,該服務相較于之前的 INT8 模型服務有顯著的性能提升,在流量高峰時平均響應時間降低了 21%,超時率降低了 70%。這個方案大大優(yōu)化了微信搜一搜業(yè)務的性能,降低了部署成本。

使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎進行 INT4 低精度推理,極大提升了微信搜一搜相關任務的速度,進一步提升了用戶體驗,節(jié)約了公司成本。

INT4 與 INT8 服務請求耗時和失敗率對比

工程師朱健琛和李輝表示:“我們成功地實現(xiàn)了 INT4 的量化加速模型,并且在微信搜索核心任務(例如 query 理解和打分)上,顯著的提高了這些模型的推理速度。通過使用我們提出的 Auto48 算法,我們成功打破了 NLP 模型的復雜性帶來的限制。這種先進的優(yōu)化手段可以極大地減少計算資源的需求?!?/span>

原文標題:NVIDIA TensorRT 助力騰訊加速微信搜一搜

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4855

    瀏覽量

    102711
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4673

    瀏覽量

    128593
  • 騰訊
    +關注

    關注

    7

    文章

    1637

    瀏覽量

    49381
  • 微信
    +關注

    關注

    6

    文章

    509

    瀏覽量

    26482

原文標題:NVIDIA TensorRT 助力騰訊加速微信搜一搜

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AMD與NVIDIA GPU優(yōu)缺點

    ,NVIDIA的RTX系列顯卡以其強大的光線追蹤和DLSS技術領先于市場。例如,NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戲體驗,而AMD的Radeon RX 6800 XT雖然在某些游戲中表現(xiàn)接近,但在光線追蹤
    的頭像 發(fā)表于 10-27 11:15 ?371次閱讀

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成式 AI
    的頭像 發(fā)表于 09-06 14:59 ?248次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-<b class='flag-5'>4</b> 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高
    的頭像 發(fā)表于 08-23 15:48 ?355次閱讀

    暴漲預警!NVIDIA GPU供應大跳水

    gpu
    jf_02331860
    發(fā)布于 :2024年07月26日 09:41:42

    超級猛獸 GPU ?NVIDIA GeForce RTX 5090 基本頻率接近 2.9 GHz

    。JAEALOT2024年7月4日據(jù)傳,NVIDIA的GeForceRTX5090GPU的基本時鐘頻率接近3GHz,這比4090有大幅提升。NVIDIAGeForceRTX509
    的頭像 發(fā)表于 07-12 08:26 ?364次閱讀
    超級猛獸 <b class='flag-5'>GPU</b> ?<b class='flag-5'>NVIDIA</b> GeForce RTX 5090 基本頻率接近 2.9 GHz

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    Blackwell GPU,標志著 AI 超級計算的一次重大進步。這種獨特的配置顯著減少傳統(tǒng)網絡擴展時 的通信開銷,使得對 1.8T 參數(shù)的模型進行實時推理成為可能,同時將模型訓練速度提升4
    發(fā)表于 05-13 17:16

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的
    的頭像 發(fā)表于 04-28 10:36 ?462次閱讀

    NVIDIA推出兩款基于NVIDIA Ampere架構的全新臺式機GPU

    兩款 NVIDIA Ampere 架構 GPU 為工作站帶來實時光線追蹤功能和生成式 AI 工具支持。
    的頭像 發(fā)表于 04-26 11:25 ?559次閱讀

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新開源大語言模型采用 NVIDIA 技術構建,其經過優(yōu)化后可在云、數(shù)據(jù)中心、邊緣和 PC 的 NVIDIA GPU 上運行。
    的頭像 發(fā)表于 04-23 09:52 ?411次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網絡和熱
    的頭像 發(fā)表于 04-20 09:39 ?614次閱讀

    RTX 5880 Ada Generation GPU與RTX? A6000 GPU對比

    NVIDIA RTX? 5880 Ada Generation GPU 是目前國內重量級 GPU,基于全新 NVIDIA Ada Lovelace 架構構建,采用
    的頭像 發(fā)表于 04-19 10:20 ?1526次閱讀
    RTX 5880 Ada Generation <b class='flag-5'>GPU</b>與RTX? A6000 <b class='flag-5'>GPU</b>對比

    gpu服務器評測

    GPU服務器進行評測。 一、超GPU服務器概述 超GPU服務器是一種基于超微服務器平臺與
    的頭像 發(fā)表于 01-10 10:37 ?1218次閱讀

    Torch TensorRT是一個優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個端到端的機器學習框架。而TensorRT則是NVIDIA的高性能深度學習推理軟件工具包。Torch Te
    的頭像 發(fā)表于 01-09 16:41 ?1452次閱讀
    Torch <b class='flag-5'>TensorRT</b>是一個優(yōu)化PyTorch模型推理性能的工具

    NVIDIA GPU的核心架構及架構演進

    在探討 NVIDIA GPU 架構之前,我們先來了解一些相關的基本知識。GPU 的概念,是由 NVIDIA 公司在 1999 年發(fā)布 Geforce256 圖形處理芯片時首先提出,從此
    發(fā)表于 11-21 09:40 ?1415次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架構及架構演進

    NVIDIA GPU 助力筷子科技,升級更全面和 AI 原生化的內容商業(yè)全鏈路平臺

    了 Kuaizi 的 AI 服務能力。 本案例主要應用到 T4 、 V100 、 NVIDIA GTX 1080 Ti 和 TensorRT 。 客戶簡介及應用背景 筷子科技是服務于全球內容商業(yè)生態(tài)的技術提供商
    的頭像 發(fā)表于 11-13 20:45 ?503次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> 助力筷子科技,升級更全面和 AI 原生化的內容商業(yè)全鏈路平臺