0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

美團落實 AI 框架在 GPU 上性能推理的優(yōu)化實踐

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-12-28 09:11 ? 次閱讀

美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰(zhàn)略,以“吃”為核心,通過科技創(chuàng)新,服務于生活服務業(yè)需求側和供給側數(shù)字化升級。美團在中國業(yè)務涵蓋餐飲、配送、網(wǎng)約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區(qū)縣,服務 6.7 億活躍用戶和 830萬活躍商家。

伴隨著用戶規(guī)模的提升和業(yè)務的精細化運營,業(yè)務側對推薦系統(tǒng)的準確度、吞吐能力和時延都提出了新的挑戰(zhàn),而 CTR 模型作為推薦系統(tǒng)的核心模型,其效果直接影響業(yè)務的收入。

美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經(jīng)網(wǎng)絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。

GPU 擁有數(shù)以千計的計算核心,可以在單機內(nèi)提供密集的并行計算能力,特別適合深度學習場景,在行業(yè)內(nèi)已經(jīng)在 CV 、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API ,NVIDIA 建立了完整的 GPU 生態(tài)系統(tǒng)?;诖?,美團基礎研發(fā)平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統(tǒng)并行計算設計、數(shù)據(jù)存儲方式和傳輸方式上的特定優(yōu)化,希望能通過 GPU 強大的計算力,協(xié)助美團在 CTR 預測的各業(yè)務場景中發(fā)揮出最大優(yōu)勢。

為了解決算力瓶頸及上述各種挑戰(zhàn),美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV 、NLP 及 CTR 訓練后,也使用了 NVIDIA T4 來提供 CTR 預測支持,大幅提升用戶體驗與服務穩(wěn)定性。除此之外,時延也是業(yè)務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非??量?,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。

通過 NVIDIA T4 深度優(yōu)化方案,成功為美團 CTR 模型創(chuàng)造更多應用機會,不僅極大地提升了系統(tǒng)吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU 上性能推理的優(yōu)化實踐。

美團研發(fā)工程師,機器學習平臺預測引擎負責人王新表示,“在美團和英偉達的共同努力下, CTR 預測服務成功的遷移到 GPU 平臺上,在為業(yè)務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30 ,進一步提升美團推理服務的效率?!?/p>

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10804

    瀏覽量

    210839
  • NVIDIA
    +關注

    關注

    14

    文章

    4855

    瀏覽量

    102711
  • AI
    AI
    +關注

    關注

    87

    文章

    29806

    瀏覽量

    268106
  • 美團
    +關注

    關注

    0

    文章

    123

    瀏覽量

    10333

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    FPGA和ASIC在大模型推理加速中的應用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經(jīng)有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了
    的頭像 發(fā)表于 10-29 14:12 ?155次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    TI TDA2x SoC基于GPU的環(huán)視優(yōu)化

    電子發(fā)燒友網(wǎng)站提供《TI TDA2x SoC基于GPU的環(huán)視優(yōu)化.pdf》資料免費下載
    發(fā)表于 10-10 09:14 ?0次下載
    TI TDA2x SoC<b class='flag-5'>上</b>基于<b class='flag-5'>GPU</b>的環(huán)視<b class='flag-5'>優(yōu)化</b>

    揭秘動態(tài)化跨端框架在鴻蒙系統(tǒng)下的高性能解決方案

    平臺解決方案。 在研發(fā)團隊使用后可大幅降低研發(fā)人力成本;為業(yè)務提供實時觸達、A/B觸達等能力以提升業(yè)務投放效率;同時保障了C端用戶優(yōu)秀的用戶體驗。 一、動態(tài)化跨端框架原理介紹 ? ? ? ? ? 通過上圖,我們先了解一下動態(tài)化跨端框架在iOS、Android等多個平臺實現(xiàn)
    的頭像 發(fā)表于 10-08 13:46 ?649次閱讀
    揭秘動態(tài)化跨端<b class='flag-5'>框架在</b>鴻蒙系統(tǒng)下的高<b class='flag-5'>性能</b>解決方案

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領先的智能計算服務提供商,在2023年11月25日發(fā)布了針對大語言
    的頭像 發(fā)表于 09-29 10:14 ?331次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    AI真·煉丹:整整14天,無需人類參與

    ,甚至是整個AI平臺或全流程加速實踐成果,重點就是如何更好地利用CPU來提升AI,包括大模型應用的性能和效率。
    的頭像 發(fā)表于 07-02 14:15 ?234次閱讀
    <b class='flag-5'>AI</b>真·煉丹:整整14天,無需人類參與

    摩爾線程與智譜AI完成大模型性能測試與適配

    近日,摩爾線程與智譜AI在人工智能領域開展了一輪深入的合作,共同對GPU大模型進行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力,還涉及了基于摩爾線程夸娥(KUAE)千卡智算集群
    的頭像 發(fā)表于 06-14 16:40 ?936次閱讀

    炬芯科技攜手趣戴科技推動LiteGfx GUI框架在嵌入式終端智能設備應用

    炬芯科技與上海趣戴科技有限公司(簡稱“趣戴科技”)建立緊密合作關系,雙方攜手推動LiteGfx GUI框架在嵌入式終端智能設備應用,降低智能手表設備GUI界面的開發(fā)門檻。該框架可模擬3D,并融合了
    的頭像 發(fā)表于 06-04 16:12 ?955次閱讀

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    。 **英偉達Blackwell架構在數(shù)據(jù)中心方面的應用有哪些?** 1. **AI **大模型訓練 Blackwell 架構的 GPU 針對當前火爆的 AI 大模型進行了優(yōu)化,能夠
    發(fā)表于 05-13 17:16

    利用NVIDIA組件提升GPU推理的吞吐

    實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡和熱 Embedding 全置于
    的頭像 發(fā)表于 04-20 09:39 ?614次閱讀

    開發(fā)者手機 AI - 目標識別 demo

    Lite的API接口實現(xiàn)主要功能; Mindspore Lite為Openharmony AI推理框架,為上層應用提供統(tǒng)一的AI推理接口,
    發(fā)表于 04-11 16:14

    自然語言處理應用LLM推理優(yōu)化綜述

    當前,業(yè)界在將傳統(tǒng)優(yōu)化技術引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發(fā),通過調(diào)整推理過程和引入新的模型結構來進一步提升推理性能。
    發(fā)表于 04-10 11:48 ?541次閱讀
    自然語言處理應用LLM<b class='flag-5'>推理</b><b class='flag-5'>優(yōu)化</b>綜述

    FPGA在深度學習應用中或將取代GPU

    最后說,“我們決定專注于軟件業(yè)務,探索研究提升神經(jīng)網(wǎng)絡性能和降低延遲的方案。Zebra 運行在 FPGA ,因此無需更換硬件就可以支持 AI 推理。FPGA 固件的每次刷新都能給我
    發(fā)表于 03-21 15:19

    AI推理框架軟件ONNX Runtime正式支持龍架構

    近日,知名AI推理框架開源社區(qū)ONNX Runtime正式發(fā)布支持龍架構的版本1.17.0。
    的頭像 發(fā)表于 03-12 12:23 ?527次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>框架</b>軟件ONNX Runtime正式支持龍架構

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    使用 MindSpore Lite 推理框架時,需要釋放已經(jīng)創(chuàng)建的模型。 // 釋放模型 OH_AI_ModelDestroy(&model); 調(diào)測驗證 編寫 CMakeLists.txt
    發(fā)表于 12-14 11:41

    與華為合作,華為支持研發(fā)原生應用

    根據(jù)合作協(xié)議,華為將全力幫助開發(fā)針對鴻蒙系統(tǒng)的原生應用,實現(xiàn)業(yè)務在手機、平板、車載設備等多個終端上的無縫連接。此外,鴻蒙的分布式設計和多端部署優(yōu)勢,將為
    的頭像 發(fā)表于 11-15 17:26 ?1490次閱讀