0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPU助力騰訊PCG加速無(wú)量推薦系統(tǒng)

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 14:53 ? 次閱讀

案例簡(jiǎn)介

? 本案例中通過(guò)使用 NVIDIA GPU 加速平臺(tái),騰訊平臺(tái)與內(nèi)容事業(yè)群(PCG)深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)了”無(wú)量推薦系統(tǒng)”模型訓(xùn)練到在線推理的全流程GPU加速,整體效能性價(jià)比提升1~3倍。

? 本案例主要應(yīng)用到 NVIDIA A100 Tensor Core GPU以及相關(guān)軟件的加速平臺(tái)。

客戶簡(jiǎn)介及應(yīng)用背景

無(wú)量推薦系統(tǒng)承載著騰訊平臺(tái)與內(nèi)容事業(yè)群的推薦場(chǎng)景, 包括: 騰訊看點(diǎn)(瀏覽器,QQ看點(diǎn),商業(yè)化),騰訊新聞,騰訊視頻, 騰訊音樂(lè),閱文,應(yīng)用寶,小鵝拼拼等。無(wú)量推薦系統(tǒng)支持日活躍用戶達(dá)數(shù)億級(jí)別, 其中的模型數(shù)量達(dá)數(shù)千個(gè),日均調(diào)用服務(wù)達(dá)到千億級(jí)別。

無(wú)量推薦系統(tǒng)在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計(jì)算, 是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計(jì)。

客戶挑戰(zhàn)

傳統(tǒng)推薦系統(tǒng)具有以下特點(diǎn): 訓(xùn)練是基于參數(shù)服務(wù)器的框架,解決海量數(shù)據(jù)和稀疏特征的分布式訓(xùn)練問(wèn)題。推理通常分離大規(guī)模Embedding和DNN,只能進(jìn)行DNN的GPU加速。

所以,傳統(tǒng)的推薦系統(tǒng)架構(gòu)也具有局限性:

大規(guī)模分布式架構(gòu)有大量的額外開銷,比如參數(shù)和梯度的網(wǎng)絡(luò)收發(fā)。

隨著DNN模型復(fù)雜性的的進(jìn)一步提升,CPU的計(jì)算速度開始捉襟見肘。

隨著業(yè)務(wù)的快速增長(zhǎng),日活用戶增多,對(duì)其調(diào)用數(shù)量快速增加,給推薦系統(tǒng)后臺(tái)帶來(lái)了新的挑戰(zhàn):

1, 模型更加復(fù)雜,計(jì)算量更大,但是參數(shù)服務(wù)器的分布式架構(gòu)有效計(jì)算比很低。

2, 海量Embedding因?yàn)橐?guī)模龐大,查詢和聚合計(jì)算難以有效利用GPU高性能顯存和算力的優(yōu)勢(shì)。

應(yīng)用方案

基于以上的挑戰(zhàn), 騰訊選擇使用基于NVIDIA A100 Tensor Core GPU的分布式系統(tǒng)架構(gòu)來(lái)創(chuàng)建無(wú)量推薦系統(tǒng)。

1, 通過(guò)多級(jí)存儲(chǔ)和Pipeline優(yōu)化,在HPC上完成大規(guī)模推薦模型的GPU的高性能訓(xùn)練。

2, 基于特征訪問(wèn)Power-law分布的特性,GPU緩存高頻特征參數(shù),同時(shí)從CPU中動(dòng)態(tài)獲取低頻特征參數(shù),實(shí)現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。

使用效果及影響

騰訊平臺(tái)與內(nèi)容事業(yè)群有多種類型的推薦業(yè)務(wù)場(chǎng)景。比如信息流推薦的QQ瀏覽器、QQ看點(diǎn),新聞推薦的騰訊新聞,視頻推薦的騰訊視頻、微視,App推薦的應(yīng)用寶,以及騰訊音樂(lè)的音樂(lè)推薦和閱文集團(tuán)的文學(xué)推薦。

無(wú)量推薦系統(tǒng)承載了這些推薦業(yè)務(wù)場(chǎng)景的模型訓(xùn)練和推理服務(wù)?;趥鹘y(tǒng)的推薦系統(tǒng)架構(gòu),無(wú)量使用大量CPU資源,通過(guò)分布式架構(gòu)可以擴(kuò)展到TB級(jí)模型的訓(xùn)練和部署,取得了巨大的成功。

隨著業(yè)務(wù)的快速增長(zhǎng),日活用戶增多,對(duì)其調(diào)用數(shù)量快速增加,傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴(kuò)展和性能提升。

通過(guò)使用GPU訓(xùn)練和推理,單機(jī)多卡的GPU算力可以達(dá)到數(shù)十臺(tái)CPU機(jī)器的算力,節(jié)省了大量的額外分布式開銷。通過(guò)充分利用A100 GPU高性能顯存快速訪問(wèn)Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。

目前基于GPU的推薦架構(gòu)可以提升模型訓(xùn)練和推理性價(jià)比1~3倍。

展望未來(lái),無(wú)量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應(yīng)用,利用HPC多機(jī)多卡,混合精度等能力,進(jìn)一步提高推薦場(chǎng)景使用GPU的性價(jià)比。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4848

    瀏覽量

    102705
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128558
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AMD與NVIDIA GPU優(yōu)缺點(diǎn)

    在圖形處理單元(GPU)市場(chǎng),AMD和NVIDIA是兩大主要的競(jìng)爭(zhēng)者,它們各自推出的產(chǎn)品在性能、功耗、價(jià)格等方面都有著不同的特點(diǎn)和優(yōu)勢(shì)。 一、性能 GPU的性能是用戶最關(guān)心的指標(biāo)之一。在高端市場(chǎng)
    的頭像 發(fā)表于 10-27 11:15 ?358次閱讀

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡(jiǎn)而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來(lái)加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜計(jì)算任務(wù)的軟硬件結(jié)合系統(tǒng)
    的頭像 發(fā)表于 10-25 09:23 ?188次閱讀

    暴漲預(yù)警!NVIDIA GPU供應(yīng)大跳水

    gpu
    jf_02331860
    發(fā)布于 :2024年07月26日 09:41:42

    NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 變革

    關(guān)系進(jìn)一步深化。助力生成式 AI 的企業(yè)級(jí)應(yīng)用與發(fā)展加速駛?cè)肟燔嚨馈?HPE Private Cloud AI 是該解決方案的關(guān)鍵,開創(chuàng)性地將 NVIDIA AI 計(jì)算、網(wǎng)絡(luò)和軟
    的頭像 發(fā)表于 06-20 17:36 ?660次閱讀

    NVIDIA發(fā)布DeepStream 7.0,助力下一代視覺(jué)AI開發(fā)

    NVIDIA DeepStream 是一款功能強(qiáng)大的 SDK,能夠提供用于構(gòu)建端到端視覺(jué) AI 管線的 GPU 加速構(gòu)建模塊。
    的頭像 發(fā)表于 05-23 10:09 ?522次閱讀
    <b class='flag-5'>NVIDIA</b>發(fā)布DeepStream 7.0,<b class='flag-5'>助力</b>下一代視覺(jué)AI開發(fā)

    NVIDIA加速微軟最新的Phi-3 Mini開源語(yǔ)言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語(yǔ)言模型。TensorRT-LLM 是一個(gè)開源庫(kù),用于優(yōu)化從 PC 到云端的 NVID
    的頭像 發(fā)表于 04-28 10:36 ?460次閱讀

    NVIDIA推出兩款基于NVIDIA Ampere架構(gòu)的全新臺(tái)式機(jī)GPU

    兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來(lái)實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。
    的頭像 發(fā)表于 04-26 11:25 ?552次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于
    的頭像 發(fā)表于 04-20 09:39 ?611次閱讀

    NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”

    根據(jù)各方信息和路線圖,NVIDIA預(yù)計(jì)會(huì)在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”。
    的頭像 發(fā)表于 03-04 09:33 ?1212次閱讀
    <b class='flag-5'>NVIDIA</b>將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>器“B100”

    如何選擇NVIDIA GPU和虛擬化軟件的組合方案呢?

    NVIDIA vGPU 解決方案能夠?qū)?NVIDIA GPU 的強(qiáng)大功能帶入虛擬桌面、應(yīng)用程序和工作站,加速圖形和計(jì)算,使在家辦公或在任何地方工作的創(chuàng)意和技術(shù)專業(yè)人員能夠訪問(wèn)虛擬化工作
    的頭像 發(fā)表于 01-12 09:26 ?964次閱讀
    如何選擇<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虛擬化軟件的組合方案呢?

    NVIDIA 初創(chuàng)加速計(jì)劃 Omniverse 加速營(yíng)

    新的 AI 技術(shù)和迅速發(fā)展的應(yīng)用正在改變各行各業(yè),生成式 AI 已經(jīng)展示出在藝術(shù)、設(shè)計(jì)、影視動(dòng)畫、互娛、建筑等領(lǐng)域加速內(nèi)容創(chuàng)作的價(jià)值,助力實(shí)現(xiàn)高質(zhì)量、高效率、多樣化的內(nèi)容生產(chǎn),成為推動(dòng)數(shù)字生產(chǎn)力變革
    的頭像 發(fā)表于 12-04 20:35 ?607次閱讀
    <b class='flag-5'>NVIDIA</b> 初創(chuàng)<b class='flag-5'>加速</b>計(jì)劃 Omniverse <b class='flag-5'>加速</b>營(yíng)

    adi_sport_ConfigClock的時(shí)鐘分頻系數(shù)和pcg clk的分頻系數(shù)有什么關(guān)聯(lián)?

    和adi_sport_ConfigFrameSync中的分頻系數(shù)是多少? 2. adi_sport_ConfigClock這里的時(shí)鐘分頻系數(shù)和pcg clk的分頻系數(shù)有什么關(guān)聯(lián),比如1中的時(shí)鐘是由內(nèi)部pcg生成的,pcg該如何配
    發(fā)表于 11-28 07:27

    NVIDIA 知乎精彩問(wèn)答甄選 | 分享 NVIDIA 助力醫(yī)學(xué)研究的相關(guān)精彩問(wèn)答

    您分享? NVIDIA 助力醫(yī)學(xué)研究的具體實(shí)踐。 Q: 藥物研發(fā)的大神們可以解答一下生成式 AI 在這一領(lǐng)域帶來(lái)了 哪 些新變化嗎? A: 如今,放射科醫(yī)師使用 AI 來(lái)檢測(cè)醫(yī)學(xué)影像中的異常情況,醫(yī)生使用 AI 掃描電子病歷以了解患者的病情,研究人員則使用 AI 來(lái)
    的頭像 發(fā)表于 11-24 19:25 ?513次閱讀
    <b class='flag-5'>NVIDIA</b> 知乎精彩問(wèn)答甄選 | 分享 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>助力</b>醫(yī)學(xué)研究的相關(guān)精彩問(wèn)答

    NVIDIA GPU的核心架構(gòu)及架構(gòu)演進(jìn)

    在探討 NVIDIA GPU 架構(gòu)之前,我們先來(lái)了解一些相關(guān)的基本知識(shí)。GPU 的概念,是由 NVIDIA 公司在 1999 年發(fā)布 Geforce256 圖形處理芯片時(shí)首先提出,從此
    發(fā)表于 11-21 09:40 ?1412次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架構(gòu)及架構(gòu)演進(jìn)

    創(chuàng)新企業(yè)云福利:騰訊云 × NVIDIA 初創(chuàng)加速計(jì)劃

    助力生成式 AI、大模型訓(xùn)練與推理、自動(dòng)駕駛、圖像處理等場(chǎng)景初創(chuàng)企業(yè)加速成長(zhǎng),最高獲贈(zèng) 10 萬(wàn)元扶持基金、NVIDIA 深度學(xué)習(xí)培訓(xùn)中心(DLI)優(yōu)惠課程,以及免費(fèi)的 GPU 技術(shù)支
    的頭像 發(fā)表于 11-13 20:40 ?540次閱讀
    創(chuàng)新企業(yè)云福利:<b class='flag-5'>騰訊</b>云 × <b class='flag-5'>NVIDIA</b> 初創(chuàng)<b class='flag-5'>加速</b>計(jì)劃