免费看好大好黄视频,国产亚洲日韩A欧美在线人成,国产高清午夜自在在线

案例簡介

本案例中，阿里巴巴本地生活場景中，部署了大量使用 TensorFlow 的深度學習推薦模型，這些模型需要對每個用戶附近的數(shù)千家商戶和產(chǎn)品進行排名，對用戶響應時間和業(yè)務吞吐量（QPS）要求極高。為了滿足這樣的要求 GPU 落地使用是必然，但由于 TensorFlow 目前對 GPU 使用采用單一 steam 方式，并且逐個調(diào)用 GPU 算子的過程中存在大量的 GPU kernel 啟動開銷，因此如何在這些系統(tǒng)中充分發(fā)揮 GPU 計算能力則需要探索。

阿里巴巴本地生活推薦系統(tǒng)結(jié)合 NVIDIA CUDA Graphs 對 GPU 進行算力釋放優(yōu)化，讓推理過程單機吞吐增長 110%，耗時 P99 下降 66.7%。

本案例主要應用到 NVIDIA V100 Tensor Core GPU 和 NVIDA CUDA Graphs。

客戶簡介及應用背景

阿里巴巴集團旗下的阿里巴巴本地生活服務公司，是由餓了么和口碑會師合并組成國內(nèi)領(lǐng)先的本地生活服務平臺，使命是“重新定義城市生活，讓生活更美好?！笨诒畬Ｗ⒌降晗M服務，餓了么專注到家生活服務，蜂鳥即配專注即時配送服務，客如云專注為商家提供數(shù)字化升級的產(chǎn)品和服務，共同推動本地生活市場的數(shù)字化，讓天下沒有難做的生意。

阿里巴巴本地生活服務公司智能推薦系統(tǒng)基于智能AI系統(tǒng)對用戶所在區(qū)域萬級商戶商品進行實時智能推薦和服務。實時智能推薦伴隨著深度學習技術(shù)的發(fā)展，為了追求智能推薦的準確度，推薦模型朝著兩個維度快速發(fā)展：1. 更寬更深的網(wǎng)絡(luò)，更復雜的特征增強方式。2. 更多的不同維度的特征。這對在線推理階段的實時性能和算力提出了更高的挑戰(zhàn)。伴隨著搜索推薦模型的在 GPU 的廣泛落地使用，GPU 在各個場景下的算力優(yōu)化也被廣泛關(guān)注。

在線 Inference 過程中，由于考慮到存儲 cache 的友好性，會把計算密集型算子和其周邊的數(shù)據(jù)變換算子都在 GPU 中執(zhí)行，算子數(shù)量的增長會導致嚴重的 kernel 啟動開銷，主要原因是：1. 大量小 kernel 的執(zhí)行

2. TensorFlow 的調(diào)度機制使得通過大量的線程啟動 kernel 到同一個 stream 中；多個線程競爭同個資源加劇 launch 開銷。

客戶挑戰(zhàn)

在阿里巴巴本地生活推薦搜索場景中，有大量的深度學習模型在用戶和商戶，用戶和商品匹配場景中使用，但是總體來看 GPU-Utilization 并不高，GPU 使用成本顯得比較高。隨著模型復雜度不斷攀升（Inference 計算達到 10～20 GFLOPS），算法同學的收益產(chǎn)出一定程度上和模型復雜度成正比關(guān)系。目前搜推廣的模型設(shè)計中部分子結(jié)構(gòu)設(shè)計和變換很多，但是基本范式如下：

Feature Generation -》 Embedding -》 Attention/Transformer -》 MLP

綠色部分基本屬于計算密集型部分，但是在搜推廣場景中，這部分算子不但包含對于算力需求旺盛的深度網(wǎng)絡(luò)相關(guān)算子，也包含數(shù)據(jù)合并，數(shù)據(jù)變換等輕量級計算算子，這類算子的特點是：運算時長通常很短（1-10 微秒），而且這一類輕量級計算算子的數(shù)量伴隨著 Transformer 的落地，數(shù)量占比逐步增高。

我們從另一個角度來量化這一過程輕量級計算算子的數(shù)量占比，GPU 的繁忙情況通常來說有兩個指標：

1. GPU-Utilization，表示 GPU 在單位時間內(nèi)在執(zhí)行 kernel 的時間片比例。

2. SM Activity，表示 GPU 中 SM 在單位時間內(nèi)用于執(zhí)行 kernel 的 SM 使用比例*時間片比例。

我們可以看到在推薦搜索模型線上 Inference 過程中 SM Activity 通常遠遠低于 GPU-Utilization，這表示 GPU 雖然在忙碌，但是由于輕量級計算算子的數(shù)量占比較高，SM 使用比例使用比例不高，GPU 的實際 “工作量” 并不大。

輕量級計算算子的比例高會導致該部分算子在 CPU 上調(diào)度過程中 kernel launch 的執(zhí)行時長遠遠大于算子在 GPU 上的執(zhí)行時長，這個現(xiàn)象會導致嚴重的 kernel launch bound 現(xiàn)象。

應用方案

基于以上挑戰(zhàn)，阿里巴巴本地生活搜索推薦模型選擇了 NVIDIA 提供的 AI 加速方案：CUDA Graphs。

1、首先，我們根據(jù)業(yè)務場景的具體問題，使用 NVIDIA Nsight Systems 進行問題定位和分析。我們利用 NVIDIA Nsight Systems 集成到線上 Inference 環(huán)境中，獲取了真實環(huán)境下 Inference 過程的 GPU Profing 文件。通過 Profing 文件，我們可以清晰的看到 Inference 過程中，kernel launch bound 現(xiàn)象異常嚴重，符合我們的分析預想（如下圖）。

2、后續(xù)，我們采用集成 CUDA Graphs 進行模型 Inference 過程優(yōu)化，理論上 CUDA Graphs 會大幅緩解 kernel launch bound 現(xiàn)象，因為 CUDA Graphs 會合并 N 個 kernel 獨立的 launch 操作，變?yōu)?1 個 graph launch 操作，這樣 kernel launch 不再是整個推理的瓶頸（如下圖）。

使用效果及影響

經(jīng)過集成 NVIDIA Nsight System 進行 GPU 使用情況查看和細節(jié)問題的診斷，我們充分了解和分析了業(yè)務中對 GPU 的使用情況的 kernel 執(zhí)行流程。對性能進一步優(yōu)化起到了指導作用。后續(xù)集成 CUDA Graphs 后，符合預期效果。推薦深度學習模型在 Inference 過程中的耗時 P99 下降 66%，單機吞吐提升 110%。讓用戶在毫無感知的時間范圍內(nèi)完成了模型算力達到 10 GFLOPS 的 Inference 過程，用戶體驗得到了極大的提升。

在使用 NVIDIA Nsight Systems 進行 GPU 瓶頸分析過程中，文檔查閱和使用教程很方便上手，集成過程也較為方便，指標介紹很豐富，快速完成 GPU 使用情況分析。后續(xù) CUDA Graphs 使用過程中，相關(guān)文檔也比較完善，包括圖的切割和分裝，算子 Capture 標準等。

本次優(yōu)化過程，團隊內(nèi)部積累了一套較為完善的 GPU 優(yōu)化手段和優(yōu)化方法理論，后續(xù)遇到其他模型性能問題時也有的放矢。多場景進行優(yōu)化后，對整個 GPU。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4855

瀏覽量
102711
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4673

瀏覽量
128594
AI

AI

+關(guān)注

關(guān)注
87

文章
29815

瀏覽量
268110

阿里巴巴國際站首推全流程AI產(chǎn)品

近日，阿里巴巴國際站正式推出了其首個全流程AI產(chǎn)品——AI生意助手2.0。這一創(chuàng)新產(chǎn)品的問世，標志著阿里巴巴在助力中小企業(yè)外貿(mào)經(jīng)營方面邁出了重要一步。

發(fā)表于 10-30 16:12 ?166次閱讀

阿里巴巴完成雙重主要上市

8月28日阿里巴巴在香港聯(lián)交所主板主要上市，成為在港交所、紐交所雙重主要上市的公司。如今，阿里巴巴完成雙重主要上市。此外，有投資機構(gòu)認為阿里巴巴最快有望于9月份就納入港股通。截至8月28日收盤，

發(fā)表于 08-29 16:06 ?329次閱讀

阿里巴巴季報出爐阿里云二季度營收增長6%

阿里巴巴季報出爐我們一起來圍觀一下，根據(jù)阿里巴巴集團發(fā)布的截至2024年6月30日的第二季度經(jīng)營業(yè)績數(shù)據(jù)顯示，阿里巴巴該季度營收達到2432.4億元，而上年同期營收2341.56億元，同比增4%；經(jīng)

發(fā)表于 08-16 16:45 ?441次閱讀

阿里巴巴AI賦能海外擴張新篇章

中國電商巨頭阿里巴巴集團正積極重啟并加速其海外擴張戰(zhàn)略，以應對國內(nèi)電商市場競爭加劇的挑戰(zhàn)。此次擴張的一大亮點在于，阿里巴巴將人工智能（AI）技術(shù)深度融入其國際業(yè)務布局中，開啟了海外發(fā)展的新篇章。

發(fā)表于 07-12 17:56 ?922次閱讀

阿里巴巴投資逐際動力，深化智能機器人布局

近日，阿里巴巴集團對深圳逐際動力科技有限公司（簡稱：逐際動力）進行戰(zhàn)略投資，此舉再次體現(xiàn)了阿里巴巴在智能機器人領(lǐng)域的堅定布局。

發(fā)表于 05-22 11:52 ?739次閱讀

阿里巴巴集團2024財年穩(wěn)健增長

阿里巴巴集團近日公布了其2024財年第四季度及全年業(yè)績報告，數(shù)據(jù)亮眼。在經(jīng)歷一年的主動變革后，阿里巴巴重回健康增長軌道。

發(fā)表于 05-16 11:23 ?626次閱讀

阿里巴巴杭州全球總部正式啟用

近日，阿里巴巴在杭州的未來科技城正式揭開了其全球總部新園區(qū)的面紗。這座園區(qū)不僅是阿里巴巴目前規(guī)模最大的綜合性辦公空間，更是其綠色、科技、可持續(xù)發(fā)展理念的生動體現(xiàn)。

發(fā)表于 05-13 11:15 ?503次閱讀

阿里巴巴重返中國頂級電商軌道

阿里巴巴集團董事會主席蔡崇信近日宣布，經(jīng)過一系列架構(gòu)重組和管理層變動后，阿里巴巴已成功重返中國頂級電商軌道。蔡崇信在講話中強調(diào)，公司正在逐步調(diào)整戰(zhàn)略，重新定位其在電商領(lǐng)域的領(lǐng)導地位。

發(fā)表于 02-27 14:29 ?855次閱讀

阿里巴巴漲超3% 財報或超預期

阿里巴巴漲超3% 今日港股開盤后阿里巴巴漲超3%，恒生科技表現(xiàn)也很亮眼?？焓?、比亞迪電子、聯(lián)想集團等多股上漲。 阿里巴巴將于2月7日發(fā)布2024財年第三季度財報，業(yè)界分析會超預期。

發(fā)表于 02-06 16:05 ?1446次閱讀

阿里巴巴推出自主多模態(tài)AI代理MobileAgent

阿里巴巴最近推出了一款名為MobileAgent的自主多模態(tài)AI代理，這款產(chǎn)品模擬人類操作手機，并采用純視覺解決方案，無需任何系統(tǒng)代碼。

發(fā)表于 02-04 10:34 ?942次閱讀

軟銀子公司確認減持阿里阿里巴巴最大股東易主

軟銀子公司確認減持阿里軟銀集團旗下全資子公司Skybridge LLC在回應關(guān)于買賣阿里巴巴股票時表示，此前已經(jīng)與金融機構(gòu)簽訂了預付遠期合約涉及5.21億股；由于近幾年已經(jīng)分階段實施并完成實物結(jié)算

發(fā)表于 01-26 20:45 ?1745次閱讀

軟銀已完成減持阿里巴巴股份

近日，軟銀集團全資子公司Skybridge LLC宣布，已完成對阿里巴巴股份的減持。這一決定是在經(jīng)過深思熟慮后作出的，旨在優(yōu)化公司的財務結(jié)構(gòu)和未來的投資策略。

發(fā)表于 01-26 15:58 ?790次閱讀

馬云大幅增持阿里股票馬云取代軟銀成為阿里巴巴最大股東

馬云大幅增持阿里股票馬云取代軟銀成為阿里巴巴最大股東有媒體報道，阿里巴巴創(chuàng)始人馬云、蔡崇信近期大筆增持了阿里的股票，而且已經(jīng)買成了最大股東，馬云取代軟銀成為

發(fā)表于 01-24 18:55 ?1029次閱讀

鐳神智能入選阿里巴巴諸神之戰(zhàn)2023年度智能制造賽道之星

近日，阿里云發(fā)布《Create@阿里巴巴諸神之戰(zhàn)2023年度新勢力榜單》，鐳神智能入選Create@阿里巴巴諸神之戰(zhàn)2023年度智能制造賽道之星。據(jù)悉，2023年，Create@阿里巴巴

發(fā)表于 01-20 08:23 ?400次閱讀

深夜，阿里巴巴“出售”小鵬？

對此，阿里巴巴集團相關(guān)負責人表示，“我們根據(jù)自身的資本管理目標，出售了所持的部分小鵬股份。小鵬是中國電動汽車領(lǐng)域的領(lǐng)軍者之一，我們已與其建立了戰(zhàn)略合作關(guān)系。我們相信小鵬的前景，期待與該公司的持續(xù)合作?！?/div>
發(fā)表于 12-18 16:31 ?590次閱讀

搜索歷史

基于TensorFlow的阿里巴巴本地生活推薦系統(tǒng)

評論