熟妇无码乱子成人精品,一级毛片全部免费播放

藉由 NVIDIAT4 GPU，通過(guò) Ronda 平臺(tái)調(diào)用 NVIDIA Triton 以及 TensorRT ，整體提升開發(fā)和推理效能，幫助騰訊 PCG 的多個(gè)服務(wù)整體效能提升 2 倍，吞吐量最大提升 6 倍，同時(shí)降低了 40% 的延時(shí)。

騰訊平臺(tái)與內(nèi)容事業(yè)群（簡(jiǎn)稱騰訊 PCG）負(fù)責(zé)公司互聯(lián)網(wǎng)平臺(tái)和內(nèi)容文化生態(tài)融合發(fā)展，整合 QQ、QQ 空間等社交平臺(tái)，和應(yīng)用寶、瀏覽器等流量平臺(tái)，以及新聞資訊、視頻、體育、直播、動(dòng)漫、影業(yè)等內(nèi)容業(yè)務(wù)，推動(dòng) IP 跨平臺(tái)、多形態(tài)發(fā)展，為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗(yàn)。

騰訊 PCG 機(jī)器學(xué)習(xí)平臺(tái)部旨在構(gòu)建和持續(xù)優(yōu)化符合 PCG 技術(shù)中臺(tái)戰(zhàn)略的機(jī)器學(xué)習(xí)平臺(tái)和系統(tǒng)，提升 PCG 機(jī)器學(xué)習(xí)技術(shù)應(yīng)用效率和價(jià)值。建設(shè)業(yè)務(wù)領(lǐng)先的模型訓(xùn)練系統(tǒng)和算法框架；提供涵蓋數(shù)據(jù)標(biāo)注、模型訓(xùn)練、評(píng)測(cè)、上線的全流程平臺(tái)服務(wù)，實(shí)現(xiàn)高效率迭代；在內(nèi)容理解和處理領(lǐng)域，輸出業(yè)界領(lǐng)先的元能力和智能策略庫(kù)。機(jī)器學(xué)習(xí)平臺(tái)部正服務(wù)于 PCG 所有業(yè)務(wù)產(chǎn)品。

而過(guò)往在項(xiàng)目執(zhí)行時(shí)，團(tuán)隊(duì)所面挑戰(zhàn)包含：

1. 業(yè)務(wù)繁多，場(chǎng)景復(fù)雜

業(yè)務(wù)開發(fā)語(yǔ)言包括C++/Python

模型格式繁多，包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預(yù)處理涉及圖片下載等網(wǎng)絡(luò)IO

多模型融合流程比教復(fù)雜，涉及循環(huán)調(diào)用

支持異構(gòu)推理

2. 模型推理結(jié)果異常時(shí)，難以方便地調(diào)試定位問(wèn)題

3. 需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺(tái)進(jìn)行融合

基于以上挑戰(zhàn)，騰訊 PCG 選擇了采用 NVIDIA Triton 推理服務(wù)器，以解決新場(chǎng)景下模型推理引擎面臨的挑戰(zhàn)，在提升用戶研效的同時(shí)，大幅降低了服務(wù)成本。

NVIDIA Triton 是一款開源軟件，對(duì)于所有推理模式都可以簡(jiǎn)化模型在任一框架中以及任何 GPU 或 CPU 上的運(yùn)行方式，從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型 ensemble，以及 TensorFlow、PyTorch、ONNX 等多種深度學(xué)習(xí)模型框架，可以很好的支持多模型聯(lián)合推理的場(chǎng)景，構(gòu)建起視頻、圖片、語(yǔ)音、文本整個(gè)推理服務(wù)過(guò)程，大大降低多個(gè)模型服務(wù)的開發(fā)和維護(hù)成本。

基于 C++ 的基礎(chǔ)架構(gòu)、Dynamic-batch、以及對(duì) TensorRT 的支持，同時(shí)配合 T4 的 GPU，將整體推理服務(wù)的吞吐能力最大提升 6 倍，延遲最大降低 40%，既滿足了業(yè)務(wù)的低延時(shí)需求，成本也降低了 20%-66%。

通過(guò)將 Triton 編譯為動(dòng)態(tài)鏈接庫(kù)，可以方便地鏈入公司內(nèi)部框架，對(duì)接公司的平臺(tái)治理體系。符合 C 語(yǔ)言規(guī)范的 API 也極大降低了用戶的接入成本。

借助 Python Backend 和 Custom Backend，用戶可以自由選擇使用 C++/Python 語(yǔ)言進(jìn)行二次開發(fā)。

Triton 的 Tracing 能力可以方便地捕捉執(zhí)行過(guò)程中的數(shù)據(jù)流狀態(tài)。結(jié)合 Metrics 和 Perf Analysis 等組件，可以快速定位開發(fā)調(diào)試，甚至是線上問(wèn)題，對(duì)于開發(fā)和定位問(wèn)題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強(qiáng)和圖像加載庫(kù)。DALI Backend 可以用于替換掉原來(lái)的圖片解碼、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理，進(jìn)一步提升服務(wù)端推理性能。

借助 NVIDIA Triton 推理框架，配合 DALI/FIL/Python 等 Backend，以及 TensorRT，整體推理服務(wù)的吞吐能力最大提升 6 倍，延遲最大降低 40%。幫助騰訊 PCG 各業(yè)務(wù)場(chǎng)景中，以更低的成本構(gòu)建了高性能的推理服務(wù)，同時(shí)更低的延遲降低了整條系統(tǒng)鏈路的響應(yīng)時(shí)間，優(yōu)化了用戶體驗(yàn)。

審核編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6808

瀏覽量
88743
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4855

瀏覽量
102711
騰訊

騰訊

+關(guān)注

關(guān)注
7

文章
1637

瀏覽量
49381

評(píng)論

相關(guān)推薦

Wolfspeed碳化硅助力實(shí)現(xiàn)高性能功率系統(tǒng)

Wolfspeed碳化硅助力實(shí)現(xiàn)高性能功率系統(tǒng)

發(fā)表于 10-24 10:51 ?0次下載

澎峰科技高性能大模型推理引擎PerfXLM解析

自ChatGPT問(wèn)世以來(lái)，大模型遍地開花，承載大模型應(yīng)用的高性能推理框架也不斷推出，大有百家爭(zhēng)鳴之勢(shì)。在這種情況下，澎峰科技作為全球領(lǐng)先的智能計(jì)算服務(wù)提供商，在2023年11月25日發(fā)布了針對(duì)大語(yǔ)言

發(fā)表于 09-29 10:14 ?331次閱讀

澎峰科技<b class='flag-5'>高性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

NVIDIA助力提供多樣、靈活的模型選擇

在本案例中，Dify 以模型中立以及開源生態(tài)的優(yōu)勢(shì)，為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務(wù)器

發(fā)表于 09-09 09:19 ?413次閱讀

NVIDIA攜手Meta推出AI服務(wù)，為企業(yè)提供生成式AI服務(wù)

NVIDIA近日宣布了一項(xiàng)重大舉措，正式推出NVIDIA AI Foundry服務(wù)與NVIDIA NIM（NVIDIA Inference

發(fā)表于 07-25 16:57 ?474次閱讀

英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù)

發(fā)表于 07-25 09:48 ?643次閱讀

英偉達(dá)推出AI模型推理服務(wù)NVIDIA NIM

英偉達(dá)近日宣布推出一項(xiàng)革命性的AI模型推理服務(wù)——NVIDIA NIM。這項(xiàng)服務(wù)將極大地簡(jiǎn)化AI模型部署過(guò)程，為全球的2800萬(wàn)英偉達(dá)開發(fā)者提供前所未有的便利。

發(fā)表于 06-04 09:15 ?621次閱讀

英特爾助力京東云用CPU加速AI推理，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

英特爾助力京東云用CPU加速AI推理，以大模型構(gòu)建數(shù)智化供應(yīng)鏈

發(fā)表于 05-27 11:50 ?474次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實(shí)踐中，唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網(wǎng)絡(luò)和熱

發(fā)表于 04-20 09:39 ?614次閱讀

使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

這家云計(jì)算巨頭的計(jì)算機(jī)視覺(jué)和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來(lái)加速 AI 預(yù)測(cè)。

發(fā)表于 02-29 14:04 ?532次閱讀

基于NVIDIA DOCA 2.6實(shí)現(xiàn)高性能和安全的AI云設(shè)計(jì)

網(wǎng)絡(luò)平臺(tái)上快速創(chuàng)建應(yīng)用程序和服務(wù)，并啟用 NVIDIA BlueField DPU 和 NVIDIA BlueField SuperNIC 的強(qiáng)大功能，提供突破性的網(wǎng)絡(luò)、安全和存儲(chǔ)性能

發(fā)表于 02-23 10:02 ?415次閱讀

利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗(yàn)

本案例通過(guò)利用NVIDIA TensorRT-LLM加速指令識(shí)別深度學(xué)習(xí)模型，并借助NVIDIA Triton推理服務(wù)器在

發(fā)表于 01-17 09:30 ?633次閱讀

騰訊云與 IBM 共同打造“高性能計(jì)算服務(wù)解決方案”

在今天的“人工智能時(shí)代”，與 AI 技術(shù)并駕齊驅(qū)的是服務(wù)于 AI 算法訓(xùn)練及推理的“高性能計(jì)算”HPC 技術(shù)。HPC 并行工作處理器集群能以高于商用系統(tǒng)百萬(wàn)倍以上的速度運(yùn)行，強(qiáng)有力地對(duì)海量多維數(shù)據(jù)集

發(fā)表于 12-22 18:55 ?551次閱讀

什么是Triton-shared？Triton-shared的安裝和使用

經(jīng)過(guò)前面幾章關(guān)于triton在nv gpu上調(diào)優(yōu)的講解，我們這章開始來(lái)看看triton的一個(gè)third_party庫(kù)，該庫(kù)是為了讓triton去支持更多其他的backend。該項(xiàng)目的地址如下所示

發(fā)表于 12-19 09:47 ?1060次閱讀

Triton編譯器的原理和性能

Triton是一種用于編寫高效自定義深度學(xué)習(xí)原語(yǔ)的語(yǔ)言和編譯器。Triton的目的是提供一個(gè)開源環(huán)境，以比CUDA更高的生產(chǎn)力編寫快速代碼，但也比其他現(xiàn)有DSL具有更大的靈活性。Triton已被采用

發(fā)表于 12-16 11:22 ?2645次閱讀

創(chuàng)新企業(yè)云福利：騰訊云 × NVIDIA 初創(chuàng)加速計(jì)劃

助力生成式 AI、大模型訓(xùn)練與推理、自動(dòng)駕駛、圖像處理等場(chǎng)景初創(chuàng)企業(yè)加速成長(zhǎng)，最高獲贈(zèng) 10 萬(wàn)元扶持基金、NVIDIA 深度學(xué)習(xí)培訓(xùn)中心（DLI）優(yōu)惠課程，以及免費(fèi)的 GPU 技術(shù)支持。騰

發(fā)表于 11-13 20:40 ?545次閱讀