簡(jiǎn)介
? 本案例中通過NVIDIA T4 GPU,TensorRT和Triton, 幫助微信OCR降低整體耗時(shí)46%, 并將系統(tǒng)的失敗率降低81%,同時(shí)降低了高達(dá)78%的服務(wù)器數(shù)量。
? 本案例主要應(yīng)用到 NVIDIA GPU ,TensorRT和Triton。
客戶簡(jiǎn)介
騰訊微信是一款跨平臺(tái)的通訊工具。支持通過手機(jī)網(wǎng)絡(luò)發(fā)送語(yǔ)音、圖片、視頻和文字等。截至2021年6月,微信在全球擁有超過12億活躍用戶,是國(guó)內(nèi)活躍用戶最多的社交軟件。
微信識(shí)物是一款主打物品識(shí)別的 AI 產(chǎn)品,通過相機(jī)拍攝物品,更高效、更智能地獲取信息。2020 年,微信識(shí)物拓展了更多識(shí)別場(chǎng)景,上線了微信版的圖片搜索。打開微信掃一掃,左滑切換到“識(shí)物”功能,對(duì)準(zhǔn)想要了解的物品正面,可以獲取對(duì)應(yīng)的物品信息,包括物品百科、相關(guān)資訊、相關(guān)商品。
2021年1月, 微信發(fā)布的微信8.0,版本更新支持圖片文字提取的功能。用戶在聊天界面和朋友圈中長(zhǎng)按圖片就可以提取圖片中文字,然后一鍵轉(zhuǎn)發(fā)、復(fù)制或收藏。
挑戰(zhàn)
微信識(shí)物包含檢測(cè)、圖像召回、信息提煉等環(huán)節(jié),OCR主要包括識(shí)別和檢測(cè),這兩種應(yīng)用都有非常大的計(jì)算量,在用Pytorch進(jìn)行模型的推理時(shí),一方面時(shí)延特別大,導(dǎo)致用戶體驗(yàn)受損;另一方面,顯存占用很大,單張NVIDIA T4上部署的模型數(shù)比較少,導(dǎo)致推理請(qǐng)求的并發(fā)數(shù)上不去,請(qǐng)求失敗的概率太高,只能通過增加機(jī)器的方式來提高并發(fā)能力,業(yè)務(wù)部署成本較高。再次,使用的模型經(jīng)常變化,而業(yè)務(wù)需要更換后的模型能夠快速地加速和上線部署。
方案
基于以上挑戰(zhàn),騰訊微信選擇了采用NVIDIA 的TensorRT對(duì)模型進(jìn)行推理加速,并利用NVIDIA Triton推理服務(wù)器在T4 GPU上進(jìn)行在線部署,在提升用戶體驗(yàn)的同時(shí),大幅降低了服務(wù)成本。
1、 通過使用TensorRT對(duì)微信識(shí)物和OCR的模型進(jìn)行加速,在都使用FP32的情況下,與Pytorch相對(duì),時(shí)延降低50%左右。
2、 在OCR的識(shí)別和檢測(cè)階段,使用TensorRT結(jié)合NVIDIA T4 GPU 的FP16 Tensor Core,在保證精度的同時(shí),識(shí)別的時(shí)延進(jìn)一步降低了50%,檢測(cè)降低了20%。
3、 在微信識(shí)物的分類和檢測(cè)任務(wù)中,通過使用NVIDIA T4 GPU 的int8 Tensor Core,并結(jié)合QAT,在滿足精度要求的前提下,進(jìn)一步大幅提升了性能。
4、 通過使用FP16和int8 低精度模式,在大幅降低推理時(shí)延的同時(shí),大大減少了顯存的占用,在FP16模式下,單模型顯存占用僅占FP32模式的40%–50%, 而在int8模式下,單模型顯存占用僅占FP32模式的30%左右。在提高單張T4卡上部署的模型數(shù)量的同時(shí),大幅提高了單GPU的推理請(qǐng)求并發(fā)能力。
5、 Triton的dynamic batch和多實(shí)例等特性,幫助微信將在滿足時(shí)延要求的同時(shí),提高了系統(tǒng)整體的并發(fā)能力,將系統(tǒng)失敗降低了81%。
6、 TensorRT可以對(duì)模型進(jìn)行快速的加速,Triton則可以對(duì)加速后的模型進(jìn)行快速的部署,滿足了業(yè)務(wù)對(duì)修改后的模型進(jìn)行快速部署的需求,同時(shí)也大大減少了工程人員的工作量。
效果
通過使用NVIDIA的TensorRT對(duì)微信識(shí)物和OCR的模型進(jìn)行加速,在降低單次推理時(shí)延50%以上的同時(shí),節(jié)約了多達(dá)64%的顯存。結(jié)合Triton的dynamic batch和多實(shí)例的功能,OCR的整體時(shí)延降低了46%,系統(tǒng)失敗率降低了81%。大大提高了用戶的體驗(yàn),并且服務(wù)器的數(shù)量減少了多達(dá)78%,極大降低了服務(wù)的成本。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102711 -
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128592 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
8958瀏覽量
85082
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論