0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TensorRT和Triton助力微信OCR降低耗時(shí)和成本

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 14:44 ? 次閱讀

簡(jiǎn)介

? 本案例中通過NVIDIA T4 GPU,TensorRT和Triton, 幫助微信OCR降低整體耗時(shí)46%, 并將系統(tǒng)的失敗率降低81%,同時(shí)降低了高達(dá)78%的服務(wù)器數(shù)量。

? 本案例主要應(yīng)用到 NVIDIA GPU ,TensorRT和Triton。

客戶簡(jiǎn)介

騰訊微信是一款跨平臺(tái)的通訊工具。支持通過手機(jī)網(wǎng)絡(luò)發(fā)送語(yǔ)音、圖片、視頻和文字等。截至2021年6月,微信在全球擁有超過12億活躍用戶,是國(guó)內(nèi)活躍用戶最多的社交軟件。

微信識(shí)物是一款主打物品識(shí)別的 AI 產(chǎn)品,通過相機(jī)拍攝物品,更高效、更智能地獲取信息。2020 年,微信識(shí)物拓展了更多識(shí)別場(chǎng)景,上線了微信版的圖片搜索。打開微信掃一掃,左滑切換到“識(shí)物”功能,對(duì)準(zhǔn)想要了解的物品正面,可以獲取對(duì)應(yīng)的物品信息,包括物品百科、相關(guān)資訊、相關(guān)商品。

2021年1月, 微信發(fā)布的微信8.0,版本更新支持圖片文字提取的功能。用戶在聊天界面和朋友圈中長(zhǎng)按圖片就可以提取圖片中文字,然后一鍵轉(zhuǎn)發(fā)、復(fù)制或收藏。

挑戰(zhàn)

微信識(shí)物包含檢測(cè)、圖像召回、信息提煉等環(huán)節(jié),OCR主要包括識(shí)別和檢測(cè),這兩種應(yīng)用都有非常大的計(jì)算量,在用Pytorch進(jìn)行模型的推理時(shí),一方面時(shí)延特別大,導(dǎo)致用戶體驗(yàn)受損;另一方面,顯存占用很大,單張NVIDIA T4上部署的模型數(shù)比較少,導(dǎo)致推理請(qǐng)求的并發(fā)數(shù)上不去,請(qǐng)求失敗的概率太高,只能通過增加機(jī)器的方式來提高并發(fā)能力,業(yè)務(wù)部署成本較高。再次,使用的模型經(jīng)常變化,而業(yè)務(wù)需要更換后的模型能夠快速地加速和上線部署。

方案

基于以上挑戰(zhàn),騰訊微信選擇了采用NVIDIA 的TensorRT對(duì)模型進(jìn)行推理加速,并利用NVIDIA Triton推理服務(wù)器在T4 GPU上進(jìn)行在線部署,在提升用戶體驗(yàn)的同時(shí),大幅降低了服務(wù)成本。

1、 通過使用TensorRT對(duì)微信識(shí)物和OCR的模型進(jìn)行加速,在都使用FP32的情況下,與Pytorch相對(duì),時(shí)延降低50%左右。

2、 在OCR的識(shí)別和檢測(cè)階段,使用TensorRT結(jié)合NVIDIA T4 GPU 的FP16 Tensor Core,在保證精度的同時(shí),識(shí)別的時(shí)延進(jìn)一步降低了50%,檢測(cè)降低了20%。

3、 在微信識(shí)物的分類和檢測(cè)任務(wù)中,通過使用NVIDIA T4 GPU 的int8 Tensor Core,并結(jié)合QAT,在滿足精度要求的前提下,進(jìn)一步大幅提升了性能。

4、 通過使用FP16和int8 低精度模式,在大幅降低推理時(shí)延的同時(shí),大大減少了顯存的占用,在FP16模式下,單模型顯存占用僅占FP32模式的40%–50%, 而在int8模式下,單模型顯存占用僅占FP32模式的30%左右。在提高單張T4卡上部署的模型數(shù)量的同時(shí),大幅提高了單GPU的推理請(qǐng)求并發(fā)能力。

5、 Triton的dynamic batch和多實(shí)例等特性,幫助微信將在滿足時(shí)延要求的同時(shí),提高了系統(tǒng)整體的并發(fā)能力,將系統(tǒng)失敗降低了81%。

6、 TensorRT可以對(duì)模型進(jìn)行快速的加速,Triton則可以對(duì)加速后的模型進(jìn)行快速的部署,滿足了業(yè)務(wù)對(duì)修改后的模型進(jìn)行快速部署的需求,同時(shí)也大大減少了工程人員的工作量。

效果

通過使用NVIDIA的TensorRT對(duì)微信識(shí)物和OCR的模型進(jìn)行加速,在降低單次推理時(shí)延50%以上的同時(shí),節(jié)約了多達(dá)64%的顯存。結(jié)合Triton的dynamic batch和多實(shí)例的功能,OCR的整體時(shí)延降低了46%,系統(tǒng)失敗率降低了81%。大大提高了用戶的體驗(yàn),并且服務(wù)器的數(shù)量減少了多達(dá)78%,極大降低了服務(wù)的成本。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102711
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128592
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8958

    瀏覽量

    85082
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    降低成本城域網(wǎng)

    電子發(fā)燒友網(wǎng)站提供《降低成本城域網(wǎng).pdf》資料免費(fèi)下載
    發(fā)表于 10-12 11:46 ?0次下載
    <b class='flag-5'>降低成本</b>城域網(wǎng)

    使用MSP430? MCU降低PLC模擬輸入模塊的成本

    電子發(fā)燒友網(wǎng)站提供《使用MSP430? MCU降低PLC模擬輸入模塊的成本.pdf》資料免費(fèi)下載
    發(fā)表于 09-07 09:42 ?0次下載
    使用MSP430? MCU<b class='flag-5'>降低</b>PLC模擬輸入模塊的<b class='flag-5'>成本</b>

    iPhone16不支持?蘋果最新回應(yīng)

    來源:青春上海 編輯:感知芯視界 Link 有網(wǎng)傳消息稱“iPhone16可能不支持”,對(duì)此記者致電蘋果官方熱線,接線的蘋果中國(guó)區(qū)技術(shù)顧問表示,第三方言論關(guān)于iOS系統(tǒng)或者蘋果設(shè)備能否再使用
    的頭像 發(fā)表于 09-05 09:00 ?544次閱讀

    CC2340系統(tǒng)降低成本的方案剖析

    電子發(fā)燒友網(wǎng)站提供《CC2340系統(tǒng)降低成本的方案剖析.pdf》資料免費(fèi)下載
    發(fā)表于 08-27 09:43 ?0次下載
    CC2340系統(tǒng)<b class='flag-5'>降低成本</b>的方案剖析

    能源管理系統(tǒng)如何降低運(yùn)維成本?

    智能運(yùn)維管理系統(tǒng)、電能集抄系統(tǒng)、移動(dòng)端app的應(yīng)用,有效降低了人工成本和運(yùn)維成本,優(yōu)化了運(yùn)行策略,實(shí)現(xiàn)了設(shè)備的使用壽命延長(zhǎng),降低了運(yùn)維成本
    的頭像 發(fā)表于 04-16 14:45 ?470次閱讀
    能源管理系統(tǒng)如何<b class='flag-5'>降低</b>運(yùn)維<b class='flag-5'>成本</b>?

    使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測(cè)

    這家云計(jì)算巨頭的計(jì)算機(jī)視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測(cè)。
    的頭像 發(fā)表于 02-29 14:04 ?532次閱讀

    如何判斷觸摸屏用有機(jī)硅OCR/LOCA性能的優(yōu)劣

    判斷OCR/LOCA性能的優(yōu)劣
    的頭像 發(fā)表于 02-29 10:48 ?529次閱讀

    在AMD GPU上如何安裝和配置triton?

    最近在整理python-based的benchmark代碼,反過來在NV的GPU上又把Triton裝了一遍,發(fā)現(xiàn)Triton的github repo已經(jīng)給出了對(duì)應(yīng)的llvm的commit id以及對(duì)應(yīng)的編譯細(xì)節(jié),然后跟著走了一遍,也順利的安裝成功,只需要按照如下方式即可完
    的頭像 發(fā)表于 02-22 17:04 ?2190次閱讀
    在AMD GPU上如何安裝和配置<b class='flag-5'>triton</b>?

    【BBuf的CUDA筆記】OpenAI Triton入門筆記一

    這里來看官方的介紹:https://openai.com/research/triton ,從官方的介紹中我們可以看到OpenAI Triton的產(chǎn)生動(dòng)機(jī)以及它的目標(biāo)是什么,還可以看到一些經(jīng)典算法的實(shí)現(xiàn)例子展示。
    的頭像 發(fā)表于 01-23 10:00 ?2441次閱讀
    【BBuf的CUDA筆記】OpenAI <b class='flag-5'>Triton</b>入門筆記一

    Torch TensorRT是一個(gè)優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個(gè)端到端的機(jī)器學(xué)習(xí)框架。而TensorRT則是NVIDIA的高性能深度學(xué)習(xí)推理軟件工具包。Torch TensorRT就是這兩者的結(jié)合。
    的頭像 發(fā)表于 01-09 16:41 ?1452次閱讀
    Torch <b class='flag-5'>TensorRT</b>是一個(gè)優(yōu)化PyTorch模型推理性能的工具

    什么是Triton-shared?Triton-shared的安裝和使用

    經(jīng)過前面幾章關(guān)于triton在nv gpu上調(diào)優(yōu)的講解,我們這章開始來看看triton的一個(gè)third_party庫(kù),該庫(kù)是為了讓triton去支持更多其他的backend。該項(xiàng)目的地址如下所示
    的頭像 發(fā)表于 12-19 09:47 ?1060次閱讀
    什么是<b class='flag-5'>Triton</b>-shared?<b class='flag-5'>Triton</b>-shared的安裝和使用

    Triton編譯器的原理和性能

    Triton是一種用于編寫高效自定義深度學(xué)習(xí)原語(yǔ)的語(yǔ)言和編譯器。Triton的目的是提供一個(gè)開源環(huán)境,以比CUDA更高的生產(chǎn)力編寫快速代碼,但也比其他現(xiàn)有DSL具有更大的靈活性。Triton已被采用
    的頭像 發(fā)表于 12-16 11:22 ?2645次閱讀
    <b class='flag-5'>Triton</b>編譯器的原理和性能

    電路板pcb打樣降低成本的方法

    電路板pcb打樣降低成本的方法
    的頭像 發(fā)表于 12-13 17:25 ?717次閱讀

    TensorRT-LLM初探(一)運(yùn)行l(wèi)lama

    TensorRT-LLM正式出來有半個(gè)月了,一直沒有時(shí)間玩,周末趁著有時(shí)間跑一下。
    的頭像 發(fā)表于 11-16 17:39 ?1165次閱讀
    <b class='flag-5'>TensorRT</b>-LLM初探(一)運(yùn)行l(wèi)lama

    如何降低PLC的使用成本?

    降低PLC的使用成本可以幫助提高項(xiàng)目的經(jīng)濟(jì)效益。以下是一些方法來降低PLC的使用成本: (1)正確選擇PLC型號(hào):在選擇PLC時(shí),根據(jù)項(xiàng)目需求選擇適當(dāng)?shù)男吞?hào)。避免過度投資,選擇性能和功
    的頭像 發(fā)表于 11-11 08:10 ?506次閱讀
    如何<b class='flag-5'>降低</b>PLC的使用<b class='flag-5'>成本</b>?