NVIDIA 發(fā)布的TensorRT 8.0 ,通過新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識(shí)的訓(xùn)練,并通過支持稀疏性,這是引進(jìn)安培 GPU 的顯著更高的性能。
TensorRT 是一個(gè)用于高性能深度學(xué)習(xí)推理的 SDK ,包括推理優(yōu)化器和運(yùn)行時(shí),提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)、能源等行業(yè),下載量近 250 萬次。
有幾種新的基于 transformer 模型被用于會(huì)話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型,將推理時(shí)間減少到 TensorRT 7 的一半。
此版本的亮點(diǎn)包括:
BERT 在 1.2 毫秒內(nèi)進(jìn)行推斷,并進(jìn)行了新的 transformer 優(yōu)化
使用量化感知訓(xùn)練,以 INT8 精度實(shí)現(xiàn)與 FP32 相當(dāng)?shù)臏?zhǔn)確性
引入稀疏性支持對安培 GPU 的快速推理
關(guān)于作者
About Jay Rodge
Jay Rodge 是 NVIDIA 的產(chǎn)品營銷經(jīng)理,負(fù)責(zé)深入學(xué)習(xí)和推理產(chǎn)品,推動(dòng)產(chǎn)品發(fā)布和產(chǎn)品營銷計(jì)劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計(jì)算機(jī)科學(xué)碩士學(xué)位,主攻計(jì)算機(jī)視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團(tuán)的人工智能研究實(shí)習(xí)生,為寶馬最大的制造廠使用計(jì)算機(jī)視覺解決問題。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102711 -
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128593
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論