0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒內(nèi)進(jìn)行推斷

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:About Jay Rodge ? 2022-03-31 17:05 ? 次閱讀

NVIDIA 發(fā)布的TensorRT 8.0 ,通過新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識(shí)的訓(xùn)練,并通過支持稀疏性,這是引進(jìn)安培 GPU 的顯著更高的性能。

TensorRT 是一個(gè)用于高性能深度學(xué)習(xí)推理的 SDK ,包括推理優(yōu)化器和運(yùn)行時(shí),提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務(wù)、金融服務(wù)、能源等行業(yè),下載量近 250 萬次。

有幾種新的基于 transformer 模型被用于會(huì)話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型,將推理時(shí)間減少到 TensorRT 7 的一半。

此版本的亮點(diǎn)包括:

BERT 在 1.2 毫秒內(nèi)進(jìn)行推斷,并進(jìn)行了新的 transformer 優(yōu)化

使用量化感知訓(xùn)練,以 INT8 精度實(shí)現(xiàn)與 FP32 相當(dāng)?shù)臏?zhǔn)確性

引入稀疏性支持對安培 GPU 的快速推理

關(guān)于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產(chǎn)品營銷經(jīng)理,負(fù)責(zé)深入學(xué)習(xí)和推理產(chǎn)品,推動(dòng)產(chǎn)品發(fā)布和產(chǎn)品營銷計(jì)劃。杰伊在芝加哥伊利諾伊理工學(xué)院獲得計(jì)算機(jī)科學(xué)碩士學(xué)位,主攻計(jì)算機(jī)視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團(tuán)的人工智能研究實(shí)習(xí)生,為寶馬最大的制造廠使用計(jì)算機(jī)視覺解決問題。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102711
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128593
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    99.9%的ACDC開關(guān)電源都會(huì)因?yàn)檫@個(gè)隱蔽BUG導(dǎo)致自身或者后級(jí)電路過早失效

    不合理,當(dāng)從正半周進(jìn)入負(fù)半周,電容上的極性電荷基本上只釋放了很有限的一部分,——對于10毫秒的半周期時(shí)間來說,1,是100倍時(shí)長。這些極性電荷負(fù)半周等效為一個(gè)大電容,必然從電源汲取大電流充電,這樣
    發(fā)表于 10-22 15:22

    AIC3254可以把mic采集到的音頻相位調(diào)整180度再延時(shí)1毫秒輸出給揚(yáng)聲器?

    把mic采集到的音頻相位調(diào)整180度再延時(shí)1毫秒輸出給揚(yáng)聲器,用AIC3254可以實(shí)現(xiàn)嗎?
    發(fā)表于 10-11 08:14

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價(jià)值?!?/div>
    的頭像 發(fā)表于 08-23 15:48 ?355次閱讀

    請問ESP8266射頻校準(zhǔn)期間會(huì)發(fā)射嗎?

    當(dāng)ESP8266啟動(dòng)時(shí),它會(huì)運(yùn)行射頻校準(zhǔn),該校準(zhǔn)會(huì)在幾百毫秒內(nèi)產(chǎn)生高電流峰值。 在這些電流尖峰期間,設(shè)備是否從其天線輻射任何東西?
    發(fā)表于 07-19 06:37

    如何設(shè)置rts frame的duration?

    我有一個(gè)系統(tǒng)一個(gè)ap和數(shù)個(gè)sta. STA每隔8毫秒發(fā)個(gè)udp包。可以通過wireshark抓包發(fā)現(xiàn),每個(gè)sta都會(huì)先發(fā)一個(gè)rts包,其中duration為156毫秒。這樣其他sta和ap
    發(fā)表于 06-24 06:48

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個(gè)開源庫,用于優(yōu)化從 PC 到云端的
    的頭像 發(fā)表于 04-28 10:36 ?462次閱讀

    利用NVIDIA Holoscan 1.0開發(fā)生產(chǎn)就緒型AI傳感器處理應(yīng)用

    邊緣 AI 開發(fā)者正在構(gòu)建用于安全關(guān)鍵型和受監(jiān)管用例的 AI 應(yīng)用和產(chǎn)品。借助 NVIDIA Holoscan 1.0,這些應(yīng)用可在幾毫秒內(nèi)整合實(shí)時(shí)洞察和加工處理。
    的頭像 發(fā)表于 04-25 09:58 ?406次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱
    的頭像 發(fā)表于 04-20 09:39 ?614次閱讀

    NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成式 AI 模型)實(shí)現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?452次閱讀
    <b class='flag-5'>NVIDIA</b>生成式AI研究實(shí)現(xiàn)在1<b class='flag-5'>秒內(nèi)</b>生成3D形狀

    關(guān)于STM32C8T6 DMA數(shù)據(jù)讀取的疑問求解決

    1.使用STM32F103C8T6的時(shí)候,使用的是串口通訊,波特率9600,在讀取數(shù)據(jù)的時(shí)候使用的是DMA數(shù)據(jù)讀取加串口空閑中斷的方式,使用MAX485接口的芯片,每隔200毫秒發(fā)送一次數(shù)據(jù),
    發(fā)表于 03-27 07:50

    STM32H750VBT6無法使用flymcu.exe或flashloader通過串口1燒寫程序,怎么解決?

    串口COM55連接成功@115200bps,耗時(shí)922毫秒 芯片內(nèi)BootLoader版本號(hào):3.1 芯片PID:00000450 芯片已設(shè)置讀保護(hù) 芯片有讀保護(hù),請先擦除器件以清除讀保護(hù) 開始
    發(fā)表于 03-15 06:07

    i2c讀取每4毫秒偶爾會(huì)出現(xiàn)故障的原因?

    i2c讀取每4毫秒偶爾會(huì)出現(xiàn)故障。 概率約為 1, 500:1。 失敗的原因是 I2C_ERR_OTHER。 版本為版本:1.40.0_7.0.0
    發(fā)表于 01-19 07:12

    Torch TensorRT是一個(gè)優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在一起的原因,它是一個(gè)端到端的機(jī)器學(xué)習(xí)框架。而TensorRT則是NVIDIA的高性能深度學(xué)習(xí)推理軟件工具包。Torch Te
    的頭像 發(fā)表于 01-09 16:41 ?1452次閱讀
    Torch <b class='flag-5'>TensorRT</b>是一個(gè)優(yōu)化PyTorch模型推理性能的工具

    5g測試的五個(gè)要點(diǎn)有哪些

    隨著5G提供的潛在速度的增加,設(shè)備將需要更快地響應(yīng)以維持連接。確保設(shè)備和廣播系統(tǒng)1到2毫秒內(nèi)作出響應(yīng),以保持這項(xiàng)新技術(shù)的順利運(yùn)行將是非常必要的。
    發(fā)表于 12-14 11:42 ?735次閱讀

    AD7709設(shè)置完成后,通過查詢RDY引腳獲取轉(zhuǎn)換結(jié)果要幾百毫秒之后才能讀取到有效數(shù)據(jù)是為什么?

    _AD7709設(shè)置完成后,通過查詢RDY引腳獲取轉(zhuǎn)換結(jié)果。但是要幾百毫秒之后才能讀取到有效數(shù)據(jù),前面讀取到的都是0?。∵@是什么原因造成的???
    發(fā)表于 12-08 06:15