英偉達張量RT 8 概述
NVIDIA 張量RT 是一個高性能推理平臺,對于利用 NVIDIA 張量核心 GPU 的強大功能至關(guān)重要。TensorRT 8 是一個具有增強功能的軟件開發(fā)工具包,旨在提高性能和準確性,以應(yīng)對邊緣和嵌入式設(shè)備中發(fā)生的越來越多的 AI 推理。它允許對張量流和PyTorch神經(jīng)網(wǎng)絡(luò)進行廣泛的計算推斷。
與僅 CPU 平臺相比,TensorRT 可提供高達 40 倍的吞吐量,同時最大限度地減少延遲。它允許您從任何框架開始,并在生產(chǎn)中快速優(yōu)化、驗證和部署經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。
新版本在 NVIDIA 安培 GPU 上集成了稀疏性,可修剪對網(wǎng)絡(luò)整體計算無貢獻的弱連接。此外,張量RT 8 支持變壓器優(yōu)化和 BERT 大。變壓器優(yōu)化可提高性能,而量化感知訓(xùn)練可提高準確性。
英偉達的張量RT 8 有什么新功能?
推理的目的是在訓(xùn)練階段盡可能多地保持準確性。訓(xùn)練的模型可以在硬件設(shè)備上運行,以獲得客戶的最低響應(yīng)時間和最大的吞吐量。但是,盡可能精確的必要性有時可能與邊緣可用的內(nèi)存量和吞吐量發(fā)生沖突。訓(xùn)練有素、高度準確的模型可能運行速度太慢。
因此,TensorRT版本8結(jié)合了深度學(xué)習推理或訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用的最新進展,以理解數(shù)據(jù)如何影響響應(yīng)。它使用兩個主要功能將語言查詢推理時間減少一半:
英偉達安培架構(gòu)的稀疏性
深度神經(jīng)網(wǎng)絡(luò)擅長各種任務(wù),如計算機視覺、語音識別和自然語言處理。隨著處理這些神經(jīng)網(wǎng)絡(luò)所需的計算能力的增加,高效的建模和計算變得越來越重要。
稀疏是采用 NVIDIA 安培架構(gòu)的 GPU 的一種全新性能方法,通過減少計算流程來提高開發(fā)人員的效率。深度學(xué)習模型的其他方面不如其他方面重要,有些甚至可能為零。因此,神經(jīng)網(wǎng)絡(luò)不需要對特定權(quán)重或參數(shù)進行計算。因此,NVIDIA 可以通過使用稀疏性將模型的權(quán)重減少近一半來增強性能、吞吐量和延遲。
通過變壓器優(yōu)化減少推理計算
在張量RT 8中,性能增強是通過變壓器優(yōu)化實現(xiàn)的。量化開發(fā)人員可以利用訓(xùn)練的模型通過 8 位計算 (INT8) 執(zhí)行推理。這大大減少了張量核心中的推理計算和存儲。INT8 越來越多地用于優(yōu)化機器學(xué)習框架,如張量流和 NVIDIA 的張量壓縮包,以減少內(nèi)存和計算需求。因此,NVIDIA可以在張量RT 8上提供非常高的性能,同時保持準確性。
例如,量化感知訓(xùn)練 (QAT) 有可能將準確性提高一倍。因此,與舊版本張量RT 7相比,張量RT 8可以將許多模型的性能提高一倍。
張量RT部署在眾多行業(yè)中
TensorRT更好的性能和準確性使其成為醫(yī)療保健,汽車,互聯(lián)網(wǎng)/電信服務(wù),金融服務(wù)和零售等行業(yè)的熱門選擇。例如,張量RT用于為GE醫(yī)療保健的心血管超聲系統(tǒng)提供動力。數(shù)字診斷解決方案提供商使用該技術(shù)在其 Vivid E95 掃描器上加速了自動心臟視圖檢測。心臟病專家可以通過使用改進的視圖檢測算法,在早期階段做出更準確的診斷和檢測疾病。此外,TensorRT還被Verizon,福特,美國郵政服務(wù),美國運通和其他知名公司使用。
隨著張量RT 8的發(fā)布,NVIDIA還推出了使用張量RT的Google BERT大推理的突破,來自變形金剛的雙向編碼器表示(BERT)是一種基于變壓器的機器學(xué)習技術(shù),用于預(yù)訓(xùn)練自然語言處理。BERT-Large 模型只需 1.2 毫秒進行分析,從而可以實時響應(yīng)自然語言查詢。這意味著公司可以將其模型的尺寸增加一倍或三倍,以提高準確性。
像 BERT-Large 這樣的語言模型被許多推理服務(wù)在幕后使用。另一方面,基于語言的應(yīng)用程序通常無法識別細微差別或情感,從而導(dǎo)致整體糟糕的體驗。現(xiàn)在,公司可以使用張量RT 8在幾毫秒內(nèi)部署整個工作流程。這些突破可以為新一代對話式AI應(yīng)用程序鋪平道路,為用戶提供更智能、更低的延遲體驗。
審核編輯:郭婷
-
AI
+關(guān)注
關(guān)注
87文章
28875瀏覽量
266203 -
變壓器
+關(guān)注
關(guān)注
0文章
1035瀏覽量
4010
發(fā)布評論請先 登錄
相關(guān)推薦
評論