NVIDIA發(fā)布了針對JetsonTX1和TX2的生產(chǎn)Linux軟件JetPack 3.1。隨著TensorRT 2.1和cuDNN 6.0的升級,JetPack 3.1可為實(shí)時(shí)應(yīng)用程序(如視覺導(dǎo)航和運(yùn)動控制)提供高達(dá)2倍的深度學(xué)習(xí)推理性能,這些應(yīng)用程序可從批量加速1中獲益。改進(jìn)的特性使Jetson能夠部署更強(qiáng)大的智能,實(shí)現(xiàn)一代自動化機(jī)器,包括傳送機(jī)器人,遠(yuǎn)程呈現(xiàn)和視頻分析。為了進(jìn)一步推動機(jī)器人技術(shù)的發(fā)展,NVIDIA最近推出的Isaac Initiative是一個端到端的平臺,用于在現(xiàn)場培訓(xùn)和部署高級AI。
圖1. Liquid Robotics公司的再生波和太陽能波浪滑翔機(jī)能夠與Jetson一起自主穿越海洋進(jìn)行低功耗視覺和人工智能處理。
AI在邊緣
當(dāng)NVIDIA推出Jetson TX2時(shí),事實(shí)上的邊緣計(jì)算平臺獲得了顯著的功能提升。如圖1中的Wave Glider平臺所示例,網(wǎng)絡(luò)邊緣的遠(yuǎn)程物聯(lián)網(wǎng)(IoT)設(shè)備經(jīng)常會遇到降低的網(wǎng)絡(luò)覆蓋率,延遲和帶寬。雖然物聯(lián)網(wǎng)設(shè)備通常用作將數(shù)據(jù)轉(zhuǎn)發(fā)到云端的網(wǎng)關(guān),但邊緣計(jì)算重新考慮了物聯(lián)網(wǎng)訪問安全板載計(jì)算資源的可能性。NVIDIA的Jetson嵌入式模塊在Jetson TX1上提供1 TFLOP / s的服務(wù)器級性能,在功耗低于10W的Jetson TX2上提供雙倍的AI性能。
JetPack 3.1
帶有Linux的JetPack 3.1對于Tegra(L4T)R28.1是帶有長期支持(LTS)的Jetson TX1和TX2的生產(chǎn)軟件版本。用于TX1和TX2的L4T板級支持包(BSP)適用于客戶的產(chǎn)品化,其共享的Linux內(nèi)核4.4代碼庫提供了兼容性和兩者之間的無縫移植。從JetPack 3.1開始,開發(fā)人員可以在TX1和TX2上訪問相同的庫,API和工具版本。
表1:Jetson TX1和TX2的JetPack 3.1和L4T BSP中包含的軟件包版本。NVIDIA JetPack 3.1 - 軟件組件Linux Tegra R28.1Ubuntu 16.04 LTS aarch64CUDA工具包8.0.82cuDNN6.0TensorRT2.1 GAGStreamer 1.8.2VisionWorks1.6OpenCV4Tegra 2.4.13-17Tegra系統(tǒng)分析器3.8Tegra圖形調(diào)試器2.4Tegra多媒體APIV4L2相機(jī)/編解碼器API除了從cuDNN 5.1升級到6.0以及維護(hù)更新到CUDA 8之外,JetPack 3.1還包括用于構(gòu)建流媒體應(yīng)用程序的最新視覺和多媒體API。您可以將JetPack 3.1下載到您的主機(jī)上,以便使用最新的BSP和工具對Jetson進(jìn)行閃存。
使用TensorRT 2.1進(jìn)行低延遲推理
JetPack 3.1中包含最新版本的TensorRT,因此您可以在Jetson上部署優(yōu)化的運(yùn)行時(shí)深度學(xué)習(xí)推斷。TensorRT通過網(wǎng)絡(luò)圖優(yōu)化,內(nèi)核融合和半精度FP16支持提高推理性能。TensorRT 2.1包括多重配料等關(guān)鍵特性和增強(qiáng)功能,進(jìn)一步提高了Jetson TX1和TX2的深度學(xué)習(xí)性能和效率,并降低了延遲。
批量大小1的性能得到顯著改善,導(dǎo)致GoogLeNet的延遲降至5毫秒。對于延遲敏感的應(yīng)用程序,批處理大小1提供最低的延遲,因?yàn)槊恳粠诘竭_(dá)系統(tǒng)時(shí)都會被處理(而不是等待批量處理多個幀)。如Jetson TX2上的圖2所示,使用TensorRT 2.1實(shí)現(xiàn)了GoogLeNet和ResNet圖像識別推斷的TensorRT 1.0吞吐量的兩倍。
圖2:使用Jetson TX2 Max-Q和Max-P功率曲線的GoogLeNet和ResNet-50的推理吞吐量。TensorRT 2.1在GoogleLeNet和ResNet上提供了兩倍的推理吞吐量。
表2中的等待時(shí)間顯示批量大小為1時(shí)的比例縮減。對于Genson TX2,Jetson TX2在Max-P性能曲線中實(shí)現(xiàn)了5ms的延遲,在Max-Q效率曲線中運(yùn)行時(shí)延遲了7ms。ResNet-50在Max-P中有12.2ms的延遲,在Max-Q中有15.6ms的延遲。ResNet通常用于提高超越GoogLeNet的圖像分類精度,使用TensorRT 2.1可以使運(yùn)行時(shí)性能提高2倍以上。憑借Jetson TX2的8GB內(nèi)存容量,即使在像ResNet這樣的復(fù)雜網(wǎng)絡(luò)上,也可以實(shí)現(xiàn)高達(dá)128的大批量生產(chǎn)。
表2:比較TensorRT 1.0和2.1的Jetson TX2深度學(xué)習(xí)推斷延遲測量。(越低越好。)網(wǎng)絡(luò)潛伏加速TensorRT 1.0TensorRT 2.1GoogLeNet,Max-Q14.5ms7.1ms2.04xGoogLeNet,Max-P11.4ms為5.6ms2.04xResNet-50,Max-Q31.4ms15.6ms2.01xResNet-50,Max-P24.7ms12.2ms2.03x減少的延遲允許深度學(xué)習(xí)推理方法用于要求接近實(shí)時(shí)響應(yīng)的應(yīng)用中,如避免碰撞和高速無人機(jī)和地面車輛上的自主導(dǎo)航。
自定義圖層
通過用戶插件API支持自定義網(wǎng)絡(luò)層,TensorRT 2.1能夠運(yùn)行最新的網(wǎng)絡(luò)和功能,擴(kuò)展支持包括殘余網(wǎng)絡(luò)(ResNet),遞歸神經(jīng)網(wǎng)絡(luò)(RNN),一次只能看一次(YOLO)和更快-RCNN。自定義圖層是在用戶定義的C ++插件中實(shí)現(xiàn)的,這些插件實(shí)現(xiàn)IPlugin了以下代碼中的界面。
#include“NvInfer.h”使用命名空間nvinfer1;classMyPlugin:IPlugin{上市: intgetNbOutputs()const; DimsgetOutputDimensions(intindex,constDims*inputs, intnbInputDims); voidconfigure(constDims*inputDims,intnbInputs, constDims*outputDims,intnbOutputs, intmaxBatchSize); intinitialize(); voidterminate(); size_tgetWorkspaceSize(intmaxBatchSize)const; intenqueue(intbatchSize,constvoid*inputs, void**outputs,void*工作區(qū), cudaStream_t流); size_tgetSerializationSize(); voidserialize(void*buffer);保護(hù): 虛擬?MyPlugin(){}};
您可以使用IPlugin類似于上述代碼的自定義定義來構(gòu)建自己的共享對象。在用戶enqueue()函數(shù)內(nèi)部,您可以使用CUDA內(nèi)核實(shí)現(xiàn)自定義處理。TensorRT 2.1使用這種技術(shù)來實(shí)現(xiàn)用于增強(qiáng)對象檢測的Faster-RCNN插件。另外,TensorRT為長時(shí)間短期記憶(LSTM)單元和門控循環(huán)單元(GRU)提供了新的RNN層,以改進(jìn)時(shí)間序列序列的基于記憶的識別。開箱即用地提供這些功能強(qiáng)大的新圖層類型可加速在嵌入式邊緣應(yīng)用程序中部署高級深度學(xué)習(xí)應(yīng)用程序。
圖3:與Jetson一起提供的用于AI研發(fā)的機(jī)器人參考平臺。
NVIDIA Isaac計(jì)劃
隨著人工智能能力的快速提升,NVIDIA推出了艾薩克計(jì)劃,以推進(jìn)機(jī)器人和人工智能領(lǐng)域的先進(jìn)技術(shù)。Isaac是開發(fā)和部署智能系統(tǒng)的端到端機(jī)器人平臺,包括模擬,自主導(dǎo)航堆棧和嵌入式Jetson以供部署。為開始開發(fā)自主AI,Isaac支持圖3所示的機(jī)器人參考平臺。這些Jetson驅(qū)動的平臺包括無人機(jī),無人地面車輛(UGV),無人地面車輛(USV)和人類輔助機(jī)器人(HSR)。參考平臺提供了一個Jetson驅(qū)動的基礎(chǔ),可以在實(shí)地進(jìn)行實(shí)驗(yàn),并且該計(jì)劃將隨著時(shí)間的推移而擴(kuò)展,以包含新的平臺和機(jī)器人。
開始部署AI
JetPack 3.1包括cuDNN 6和TensorRT 2.1。它現(xiàn)在可用于Jetson TX1和TX2。憑借對單批次推斷的低延遲性能以及對具有自定義層的新網(wǎng)絡(luò)的支持,雙倍的Jetson平臺比以往任何時(shí)候都更有能力進(jìn)行邊緣計(jì)算。要開始開發(fā)人工智能,請參閱我們的兩天演示系列培訓(xùn)和部署深度學(xué)習(xí)視覺基元,如圖像識別,物體檢測和分割。JetPack 3.1大大提高了這些深度視覺原語的性能。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28109瀏覽量
205867 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4856瀏覽量
102715 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5466瀏覽量
120893
發(fā)布評論請先 登錄
相關(guān)推薦
評論