NVIDIA推出了Jetson TX2和JetPack 3.0 AI SDK。Jetson是全球領(lǐng)先的低功耗嵌入式平臺(tái),可為各地的邊緣設(shè)備提供服務(wù)器級(jí)別的AI計(jì)算性能。Jetson TX2具有集成的256核NVIDIA Pascal GPU,六核ARMv8 64位CPU復(fù)合體和8GB LPDDR4內(nèi)存以及128位接口。CPU復(fù)合體將雙核NVIDIA Denver 2與四核ARM Cortex-A57結(jié)合在一起。Jetson TX2模塊(如圖1所示)適合尺寸,重量和功率(SWaP)尺寸為50 x 87毫米,85克和7.5瓦典型能耗的小尺寸,重量和功耗。
物聯(lián)網(wǎng)(IoT)設(shè)備通常用作中繼數(shù)據(jù)的簡(jiǎn)單網(wǎng)關(guān)。他們依靠云連接來執(zhí)行繁重的工作和數(shù)字處理。邊緣計(jì)算是一種新興的范例,它使用本地計(jì)算來實(shí)現(xiàn)數(shù)據(jù)源的分析。憑借超過TFLOP / s的性能,Jetson TX2非常適合將先進(jìn)的AI部署到缺乏或昂貴的互聯(lián)網(wǎng)連接的遠(yuǎn)程現(xiàn)場(chǎng)位置。Jetson TX2還為需要任務(wù)關(guān)鍵型自治功能的智能機(jī)器提供接近實(shí)時(shí)的響應(yīng)能力和最小的等待時(shí)間。
Jetson TX2基于16納米NVIDIA Tegra“Parker”片上系統(tǒng)(SoC)(圖2顯示了一個(gè)框圖)。Jetson TX2的深度學(xué)習(xí)推斷能效比其前身Jetson TX1高兩倍,并且性能比Intel Xeon Server CPU高。效率的這種跳躍重新定義了將高級(jí)AI從云端擴(kuò)展到邊緣的可能性。
圖2:搭載NVIDIA Pascal GPU,NVIDIA Denver 2 + ARM Cortex-A57 CPU集群以及多媒體加速引擎的NVIDIA Jetson TX2 Tegra“Parker”SoC框圖(點(diǎn)擊圖片查看完整分辨率)。Jetson TX2擁有多個(gè)多媒體流引擎,通過卸載傳感器采集和分配來保持其Pascal GPU提供數(shù)據(jù)。這些多媒體引擎包括六個(gè)專用MIPI CSI-2攝像機(jī)端口,每個(gè)通道帶寬可提供2.5 Gb / s,雙圖像服務(wù)處理器(ISP)提供1.4 Gigapix / s處理能力,以及支持H.265的4K視頻編解碼器每秒60幀。
Jetson TX2使用NVIDIA cuDNN和TensorRT庫(kù)加速前沿深度神經(jīng)網(wǎng)絡(luò)(DNN)架構(gòu),支持遞歸神經(jīng)網(wǎng)絡(luò)(RNN),長(zhǎng)期短期記憶網(wǎng)絡(luò)(LSTM)和在線強(qiáng)化學(xué)習(xí)。其雙CAN總線控制器使自動(dòng)駕駛儀集成能夠控制使用DNN的機(jī)器人和無人機(jī),以感知周圍的世界并在動(dòng)態(tài)環(huán)境中安全運(yùn)行。JetsonTX2的軟件通過NVIDIA的JetPack 3.0和Linux For Tegra(L4T)板級(jí)支持包(BSP)提供。
表1比較了Jetson TX2和上一代Jetson TX1的特性。
NVIDIA
Jetson TX1NVIDIA
Jetson TX2中央處理器ARM Cortex-A57(四核)@ 1.73GHzARM Cortex-A57(四核)@ 2GHz +
NVIDIA Denver2(雙核)@ 2GHzGPU256核心Maxwell @ 998MHz256核心Pascal @ 1300MHz記憶4GB 64位LPDDR4 @ 1600MHz |25.6 GB / s8GB 128位LPDDR4 @ 1866Mhz |59.7 GB / s存儲(chǔ)16GB eMMC 5.132GB eMMC 5.1編碼器*4Kp30,(2x)1080p604Kp60,(3x)4Kp30,(8x)1080p30解碼器*4Kp60,(4x)1080p60(2x)4Kp60相機(jī)?12條泳道MIPI CSI-2 |每通道1.5 Gb / s |1400萬像素/秒ISP12條泳道MIPI CSI-2 |每通道2.5 Gb /秒|1400萬像素/秒ISP顯示2x HDMI 2.0 / DP 1.2 / eDP 1.2 |2x MIPI DSI無線802.11a / b / g / n / ac 2×2 867Mbps |藍(lán)牙4.0802.11a / b / g / n / ac 2×2 867Mbps |藍(lán)牙4.1以太網(wǎng)絡(luò)10/100/1000 BASE-T以太網(wǎng)USBUSB 3.0 + USB 2.0的PCIeGen 2 |1×4 + 1×1Gen 2 |1×4 + 1×1或2×1 + 1×2能夠不支持雙CAN總線控制器雜項(xiàng)I / OUART,SPI,I2C,I2S,GPIO插座400針Samtec板對(duì)板連接器,50x87mm暖流?-25°C至80°C功率??10W7.5W價(jià)錢1K單位299美元1K單位399美元表1:Jetson TX1和Jetson TX2的比較。
*支持的視頻編解碼器:H.264,H.265,VP8,VP9
?MIPI CSI-2分岔:多達(dá)6個(gè)2通道或3個(gè)4通道相機(jī)
?工作溫度范圍,TTP最大結(jié)溫。
??負(fù)載下的典型功耗,輸入?5.5-19.6 VDC,Jetson TX2:最大Q值曲線。
性能提高兩倍,效率提高兩倍
在我關(guān)于JetPack 2.3的文章中,我演示了NVIDIA TensorRT如何提高Jetson TX1深度學(xué)習(xí)推理性能,效率比桌面級(jí)CPU高18倍。TensorRT通過使用圖優(yōu)化,內(nèi)核融合,半精度浮點(diǎn)計(jì)算(FP16)和架構(gòu)自動(dòng)調(diào)整優(yōu)化生產(chǎn)網(wǎng)絡(luò)以顯著提高性能。除了利用Jetson TX2對(duì)FP16的硬件支持外,NVIDIA TensorRT還能夠批量同時(shí)處理多個(gè)圖像,從而實(shí)現(xiàn)更高的性能。
Jetson TX2和JetPack 3.0一起將Jetson平臺(tái)的性能和效率提升到一個(gè)全新的水平,為用戶提供兩倍于Jetson TX1的性能或兩倍于AI應(yīng)用的性能。這種獨(dú)特的功能使Jetson TX2成為在邊緣需要高效AI的產(chǎn)品和靠近邊緣需要高性能的產(chǎn)品的理想選擇。Jetson TX2也與Jetson TX1兼容,并為使用Jetson TX1設(shè)計(jì)的產(chǎn)品提供輕松升級(jí)機(jī)會(huì)。
為了對(duì)Jetson TX2和JetPack 3.0的性能進(jìn)行基準(zhǔn)測(cè)試,我們將其與服務(wù)器級(jí)CPU Intel Xeon E5-2690 v4進(jìn)行比較,并使用GoogLeNet深度圖像識(shí)別網(wǎng)絡(luò)測(cè)量深度學(xué)習(xí)推理吞吐量(每秒圖像數(shù))。如圖3所示,運(yùn)行功耗低于15W的Jetson TX2的性能優(yōu)于運(yùn)行在近200W的CPU,從而在邊緣實(shí)現(xiàn)了數(shù)據(jù)中心級(jí)別的AI功能。
圖3:在NVIDIA Jetson TX2和Intel Xeon E5-2960 v4上分析的GoogLeNet網(wǎng)絡(luò)體系結(jié)構(gòu)的性能。Jetson TX2的這種卓越的AI性能和效率來源于全新的Pascal GPU架構(gòu)和動(dòng)態(tài)能量配置文件(Max-Q和Max-P),JetPack 3.0附帶的優(yōu)化深度學(xué)習(xí)庫(kù)以及大容量存儲(chǔ)器帶寬。
Max-Q和Max-P
Jetson TX2專為7.5W功率下的峰值處理效率而設(shè)計(jì)。這種性能水平(稱為Max-Q)代表功率/吞吐量曲線的峰值。包括電源在內(nèi)的模塊上的每個(gè)組件都經(jīng)過優(yōu)化,可在此時(shí)提供最高的效率。GPU的Max-Q頻率為854 MHz,ARM A57 CPU為1.2 GHz。JetPack 3.0中的L4T BSP包含預(yù)設(shè)平臺(tái)配置,用于將Jetson TX2設(shè)置為Max-Q模式。JetPack 3.0還包含一個(gè)新的命令行工具,稱為nvpmodel在運(yùn)行時(shí)切換配置文件。
雖然動(dòng)態(tài)電壓和頻率調(diào)節(jié)(DVFS)允許Jetson TX2的Tegra“Parker”SoC在運(yùn)行時(shí)根據(jù)用戶負(fù)載和功耗調(diào)整時(shí)鐘速度,但Max-Q配置設(shè)置了時(shí)鐘上限以確保應(yīng)用程序正在運(yùn)行只在最有效的范圍內(nèi)。表2顯示了運(yùn)行GoogLeNet和AlexNet深度學(xué)習(xí)基準(zhǔn)時(shí)Jetson TX2和Jetson TX1的性能和能效。運(yùn)行在Max-Q模式下的Jetson TX2的性能與Jetson TX1在最大時(shí)鐘頻率下運(yùn)行的性能相似,但功耗僅為一半,因此能效提高一倍。
盡管大多
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4793瀏覽量
102423 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2894文章
43301瀏覽量
366377
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論