NVIDIA 推出了 Jetson TX1,這是一款小型 Linux 系統(tǒng)級(jí)模塊,專為視覺計(jì)算中要求苛刻的嵌入式應(yīng)用而設(shè)計(jì)。微型 Jetson TX1(圖 1)專為世界各地的開發(fā)人員和制造商而設(shè)計(jì),可在現(xiàn)場(chǎng)部署 teraflop 級(jí)超級(jí)計(jì)算性能的板載平臺(tái)。在 Jetson TX1 開發(fā)人員套件、一流的開發(fā)人員社區(qū)和包括 Jetpack、Linux For Tegra R23.1、CUDA Toolkit 7、cuDNN 和 VisionWorks 在內(nèi)的軟件生態(tài)系統(tǒng)的支持下,Jetson 使世界各地的機(jī)器都具備實(shí)現(xiàn)高級(jí)水平所需的眾所周知的大腦。當(dāng)今世界的自治。
針對(duì)對(duì)計(jì)算機(jī)視覺和動(dòng)態(tài)傳感感興趣的開發(fā)人員,Jetson TX1 的信用卡占用空間和低功耗意味著它適合部署具有受限尺寸、重量和功率 (SWaP) 的板載嵌入式系統(tǒng)。Jetson TX1 在與 Caffe 的深度學(xué)習(xí)分類中超越了英特爾高端酷睿 i7-6700K Skylake 的性能,在僅消耗一小部分功率的同時(shí),實(shí)現(xiàn)了十倍以上的 perf-per-watt。
Jetson 提供卓越的效率,同時(shí)為敏捷原型設(shè)計(jì)和產(chǎn)品開發(fā)保持對(duì)開發(fā)人員友好的環(huán)境,消除了通常與部署功率受限的嵌入式系統(tǒng)相關(guān)的額外工作量。Jetson TX1 的小尺寸模塊使世界各地的開發(fā)人員能夠?qū)?Tegra 部署到嵌入式應(yīng)用程序中,范圍從自主導(dǎo)航到深度學(xué)習(xí)驅(qū)動(dòng)的推理和分析。
Jetson TX1 模塊
Jetson TX1 圍繞 NVIDIA 的 20nm Tegra X1 SoC 構(gòu)建,具有 1024-GFLOP Maxwell GPU、64 位四核 ARM Cortex-A57 和硬件 H.265 編碼器/解碼器,尺寸為 50x87mm,并具有性能和功能。板載組件包括 4GB LPDDR4、16GB eMMC 閃存、802.11ac WiFi、藍(lán)牙 4.0、千兆以太網(wǎng),并接受 5.5V-19.6VDC 輸入(圖 2)。外圍接口包括多達(dá)六個(gè) MIPI CSI-2 攝像頭(在雙 ISP 上)、2x USB 3.0、3x USB 2.0、PCIe gen2 x4 + x1、獨(dú)立 HDMI 2.0/DP 1.2 和 DSI/eDP 1.4、3x SPI、4x I2C 、3x UART、SATA、GPIO 等。毋庸置疑,Jetson TX1 在許多算法和集成挑戰(zhàn)面前屹立不倒。
圖 2. Jetson TX1 框圖。外部的塊表示載體上的典型路由。
Jetson 模塊使用 400 針板對(duì)板連接器(圖 3)與開發(fā)人員套件的參考載板或在您的產(chǎn)品化過程中設(shè)計(jì)的定制板連接。Tegra 的芯片級(jí)功能和 I/O 緊密映射到模塊的引腳。該引腳將向后兼容 Jetson 模塊的未來版本。Jetson TX1 帶有一個(gè)集成熱傳遞板(圖 3),額定溫度在 -25°C 和 80°C 之間,用于連接被動(dòng)或主動(dòng)冷卻解決方案。除了訪問Devtalk上活躍且開放的開發(fā)社區(qū)外,請(qǐng)咨詢 NVIDIA 的嵌入式開發(fā)人員專區(qū)以獲取詳盡的文檔和詳細(xì)的機(jī)電規(guī)范。
圖 3. 從左到右:Jetson TX1 模塊的頂部、底部(帶連接器)和帶有 TTP 的完整組件。
Jetson TX1 在空閑時(shí)僅消耗 1 瓦或更低的功率,在典型的 CUDA 負(fù)載下大約為 8-10 瓦,在模塊被充分利用時(shí)(例如在游戲和最苛刻的視覺例程期間)的 TDP 高達(dá) 15 瓦。Jetson TX1 可通過其自動(dòng)調(diào)節(jié)器基于工作負(fù)載或通過明確的用戶命令來控制內(nèi)核并指定時(shí)鐘頻率,從而提供出色的動(dòng)態(tài)功率調(diào)節(jié)。四個(gè) ARM A57 內(nèi)核在 102 MHz 和 1.9 GHz 之間自動(dòng)擴(kuò)展,內(nèi)存控制器在 40MHz 和 1.6GHz 之間自動(dòng)擴(kuò)展,Maxwell GPU 在 76 MHz 和 998 MHz 之間自動(dòng)擴(kuò)展。Jetson TX1 的 Maxwell GPU 擁有 256 個(gè)具有 5.3 計(jì)算能力和動(dòng)態(tài)并行性的 CUDA 內(nèi)核,其 FP16 的額定速度高達(dá) 1024 GFLOPS。當(dāng)與三個(gè) MIPI CSI x4 攝像頭或六個(gè) CSI x2 攝像頭支持高達(dá) 1200 兆像素/秒的速度相結(jié)合時(shí),與硬件 H.265 編碼器和解碼器、集成 WiFi 和 HDMI 2.0 一起,Jetson TX1 為全 4K 視頻處理做好了準(zhǔn)備。Jetson TX1 模塊零售價(jià)為 299 美元,供貨期為 5 年。除了發(fā)布生態(tài)系統(tǒng)工具外,NVIDIA 還提供了 Jetson TX1 開發(fā)者套件來幫助用戶立即開始使用。
Jetson TX1 開發(fā)者套件
NVIDIA 的 Jetson TX1 開發(fā)人員套件包括您開始在 Jetson 上進(jìn)行開發(fā)所需的一切。包括預(yù)裝模塊,Jetson TX1 開發(fā)套件(圖 4)包含一個(gè)參考 mini-ITX 載板、5MP MIPI CSI-2 攝像頭模塊、兩個(gè) 2.4/5GHz 天線、一個(gè)有源散熱器和風(fēng)扇、一個(gè)丙烯酸基板、和一個(gè) 19VDC 電源磚。
Jetson TK1 開發(fā)人員套件上的 PCIe 通道從模塊路由到載體上的 PCIe x4 桌面插槽,以便于原型設(shè)計(jì),此外還有用于無線電的帶有 PCIe x1 的 M.2-E 夾層。NVIDIA在Embedded Developer Zone上提供,與 5MP CSI-2 攝像頭模塊一起共享參考載體的原理圖和設(shè)計(jì)文件,包括路由和信號(hào)完整性指南。Jetpack 捆綁的板卡軟件支持提供了簡(jiǎn)單的刷寫和設(shè)備配置。開箱即用的 Jetson TX1 開發(fā)人員套件提供臺(tái)式 PC 的體驗(yàn),但采用小型嵌入式外形,僅消耗一小部分功率。Jetson TX1 開發(fā)者套件可預(yù)訂立即以 599 美元的價(jià)格發(fā)貨,11 月 16 日在美國(guó)發(fā)貨,12 月 20 日在歐洲和亞太地區(qū)發(fā)貨。
選定的研究人員有機(jī)會(huì)在 Jetson TX1 開發(fā)人員套件發(fā)布前進(jìn)行了審查。麻省理工學(xué)院教授 Sertac Karaman 博士和他的自主機(jī)器人實(shí)驗(yàn)室親自使用新套件,從之前的 Jetson TK1 設(shè)置升級(jí)了他們的自動(dòng)駕駛RACECAR。圖 5 顯示了他們的自動(dòng)駕駛汽車。
除了由 Jetson TX1 提供動(dòng)力的自動(dòng) RACECAR 之外,Karaman 博士在麻省理工學(xué)院的實(shí)驗(yàn)室也支持其他利用 Jetson 實(shí)現(xiàn)自動(dòng)駕駛的項(xiàng)目。他們與麻省理工學(xué)院媒體實(shí)驗(yàn)室的“有說服力的電動(dòng)汽車”(PEV) 的改變地點(diǎn)小組合作,他們的自動(dòng)駕駛?cè)嗆囋诔鞘协h(huán)境中提供行人和包裹的自動(dòng)運(yùn)輸,并且還由 Jetson 提供動(dòng)力。利用該生態(tài)系統(tǒng),麻省理工學(xué)院的學(xué)生快速制作了他們的項(xiàng)目原型,并受益于 Jetson TX1 提供的靈活開發(fā)環(huán)境和性能。
Tegra R23.1 的 Jetpack 和 Linux
Jetson 的軟件生態(tài)系統(tǒng)非常廣泛,Jetpack 簡(jiǎn)化了軟件配置和部署。Jetpack 自動(dòng)化 Jetson 上的安裝過程,以包含所有用于開發(fā)的工具和驅(qū)動(dòng)程序。Jetpack 2.0 為 Jetson TX1 提供。此版本的 Jetpack 捆綁了 Linux For Tegra (L4T) R23.1、Tegra System Profiler 2.4 和 Graphics Debugger 2.1、PerfKit 4.5.0 和 OpenCV4Tegra。L4T R23.1 附帶 U-Boot 和 Linux 3.10.64 aarch64 內(nèi)核,以及 Ubuntu 14.04armhf文件系統(tǒng)。L4T 的最新改進(jìn)包括gstreamer1.6 擴(kuò)展,支持 H.265 的硬件、改進(jìn)nvgstcapture的用于測(cè)試相機(jī)模塊的示例,以及對(duì) WiFi 和藍(lán)牙的集成支持。
L4T R23.1 包括對(duì)完整桌面 OpenGL 4.5 的支持,除了模擬之外,還提供完整的 Linux 游戲/VR 體驗(yàn)。還提供了 OpenGL ES 3.1。此版本包括 OpenCV4Tegra 2.14.12.3,使用戶能夠從標(biāo)準(zhǔn) OpenCV 接口透明地利用 NEON SIMD 擴(kuò)展。有關(guān) OpenCV 的視頻教程系列可通過Embedded Developer Zone獲得。
CUDA 7 和 cuDNN/Caffe
Jetpack 2.0 包括 CUDA Toolkit 7.0 版,支持 16 位浮點(diǎn) (FP16)。CUDA 7.0 釋放了 Jetson TX1 的集成 Maxwell GPU。Maxwell 具有 Compute Capability 5.3,支持動(dòng)態(tài)并行和更高性能的 FP16。動(dòng)態(tài)并行在嵌入式應(yīng)用程序中的許多用途包括點(diǎn)云處理和樹分區(qū)、并行路徑規(guī)劃和成本估計(jì)、粒子過濾、RANSAC、求解器等等。
Jetson 軟件生態(tài)系統(tǒng)的亮點(diǎn)之一是基于 CUDA 構(gòu)建的令人難以置信的深度學(xué)習(xí)工具包,它為 Jetson 提供了板載推理和在該領(lǐng)域應(yīng)用推理的能力。包括 NVIDIA 的 cuDNN 庫,被包括 Caffe 在內(nèi)的多個(gè)深度學(xué)習(xí)框架采用。
我們使用 Caffe AlexNet 圖像分類器運(yùn)行功率基準(zhǔn)測(cè)試,將 Jetson TX1 與 Intel Core i7-6700K Skylake CPU 進(jìn)行比較。該表顯示了結(jié)果。在文章“推理:GPU 加速深度學(xué)習(xí)的下一步”中閱讀有關(guān)這些結(jié)果的更多信息。
硅谷工業(yè)無人機(jī)開發(fā)商 Kespry Designs 正在使用 Jetson TX1 上的深度學(xué)習(xí)來為建筑工地提供推理,以跟蹤設(shè)備和材料的資產(chǎn)。這消除了資產(chǎn)管理和現(xiàn)場(chǎng)后勤規(guī)劃中繁瑣的人力密集型工作。由于 Jetson TX1 的低 SWaP 和計(jì)算能力,Kespry 計(jì)劃將處理遷移到無人機(jī)上,而不是在數(shù)據(jù)中心離線,從而縮短檢查和分類等任務(wù)的響應(yīng)時(shí)間。請(qǐng)參閱圖 6 中有關(guān)它們的簡(jiǎn)短視頻。
Kespry 在短短幾周內(nèi)就在 Jetson TX1 開發(fā)套件上開發(fā)了他們的概念驗(yàn)證。該原型使用經(jīng)過訓(xùn)練的 Caffe 模型來識(shí)別和計(jì)算不同類別的建筑設(shè)備。使用 Jetson TX1,Kespry 現(xiàn)在正在他們的無人機(jī)上實(shí)時(shí)部署這個(gè)以前離線的過程。Jetson 能夠轉(zhuǎn)移曾經(jīng)在車載移動(dòng)平臺(tái)上的數(shù)據(jù)中心執(zhí)行的資源密集型任務(wù),從而關(guān)閉響應(yīng)循環(huán)并提高快速反應(yīng)能力,為 Kespry 等公司創(chuàng)造新的機(jī)會(huì)。
視覺工廠
Jetson TX1 標(biāo)志著 VisionWorks 的第一個(gè)版本通過 Jetpack 2.0 和嵌入式開發(fā)者專區(qū)可供開發(fā)人員使用。VisionWorks 建立在 Khronos Group 的用于節(jié)能視覺處理的 OpenVX 標(biāo)準(zhǔn)之上,使用經(jīng)過調(diào)整的 CUDA 內(nèi)核提供針對(duì) Tegra 高度優(yōu)化的原語和構(gòu)建塊。圖 7 顯示了我們?cè)?Jetson TX1 上運(yùn)行的基準(zhǔn)測(cè)試結(jié)果,分析了 VisionWorks 和 OpenCV 之間的差異。
圖 5. 基準(zhǔn)測(cè)試展示了 VisionWorks 與在 Jetson TX1 CPU 和 GPU 上運(yùn)行的 OpenCV 相比的大幅加速。
VisionWorks 比僅上游 CPU 的 OpenCV 快 10 倍以上,比具有 NEON 擴(kuò)展的 OpenCV4Tegra 快 4.5 倍,比 OpenCV 的 GPU 模塊快 1.6 倍??傮w計(jì)算機(jī)視覺分?jǐn)?shù)是從 OpenCV 和 VisionWorks 之間所有重疊基元的幾何平均性能中收集的。每個(gè)基元都是在 720p 和更大的圖像尺寸以及參數(shù)參數(shù)的所有排列中測(cè)量的。
除了 50 多個(gè)過濾、變形和圖像增強(qiáng)基元外,VisionWorks 還提供了許多更高級(jí)別的構(gòu)建塊,例如 LK 光流、立體塊匹配 (SBM)、霍夫線和圓以及哈里斯 (角)特征檢測(cè)和跟蹤。VisionWorks 提供了 OpenVX 1.1 的完整實(shí)現(xiàn)。開發(fā)人員可以利用 VisionWorks 部署已針對(duì) Jetson 進(jìn)行調(diào)整的相機(jī)就緒算法和視覺管道。
Jetson TX1:豐富的開發(fā)平臺(tái)
NVIDIA Jetson 生態(tài)系統(tǒng)擁有豐富的工具和支持,可讓您使用 Jetson TX1 研發(fā)應(yīng)用程序和產(chǎn)品。在更大的方案中,用于加速計(jì)算、深度學(xué)習(xí)、計(jì)算機(jī)視覺和圖形的 NVIDIA 軟件工具包可從數(shù)據(jù)中心移植到工作站到嵌入式 SoC(圖 8),允許企業(yè)用戶無縫擴(kuò)展和部署他們的應(yīng)用程序到設(shè)備場(chǎng)地。使用 Jetson,開發(fā)人員可以利用 NVIDIA 的共享架構(gòu)和節(jié)能技術(shù)輕松靈活地推出高性能嵌入式系統(tǒng)。
圖 6. Jetson 利用 NVIDIA 生態(tài)系統(tǒng)提供前所未有的可擴(kuò)展性和對(duì)開發(fā)人員友好的支持。
Jetson TX1 擅長(zhǎng)托管核心處理能力以及學(xué)習(xí)驅(qū)動(dòng)的推理和推理,代表了為您的設(shè)備提供下一波自主性的終極性能和效率。
關(guān)于作者
Dustin 是 NVIDIA Jetson 團(tuán)隊(duì)的一名開發(fā)人員推廣員。Dustin 擁有機(jī)器人技術(shù)和嵌入式系統(tǒng)方面的背景,喜歡在社區(qū)中提供幫助并與 Jetson 合作開展項(xiàng)目。您可以在NVIDIA 開發(fā)者論壇或GitHub 上找到他。
審核編輯:郭婷
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28109瀏覽量
205867 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4856瀏覽量
102715
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論