雖然 AI 和 ML 應用程序的加速仍然是一個相對較新的領域,但各種處理器如雨后春筍般涌現,幾乎可以加速任何神經網絡工作負載。從處理器巨頭到業(yè)內一些最新的初創(chuàng)公司,它們都提供了不同的東西——無論是針對不同的垂直市場、應用領域、功率預算還是價格點。這是今天市場上的快照。
應用處理器 Intel Movidius Myriad X由愛爾蘭初創(chuàng)公司 Movidius 開發(fā),并于 2016 年被英特爾收購,Myriad X是該公司的第三代視覺處理單元,也是第一款配備專用神經網絡計算引擎的產品,每臺可提供 1 tera 運算第二 (TOPS) 專用深度神經網絡 (DNN) 計算。神經計算引擎直接與高吞吐量智能內存結構接口,以避免在傳輸數據時出現任何內存瓶頸。它支持 FP16 和 INT8 計算。Myriad X 還具有一組 16 個專有 SHAVE 內核以及升級和擴展的視覺加速器。
Myriad X 可在英特爾的神經計算棒 2 中使用,它實際上是一個 USB 拇指驅動器形式的評估平臺。它可以插入任何工作站,讓人工智能和計算機視覺應用程序在專用的 Movidius 硬件上快速啟動和運行。
NXP Semiconductors i.MX 8M Plus i.MX 8M Plus是一款異構應用處理器,采用芯原 (Vivante VIP8000) 的專用神經網絡加速器 IP 。它為消費和工業(yè)物聯網 (IIoT) 中的端點設備的推理提供 2.3 TOPS 的加速,足以進行多對象識別、40,000 個單詞的語音識別,甚至是醫(yī)學成像(MobileNet v1,每秒 500 張圖像)。
除神經網絡處理器外,i.MX 8M Plus 還具有運行頻率為 2 GHz 的四核 Arm Cortex-A53 子系統(tǒng),以及 Cortex-M7 實時子系統(tǒng)。
對于視覺應用,有兩個圖像信號處理器支持兩個用于立體視覺的高清攝像頭或一個 12 兆像素 (MP) 攝像頭。對于語音,該設備包括一個 800-MHz HiFi4 音頻數字信號處理器 (DSP),用于對語音數據進行預處理和后處理。
NXP 的 i.MX 8M Plus 是該公司首款配備專用神經網絡加速器的應用處理器。它專為物聯網應用而設計。
XMOS xcore.ai xcore.ai旨在實現物聯網 (AIoT) 應用程序中的語音控制。該設備是一款交叉處理器(具有應用處理器的性能和微控制器的低功耗實時操作),專為語音信號的機器學習推理而設計。
它基于 XMOS 專有的 Xcore 架構,它本身建立在稱為邏輯內核的構建塊上,可用于 I/O、DSP、控制功能或 AI 加速。每個 xcore.ai 芯片上有 16 個這樣的內核,設計人員可以選擇為每個功能分配多少個。將不同的功能映射到固件中的邏輯內核允許創(chuàng)建完全用軟件編寫的“虛擬 SoC”。XMOS 為 Xcore 增加了用于機器學習工作負載的矢量管道功能。
xcore.ai 支持 32 位、16 位、8 位和 1 位(二值化)網絡,提供 3,200 MIPS、51.2 GMACC 和 1,600 MFLOPS。它具有 1 MB 的嵌入式 SRAM 以及用于擴展的低功耗 DDR 接口。
XMOS 的 xcore.ai 基于專有架構,專為語音處理應用程序中的 AI 工作負載而設計。
汽車 SoC Texas Instruments Inc. TDA4VM作為用于汽車高級駕駛輔助系統(tǒng) (ADAS)的Jacinto 7 系列的一部分,TDA4VM 是 TI 首款具有專用片上深度學習加速器的片上系統(tǒng) (SoC)。該模塊基于 C7x DSP 加上內部開發(fā)的矩陣乘法加速器 (MMA),可實現 8 TOPS。
SoC 可以處理來自前置攝像頭的高達 8 MP 或四到六個 3 MP 攝像頭加上雷達、激光雷達和超聲波傳感器的組合的視頻流。例如,MMA 可用于在自動代客泊車系統(tǒng)中對這些輸入執(zhí)行傳感器融合。TDA4VM 專為 5 到 20 W 之間的 ADAS 系統(tǒng)而設計。
該設備仍處于預生產階段,但開發(fā)套件現已上市。
TI TDA4VM 適用于允許車輛感知其環(huán)境的復雜汽車 ADAS 系統(tǒng)。
GPU Nvidia Corp. Jetson Nano Nvidia 著名的Jetson Nano是一個小型但功能強大的圖形處理單元 (GPU) 模塊,用于端點設備中的 AI 應用程序。Nano 模塊上的 GPU 建立在與 Jetson 系列的較大成員(AGX Xavier 和 TX2)相同的 Maxwell 架構上,具有 128 個內核,并且能夠達到 0.5 TFLOPS,足以在來自高端的多個數據流上運行多個神經網絡。據該公司稱,分辨率圖像傳感器。它在使用時僅消耗 5 W。該模塊還具有四核 Arm Cortex-A57 CPU。
與 Nvidia 范圍內的其他部件一樣,Jetson Nano 使用 CUDA X,這是 Nvidia 的神經網絡加速庫集合。價格低廉的 Jetson Nano 開發(fā)套件隨處可見。
Nvidia 的 Jetson Nano 模塊包含一個強大的 GPU,具有 128 個核心,用于邊緣的 AI。
消費類協(xié)處理器 Kneron Inc. KL520美國-臺灣初創(chuàng)公司 Kneron 的第一款產品是KL520神經網絡處理器,專為智能家居、安全系統(tǒng)和移動設備等應用中的圖像處理和面部識別而設計。它針對運行卷積神經網絡 (CNN) 進行了優(yōu)化,這是當今圖像處理中常用的類型。
KL520 可以運行 0.3 TOPS 并消耗 0.5 W(相當于 0.6 TOPS/W),該公司表示,鑒于該芯片的 MAC 效率很高(超過 90%),這足以進行準確的面部識別。芯片架構是可重構的,可以針對不同的 CNN 模型進行定制。該公司的互補編譯器還使用壓縮技術來幫助在芯片資源內運行更大的模型,從而幫助節(jié)省功耗和成本。
KL520 現已上市,也可以在制造商研揚科技 (M2AI-2280-520) 的加速卡上找到。
Kneron 的 KL520 使用可重新配置的架構和巧妙的壓縮來在移動和消費設備中運行圖像處理。
Gyrfalcon Lightspeeur 5801專為消費電子市場設計,Gyrfalcon 的Lightspeeur 5801在 224 mW 功耗(相當于 12.6 TOPS/W)下提供 2.8 TOPS,延遲為 4 ms。與其他架構相比,該公司使用了一種特別節(jié)能的內存處理器技術。通過在 50 到 200 MHz 之間改變時鐘速度,功耗實際上可以與時鐘速度進行權衡。Lightspeeur 5801 包含 10 MB 內存,因此整個模型都可以安裝在芯片上。
這部分是該公司的第四款生產芯片,已經在 LG 的 Q70 中端智能手機中找到,用于處理相機效果的推斷。USB 拇指驅動器開發(fā)套件 5801 Plai 插頭現已上市。
超低功耗 Eta Compute ECM3532 Eta Compute 的首款量產產品ECM3532專為物聯網電池供電或能量收集設計中的 AI 加速而設計。圖像處理和傳感器融合中的始終在線應用可以通過低至 100 μW 的功率預算來實現。
該芯片有兩個內核——一個 Arm Cortex-M3 微控制器內核和一個 NXP CoolFlux DSP。該公司使用專有的電壓和頻率縮放技術,可以調整每個時鐘周期,以從兩個內核中榨取最后一滴電源。機器學習工作負載可以由任一內核處理(例如,某些語音工作負載更適合 DSP)。
ECM3532 現已提供樣品,預計將于 2020 年第二季度開始量產。
Syntiant Corp. NDP100美國初創(chuàng)公司 Syntiant 的NDP100處理器設計用于在電力緊張的應用中對語音命令進行機器學習推理。其基于內存處理器的芯片消耗的有功功率低于 140 μW,并且可以運行用于關鍵字發(fā)現、喚醒詞檢測、說話者識別或事件分類的模型。該公司表示,該產品將用于實現耳塞、助聽器、智能手表和遙控器等消費設備的免提操作。開發(fā)套件現已上市。
Syntiant 的 NDP100 器件專為超低功耗應用中的語音處理而設計。
GreenWaves Technologies GAP9 GAP9 是法國初創(chuàng)公司 GreenWaves 的首款超低功耗應用處理器,擁有一個由九個 RISC-V 內核組成的強大計算集群,其指令集經過大量定制以優(yōu)化功耗。它具有雙向多通道音頻接口和 1.6 MB 內部 RAM。
GAP9 可以處理電池供電物聯網設備中圖像、聲音和振動傳感的神經網絡工作負載。GreenWaves 的數據顯示 GAP9 在 160 × 160 圖像上運行 MobileNet V1,在 12 毫秒內通道縮放為 0.25,功耗為 806 μW/幀/秒?! ?/p>
評論
查看更多