0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Arm遲遲推出全新NPU系列的原因是什么

獨愛72H ? 來源:雷鋒網(wǎng) ? 作者:佚名 ? 2019-10-30 15:48 ? 次閱讀

(文章來源:雷鋒網(wǎng))

Arm推出了一系列全新的IP,包括NPU、GPU以及DPU。NPU尤為值得關注,不僅因為NPU系列同時發(fā)布了N57和N37兩款新品,還因為Arm的ML處理器(Machine Learning Processor)系列名稱Ethos也正式公布。全新AI系列產(chǎn)品的亮相,意味著Arm的AI策略更加明晰。

實際上,Arm原計劃在2019年第一季度發(fā)布首款ML處理器。之所以選擇這個時間點,Arm ML事業(yè)群商業(yè)與營銷副總裁Dennis Laudick去年11月接受雷鋒網(wǎng)專訪時表示:“最近我們已經(jīng)看到機器學習技術(shù)正在穩(wěn)定和成熟,市場需求也正在不斷增加,我們認為現(xiàn)在是進入市場的最佳時機。”

不過,Arm首款ML處理器的發(fā)布時間是在今年5月,比計劃略晚一些。Dennis上周再次接受雷鋒網(wǎng)專訪時表示,發(fā)布推遲有很多原因,產(chǎn)品開發(fā)是主要的問題。ML處理器開發(fā)的過程中面臨很多挑戰(zhàn),其中一個很大的挑戰(zhàn)就是數(shù)據(jù)移動處理不好就會消耗大量的電,另一個大的挑戰(zhàn)就是如何權(quán)衡效率和靈活性。

雖然產(chǎn)品的開發(fā)影響了首款ML處理器發(fā)布的時間,但Arm并沒有在首款ML產(chǎn)品發(fā)布時就公布其系列名稱和型號。而是直到面向主流市場,提供性能、成本以及功耗均衡的N57和對成本極端敏感的N37發(fā)布,Arm才正式公布ML系列處理器的的名稱——Ethos(中文可翻譯為精神)。此時,外界也才清楚5月發(fā)布的首款ML處理器型號為Ethos-N77,定位高端,面向高性能需求的市場。

這是為什么?Dennis解釋稱,其實有很多原因,Arm內(nèi)部也在重新思考命名系統(tǒng),如果推出第一款機器學習產(chǎn)品就立刻發(fā)布新的產(chǎn)品系列名稱,可能大家會把對這個系列品牌的印象和認知捆綁在這一款產(chǎn)品身上,我們不希望造成這樣的效果。我們希望大家看到Ethos這個產(chǎn)品名下面的產(chǎn)品系列是廣泛而豐富的,這就是為什么要等到有針對三個不同市場,三個不同檔次的產(chǎn)品都出來了,才正式的對外公布產(chǎn)品系列的名稱的主要原因。

但更為關鍵的是,市場上已經(jīng)有眾多競爭者,此時推出Ethos還有競爭力嗎?Dennis表示,Arm的成功一直以來都得益于生態(tài)系統(tǒng),對于NPU來說挑戰(zhàn)并不是能夠做出自己的NPU,而是NPU在市場上是不是真的好用。我們已經(jīng)聽到合作伙伴反饋說,希望在硬件上能夠標準化,他們不想支持15種不同的硬件,所以,他們期待有一個標準化的軟件平臺能夠支持。

以具體的產(chǎn)品看,Ethos-N57與Ethos-N37的設計理念包括一些基本原則,例如:針對Int8與Int16數(shù)據(jù)類型的支持性進行優(yōu)化;先進的數(shù)據(jù)管理技術(shù),以減少數(shù)據(jù)的移動與相關的耗電;通過Winograd技術(shù)的落地,使性能比其他NPU提升超過200%。

AI處理器支持的數(shù)據(jù)類型非常關鍵,隨著算法和模型的逐步成熟,邊緣端的AI芯片很多都只支持Int8的數(shù)據(jù)類型,但Arm還選擇支持Int16。對此,Dennis表示,機器學習支持Int8數(shù)據(jù)類型基本就足夠了,我們之所以選擇也支持INT16是為了更好的應對涉及到圖像處理的工作,因為通常來說像素是10到12位,牽扯到顏色,支持INT16就省略了很多的數(shù)據(jù)轉(zhuǎn)換的工作,非常適合圖像處理。

但為何又沒有支持更高精度的FP16?“因為FP16對帶寬的需求相當高,這就意味著處理器的整個處理量和功耗就會提升。但消耗這么多的功耗和帶寬,準確率與INT8比較卻沒有多少提升?!?Dennis如此解釋。

雖然機器學習讓處理器的設計面臨著新的挑戰(zhàn),不過Dennis認為機器學習本身并沒有改變最為根本的處理器的設計原則,只不過針對機器學習的處理器設計的重點可能和通用處理器有所不同。Arm一直強調(diào)的數(shù)據(jù)管理是我們的重點,還有并行計算、矩陣乘法都是我們關注的重點。

硬件的獨特性之外,軟件也同樣重要,特別是在AI時代,軟硬一體化的重要性更加突顯。要實現(xiàn)理想的軟硬結(jié)合,Dennis認為有兩大挑戰(zhàn),一個還是權(quán)衡的問題,也就是多少工作讓硬件完成以及多少工作給軟件完成。另一個是ML框架的支持,因為這個領域還很新,還會出現(xiàn)不同的框架。

除了軟硬一體化提升AI性能,在先進半導體制程越來越昂貴的背景下,通過異構(gòu)系統(tǒng)提升處理器性能也受到了很大的關注。但異構(gòu)的系統(tǒng)給軟件帶來的更大的挑戰(zhàn),此時,到底是用統(tǒng)一的軟件API去分配硬件資源實現(xiàn)易用性,還是對每個硬件單獨編程讓系統(tǒng)更加高效?

Arm采用的在硬件之上有特別優(yōu)化的Compute Library,它會把底層的硬件和驅(qū)動進行充分優(yōu)化,根據(jù)算子的不同需求驅(qū)動硬件,可以提升幾倍到十幾倍的效率。再上一層是Arm nn,可以將TensorFlow、Caffe等神經(jīng)網(wǎng)絡框架轉(zhuǎn)換成Compute Library可以執(zhí)行的任務,讓開發(fā)者不用關心底層的硬件,只需要使用標準架構(gòu)進行開發(fā)就可以。

因此,Dennis表示Arm采用的方式是更加底層的方式,軟件直接與CPU、GPU或NPU進行溝通,做最佳匹配。這其中最大的挑戰(zhàn)還是平衡的問題,軟件的架構(gòu)要做到根據(jù)具體的應用,分配專用和通用的處理器,這個百分比還可以不斷調(diào)整,這是最難做的。

在框架的支持上,Arm是希望其硬件可以讓開發(fā)者不需要去特別選擇需要用哪一個框架。NPU軟硬件的獨特性和優(yōu)勢只有獲得市場的認可才能成功,那么首先得滿足不同場景的算力需求。Ethos系列現(xiàn)有的三款ML處理器性能從1-4 TOP/s不等,但是即便是在邊緣端,也會有更高的性能需求,更不用說高性能計算的場景。

但是,隨著系統(tǒng)的復雜性增加,計算單元的增加并不意味著一直能夠帶來線性的性能提升。Arm如何應對?Dennis表示,這種組裝確實有其局限性,到達某個性能后可能性能的提升就消失了,但Arm在GPU和CPU多處理器架構(gòu)上有很好的架構(gòu)設計,能夠盡量實現(xiàn)比較長的線性性能提升。

為應對AIoT時代更激烈的競爭,特別是RISC-V的競爭,我們也看到Arm在本月初宣布推出全新的功能 Arm Custom instructions,允許客戶在特定的 CPU 內(nèi)核中加入自定義指令功能,能夠加速特定的用例、嵌入式物聯(lián)網(wǎng)應用程序。

Dennis表示,我們會認真的看待RISC-V在市場上的進展和動作,就像我們認真看待其他架構(gòu)一樣。Arm的優(yōu)勢在于我們能夠提供最全面的、擁有靈活性、普遍性的解決方案和產(chǎn)品,與此同時,我們還擁有強大豐富的生態(tài),能夠更好的滿足市場的需求。
(責任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    18948

    瀏覽量

    227404
  • ARM
    ARM
    +關注

    關注

    134

    文章

    8970

    瀏覽量

    365218
收藏 人收藏

    評論

    相關推薦

    AMD推出全新銳龍AI 300系列處理器

    在 Computex 2024 上,AMD 宣布了一系列突破性的、旨在開啟 AI 體驗新時代的下一代架構(gòu)和產(chǎn)品。AMD為下一代 AI PC推出全新的 AMD 銳龍AI 300 系列
    的頭像 發(fā)表于 09-19 10:55 ?351次閱讀
    AMD<b class='flag-5'>推出</b><b class='flag-5'>全新</b>銳龍AI 300<b class='flag-5'>系列</b>處理器

    華納云:企業(yè)遷移到云端的主要原因是什么?

    企業(yè)遷移到云端的主要原因是什么?原因不止一個。削減成本通常被認為是主要原因——但盡管通過云遷移降低成本無疑是一種誘人的可能性,但創(chuàng)新潛力才是更大的獎勵。云計算通過支持企業(yè)創(chuàng)新而產(chǎn)生的價值是僅僅通過 降低 IT 成本所能實現(xiàn)的價值
    的頭像 發(fā)表于 09-14 17:38 ?132次閱讀

    如何利用ARMxy ARM嵌入式計算機的NPU進行深度學習模型的訓練和優(yōu)化?

    在正文開始前,我們先大致了解鋇錸的ARMxy ARM嵌入式計算機,再來說說我們?nèi)绾卫肁RMxy ARM嵌入式計算機的NPU來實現(xiàn)深度學習模型的訓練和優(yōu)化。 ARMxy系列
    的頭像 發(fā)表于 08-20 13:43 ?170次閱讀
    如何利用ARMxy <b class='flag-5'>ARM</b>嵌入式計算機的<b class='flag-5'>NPU</b>進行深度學習模型的訓練和優(yōu)化?

    ARMxy ARM嵌入式計算機搭載 1 TOPS NPU支持深度學習

    ARMxy ARM嵌入式計算機BL410系列內(nèi)置了1TOPS算力 NPU,它每秒可以執(zhí)行高達一萬億次的浮點運算,這為復雜的圖像處理和深度學習任務提供了充足的計算資源。在產(chǎn)品缺陷檢測領域,ARMxy
    的頭像 發(fā)表于 08-20 11:53 ?141次閱讀
    ARMxy <b class='flag-5'>ARM</b>嵌入式計算機搭載 1 TOPS <b class='flag-5'>NPU</b>支持深度學習

    請求推薦無需NPU的OpenHarmony標準系統(tǒng)ARM開發(fā)板

    請教一下大佬們,目前的需求是在國產(chǎn)ARM開發(fā)板上跑OpenHarmony標準版系統(tǒng),無需NPU/GPU,其它配置(CPU、RAM等)可以盡量高點,價位在2k以內(nèi),球球推薦!感謝大佬們!
    發(fā)表于 08-16 16:25

    芯品# 物聯(lián)網(wǎng)市場性能最高的 NPU

    提高數(shù)據(jù)隱私和安全性。 Arm 的 Ethos NPU 如何增強邊緣和端點的 AI 性能? 多年來,Arm 一直在開發(fā)邊緣 AI 加速器,以支持對邊緣和端點推理工作負載日益增長的需求。通過 A
    的頭像 發(fā)表于 06-26 17:28 ?3179次閱讀
    芯品# 物聯(lián)網(wǎng)市場性能最高的 <b class='flag-5'>NPU</b>

    西安紫光國芯推出全新SSD產(chǎn)品系列

    西安紫光國芯UniIC近日推出全新的SSD產(chǎn)品系列,這一系列共包含四款SSD產(chǎn)品,分別是面向行業(yè)的高端型號「CTD700」、「BTD300」和「ATK110」,以及面向消費者的國潮風
    的頭像 發(fā)表于 05-06 16:17 ?556次閱讀

    全新AMD銳龍8000F系列處理器整機正式發(fā)售 配備神經(jīng)處理單元(NPU

    ,將由AMD渠道品牌整機合作伙伴提供整機進行銷售。全新AMD銳龍8000F系列處理器為提高效率進行了低功耗優(yōu)化,其中的AMD銳龍7 8700F配備了尖端的神經(jīng)處理單元(NPU),它提升AI處理效率,助力個人用戶體驗出色AI性能。
    的頭像 發(fā)表于 04-18 11:05 ?744次閱讀
    <b class='flag-5'>全新</b>AMD銳龍8000F<b class='flag-5'>系列</b>處理器整機正式發(fā)售 配備神經(jīng)處理單元(<b class='flag-5'>NPU</b>)

    Arm推第三代邊緣AI加速器:Arm Ethos-U85

    除了Ethos-U85之外,Arm推出全新的物聯(lián)網(wǎng)參考設計平臺Corstone-320。該平臺將Arm最高性能的Cortex-M85 CPU、Mali-C55圖像信號處理器和Eth
    發(fā)表于 04-16 11:09 ?577次閱讀
    <b class='flag-5'>Arm</b>推第三代邊緣AI加速器:<b class='flag-5'>Arm</b> Ethos-U85

    瑞薩RA MCU家族推出集成Arm? Cortex?-M23內(nèi)核的全新RA0系列

    瑞薩RA MCU家族推出全新的RA0系列,RA0E1產(chǎn)品組是入門級簡易MCU,具有出色的成本效益和超低功耗。
    的頭像 發(fā)表于 04-10 14:32 ?1037次閱讀
    瑞薩RA MCU家族<b class='flag-5'>推出</b>集成<b class='flag-5'>Arm</b>? Cortex?-M23內(nèi)核的<b class='flag-5'>全新</b>RA0<b class='flag-5'>系列</b>

    Arm推出新一代Ethos-U AI加速器及全新物聯(lián)網(wǎng)參考設計平臺

    Arm 控股有限公司(納斯達克股票代碼:ARM,以下簡稱“Arm”)今日宣布推出 Arm Ethos-U85 神經(jīng)網(wǎng)絡處理器 (
    的頭像 發(fā)表于 04-09 17:02 ?772次閱讀
    <b class='flag-5'>Arm</b><b class='flag-5'>推出</b>新一代Ethos-U AI加速器及<b class='flag-5'>全新</b>物聯(lián)網(wǎng)參考設計平臺

    恩智浦推出首次搭載專屬神經(jīng)處理單元(NPU)的MCX N系列!

    恩智浦半導體強勢推出新品MCX N系列產(chǎn)品,首次集成恩智浦專用神經(jīng)處理單元(NPU), 可助力實現(xiàn)高性能、低功耗的邊緣安全智能。
    的頭像 發(fā)表于 03-14 09:46 ?907次閱讀

    AMD推出全新Spartan UltraScale+ FPGA系列

    AMD日前正式推出全新的Spartan UltraScale+ FPGA系列,該系列作為AMD廣泛的成本優(yōu)化型FPGA和自適應SoC產(chǎn)品組合的最新成員,專為邊緣端各種I/O密集型應用
    的頭像 發(fā)表于 03-06 11:09 ?662次閱讀

    芯??萍?b class='flag-5'>全新推出CS8M320系列的經(jīng)濟型信號鏈MCU

    芯海科技全新推出CS8M320(簡稱M320)系列的經(jīng)濟型信號鏈MCU 。
    的頭像 發(fā)表于 12-29 16:03 ?699次閱讀
    芯??萍?b class='flag-5'>全新</b><b class='flag-5'>推出</b>CS8M320<b class='flag-5'>系列</b>的經(jīng)濟型信號鏈MCU

    npu,vop2

    大家好,我在npu使用上遇到了一些問題,請教一下大家,問題如下: 我把內(nèi)核配置里的vop2驅(qū)動裁剪了以后,深度學習模型就不能在npu上運行了??墒俏胰绻徊眉舻魐op2,我的核心板就卡死在
    發(fā)表于 11-09 13:51