0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

本土NPU IP再升級!高達(dá)320TOPS算力,引領(lǐng)邊緣計算與汽車?yán)顺?/h1>

2023年3月28日,安謀科技(中國)有限公司正式發(fā)布自研新一代人工智能處理器“周易”X2 NPU。周易NPU是安謀的一個IP系列,此前發(fā)布的“周易”X1 NPU產(chǎn)品主要是基于的V1、V2架構(gòu),更多是用在AIoT領(lǐng)域,此次發(fā)布的“周易”X2 NPU是安謀科技第一款基于V3架構(gòu)的NPU,算力有大幅提升,能夠支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合計算,計算效率與計算密度也得到了顯著提升。還針對車載、邊緣計算等應(yīng)用場景進(jìn)行了專門優(yōu)化,為新興領(lǐng)域不斷迭代的計算需求提供更為完善的解決方案。

“周易”X2 NPU性能全面升級


“周易”X2 NPU作為新一代人工智能處理器,采用第三代“周易”架構(gòu),支持多核Cluster,最高可達(dá)320TOPS子系統(tǒng)。

安謀科技產(chǎn)品總監(jiān)楊磊介紹,相比于“周易”X1和“周易”Z系列都是單核NPU的解決方案,“周易”X2有一個集群(Cluster)的概念,擁有多個NPU的核,算力得到成倍的提升。Cluster內(nèi)部有總線的互聯(lián),用于數(shù)據(jù)的溝通和維護(hù),也有內(nèi)部的存儲系統(tǒng),協(xié)調(diào)不同核間的數(shù)據(jù)通信。同時還支持多個Cluster,整個算力可以成倍提升。通過多核構(gòu)成Cluster,多個Cluster構(gòu)成一個子系統(tǒng)的方案來完成大算力的產(chǎn)品形態(tài)的交付。

“周易”X2 NPU主要功能升級


楊磊進(jìn)一步分析,這里面有一個很核心的功能,就是任務(wù)調(diào)度器Task Scheduling Manager,簡稱為TSM,它可以同時調(diào)度多個Cluster的多個核心。舉例來說,當(dāng)車有10個攝像頭,有10路數(shù)據(jù)進(jìn)來,可以每一路都跑一個檢測算法,它可以當(dāng)成是10個任務(wù),假設(shè)只有4個核心,通過調(diào)度器發(fā)現(xiàn)哪個核是空閑的,就可以把任務(wù)立刻調(diào)度給那個核心做計算,因此它完全是動態(tài)、實時的調(diào)度的解決方案。實時的硬件任務(wù)管理使得“周易”X2 NPU可實現(xiàn)最高千萬次/秒的任務(wù)調(diào)度,將各個計算單元的效能發(fā)揮到最佳。

一般來說,數(shù)據(jù)要從片外的存儲設(shè)備中來讀取,這個傳輸通道在物理上有限制,其次通道速度越快整個方案的成本也會越高,而i-Tiling的技術(shù)方案節(jié)省帶寬需求,進(jìn)一步提升計算效率,從而大幅降低系統(tǒng)的成本。同時,還增加了無損權(quán)重壓縮技術(shù),進(jìn)一步節(jié)省帶寬。以汽車應(yīng)用上處理一個4K分辨率的單路圖像為例,去噪聲計算需要40GB帶寬,基于i-Tiling技術(shù),能夠大幅壓縮帶寬。它是把一個很大的圖片拆成若干個小塊,這樣每一個tile就變得很小,而memory緩存在芯片內(nèi)部,不需要把數(shù)據(jù)放到外部設(shè)備做讀寫操作,從而節(jié)省對外部帶寬的需求。

此前,“周易”Z系列,包括“周易”X1的處理都是基于定點(diǎn)的方案,也就是int8整型方案來做的NPU,它的好處是兼顧了計算性能和密度和芯片成本。在汽車領(lǐng)域?qū)τ谟嬎愕木纫蟾?,“周易”X2 NPU支持混合精度計算,支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合計算,既可以是定點(diǎn)的計算、整型的數(shù)據(jù)計算,也支持浮點(diǎn)的16bit或者是32bit的計算,計算效率與計算密度得到顯著提升。
“周易”X2 NPU優(yōu)化了Transformer性能。如今汽車領(lǐng)域大量地采用Transformer結(jié)構(gòu),Transformer是一個在汽車領(lǐng)域很常見的AI模型,有基于圖像、基于分割檢測的模型。

此外,在低功耗領(lǐng)域做了很多的技術(shù)升級,在7nm工藝節(jié)點(diǎn)上做到10TOP/W的能效。面向手機(jī)、平板電腦、PC等市場可以提供30T算力,這個算力基本上可以對標(biāo)現(xiàn)在業(yè)界旗艦手機(jī)的NPU的解決方案。針對手持設(shè)備做了專門的優(yōu)化,比如說拍照的AI去噪聲,視頻超分辨率、插幀等??傊麄€“周易”X2產(chǎn)品有大量的技術(shù)升級,滿足面向汽車以及手持設(shè)備的產(chǎn)品的需求。

在靈活性方面,“周易”X2 NPU在支持自定義算子、滿足各種模型部署需求的基礎(chǔ)上,還面向各類應(yīng)用場景提供定制化AI解決方案,以進(jìn)一步滿足客戶在智能駕駛、手機(jī)影像AI處理、人機(jī)交互等場景中的差異化需求。
為幫助開發(fā)者更方便、快速地進(jìn)行算法移植和調(diào)試,“周易”X2 NPU還提供了一套完善的人工智能軟件平臺,可以更好地滿足開發(fā)者對性能調(diào)優(yōu)、系統(tǒng)部署的需求。目前,“周易”X2 NPU已面向客戶正式交付,并且今年會有多款搭載“周易”X2 NPU的芯片產(chǎn)品面世。

V3架構(gòu)突破,與完整的“周易” Compass軟件平臺


安謀科技NPU研發(fā)高級總監(jiān)孫錦鴻Ryan解析,在“周易”X2 NPU中,一個核分成兩個大的計算部件,一個是可編程的、靈活的單元,采用VLIW結(jié)構(gòu),它是通用向量處理單元。另外,我們還專門為Tensor處理做了不同種類算子加速單元,跟靈活單元有機(jī)結(jié)合成為一個可擴(kuò)展性的核結(jié)構(gòu)。擴(kuò)展性層面,在一個Cluster里擴(kuò)展,通過高帶寬的內(nèi)部NoC,以及一些Debug單元、電源管理單元、內(nèi)部memory構(gòu)成一個計算Cluster,再通過Task Scheduling Manager,將計算任務(wù)調(diào)度到合適的核,或者合適的Cluster里。“周易”架構(gòu)能做到高效能AI固定運(yùn)算和靈活編程要求的有效平衡。



孫錦鴻表示,對比起“周易”v1、v2架構(gòu),v3架構(gòu)更強(qiáng)調(diào)并行性和可擴(kuò)展性。整個“周易”NPU的設(shè)計核心思想在指令、數(shù)據(jù)處理單元的同構(gòu)計算里做到了最大并行。在整個v3架構(gòu)的指令集中,安謀科技定義了超過1000個專門針對不同場景的指令,這些指令也是基于VLIW結(jié)構(gòu),由長指令和短指令構(gòu)成,并且可以支持64bit和128bit的指令包,做到統(tǒng)一的指令集組合。



孫錦鴻分析,在運(yùn)算單元里,需要很多AI固定功能的加速,我們提供了高效的4K MAC矩陣,適用于CNN、RNN、Transformer等結(jié)構(gòu)。其次提供了很多可重置的結(jié)構(gòu)單元,以適配很多新算子,因為很多AI功能背后的模型或算子更新是日新月異,這些可重置的結(jié)構(gòu)單元就給我們的NPU提供了很多的可擴(kuò)展性和適應(yīng)性。
靈活單元層面,我們就做了很多針對AI標(biāo)量、矢量的指令,這些指令都可以通過OpenCL實現(xiàn)很好的編程體驗。每個基礎(chǔ)單元可以做到1024bit/cycle的數(shù)據(jù)處理,它的數(shù)據(jù)帶寬可以根據(jù)1024bit做到較為有效的拓展。也加入支持矩陣浮點(diǎn)運(yùn)算。

“周易”NPU不僅提供硬件NPU IP,還提供一整套完整的“周易” Compass軟件平臺,這個平臺中包括模型編譯器、調(diào)試器,不僅可以分析和判斷運(yùn)行中是否有一些異常和錯誤,還可以調(diào)試性能。



孫錦鴻表示,基于V3架構(gòu),安謀科技開發(fā)了很多底層軟件、中間部件,包括runtime、IDE、simulator等等都整合到“周易” Compass軟件平臺里。也開發(fā)了很多高效能的NN算子,供客戶直接調(diào)用。還開發(fā)了專門的NN compiler,整合i-Tiling的技術(shù)。此外,提供一個友好的OpenCL的Compiler,通過單次編程就可以把這么多運(yùn)算單元整合起來。在頂層上,我們也有統(tǒng)一的Parser對接到各種神經(jīng)網(wǎng)絡(luò)框架。此外,還有一個核心部件是量化部件,可以把各種浮點(diǎn)的原始模型量化到合適精度,給NPU最高效的運(yùn)行。我們也定義了一套名為Compass IR的公開標(biāo)準(zhǔn)接口,將IR直接對接到上層神經(jīng)網(wǎng)絡(luò)或底層硬件。并且這一部分設(shè)計已經(jīng)實現(xiàn)了開源。


“周易” Compass軟件平臺現(xiàn)在已經(jīng)支持了上百種AI算子或者是AI層,支持上百種AI模型,希望通過這樣一套“周易” Compass軟件平臺來支持全部的軟件模型,因為整個“周易”NPU具有完全可編程性,客戶可以開發(fā)新的算子?!坝绕涫窃谄囶I(lǐng)域,無論是模型、數(shù)據(jù),對客戶來講都是核心資產(chǎn),它的算法中就采用了很多自定義算子,也就是非標(biāo)準(zhǔn)算子,這些算子都能體現(xiàn)出車廠、自動駕駛廠商的特有技術(shù)或方案。這種情況下,我們就可以支持這些客戶進(jìn)行自定義算子的部署?!睂O錦鴻說道。


同時,“周易” Compass軟件平臺不單可以把NPU的性能充分發(fā)揮出來,還結(jié)合通用的Arm CPU處理器,GPU IP單元,以及ISP、VPU、SPU等提供一套完整的異構(gòu)計算解決方案。目前支持TVM以及Arm NN兩套異構(gòu)計算平臺,能夠?qū)oC芯片中的CPU、GPU、NPU IP的性能協(xié)同發(fā)揮出來。

解決NPU碎片化問題,“周易”NPU軟件開源計劃


從AI訓(xùn)練和推理的生態(tài)來看,“周易”NPU主要做推理,沒有涉足訓(xùn)練的部分。安謀科技產(chǎn)品總監(jiān)楊磊分享了一個數(shù)據(jù),安謀科技統(tǒng)計了過去一年里國內(nèi)的60個用到NPU的芯片項目。發(fā)現(xiàn)其中大概55%的項目用的都是自研NPU,但是每一家都不一樣。剩下的部分主要是基于IP的解決方案,過去1年大概有8個項目用了安謀科技“周易”NPU的方案,雖然“周易”NPU占的比例從整個餅圖來看不高,但在IP領(lǐng)域仍然是最多的。這就說明整個硬件的平臺是極其碎片化的。



硬件碎片化所帶來的弊端就是每一家硬件都有自己的軟件工具鏈,對應(yīng)的可能就有40種工具鏈。這對應(yīng)用開發(fā)來講是極其復(fù)雜或者是痛苦的。怎樣能在推理側(cè)使生態(tài)更加友好,尤其是對于軟件開發(fā)者、應(yīng)用開發(fā)者更加友好,可以讓他們更加方便、快捷地做應(yīng)用的開發(fā)和部署,是安謀科技一直在深入思考的問題。

隨著“周易”X2 NPU的推出,安謀科技正式發(fā)布“周易”NPU軟件開源計劃,并更新了生態(tài)伙伴計劃的最新進(jìn)展。作為立足全球生態(tài)、深耕本土創(chuàng)新的重要舉措,安謀科技一方面通過開放源碼的形式,攜手更多開發(fā)者以及合作伙伴共建國內(nèi)NPU產(chǎn)業(yè)生態(tài);另一方面,通過戰(zhàn)略合作、產(chǎn)品技術(shù)支持、項目協(xié)作等形式與合作伙伴共建上下游產(chǎn)業(yè)生態(tài),共同推動各領(lǐng)域軟硬件、工具鏈、行業(yè)標(biāo)準(zhǔn)以及社區(qū)聯(lián)盟等生態(tài)環(huán)節(jié)的發(fā)展。

在“周易”NPU軟件開源計劃下,安謀科技已率先對外開放NPU中間表示層規(guī)范、模型解析器、模型優(yōu)化器、驅(qū)動等,并向相關(guān)合作伙伴提供“周易”Compass軟件平臺,包括軟件模擬器、調(diào)試器、C編譯器等在內(nèi)的多種軟件工具。在滿足合作伙伴更自主、更靈活的算法移植需求的同時,進(jìn)一步提升了軟件開發(fā)效率,避免重復(fù)造輪。據(jù)悉,上述只是“周易”NPU軟件開源計劃的第一步,安謀科技后續(xù)還將逐步開放更多資源,如模型量化、算子實現(xiàn)等源代碼。

“周易”NPU軟件部署


截至目前,憑借完整的工具鏈及技術(shù)服務(wù),“周易”NPU軟件開源計劃已經(jīng)有第一批合作伙伴率先加入,其中不乏來自AIoT、智能汽車、智能操作系統(tǒng)等領(lǐng)域的明星企業(yè)。

小結(jié):

安謀科技一直積極推進(jìn)自研IP的研發(fā)。安謀科技執(zhí)行副總裁、產(chǎn)品研發(fā)負(fù)責(zé)人劉澍 William Liu表示,以NPU研發(fā)團(tuán)隊來看,經(jīng)過5年的努力從零開始建立,目前在北京、上海、深圳吸引和培養(yǎng)眾多工程師,整個團(tuán)隊擁有超過130位工程師從事開發(fā)包含硬件和軟件的NPU全棧研發(fā)。我們可以看到,如今安謀科技已經(jīng)做了多款NPU產(chǎn)品,已發(fā)展到第三代架構(gòu),此次大算力“周易”X2 NPU的推出可謂恰逢其時,趕上AIoT、智能終端和汽車大發(fā)展的浪潮。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29862

    瀏覽量

    268154
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    256

    瀏覽量

    18515
  • 安謀科技
    +關(guān)注

    關(guān)注

    0

    文章

    100

    瀏覽量

    7524
收藏 人收藏

    評論

    相關(guān)推薦

    40+TOPS NPU,AI PC處理器開卷

    的人工智能任務(wù)。同時,微軟還提出,這款全新電腦搭配擁有全新神經(jīng)處理單元NPU的芯片,可實現(xiàn)每秒超過40萬億次即40+TOPS的運(yùn)算。那么也就是說,若要符合微軟給出的AI PC的定義,NPU
    的頭像 發(fā)表于 07-14 01:11 ?4259次閱讀
    40+<b class='flag-5'>TOPS</b> <b class='flag-5'>NPU</b>,AI PC處理器開卷<b class='flag-5'>算</b><b class='flag-5'>力</b>

    英特爾攜手浪潮信息從邊緣計算邊緣邁進(jìn)

    對多樣化應(yīng)用場景的適應(yīng)性和服務(wù)能力。隨著大模型和人工智能領(lǐng)域的快速發(fā)展,需求將愈發(fā)成為制約企業(yè)轉(zhuǎn)型、成長的因素。 從邊緣計算邊緣
    的頭像 發(fā)表于 11-10 14:03 ?596次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

    、GPU、NPU,給我們剖析了芯片的微架構(gòu)。書中有對芯片方案商處理器的講解,理論聯(lián)系實際,使讀者能更好理解芯片。 全書共11章,
    發(fā)表于 10-15 22:08

    超緊湊模塊提供高達(dá) 39 TOPS AI

    的 XDNA? NPU 和強(qiáng)大的 Radeon RDNA 3? 圖形處理器,可為AI推理提供高達(dá)39 TOPS的驚人。 ? ?? 這使得
    發(fā)表于 09-25 13:46 ?1263次閱讀
     超緊湊模塊提供<b class='flag-5'>高達(dá)</b> 39 <b class='flag-5'>TOPS</b> AI <b class='flag-5'>算</b><b class='flag-5'>力</b>

    米爾STM32MP2核心板首發(fā)新品上市!高性能+多接口+邊緣

    的工業(yè)4.0應(yīng)用賦能。 機(jī)器視覺 先進(jìn)的邊緣AI STM32MP25內(nèi)置高達(dá)1.35 TOPSN
    發(fā)表于 09-20 18:24

    名單公布!【書籍評測活動NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    的強(qiáng)有力競爭者;蘋果、Cerebras、Ampere、特斯拉等企業(yè)的加入讓這場“芯片戰(zhàn)爭”更加熱鬧。 CPU、GPU、NPU等芯片是推動科技創(chuàng)新的基石,
    發(fā)表于 09-02 10:09

    ARMxy工業(yè)控制器為視頻監(jiān)控提供1Tops支持

    Cortex-A55,主頻高達(dá)1.8GHz/2.0GHz,搭載8/16/32GByte eMMC,1/2/4GB yte LPDDR4X?多種組合的RAM與ROM,并且內(nèi)置1TOPS
    的頭像 發(fā)表于 08-20 12:03 ?242次閱讀
    ARMxy工業(yè)控制器為視頻監(jiān)控提供1<b class='flag-5'>Tops</b><b class='flag-5'>算</b><b class='flag-5'>力</b>支持

    用ARMxy ARM工業(yè)控制器自帶的1Tops實現(xiàn)高性能圖像處理

    ARMxy ARM工業(yè)控制器憑借其強(qiáng)大的性能、靈活的配置和高度集成的特性,尤其是其內(nèi)置的1TopsNPU(神經(jīng)網(wǎng)絡(luò)處理單元),在圖像識別領(lǐng)域展現(xiàn)出了良好的處理性能。本文將簡易說明A
    的頭像 發(fā)表于 08-20 11:55 ?340次閱讀
    用ARMxy ARM工業(yè)控制器自帶的1<b class='flag-5'>Tops</b><b class='flag-5'>算</b><b class='flag-5'>力</b>實現(xiàn)高性能圖像處理

    ARMxy ARM嵌入式計算機(jī)搭載 1 TOPS NPU支持深度學(xué)習(xí)

    ARMxy ARM嵌入式計算機(jī)BL410系列內(nèi)置了1TOPS NPU,它每秒可以執(zhí)行高達(dá)一萬
    的頭像 發(fā)表于 08-20 11:53 ?266次閱讀
    ARMxy ARM嵌入式<b class='flag-5'>計算</b>機(jī)搭載 1 <b class='flag-5'>TOPS</b> <b class='flag-5'>NPU</b>支持深度學(xué)習(xí)

    刷新AI PC NPU,AMD銳龍AI 9 HX 375領(lǐng)銜55 TOPS

    NPU性能第一梯隊。而此次推出的Ryzen AI 9 HX 375進(jìn)一步提升至55 TOPS。在NPU
    的頭像 發(fā)表于 08-07 00:28 ?3175次閱讀
    刷新AI PC <b class='flag-5'>NPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>,AMD銳龍AI 9 HX 375領(lǐng)銜55 <b class='flag-5'>TOPS</b>

    AIGC掀需求革命,邊緣計算將不再“邊緣

    AI瓶頸下邊緣計算崛起
    的頭像 發(fā)表于 04-22 14:51 ?320次閱讀

    NPU3倍,新一代酷睿Ultra Lunar Lake搶先看

    在人工智能(AI)工作負(fù)載中可以提供100+ TOPS,其中45 TOPS來自于NPU。 此前有報道稱,未來微軟的Copilot人工智
    的頭像 發(fā)表于 04-14 11:04 ?590次閱讀

    AMD推出銳龍8000嵌入式處理器,AI高達(dá)39 T

    此款CPU選用4納米制程、AMD基于“Zen 4”架構(gòu)的CPU核心以及使用RDNA 3架構(gòu)GPU和XDNA架構(gòu)NPU,實現(xiàn)高達(dá)39TOPS的AI
    的頭像 發(fā)表于 04-03 10:39 ?794次閱讀

    256Tops!CSA1-N8S1684X服務(wù)器

    (基于BM1684X的高服務(wù)器)高AI處理器BM1684X搭載了BM1684AISo
    的頭像 發(fā)表于 03-23 08:02 ?1406次閱讀
    256<b class='flag-5'>Tops</b><b class='flag-5'>算</b><b class='flag-5'>力</b>!CSA1-N8S1684X<b class='flag-5'>算</b><b class='flag-5'>力</b>服務(wù)器

    ArmSoM Sige7替代Jetson-Orin-Nano,Xavier NX 搭載Hailo-8,32TOPS

    通過PCIe接口外接Hailo-8高開發(fā)板,為用戶提供了一種強(qiáng)大而高效的邊緣計算解決方案。 ArmSoM Sige7的亮點(diǎn) 1. RK3588 處理器
    的頭像 發(fā)表于 12-18 11:34 ?1196次閱讀
    ArmSoM Sige7替代Jetson-Orin-Nano,Xavier NX 搭載Hailo-8,32<b class='flag-5'>TOPS</b><b class='flag-5'>算</b><b class='flag-5'>力</b>