電子發(fā)燒友網(wǎng)報道(文/李寧遠)近日,韓國政府擬與AI芯片、云計算企業(yè)聯(lián)合,組建團隊研發(fā)高算力、低能耗的神經(jīng)網(wǎng)絡(luò)處理器NPU推理芯片。這一舉措的目的是與英偉達競爭并避開英偉達主導(dǎo)的圖形處理單元GPU市場。
自O(shè)penAI旗下的智能聊天機器人程序ChatGPT去年年末發(fā)布后,全球掀起了一波人工智能熱潮,熱度持續(xù)至今。ChatGPT超出人們預(yù)期的智能化表現(xiàn)掀起了人工智能領(lǐng)域的技術(shù)革命。這一場生成式人工智能熱潮催生了海量的數(shù)據(jù),處理海量的數(shù)據(jù)離不開背后龐大的基礎(chǔ)算力作為支撐。
CPU、GPU和DPU作為人們熟知的人工智能場景中重要的算力芯片,能夠為高帶寬、低延遲、數(shù)據(jù)密集的計算場景提供計算引擎,是未來處理超算流量和安全網(wǎng)絡(luò)存儲的核心硬件。而神經(jīng)網(wǎng)絡(luò)處理器NPU作為一種專門用于進行深度學(xué)習(xí)計算的芯片,在大算力應(yīng)用場景的應(yīng)用優(yōu)勢也正被業(yè)界廣泛看好。
NPU,為深度學(xué)習(xí)計算而生
早在2011年,Google就已經(jīng)提出了利用大規(guī)模神經(jīng)網(wǎng)絡(luò)進行圖像識別的技術(shù),由于深度學(xué)習(xí)計算需要大量的計算資源和算力支持,此時傳統(tǒng)的CPU和GPU并不能完全滿足這種需求,因此NPU應(yīng)運而生。
設(shè)計NPU的目的就是為了進行深度學(xué)習(xí)計算,其特點是具有極高的計算效率和能耗效率,能夠運行多個并行線程在短時間內(nèi)完成大規(guī)模的神經(jīng)網(wǎng)絡(luò)計算任務(wù)。NPU的計算單元通常采用矩陣計算、向量計算等方式以保證快速完成計算任務(wù)。
同時為了計算單元快速處理數(shù)據(jù),其存儲通常采用高速緩存和顯存的結(jié)合方式,方便更快地存取和讀取數(shù)據(jù)。這種設(shè)計在降低計算延遲和提高復(fù)雜計算任務(wù)穩(wěn)定性有著很明顯的幫助。
NPU和TPU、BPU這些AI芯片一樣,同屬于ASIC專用集成電路,是為特定應(yīng)用場景(如NPU的神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)場景)而設(shè)計的定制芯片,其開發(fā)成本高且周期長,但在性能和功耗上優(yōu)于同時期的GPU和FPGA。
傳統(tǒng)的ASIC在開發(fā)完成后是不能更改的,這一點上NPU還是略有差異,NPU一般會具有一定的可編程性,可以通過更改配置適配不同的計算任務(wù),所以其日后的應(yīng)用空間也遠不止局限于深度學(xué)習(xí)模型。
NPU這種專用芯片在特定的人工智能需求下提供了一種提升算力和能效比的新思路。雖然GPU已經(jīng)針對AI算法加強了并行計算單元,但NPU更容易從高規(guī)律性的深度神經(jīng)網(wǎng)絡(luò)中獲益,短時間內(nèi)完成大規(guī)模的神經(jīng)網(wǎng)絡(luò)計算任務(wù)。
在ChatGPT拉高算力需求的背景推動下,NPU開始進入發(fā)展快車道。
大模型需求推動NPU產(chǎn)業(yè)發(fā)展
目前,國內(nèi)人工智能芯片行業(yè)里GPU仍然是首選,根據(jù)IDC的數(shù)據(jù),GPU占有90%以上的市場份額,而NPU、FPGA和其他ASIC等非GPU芯片占有的市場份額相對較少,整體市場份額接近10%,其中NPU的占比為6.3%。
在這條新賽道上,還沒有哪一家廠商成為巨頭主導(dǎo)市場,韓國政府與AI芯片、云計算企業(yè)聯(lián)合發(fā)展高算力、低能耗的NPU也正是為了避開了英偉達主導(dǎo)的GPU市場,開辟一條新的增強AI芯片實力的道路。
今年4月已有韓媒BusinessKorea報道,三星半導(dǎo)體已成功量產(chǎn)采用三星14nm制程工藝第一代WarBoy NPU芯片,速度可以達到普通GPU的十倍,預(yù)計不久后投入市場,同時第二代WarBoy NPU芯片預(yù)計采用5nm工藝,明年或可推出。
國內(nèi)NPU行業(yè)也是潛力十足,不同于CPU、GPU國內(nèi)起步較慢,國內(nèi)芯片設(shè)計公司在NPU這條賽道的起步時間不晚,已經(jīng)有不少相關(guān)產(chǎn)品量產(chǎn)并推出應(yīng)用。
華為海思自研的Da Vinci架構(gòu)昇騰NPU已經(jīng)在移動端AI計算領(lǐng)域中嶄露頭角,張量化的立體運算單元提供了業(yè)界領(lǐng)先的量化精度,在移動端AI計算中用于圖像識別、語音識別、AR SLAM等應(yīng)用大幅提升了運算速度。
紫光展銳的NPU也在旗下多顆SoC中搭載,采用新一代高能效NPU+VDSP架構(gòu),垂直優(yōu)化計算能力,其中NPU算力達到8TOPS,相比上一代提升67%,支持圖像超分、視頻增強、語義分割、目標檢測、文本識別等AI應(yīng)用。
阿里的含光NPU也是用了自研的硬件架構(gòu),集成了達摩院先進算法,針對CNN及視覺類算法深度優(yōu)化計算、存儲密度。國科微的NPU芯片同樣自主自研,目前相關(guān)產(chǎn)品正在落地,今年會擇機發(fā)布嵌入自研NPU、帶算力的相關(guān)產(chǎn)品。
寒武紀的NPU也是國內(nèi)很早進入NPU賽道的玩家,目前NPU產(chǎn)品主要包括寒武紀1A、寒武紀1H、寒武紀1M等,其IP指令集已擴大范圍授權(quán)集成到手機、安防、可穿戴設(shè)備等各類終端芯片中,整體性能上與國外廠商比肩。
芯原股份的Vivante NPU IP也已經(jīng)應(yīng)用于百款人工智能芯片中,不僅可滿足多種芯片尺寸和功耗預(yù)算還可以結(jié)合芯原自有的其他處理器IP。同時芯原還將自有的GPU和NPU原生耦合,利用芯原獨有的FLEXA低功耗低延遲同步接口通信技術(shù),實現(xiàn)二者的高效協(xié)同計算和并行處理。
還有不少國內(nèi)廠商在NPU已有建樹,如中星微的VC0616 NPU、OPPO的自研NPU MariSilicon X、瑞芯微的自研NPU、愛芯元智的Neutron NPU等等。
?
未來NPU如何發(fā)展?
NPU作為一種專門針對深度神經(jīng)網(wǎng)絡(luò)計算的硬件器件,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,越來越多的算法模型加入,NPU 的多樣化肯定會越來越重要。目前NPU在圖像識別、自然語言處理以及傳感器數(shù)據(jù)處理上所展現(xiàn)出的強大計算性能,已經(jīng)從IoT、消費電子領(lǐng)域開始向汽車自動駕駛領(lǐng)域等更廣泛多樣的場景延伸應(yīng)用。
另一個發(fā)展趨勢則是獨立化,目前大多數(shù)NPU都需要與其他CPU/GPU等配合使用才能完成整個計算任務(wù),對其他芯片的依賴度較高。未來NPU集成度進一步提高,能獨立完成計算任務(wù)后其應(yīng)用空間將更為廣闊。
寫在最后
NPU的誕生就是為了應(yīng)對深度神經(jīng)計算,在ChatGPT將算力需求再推上一個新臺階后,NPU芯片顯著的能耗節(jié)約優(yōu)勢和高效的計算效率在算力需求愈發(fā)凸顯的當下已經(jīng)顯露了不少發(fā)展機遇,在市場需求的推動下相關(guān)產(chǎn)業(yè)發(fā)展也開始加速。
和其他AI芯片相比,NPU依賴定制化,國內(nèi)廠商在這一方面很有優(yōu)勢。在這個賽道上,可以預(yù)見競爭會越來越激烈,不過市場還沒有被巨頭壟斷,國內(nèi)廠商空間更大,可以爭奪的生態(tài)位更多,國內(nèi)廠商在這一細分AI芯片領(lǐng)域前景可期。
自O(shè)penAI旗下的智能聊天機器人程序ChatGPT去年年末發(fā)布后,全球掀起了一波人工智能熱潮,熱度持續(xù)至今。ChatGPT超出人們預(yù)期的智能化表現(xiàn)掀起了人工智能領(lǐng)域的技術(shù)革命。這一場生成式人工智能熱潮催生了海量的數(shù)據(jù),處理海量的數(shù)據(jù)離不開背后龐大的基礎(chǔ)算力作為支撐。
CPU、GPU和DPU作為人們熟知的人工智能場景中重要的算力芯片,能夠為高帶寬、低延遲、數(shù)據(jù)密集的計算場景提供計算引擎,是未來處理超算流量和安全網(wǎng)絡(luò)存儲的核心硬件。而神經(jīng)網(wǎng)絡(luò)處理器NPU作為一種專門用于進行深度學(xué)習(xí)計算的芯片,在大算力應(yīng)用場景的應(yīng)用優(yōu)勢也正被業(yè)界廣泛看好。
NPU,為深度學(xué)習(xí)計算而生
早在2011年,Google就已經(jīng)提出了利用大規(guī)模神經(jīng)網(wǎng)絡(luò)進行圖像識別的技術(shù),由于深度學(xué)習(xí)計算需要大量的計算資源和算力支持,此時傳統(tǒng)的CPU和GPU并不能完全滿足這種需求,因此NPU應(yīng)運而生。
設(shè)計NPU的目的就是為了進行深度學(xué)習(xí)計算,其特點是具有極高的計算效率和能耗效率,能夠運行多個并行線程在短時間內(nèi)完成大規(guī)模的神經(jīng)網(wǎng)絡(luò)計算任務(wù)。NPU的計算單元通常采用矩陣計算、向量計算等方式以保證快速完成計算任務(wù)。
同時為了計算單元快速處理數(shù)據(jù),其存儲通常采用高速緩存和顯存的結(jié)合方式,方便更快地存取和讀取數(shù)據(jù)。這種設(shè)計在降低計算延遲和提高復(fù)雜計算任務(wù)穩(wěn)定性有著很明顯的幫助。
NPU和TPU、BPU這些AI芯片一樣,同屬于ASIC專用集成電路,是為特定應(yīng)用場景(如NPU的神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)場景)而設(shè)計的定制芯片,其開發(fā)成本高且周期長,但在性能和功耗上優(yōu)于同時期的GPU和FPGA。
傳統(tǒng)的ASIC在開發(fā)完成后是不能更改的,這一點上NPU還是略有差異,NPU一般會具有一定的可編程性,可以通過更改配置適配不同的計算任務(wù),所以其日后的應(yīng)用空間也遠不止局限于深度學(xué)習(xí)模型。
NPU這種專用芯片在特定的人工智能需求下提供了一種提升算力和能效比的新思路。雖然GPU已經(jīng)針對AI算法加強了并行計算單元,但NPU更容易從高規(guī)律性的深度神經(jīng)網(wǎng)絡(luò)中獲益,短時間內(nèi)完成大規(guī)模的神經(jīng)網(wǎng)絡(luò)計算任務(wù)。
在ChatGPT拉高算力需求的背景推動下,NPU開始進入發(fā)展快車道。
大模型需求推動NPU產(chǎn)業(yè)發(fā)展
目前,國內(nèi)人工智能芯片行業(yè)里GPU仍然是首選,根據(jù)IDC的數(shù)據(jù),GPU占有90%以上的市場份額,而NPU、FPGA和其他ASIC等非GPU芯片占有的市場份額相對較少,整體市場份額接近10%,其中NPU的占比為6.3%。
在這條新賽道上,還沒有哪一家廠商成為巨頭主導(dǎo)市場,韓國政府與AI芯片、云計算企業(yè)聯(lián)合發(fā)展高算力、低能耗的NPU也正是為了避開了英偉達主導(dǎo)的GPU市場,開辟一條新的增強AI芯片實力的道路。
今年4月已有韓媒BusinessKorea報道,三星半導(dǎo)體已成功量產(chǎn)采用三星14nm制程工藝第一代WarBoy NPU芯片,速度可以達到普通GPU的十倍,預(yù)計不久后投入市場,同時第二代WarBoy NPU芯片預(yù)計采用5nm工藝,明年或可推出。
國內(nèi)NPU行業(yè)也是潛力十足,不同于CPU、GPU國內(nèi)起步較慢,國內(nèi)芯片設(shè)計公司在NPU這條賽道的起步時間不晚,已經(jīng)有不少相關(guān)產(chǎn)品量產(chǎn)并推出應(yīng)用。
華為海思自研的Da Vinci架構(gòu)昇騰NPU已經(jīng)在移動端AI計算領(lǐng)域中嶄露頭角,張量化的立體運算單元提供了業(yè)界領(lǐng)先的量化精度,在移動端AI計算中用于圖像識別、語音識別、AR SLAM等應(yīng)用大幅提升了運算速度。
紫光展銳的NPU也在旗下多顆SoC中搭載,采用新一代高能效NPU+VDSP架構(gòu),垂直優(yōu)化計算能力,其中NPU算力達到8TOPS,相比上一代提升67%,支持圖像超分、視頻增強、語義分割、目標檢測、文本識別等AI應(yīng)用。
阿里的含光NPU也是用了自研的硬件架構(gòu),集成了達摩院先進算法,針對CNN及視覺類算法深度優(yōu)化計算、存儲密度。國科微的NPU芯片同樣自主自研,目前相關(guān)產(chǎn)品正在落地,今年會擇機發(fā)布嵌入自研NPU、帶算力的相關(guān)產(chǎn)品。
寒武紀的NPU也是國內(nèi)很早進入NPU賽道的玩家,目前NPU產(chǎn)品主要包括寒武紀1A、寒武紀1H、寒武紀1M等,其IP指令集已擴大范圍授權(quán)集成到手機、安防、可穿戴設(shè)備等各類終端芯片中,整體性能上與國外廠商比肩。
芯原股份的Vivante NPU IP也已經(jīng)應(yīng)用于百款人工智能芯片中,不僅可滿足多種芯片尺寸和功耗預(yù)算還可以結(jié)合芯原自有的其他處理器IP。同時芯原還將自有的GPU和NPU原生耦合,利用芯原獨有的FLEXA低功耗低延遲同步接口通信技術(shù),實現(xiàn)二者的高效協(xié)同計算和并行處理。
還有不少國內(nèi)廠商在NPU已有建樹,如中星微的VC0616 NPU、OPPO的自研NPU MariSilicon X、瑞芯微的自研NPU、愛芯元智的Neutron NPU等等。
?
未來NPU如何發(fā)展?
NPU作為一種專門針對深度神經(jīng)網(wǎng)絡(luò)計算的硬件器件,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,越來越多的算法模型加入,NPU 的多樣化肯定會越來越重要。目前NPU在圖像識別、自然語言處理以及傳感器數(shù)據(jù)處理上所展現(xiàn)出的強大計算性能,已經(jīng)從IoT、消費電子領(lǐng)域開始向汽車自動駕駛領(lǐng)域等更廣泛多樣的場景延伸應(yīng)用。
另一個發(fā)展趨勢則是獨立化,目前大多數(shù)NPU都需要與其他CPU/GPU等配合使用才能完成整個計算任務(wù),對其他芯片的依賴度較高。未來NPU集成度進一步提高,能獨立完成計算任務(wù)后其應(yīng)用空間將更為廣闊。
寫在最后
NPU的誕生就是為了應(yīng)對深度神經(jīng)計算,在ChatGPT將算力需求再推上一個新臺階后,NPU芯片顯著的能耗節(jié)約優(yōu)勢和高效的計算效率在算力需求愈發(fā)凸顯的當下已經(jīng)顯露了不少發(fā)展機遇,在市場需求的推動下相關(guān)產(chǎn)業(yè)發(fā)展也開始加速。
和其他AI芯片相比,NPU依賴定制化,國內(nèi)廠商在這一方面很有優(yōu)勢。在這個賽道上,可以預(yù)見競爭會越來越激烈,不過市場還沒有被巨頭壟斷,國內(nèi)廠商空間更大,可以爭奪的生態(tài)位更多,國內(nèi)廠商在這一細分AI芯片領(lǐng)域前景可期。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
AI
+關(guān)注
關(guān)注
87文章
29815瀏覽量
268109 -
NPU
+關(guān)注
關(guān)注
2文章
256瀏覽量
18512
發(fā)布評論請先 登錄
相關(guān)推薦
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽
、GPU、NPU,給我們剖析了算力芯片的微架構(gòu)。書中有對芯片方案商處理器的講解,理論聯(lián)系實際,使
發(fā)表于 10-15 22:08
名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析
力,在全球范圍內(nèi),對于推動科技進步、經(jīng)濟發(fā)展及社會整體的運作具有至關(guān)重要的作用。隨著信息技術(shù)的高速發(fā)展,高性能計算(HPC)和人工智能(AI
發(fā)表于 09-02 10:09
大模型時代的算力需求
現(xiàn)在AI已進入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型的算力,以及相關(guān)的穩(wěn)定性和性能
發(fā)表于 08-20 09:04
RISC-V在中國的發(fā)展機遇有哪些場景?
聯(lián)網(wǎng)市場的重要參與者,擁有龐大的用戶基數(shù)和豐富的應(yīng)用場景。RISC-V在中國的發(fā)展將受益于這一市場需求的增長。
2. 人工智能(AI)
AI
發(fā)表于 07-29 17:14
基于MCU的神經(jīng)網(wǎng)絡(luò)模型設(shè)計
力不從心。神經(jīng)網(wǎng)絡(luò)作為一種強大的機器學(xué)習(xí)模型,能夠提供高效的數(shù)據(jù)處理和分析能力,但其計算復(fù)雜度和資源需求往往超出了普通MCU的能力范圍。因此,設(shè)計一種適合MCU運行的
pytorch中有神經(jīng)網(wǎng)絡(luò)模型嗎
處理、語音識別等領(lǐng)域取得了顯著的成果。PyTorch是一個開源的深度學(xué)習(xí)框架,由Facebook的AI研究團隊開發(fā)。它以其易用性、靈活性和高效性而受到廣泛歡迎。在PyTorch中,有許多預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)
rnn是什么神經(jīng)網(wǎng)絡(luò)模型
RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))是一種具有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,它能夠處理序列數(shù)據(jù),并對序列中的元素進行建模。RNN在自然語言
人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANNs)是一種模擬人腦神經(jīng)元網(wǎng)絡(luò)的計算模型,它在許多領(lǐng)域,如圖像識別、語音識別、自然語言處理、預(yù)測分析等有著廣泛
人工智能神經(jīng)網(wǎng)絡(luò)芯片的介紹
: 概述 人工智能神經(jīng)網(wǎng)絡(luò)芯片是一種新型的處理器,它們基于神經(jīng)網(wǎng)絡(luò)的計算模型,通過模擬人腦神經(jīng)元
神經(jīng)網(wǎng)絡(luò)芯片與傳統(tǒng)芯片的區(qū)別和聯(lián)系
引言 隨著人工智能技術(shù)的快速發(fā)展,深度學(xué)習(xí)算法在圖像識別、自然語言處理、語音識別等領(lǐng)域取得了顯著的成果。然而,深度學(xué)習(xí)算法對計算資源的需求非常高,傳統(tǒng)的計算芯片已經(jīng)無法滿足其
生成式AI與神經(jīng)網(wǎng)絡(luò)模型的區(qū)別和聯(lián)系
生成式AI與神經(jīng)網(wǎng)絡(luò)模型是現(xiàn)代人工智能領(lǐng)域的兩個核心概念,它們在推動技術(shù)進步和應(yīng)用拓展方面發(fā)揮著至關(guān)重要的作用。本文將詳細探討生成式AI與
數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點有哪些
數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型是一種基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)建模方法,它通過模擬人腦神經(jīng)元的連接和信息傳遞機制,對復(fù)雜系統(tǒng)進行建模和分析。神經(jīng)網(wǎng)絡(luò)
基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法
神經(jīng)網(wǎng)絡(luò)是一種強大的機器學(xué)習(xí)算法,廣泛應(yīng)用于各種領(lǐng)域,如圖像識別、自然語言處理、語音識別等。本文詳細介紹了基于神經(jīng)網(wǎng)絡(luò)算法的模型構(gòu)建方法,包括數(shù)據(jù)預(yù)
人工神經(jīng)網(wǎng)絡(luò)的模型及其應(yīng)用有哪些
,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展成為機器學(xué)習(xí)和人工智能領(lǐng)域的重要技術(shù)之一。本文將詳細介紹人工神經(jīng)網(wǎng)絡(luò)的模型及其應(yīng)用。 引言 人工神經(jīng)網(wǎng)絡(luò)是一種模擬人腦
存內(nèi)計算WTM2101編譯工具鏈 資料
工藝條件下將AI計算效率提升2個數(shù)量級,充分滿足快速發(fā)展的神經(jīng)網(wǎng)絡(luò)模型指數(shù)級增長的算力
發(fā)表于 05-16 16:33
評論