0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能(AI)芯片產(chǎn)業(yè)生態(tài)梳理

fjYQ_ittbank ? 來源:未知 ? 作者:電子大兵 ? 2017-09-28 09:39 ? 次閱讀
AI芯片作為產(chǎn)業(yè)核心,也是技術(shù)要求和附加值最高的環(huán)節(jié),在AI產(chǎn)業(yè)鏈中的產(chǎn)業(yè)價值和戰(zhàn)略地位遠(yuǎn)遠(yuǎn)大于應(yīng)用層創(chuàng)新。騰訊發(fā)布的《中美兩國人工智能產(chǎn)業(yè)發(fā)展全面解讀》報告顯示,基礎(chǔ)層的處理器/芯片企業(yè)數(shù)量來看,中國有14家,美國33家。本文將對這一領(lǐng)域產(chǎn)業(yè)生態(tài)做一個簡單梳理。
AI芯片分類1

從功能來看,可以分為Training(訓(xùn)練)和Inference(推理)兩個環(huán)節(jié)。

Training環(huán)節(jié)通常需要通過大量的數(shù)據(jù)輸入,或采取增強學(xué)習(xí)等非監(jiān)督學(xué)習(xí)方法,訓(xùn)練出一個復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練過程由于涉及海量的訓(xùn)練數(shù)據(jù)和復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),運算量巨大,需要龐大的計算規(guī)模,對于處理器的計算能力、精度、可擴展性等性能要求很高。目前在訓(xùn)練環(huán)節(jié)主要使用NVIDIA的GPU集群來完成,Google自主研發(fā)的ASIC芯片TPU2.0也支持訓(xùn)練環(huán)節(jié)的深度網(wǎng)絡(luò)加速。

Inference環(huán)節(jié)指利用訓(xùn)練好的模型,使用新的數(shù)據(jù)去“推理”出各種結(jié)論,如視頻監(jiān)控設(shè)備通過后臺的深度神經(jīng)網(wǎng)絡(luò)模型,判斷一張抓拍到的人臉是否屬于黑名單。雖然Inference的計算量相比Training少很多,但仍然涉及大量的矩陣運算。在推理環(huán)節(jié),GPU、FPGA和ASIC都有很多應(yīng)用價值。

從應(yīng)用場景來看,可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(設(shè)備端)”兩大類。

深度學(xué)習(xí)的Training階段,由于對數(shù)據(jù)量及運算量需求巨大,單一處理器幾乎不可能獨立完成一個模型的訓(xùn)練過程,因此,Training環(huán)節(jié)目前只能在云端實現(xiàn),在設(shè)備端做Training目前還不是很明確的需求。

在Inference階段,由于目前訓(xùn)練出來的深度神經(jīng)網(wǎng)絡(luò)模型大多仍非常復(fù)雜,其推理過程仍然是計算密集型和存儲密集型的,若部署到資源有限的終端用戶設(shè)備上難度很大,因此,云端推理目前在人工智能應(yīng)用中需求更為明顯。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已應(yīng)用于云端Inference環(huán)境。在設(shè)備端Inference領(lǐng)域,由于智能終端數(shù)量龐大且需求差異較大,如ADAS、VR等設(shè)備對實時性要求很高,推理過程不能交由云端完成,要求終端設(shè)備本身需要具備足夠的推理計算能力,因此一些低功耗、低延遲、低成本的專用芯片也會有很大的市場需求。

按照上述兩種分類,我們得出AI芯片分類象限如下圖所示。

除了按照功能場景劃分外,AI芯片從技術(shù)架構(gòu)發(fā)展來看,大致也可以分為四個類型:

1、通用類芯片,代表如GPU、FPGA;

2、基于FPGA的半定制化芯片,代表如深鑒科技DPU、百度XPU等;

3、全定制化ASIC芯片,代表如TPU、寒武紀(jì) Cambricon-1A等;

4、類腦計算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等。

AI芯片產(chǎn)業(yè)生態(tài)2

從上述分類象限來看,目前AI芯片的市場需求主要是三類:

1、面向于各大人工智能企業(yè)及實驗室研發(fā)階段的Training需求(主要是云端,設(shè)備端Training需求尚不明確);

2、Inference On Cloud,F(xiàn)ace++、出門問問、Siri等主流人工智能應(yīng)用均通過云端提供服務(wù);

3、Inference On Device,面向智能手機、智能攝像頭、機器人/無人機、自動駕駛、VR等設(shè)備的設(shè)備端推理市場,需要高度定制化、低功耗的AI芯片產(chǎn)品。如華為麒麟970搭載了“神經(jīng)網(wǎng)絡(luò)處理單元(NPU,實際為寒武紀(jì)的IP)”、蘋果A11搭載了“神經(jīng)網(wǎng)絡(luò)引擎(Neural Engine)”。

(一)Training訓(xùn)練

2007年以前,人工智能研究受限于當(dāng)時算法、數(shù)據(jù)等因素,對于芯片并沒有特別強烈的需求,通用的CPU芯片即可提供足夠的計算能力。Andrew Ng和Jeff Dean打造的Google Brain項目,使用包含16000個CPU核的并行計算平臺,訓(xùn)練超過10億個神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò)。但CPU的串行結(jié)構(gòu)并不適用于深度學(xué)習(xí)所需的海量數(shù)據(jù)運算需求,用CPU做深度學(xué)習(xí)訓(xùn)練效率很低,在早期使用深度學(xué)習(xí)算法進(jìn)行語音識別的模型中,擁有429個神經(jīng)元的輸入層,整個網(wǎng)絡(luò)擁有156M個參數(shù),訓(xùn)練時間超過75天。

與CPU少量的邏輯運算單元相比,GPU整個就是一個龐大的計算矩陣,GPU具有數(shù)以千計的計算核心、可實現(xiàn)10-100倍應(yīng)用吞吐量,而且它還支持對深度學(xué)習(xí)至關(guān)重要的并行計算能力,可以比傳統(tǒng)處理器更加快速,大大加快了訓(xùn)練過程。

從上圖對比來看,在內(nèi)部結(jié)構(gòu)上,CPU中70%晶體管都是用來構(gòu)建Cache(高速緩沖存儲器)和一部分控制單元,負(fù)責(zé)邏輯運算的部分(ALU模塊)并不多,指令執(zhí)行是一條接一條的串行過程。GPU 由并行計算單元和控制單元以及存儲單元構(gòu)成,擁有大量的核(多達(dá)幾千個)和大量的高速內(nèi)存,擅長做類似圖像處理的并行計算,以矩陣的分布式形式來實現(xiàn)計算。同CPU不同的是,GPU的計算單元明顯增多,特別適合大規(guī)模并行計算。

在人工智能的通用計算GPU市場,NVIDIA現(xiàn)在一家獨大。2010年NVIDIA就開始布局人工智能產(chǎn)品,2014年發(fā)布了新一代PASCAL GPU芯片架構(gòu),這是NVIDIA的第五代GPU架構(gòu),也是首個為深度學(xué)習(xí)而設(shè)計的GPU,它支持所有主流的深度學(xué)習(xí)計算框架。2016年上半年,NVIDIA又針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程推出了基于PASCAL架構(gòu)的TESLA P100芯片以及相應(yīng)的超級計算機DGX-1。DGX-1包含TESLA P100 GPU加速器,采用NVLINK互聯(lián)技術(shù),軟件堆棧包含主要深度學(xué)習(xí)框架、深度學(xué)習(xí)SDK、DIGITS GPU訓(xùn)練系統(tǒng)、驅(qū)動程序和CUDA,能夠快速設(shè)計深度神經(jīng)網(wǎng)絡(luò)(DNN),擁有高達(dá)170TFLOPS的半精度浮點運算能力,相當(dāng)于250臺傳統(tǒng)服務(wù)器,可以將深度學(xué)習(xí)的訓(xùn)練速度加快75倍,將CPU性能提升56倍。

Training市場目前能與NVIDIA競爭的就是Google。今年5月份Google發(fā)布了TPU 2.0,TPU(TensorProcessing Unit)是Google研發(fā)的一款針對深度學(xué)習(xí)加速的ASIC芯片,第一代TPU僅能用于推理,而目前發(fā)布的TPU 2.0既可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),又可以用于推理。據(jù)介紹,TPU2.0包括了四個芯片,每秒可處理180萬億次浮點運算。Google還找到一種方法,使用新的計算機網(wǎng)絡(luò)將64個TPU組合到一起,升級為所謂的TPU Pods,可提供大約11500萬億次浮點運算能力。Google表示,公司新的深度學(xué)習(xí)翻譯模型如果在32塊性能最好的GPU上訓(xùn)練,需要一整天的時間,而八分之一個TPU Pod就能在6個小時內(nèi)完成同樣的任務(wù)。目前Google 并不直接出售TPU芯片,而是結(jié)合其開源深度學(xué)習(xí)框架TensorFlow為AI開發(fā)者提供TPU云加速的服務(wù),以此發(fā)展TPU2的應(yīng)用和生態(tài),比如TPU2同時發(fā)布的TensorFlow Research Cloud (TFRC) 。

上述兩家以外,傳統(tǒng)CPU/GPU廠家IntelAMD也在努力進(jìn)入這Training市場,如Intel推出的Xeon Phi+Nervana方案,AMD的下一代VEGA架構(gòu)GPU芯片等,但從目前市場進(jìn)展來看很難對NVIDIA構(gòu)成威脅。初創(chuàng)公司中,Graphcore 的IPU處理器(IntelligenceProcessing Unit)據(jù)介紹也同時支持Training和Inference。該IPU采用同構(gòu)多核架構(gòu),有超過1000個獨立的處理器;支持All-to-All的核間通信,采用BulkSynchronous Parallel的同步計算模型;采用大量片上Memory,不直接連接DRAM。

總之,對于云端的Training(也包括Inference)系統(tǒng)來說,業(yè)界比較一致的觀點是競爭的核心不是在單一芯片的層面,而是整個軟硬件生態(tài)的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨頭的競爭也才剛剛開始。

(二)Inference On Cloud云端推理

相對于Training市場上NVIDIA的一家獨大,Inference市場競爭則更為分散。若像業(yè)界所說的深度學(xué)習(xí)市場占比(Training占5%,Inference占95%),Inference市場競爭必然會更為激烈。

在云端推理環(huán)節(jié),雖然GPU仍有應(yīng)用,但并不是最優(yōu)選擇,更多的是采用異構(gòu)計算方案(CPU/GPU +FPGA/ASIC)來完成云端推理任務(wù)。FPGA領(lǐng)域,四大廠商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收購)在云端加速領(lǐng)域優(yōu)勢明顯。Altera在2015年12月被Intel收購,隨后推出了Xeon+FPGA的云端方案,同時與Azure、騰訊云、阿里云等均有合作;Xilinx則與IBM、百度云、AWS、騰訊云合作較深入,另外Xilinx還戰(zhàn)略投資了國內(nèi)AI芯片初創(chuàng)公司深鑒科技。目前來看,云端加速領(lǐng)域其他FPGA廠商與Xilinx和Altera還有很大差距。

ASIC領(lǐng)域,應(yīng)用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0僅用于Datacenter Inference應(yīng)用。它的核心是由65,536個8-bit MAC組成的矩陣乘法單元,峰值可以達(dá)到92 TeraOps/second(TOPS)。有一個很大的片上存儲器,一共28 MiB。它可以支持MLP,CNN和LSTM這些常見的神經(jīng)網(wǎng)絡(luò),并且支持TensorFLow框架。它的平均性能(TOPS)可以達(dá)到CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory,這兩個數(shù)值可以達(dá)到大約GPU的70倍和CPU的200倍。TPU 2.0既用于訓(xùn)練,也用于推理,上一節(jié)已經(jīng)做過介紹。

國內(nèi)AI芯片公司寒武紀(jì)科技據(jù)報道也在自主研發(fā)云端高性能AI芯片,目前與科大訊飛、曙光等均有合作,但目前還沒有詳細(xì)的產(chǎn)品介紹。

(三)Inference On Device設(shè)備端推理

設(shè)備端推理的應(yīng)用場景更為多樣化,智能手機、ADAS、智能攝像頭、語音交互、VR/AR等設(shè)備需求各異,需要更為定制化、低功耗、低成本的嵌入式解決方案,這就給了創(chuàng)業(yè)公司更多機會,市場競爭生態(tài)也會更加多樣化。

1)智能手機

華為9月初發(fā)布的麒麟970 AI芯片就搭載了神經(jīng)網(wǎng)絡(luò)處理器NPU(寒武紀(jì)IP)。麒麟970采用了TSMC 10nm工藝制程,擁有55億個晶體管,功耗相比上一代芯片降低20%。CPU架構(gòu)方面為4核A73+4核A53組成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在圖形處理以及能效兩項關(guān)鍵指標(biāo)方面分別提升20%和50%;NPU采用HiAI移動計算架構(gòu),在FP16下提供的運算性能可以達(dá)到1.92 TFLOPs,相比四個Cortex-A73核心,處理同樣的AI任務(wù),有大約50倍能效和25倍性能優(yōu)勢。

蘋果最新發(fā)布的A11仿生芯片也搭載了神經(jīng)網(wǎng)絡(luò)單元。據(jù)介紹,A11仿生芯片有43億個晶體管,采用TSMC 10納米FinFET工藝制程。CPU采用了六核心設(shè)計,由2個高性能核心與4個高能效核心組成。相比A10 Fusion,其中兩個性能核心的速度提升了25%,四個能效核心的速度提升了70%;GPU采用了蘋果自主設(shè)計的三核心 GPU 圖形處理單元,圖形處理速度與上一代相比最高提升可達(dá) 30% 之多;神經(jīng)網(wǎng)絡(luò)引擎NPU采用雙核設(shè)計,每秒運算次數(shù)最高可達(dá) 6000 億次,主要用于勝任機器學(xué)習(xí)任務(wù),能夠識別人物、地點和物體等,能夠分擔(dān) CPU 和 GPU 的任務(wù),大幅提升芯片的運算效率。

另外,高通從 2014 年開始也公開了NPU的研發(fā),并且在最新兩代驍龍 8xx 芯片上都有所體現(xiàn),例如驍龍 835 就集成了“驍龍神經(jīng)處理引擎軟件框架”,提供對定制神經(jīng)網(wǎng)絡(luò)層的支持,OEM 廠商和軟件開發(fā)商都可以基于此打造自己的神經(jīng)網(wǎng)絡(luò)單元。ARM在今年所發(fā)布的 Cortex-A75 和 Cortex-A55中也融入了自家的AI 神經(jīng)網(wǎng)絡(luò)DynamIQ技術(shù),據(jù)介紹,DynamIQ技術(shù)在未來 3-5 年內(nèi)可實現(xiàn)比當(dāng)前設(shè)備高50倍的AI性能,可將特定硬件加速器的反應(yīng)速度提升10倍??傮w來看,智能手機未來AI芯片的生態(tài)基本可以斷定仍會掌握在傳統(tǒng)SoC商手中。

2)自動駕駛

NVIDIA去年發(fā)布自動駕駛開發(fā)平臺DRIVE PX2,基于16nm FinFET工藝,功耗高達(dá)250W,采用水冷散熱設(shè)計;支持12路攝像頭輸入、激光定位、雷達(dá)和超聲波傳感器;CPU采用兩顆新一代NVIDIA Tegra處理器,當(dāng)中包括了8個A57核心和4個Denver核心;GPU采用新一代Pascal架構(gòu),單精度計算能力達(dá)到8TFlops,超越TITAN X,有后者10倍以上的深度學(xué)習(xí)計算能力。Intel收購的Mobileye、高通收購的NXP、英飛凌、瑞薩汽車電子巨頭也提供ADAS芯片和算法。初創(chuàng)公司中,地平線的深度學(xué)習(xí)處理器(BPU,BrainProcessor Unit)IP及其自研雨果(Hugo)平臺也是重點面向自動駕駛領(lǐng)域。

3)計算機視覺領(lǐng)域

Intel收購的Movidius是主要的芯片提供商,大疆無人機、??低?/u>和大華股份的智能監(jiān)控攝像頭均使用了Movidius的Myriad系列芯片。目前國內(nèi)做計算機視覺技術(shù)的公司中,商湯科技、Face++、云從、依圖等,未來有可能隨著其自身計算機視覺技術(shù)的積累漸深,部分公司向上游延伸去做CV芯片研發(fā)。另外,國內(nèi)還有如人人智能、智芯原動等創(chuàng)業(yè)公司提供攝像頭端的AI加速IP及芯片解決方案。

4)其他

VR設(shè)備芯片的代表為微軟為自身VR設(shè)備Hololens而研發(fā)的HPU芯片,這顆由臺積電代工的芯片能同時處理來自5個攝像頭、一個深度傳感器以及運動傳感器的數(shù)據(jù),并具備計算機視覺的矩陣運算和CNN運算的加速功能;語音交互設(shè)備芯片方面,國內(nèi)有啟英泰倫以及云知聲兩家公司,其提供的芯片方案均內(nèi)置了為語音識別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)加速方案,實現(xiàn)設(shè)備的語音離線識別;在泛IOT領(lǐng)域,NovuMind設(shè)計了一種僅使用3×3卷積過濾器的AI芯片,第一款芯片原型預(yù)計今年底推出,預(yù)計可實現(xiàn)耗能不超過5瓦進(jìn)行15萬億次浮點運算,可以廣泛應(yīng)用于各類小型的互聯(lián)網(wǎng)“邊緣”設(shè)備。

(四)新架構(gòu) - 類腦計算芯片

“類腦芯片”是指參考人腦神經(jīng)元結(jié)構(gòu)和人腦感知認(rèn)知方式來設(shè)計的芯片,其目標(biāo)是開發(fā)出打破馮·諾依曼架構(gòu)體系的芯片。這一領(lǐng)域目前仍處于探索階段,如歐盟支持的SpiNNaker和BrainScaleS、斯坦福大學(xué)的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;國內(nèi)Westwell、清華大學(xué)、浙江大學(xué)、電子科技大學(xué)等也有相關(guān)研究。

IBM的TrueNorth,2014年公布。在一顆芯片上集成了4096個內(nèi)核,100萬個神經(jīng)元、2.56億個可編程突觸,使用了三星的28nm的工藝,共540萬個晶體管;每秒可執(zhí)行460億次突觸運算,總功耗為70mW,每平方厘米功耗20mW。IBM的最終目標(biāo)就是希望建立一臺包含100億個神經(jīng)元和100萬億個突觸的計算機,這樣的計算機要比人類大腦的功都強大10 倍,而功耗只有一千瓦,而且重量不到兩升。

國內(nèi)AI初創(chuàng)公司西井科技Westwell是用FPGA模擬神經(jīng)元以實現(xiàn)SNN的工作方式,有兩款產(chǎn)品:

1、仿生類腦神經(jīng)元芯片DeepSouth(深南),第三代脈沖神經(jīng)網(wǎng)絡(luò)芯片SNN,基于STDP(spike-time-dependentplasticity)的算法構(gòu)建完整的突觸神經(jīng)網(wǎng)絡(luò),由電路模擬真實生物神經(jīng)元產(chǎn)生脈沖的仿生學(xué)芯片,通過動態(tài)分配的方法能模擬出高達(dá)5000萬級別的“神經(jīng)元”,功耗為傳統(tǒng)芯片在同一任務(wù)下的幾十分之一到幾百分之一。

2、深度學(xué)習(xí)類腦神經(jīng)元芯片DeepWell(深井),處理模式識別問題的通用智能芯片,基于在線偽逆矩陣求解算法(OPIUM lite)對芯片中神經(jīng)元間的連接權(quán)重進(jìn)行學(xué)習(xí)和調(diào)整;擁12800萬個神經(jīng)元,通過專屬指令集調(diào)整芯片中神經(jīng)元資源的分配;學(xué)習(xí)與識別速度遠(yuǎn)遠(yuǎn)高于運行在通用硬件(如CPU, GPU)上的傳統(tǒng)方法(如CNN),且功耗更低。

總體來看,類腦計算芯片領(lǐng)域仍處于探索階段,距離規(guī)?;逃萌杂斜容^遠(yuǎn)的距離。

中國AI芯公司3

騰訊AI產(chǎn)業(yè)報告中提到中國的AI的處理器/芯片企業(yè)一共有14家,我們參照公開資料整理了部分國內(nèi)AI處理器/芯片公司,雖不完備,但給感興趣的讀者做個參考。

1)寒武紀(jì)科技&Cambricon 1A

寒武紀(jì)科技成立于2016年,總部在北京,創(chuàng)始人是中科院計算所的陳天石、陳云霽兄弟,近期剛剛完成了一億美元A輪融資,阿里巴巴創(chuàng)投、聯(lián)想創(chuàng)投、國科投資、中科圖靈、元禾原點、涌鏵投資聯(lián)合投資,成為全球AI芯片領(lǐng)域第一個獨角獸初創(chuàng)公司。

寒武紀(jì)是全球第一個成功流片并擁有成熟產(chǎn)品的AI芯片公司,擁有終端AI處理器IP和云端高性能AI芯片兩條產(chǎn)品線。2016年發(fā)布的寒武紀(jì)1A處理器(Cambricon-1A)是世界首款商用深度學(xué)習(xí)專用處理器,面向智能手機、安防監(jiān)控、無人機、可穿戴設(shè)備以及智能駕駛等各類終端設(shè)備,在運行主流智能算法時性能功耗比全面超越傳統(tǒng)處理器。

2)地平線機器人&BPU/盤古

地平線機器人成立于2015年,總部在北京,創(chuàng)始人是前百度深度學(xué)習(xí)研究院負(fù)責(zé)人余凱。公司于去年中完成了A+輪融資,投資方包括了晨興資本、高瓴資本、紅杉資本、金沙江創(chuàng)投、線性資本、創(chuàng)新工場、真格基金、雙湖投資、青云創(chuàng)投、祥峰投資、DST等。據(jù)介紹,公司近期即將完成B輪融資。

BPU(BrainProcessing Unit)是地平線機器人自主設(shè)計研發(fā)高效的人工智能處理器架構(gòu)IP,支持ARM/GPU/FPGA/ASIC實現(xiàn),專注于自動駕駛、人臉圖像辨識等專用領(lǐng)域。2017年,地平線基于高斯架構(gòu)的嵌入式人工智能解決方案將會在智能駕駛、智能生活、公共安防三個領(lǐng)域進(jìn)行應(yīng)用,第一代BPU芯片“盤古”目前已進(jìn)入流片階段,預(yù)計在今年下半年推出,能支持1080P的高清圖像輸入,每秒鐘處理30幀,檢測跟蹤數(shù)百個目標(biāo)。地平線的第一代BPU采用TSMC的40nm工藝,相對于傳統(tǒng)CPU/GPU,能效可以提升2~3個數(shù)量級(100~1,000倍左右)。

3)深鑒科技&DPU

深鑒科技成立于2016年,總部在北京。由清華大學(xué)與斯坦福大學(xué)的世界頂尖深度學(xué)習(xí)硬件研究者創(chuàng)立,今年初完成了A輪融資,投資方包括了聯(lián)發(fā)科、賽靈思、金沙江創(chuàng)投、高榕資本、清華控股、方和資本等。

深鑒科技將其開發(fā)的基于FPGA的神經(jīng)網(wǎng)絡(luò)處理器稱為DPU。到目前為止,深鑒公開發(fā)布了兩款DPU:亞里士多德架構(gòu)和笛卡爾架構(gòu),其中,亞里士多德架構(gòu)是針對卷積神經(jīng)網(wǎng)絡(luò)CNN而設(shè)計;笛卡爾架構(gòu)專為處理DNN/RNN網(wǎng)絡(luò)而設(shè)計,可對經(jīng)過結(jié)構(gòu)壓縮后的稀疏神經(jīng)網(wǎng)絡(luò)進(jìn)行極致高效的硬件加速。相對于 Intel XeonCPU 與 Nvidia TitanX GPU,應(yīng)用笛卡爾架構(gòu)的處理器在計算速度上分別提高189倍與13倍,具有24000倍與3000倍更高能效。

4)西井科技&DeepSouth/DeepWell

公司成立于2015年,總部在上海。今年6月完成了A輪融資,投資方包括了復(fù)星同浩、源政投資、合力投資、十維資本、喔贏資本等。

西井科技是用FPGA模擬神經(jīng)元以實現(xiàn)SNN的工作方式,有兩款產(chǎn)品:

1、仿生類腦神經(jīng)元芯片DeepSouth(深南),第三代脈沖神經(jīng)網(wǎng)絡(luò)芯片SNN,基于STDP(spike-time-dependentplasticity)的算法構(gòu)建完整的突觸神經(jīng)網(wǎng)絡(luò),由電路模擬真實生物神經(jīng)元產(chǎn)生脈沖的仿生學(xué)芯片,通過動態(tài)分配的方法能模擬出高達(dá)5000萬級別的“神經(jīng)元”,功耗為傳統(tǒng)芯片在同一任務(wù)下的幾十分之一到幾百分之一。

2、深度學(xué)習(xí)類腦神經(jīng)元芯片DeepWell(深井),處理模式識別問題的通用智能芯片,基于在線偽逆矩陣求解算法(OPIUM lite)對芯片中神經(jīng)元間的連接權(quán)重進(jìn)行學(xué)習(xí)和調(diào)整;擁12800萬個神經(jīng)元,通過專屬指令集調(diào)整芯片中神經(jīng)元資源的分配;學(xué)習(xí)與識別速度遠(yuǎn)遠(yuǎn)高于運行在通用硬件(如CPU, GPU)上的傳統(tǒng)方法(如CNN),且功耗更低。

5)云飛勵天&IPU

公司成立于2014年,總部在深圳,由國家“千人計劃”特聘專家陳寧和田第鴻博士聯(lián)合創(chuàng)立,今年3月完成了A輪融資,投資方松禾資本、深投控、紅秀盈信、山水從容投資、投控東海、真格基金等。

云天勵飛提供視覺智能芯片和解決方案,專注于人工智能領(lǐng)域,以新型處理器、機器學(xué)習(xí)與大數(shù)據(jù)技術(shù)為核心。公司自主研發(fā)的處理器芯片IPU,采用了全新的面向視覺計算的處理器芯片架構(gòu),該技術(shù)將機器學(xué)習(xí)效能提升了兩個數(shù)量級。公司在在深圳搭建的區(qū)域級天眼系統(tǒng),實現(xiàn)了全球首創(chuàng)的“百萬人群、秒級定位”,還被采納為2016年杭州G20峰會和烏鎮(zhèn)互聯(lián)網(wǎng)大會的安全系統(tǒng)提供服務(wù)。

6)人人智能&FaceOS

人人智能成立于2016年,是ARM OpenAI實驗室核心合作企業(yè)。公司于去年底完成了ARM和英諾天使基金的天使輪融資,據(jù)報道目前正在啟動新一輪融資。

人人智能提供一個基ARM的人臉識別核心芯片即模組方案,識別模組是獨創(chuàng)的支持深度學(xué)習(xí)算法的嵌入式高性能ARM平臺,支持外接攝像機從視頻流檢測和載取人臉照片等功能。據(jù)介紹,人人智能發(fā)布的“智能芯”是國內(nèi)首個人臉識別硬件模組,尺寸僅為86mm*56mm*21mm,集成了人工智能操作系統(tǒng)FaceOS。通過將人工智能算法進(jìn)行集成產(chǎn)品化,能夠把產(chǎn)品的研發(fā)周期減少60%,成本降低50%。

7)啟英泰倫&CI1006

啟英泰倫于2015年11月在成都成立,是一家語音識別芯片研發(fā)商,投資方包括了Roobo、匯聲信息等。

啟英泰倫的CI1006是基于ASIC架構(gòu)的人工智能語音識別芯片,包含了腦神經(jīng)網(wǎng)絡(luò)處理硬件單元,能夠完美支持DNN運算架構(gòu),進(jìn)行高性能的數(shù)據(jù)并行計算,可極大的提高人工智能深度學(xué)習(xí)語音技術(shù)對大量數(shù)據(jù)的處理效率。

8)云知聲&UniOne芯片

云知聲是一家智能語音識別技術(shù)公司,成立于2012年,總部位于北京。今年8月剛剛獲得3億人民幣戰(zhàn)略投資,其中部分資金將用于加大人工智能專用芯片UniOne的研發(fā)力度。

UniOne將內(nèi)置DNN處理單元,兼容多麥克風(fēng)、多操作系統(tǒng),對任何的場景不做限制,無論是在智能的空調(diào)上、車載上或其他智能設(shè)備上都可以植入這個芯片,該芯片具有高集成度的,低功耗、低成本的優(yōu)點。與此同時,公司還有IVM-M高性能嵌入式芯片,基于高通wifi模組,提供高性價比的物聯(lián)網(wǎng)語音交互整體方案,主要應(yīng)用在智能空調(diào),廚電等職能家具產(chǎn)品上;基于Linux系統(tǒng)設(shè)計的Unitoy芯片可一站式解決兒童陪伴式機器人的喚醒、識別、設(shè)備互聯(lián)能力。

9)百度&XPU

百度2017年8月Hot Chips大會上發(fā)布了XPU,這是一款256核、基于FPGA的云計算加速芯片。合作伙伴是賽思靈(Xilinx)。XPU采用新一代 AI 處理架構(gòu),擁有GPU的通用性和FPGA的高效率和低能耗,對百度的深度學(xué)習(xí)平臺PaddlePaddle做了高度的優(yōu)化和加速。據(jù)介紹,XPU關(guān)注計算密集型、基于規(guī)則的多樣化計算任務(wù),希望提高效率和性能,并帶來類似CPU的靈活性。但目前XPU有所欠缺的仍是可編程能力,而這也是涉及FPGA時普遍存在的問題。到目前為止,XPU尚未提供編譯器。

10)NovuMind

NovuMind成立于2015年,公司創(chuàng)始人是原百度異構(gòu)計算小組負(fù)責(zé)人吳韌,在北京及硅谷設(shè)有辦公室。公司于2017年初完成了A輪融資,投資方包括了真格基金、寬帶資本、英諾天使基金、洪泰基金、臻云創(chuàng)投、極客幫創(chuàng)投等,據(jù)報道近期正在籌備新一輪融資。

NovuMind主要為智能為汽車、安防、醫(yī)療、金融等領(lǐng)域提供ASIC芯片,并提供訓(xùn)練模型的全棧式AI解決方案。與Nvidia GPU或Cadence DSP的通用深度學(xué)習(xí)芯片不同,NovuMind專注于開發(fā)一種“非常專用但非常高效地進(jìn)行推理”的深度學(xué)習(xí)加速器芯片。NovuMind設(shè)計了一種僅使用3×3卷積過濾器的AI芯片,通過使用獨特的張量處理架構(gòu)(tensorprocessing architecture)直接對三維Tensor進(jìn)行處理,新芯片將支持Tensorflow、Cafe和Torch模型。。NovuMind的第一個AI芯片(原型)預(yù)計會在17年圣誕節(jié)前推出。到明年2月份應(yīng)用程序準(zhǔn)備就緒,并能夠在該芯片上實現(xiàn)耗能不超過5瓦進(jìn)行15萬億次浮點運算。NovuMind的第二個芯片,耗能將不超過1瓦,計劃在2018年中期面世。

11)華為&麒麟970芯片

麒麟970搭載的神經(jīng)網(wǎng)絡(luò)處理器NPU采用了寒武紀(jì)IP。麒麟970采用了TSMC 10nm工藝制程,擁有55億個晶體管,功耗相比上一代芯片降低20%。CPU架構(gòu)方面為4核A73+4核A53組成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在圖形處理以及能效兩項關(guān)鍵指標(biāo)方面分別提升20%和50%;NPU采用HiAI移動計算架構(gòu),在FP16下提供的運算性能可以達(dá)到1.92 TFLOPs,相比四個Cortex-A73核心,處理同樣的AI任務(wù),有大約50倍能效和25倍性能優(yōu)勢。

12)中星微電子&NPU

中星微2016年6月推出量產(chǎn)的NPU芯片“星光智能一號”,NPU采用了“數(shù)據(jù)驅(qū)動并行計算”的架構(gòu),單顆NPU(28nm)能耗僅為400mW,極大地提升了計算能力與功耗的比例,特別擅長處理視頻、圖像類的海量多媒體數(shù)據(jù)。每個NPU由四個NPU內(nèi)核構(gòu)成;每個NPU內(nèi)核包括兩個數(shù)據(jù)流處理器和一個長字處理器;每個數(shù)據(jù)流處理器由8個長字或16個短字的SIMD(單指令多數(shù)據(jù))處理單元組成;每個NPU峰值可提供38Gops或76Gops短字的處理能力;支持通用的基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)層(ConvolutionLayer/Pooling Layer/Full Connection Layer/Activation Layer/Custom SpecificLayer)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4862

    瀏覽量

    102722
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29862

    瀏覽量

    268154
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46698

    瀏覽量

    237190
  • 自動駕駛
    +關(guān)注

    關(guān)注

    782

    文章

    13633

    瀏覽量

    165992

原文標(biāo)題:AI芯片產(chǎn)業(yè)生態(tài)梳理

文章出處:【微信號:ittbank,微信公眾號:ittbank】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》的第6章后,我深刻感受到人工智能在能源科學(xué)領(lǐng)域中的巨大潛力和廣泛應(yīng)用。這一章詳細(xì)
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運社區(qū)給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和
    發(fā)表于 10-14 09:21

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    非常高興本周末收到一本新書,也非常感謝平臺提供閱讀機會。 這是一本挺好的書,包裝精美,內(nèi)容詳實,干活滿滿。 關(guān)于《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章“AI
    發(fā)表于 10-14 09:16

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

    的發(fā)展機遇。同時,這也要求科研人員、政策制定者和社會各界共同努力,構(gòu)建一個健康、包容的AI科研生態(tài)系統(tǒng)。 總之,《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》的第一章為我打開了
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    和使用該技術(shù),無需支付專利費或使用費。這大大降低了人工智能圖像處理技術(shù)的研發(fā)成本,并吸引了大量的開發(fā)者、企業(yè)和研究機構(gòu)參與其生態(tài)建設(shè)。 靈活性則體現(xiàn)在RISC-V可以根據(jù)不同的應(yīng)用場景進(jìn)行定制和優(yōu)化,從而
    發(fā)表于 09-28 11:00

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學(xué) 不過好像都是要學(xué)的
    發(fā)表于 09-26 15:24

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進(jìn)行描訴,有利于總結(jié)經(jīng)驗,擬
    發(fā)表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新

    AI for Science的基礎(chǔ)知識,梳理產(chǎn)業(yè)地圖,并給出了相關(guān)政策啟示。 內(nèi)容提要 人工智能驅(qū)動科學(xué)創(chuàng)新(AI for Science
    發(fā)表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內(nèi)外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產(chǎn)業(yè)博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用
    發(fā)表于 08-22 15:00

    AI人工智能機器人產(chǎn)業(yè)--政府真正應(yīng)承擔(dān)的責(zé)任與角色

    AI人工智能機器人自人機大戰(zhàn)至今已得到了前所未有的突破與發(fā)展。世界上主要國家都把人工智能機器人產(chǎn)業(yè)作為首要目標(biāo)進(jìn)行戰(zhàn)略規(guī)劃布局推進(jìn)。有些國家甚至采取抱團打壓我國
    的頭像 發(fā)表于 06-01 08:14 ?365次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>人工智能</b>機器人<b class='flag-5'>產(chǎn)業(yè)</b>--政府真正應(yīng)承擔(dān)的責(zé)任與角色

    軟通動力加入廣東移動“人工智能+”產(chǎn)業(yè)聯(lián)盟,共建AI產(chǎn)業(yè)生態(tài)

    近日,以“繁榮智算生態(tài) 共謀產(chǎn)業(yè)未來”為主題的2024中國移動廣東公司賦能產(chǎn)業(yè)新質(zhì)生產(chǎn)力“AI+生態(tài)”論壇在廣州圓滿落幕。
    的頭像 發(fā)表于 05-23 18:25 ?1015次閱讀
    軟通動力加入廣東移動“<b class='flag-5'>人工智能</b>+”<b class='flag-5'>產(chǎn)業(yè)</b>聯(lián)盟,共建<b class='flag-5'>AI</b><b class='flag-5'>產(chǎn)業(yè)</b>新<b class='flag-5'>生態(tài)</b>

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    ://t.elecfans.com/v/27185.html *附件:語音對話機器人案例.pdf 人工智能 AI泛邊緣:智能安防實訓(xùn) 31分38秒 https://t.elecfans.com/v/25509.html
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    機器人案例.pdf 人工智能 AI泛邊緣:智能安防實訓(xùn) 31分38秒 https://t.elecfans.com/v/25509.html *附件:泛邊緣案例課.pdf 人工智能
    發(fā)表于 04-01 10:40

    人工智能AI芯片的概述

    人工智能AI)技術(shù)的快速發(fā)展已經(jīng)成為當(dāng)今科技領(lǐng)域的熱點話題。
    的頭像 發(fā)表于 02-29 09:10 ?5106次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛在嵌入式
    發(fā)表于 02-26 10:17