眾所周知,人工智能的三大支柱是硬件、算法和數(shù)據(jù)。其中,硬件主要是指用于運(yùn)行AI算法的芯片。本文主要對(duì)AI芯片的廠商進(jìn)行歸納和整理。
目前針對(duì)AI設(shè)計(jì)的芯片主要分為用于服務(wù)器端(云端)和用于移動(dòng)端(終端)兩大類。
服務(wù)器端負(fù)責(zé)AI算法的芯片走的是超級(jí)計(jì)算機(jī)的路子,一方面要支持盡可能多的網(wǎng)絡(luò)結(jié)構(gòu)以保證算法的正確率和泛化能力;另一方面必須支持高精度浮點(diǎn)數(shù)運(yùn)算,峰值性能至少要達(dá)到Tflops(每秒執(zhí)行10^12次浮點(diǎn)數(shù)運(yùn)算)級(jí)別,所以功耗非常大;而且為了能夠提升性能必須支持陣列式結(jié)構(gòu)(即可以把多塊芯片組成一個(gè)計(jì)算陣列以加速運(yùn)算)。
移動(dòng)端的AI芯片在設(shè)計(jì)思路上有著本質(zhì)的區(qū)別。首先,必須保證功耗控制在一定范圍內(nèi),換言之,必須保證很高的計(jì)算能效;為了達(dá)到這個(gè)目標(biāo),移動(dòng)端AI芯片的性能必然有所損失,允許一些計(jì)算精度損失,因此可以使用一些定點(diǎn)數(shù)運(yùn)算以及網(wǎng)絡(luò)壓縮的辦法來加速運(yùn)算。
下面,將分別從服務(wù)器端芯片和移動(dòng)端芯片兩個(gè)大類進(jìn)行介紹。有的廠商同時(shí)具有這兩類產(chǎn)品,則不做嚴(yán)格區(qū)分。
服務(wù)器端
<img src="https://pic4.zhimg.com/v2-ed2d5da37004d8f633c484b640d6fe77_b.png" data-rawwidth="121" data-rawheight="91" class="content_image" width="121">在云端服務(wù)器這個(gè)領(lǐng)域,Nvidia的GPU已經(jīng)成為服務(wù)器不可或缺的一部分,稱其為領(lǐng)跑者毫不為過。有報(bào)告顯示,世界上目前約有3000多家AI初創(chuàng)公司,大部分都采用了Nvidia提供的硬件平臺(tái)。
資本市場(chǎng)對(duì)此給出了熱烈的回應(yīng):在過去的一年中,曾經(jīng)以游戲芯片見長的Nvidia股價(jià)從十幾年的穩(wěn)居30美元迅速飆升至120美元。2017年2月10日,英偉達(dá)發(fā)布2016年第四季度的財(cái)報(bào)顯示,其營收同比增長55%,凈利潤達(dá)到了6.55億美元,同比增長216%。
<img src="https://pic1.zhimg.com/v2-2e7c09381b6eea82ddebd1864adeceb0_b.png" data-rawwidth="121" data-rawheight="121" class="content_image" width="121">作為PC時(shí)代的絕對(duì)霸主,Intel已經(jīng)錯(cuò)過了移動(dòng)互聯(lián)網(wǎng)時(shí)代,在已經(jīng)到來的AI時(shí)代,也失掉了先機(jī),但它并沒有放棄,而是積極布局,準(zhǔn)備逆襲。在云端,收購Altera之后推出了基于FPGA的專用深度學(xué)習(xí)加速卡,可以在云端使用;另外,收購Nervana,目標(biāo)也是在云端。在移動(dòng)端,則是收購了Movidius。下面先對(duì)Nervana進(jìn)行介紹,對(duì)Movidius的介紹放在后面移動(dòng)端。
<img src="https://pic2.zhimg.com/v2-2007f5781521fdbe56883f150081c37d_b.png" data-rawwidth="272" data-rawheight="71" class="content_image" width="272">Nervana創(chuàng)立于2014年,位于圣地亞哥的初創(chuàng)公司Nervana Systems已經(jīng)從20家不同的投資機(jī)構(gòu)那里獲得了2440萬美元資金,而其中一家是十分受人尊敬的德豐杰風(fēng)險(xiǎn)投資公司(Draper Fisher Jurvetson,DFJ)。
The Nervana Engine(將于2017年問世)是一個(gè)為深度學(xué)習(xí)專門定做和優(yōu)化的ASIC芯片。這個(gè)方案的實(shí)現(xiàn)得益于一項(xiàng)叫做High Bandwidth Memory的新型內(nèi)存技術(shù),同時(shí)擁有高容量和高速度,提供32GB的片上儲(chǔ)存和8TB每秒的內(nèi)存訪問速度。該公司目前提供一個(gè)人工智能服務(wù)“in the cloud”,他們聲稱這是世界上最快的且目前已被金融服務(wù)機(jī)構(gòu)、醫(yī)療保健提供者和政府機(jī)構(gòu)所使用的服務(wù),他們的新型芯片將會(huì)保證Nervana云平臺(tái)在未來的幾年內(nèi)仍保持最快的速度。
<img src="https://pic1.zhimg.com/v2-62af27a968827ec6e1db41b69c75bd00_b.png" data-rawwidth="121" data-rawheight="75" class="content_image" width="121">IBM很早以前就發(fā)布過watson,早就投入了很多的實(shí)際應(yīng)用中去。除此之外,還啟動(dòng)了對(duì)類人腦芯片的研發(fā),那就是TrueNorth。
TrueNorth是IBM參與DARPA的研究項(xiàng)目SyNapse的最新成果。SyNapse全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng),而SyNapse正好是突觸的意思),其終極目標(biāo)是開發(fā)出打破馮?諾依曼體系的硬件。
這種芯片把數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸,跟傳統(tǒng)馮諾依曼結(jié)構(gòu)不一樣,它的內(nèi)存、CPU和通信部件是完全集成在一起。因此信息的處理完全在本地進(jìn)行,而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU之間的瓶頸不復(fù)存在了。同時(shí)神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過來的脈沖(動(dòng)作電位),這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作。
2011年的時(shí)候,IBM首先推出了單核含256 個(gè)神經(jīng)元,256×256 個(gè)突觸和 256 個(gè)軸突的芯片原型。當(dāng)時(shí)的原型已經(jīng)可以處理像玩Pong游戲這樣復(fù)雜的任務(wù)。不過相對(duì)來說還是比較簡單,從規(guī)模上來說,這樣的單核腦容量僅相當(dāng)于蟲腦的水平。
不過,經(jīng)過3年的努力,IBM終于在復(fù)雜性和使用性方面取得了突破。4096個(gè)內(nèi)核,100萬個(gè)“神經(jīng)元”、2.56億個(gè)“突觸”集成在直徑只有幾厘米的方寸(是2011年原型大小的1/16)之間,而且能耗只有不到70毫瓦。
這樣的芯片能夠做什么事情呢?IBM研究小組曾經(jīng)利用做過DARPA 的NeoVision2 Tower數(shù)據(jù)集做過演示。它能夠?qū)崟r(shí)識(shí)別出用30幀每秒的正常速度拍攝自斯坦福大學(xué)胡佛塔的十字路口視頻中的人、自行車、公交車、卡車等,準(zhǔn)確率達(dá)到了80%。相比之下,一臺(tái)筆記本編程完成同樣的任務(wù)用時(shí)要慢100倍,能耗卻是IBM芯片的1萬倍。
<img src="https://pic4.zhimg.com/v2-cb1ba0b2c52ec4d0564e8c8c7cdea237_b.png" data-rawwidth="120" data-rawheight="75" class="content_image" width="120">Google在2016年宣布獨(dú)立開發(fā)一種名為TPU的全新的處理系統(tǒng)。
TPU是專門為機(jī)器學(xué)習(xí)應(yīng)用而設(shè)計(jì)的專用芯片。通過降低芯片的計(jì)算精度,減少實(shí)現(xiàn)每個(gè)計(jì)算操作所需的晶體管數(shù)量,從而能讓芯片的每秒運(yùn)行的操作個(gè)數(shù)更高,這樣經(jīng)過精細(xì)調(diào)優(yōu)的機(jī)器學(xué)習(xí)模型就能在芯片上運(yùn)行得更快,進(jìn)而更快地讓用戶得到更智能的結(jié)果。Google將TPU加速器芯片嵌入電路板中,利用已有的硬盤PCI-E接口接入數(shù)據(jù)中心服務(wù)器中。
據(jù)Google資深副總裁Urs Holzle透露,當(dāng)前Google TPU、GPU并用,這種情況仍會(huì)維持一段時(shí)間,但他表示,GPU可執(zhí)行繪圖運(yùn)算工作,用途多元;TPU 屬于ASIC,也就是專為特定用途設(shè)計(jì)的特殊規(guī)格邏輯IC,由于只執(zhí)行單一工作,速度更快,但缺點(diǎn)是成本較高。
<img src="https://pic4.zhimg.com/v2-48e1fe07b962e795aaefca3ba59a381b_b.png" data-rawwidth="185" data-rawheight="56" class="content_image" width="185">終于有中國公司了,中文名“寒武紀(jì)”,是北京中科寒武紀(jì)科技有限公司的簡稱。這家公司有中科院背景,面向深度學(xué)習(xí)等人工智能關(guān)鍵技術(shù)進(jìn)行專用芯片的研發(fā),可用于云服務(wù)器和智能終端上的圖像識(shí)別、語音識(shí)別、人臉識(shí)別等應(yīng)用。
寒武紀(jì)深度學(xué)習(xí)處理器采用的指令集DianNaoYu由中國科學(xué)院計(jì)算技術(shù)研究所陳云霽、陳天石課題組提出。模擬實(shí)驗(yàn)表明,采用DianNaoYu指令集的寒武紀(jì)深度學(xué)習(xí)處理器相對(duì)于x86指令集的CPU有兩個(gè)數(shù)量級(jí)的性能提升。
目前,寒武紀(jì)系列已包含三種原型處理器結(jié)構(gòu):
-
寒武紀(jì)1號(hào)(英文名DianNao,面向神經(jīng)網(wǎng)絡(luò)的原型處理器結(jié)構(gòu));
-
寒武紀(jì)2號(hào)(英文名DaDianNao,面向大規(guī)模神經(jīng)網(wǎng)絡(luò));
-
寒武紀(jì)3號(hào)(英文名PuDianNao,面向多種機(jī)器學(xué)習(xí)算法)。
2016年推出的寒武紀(jì)1A處理器(Cambricon-1A)是世界首款商用深度學(xué)習(xí)專用處理器,面向智能手機(jī)、安防監(jiān)控、可穿戴設(shè)備、無人機(jī)和智能駕駛等各類終端設(shè)備
移動(dòng)端
<img src="https://pic4.zhimg.com/v2-492022b576fafef75b0f9867841f957f_b.png" data-rawwidth="119" data-rawheight="75" class="content_image" width="119">ARM剛推出全新芯片架構(gòu)DynamIQ,通過這項(xiàng)技術(shù),AI的性能有望在未來三到五年內(nèi)提升50倍。
ARM的新CPU架構(gòu)將會(huì)通過為不同部分配置軟件的方式將多個(gè)處理核心集聚在一起,這其中包括一個(gè)專門為AI算法設(shè)計(jì)的處理器。芯片廠商將可以為新處理器配置最多8個(gè)核心。同時(shí)為了能讓主流AI在自己的處理器上更好地運(yùn)行,ARM還將放出一系列軟件庫。
DynamIQ是在ARM上一代革新架構(gòu)big.LITTLE基礎(chǔ)上的一次演進(jìn),這種架構(gòu)能夠?qū)ν贿\(yùn)算設(shè)備中的大小兩個(gè)核進(jìn)行適當(dāng)配置,以減少電池消耗。目前big.LITTLE架構(gòu)已經(jīng)被應(yīng)用到了幾乎所有智能手機(jī)的芯片上,包括用于安卓系統(tǒng)的高通驍龍?zhí)幚砥饕约疤O果最新一代的A10芯片。
接下來ARM推出的每一款Cortex-A系列芯片都將采用這種新技術(shù)。ARM稱,與在現(xiàn)有芯片架構(gòu)上開發(fā)出的處理器(即Cortex-A73)相比,基于DynamIQ架構(gòu)開發(fā)的全新處理器有望在三到五年內(nèi)使人工智能的表現(xiàn)增強(qiáng)50倍。
<img src="https://pic4.zhimg.com/v2-5c6fd59d29b619778361915da2858f4f_b.png" data-rawwidth="243" data-rawheight="104" class="content_image" width="243">2016年9月,Intel發(fā)表聲明收購了Movidius。
Movidius專注于研發(fā)高性能視覺處理芯片。現(xiàn)任CEO是原來德州儀器OMAP部門的總經(jīng)理,它的技術(shù)指導(dǎo)委員會(huì)也是實(shí)力強(qiáng)大,擁有半導(dǎo)體和處理器行業(yè)的元老級(jí)人物——被蘋果收購的 P.A.Semi 創(chuàng)始人丹尼爾·多伯普爾(Daniel Dobberpuhl),卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)/計(jì)算機(jī)視覺專家金出武雄,以及前蘋果 iPhone 和 iPod 部門工程副總裁、資深工程師大衛(wèi)·圖普曼(David Tupman)三人坐鎮(zhèn)。
其最新一代的Myriad2視覺處理器主要由SPARC處理器作為主控制器,加上專門的DSP處理器和硬件加速電路來處理專門的視覺和圖像信號(hào)。這是一款以DSP架構(gòu)為基礎(chǔ)的視覺處理器,在視覺相關(guān)的應(yīng)用領(lǐng)域有極高的能耗比,可以將視覺計(jì)算普及到幾乎所有的嵌入式系統(tǒng)中。
該芯片已被大量應(yīng)用在Google 3D項(xiàng)目Tango手機(jī)、大疆無人機(jī)、FLIR智能紅外攝像機(jī)、??瞪铐盗袛z像機(jī)、華睿智能工業(yè)相機(jī)等產(chǎn)品中。
<img src="https://pic4.zhimg.com/v2-c42fd5733da26981ae9b7371cc1ec53f_b.png" data-rawwidth="160" data-rawheight="65" class="content_image" width="160">CEVA是專注于DSP的IP供應(yīng)商,擁有為數(shù)眾多的產(chǎn)品線。其中,圖像和計(jì)算機(jī)視覺 DSP 產(chǎn)品 CEVA-XM4 是第一個(gè)支持深度學(xué)習(xí)的可編程 DSP,而其發(fā)布的新一代型號(hào) CEVA-XM6,具有更優(yōu)的性能、更強(qiáng)大的計(jì)算能力,以及更低的耗能。
XM6 的兩大新硬件功能,將幫助大多數(shù)圖像處理和機(jī)器學(xué)習(xí)算法。第一個(gè)是分散-聚集,或者說是閱讀一個(gè)周期中,L1 緩存到向量寄存器中的 32 地址值的能力。CDNN2 編譯工具識(shí)別串行代碼加載,并實(shí)現(xiàn)矢量化來允許這一功能,當(dāng)所需的數(shù)據(jù)通過記憶結(jié)構(gòu)分布時(shí),分散-聚集提高了數(shù)據(jù)加載時(shí)間。由于 XM6 是可配置的 IP,L1 數(shù)據(jù)儲(chǔ)存的大小/相關(guān)性在硅設(shè)計(jì)水平是可調(diào)節(jié)的,CEVA 表示,這項(xiàng)功能對(duì)于任意尺寸的 L1 都有效。此級(jí)用于處理的向量寄存器是寬度為 8 的 VLIW 實(shí)現(xiàn)器, 這樣的配置才能滿足要求。
第二功能稱為“滑動(dòng)-窗口”數(shù)據(jù)處理,這項(xiàng)視覺處理的特定技術(shù)已被 CEVA 申請(qǐng)專利。有許多方法可以處理過程或智能中的圖像,通常算法將立刻使用平臺(tái)所需一塊或大片像素。對(duì)于智能部分,這些塊的數(shù)量將重疊,導(dǎo)致不同區(qū)域的圖像被不同的計(jì)算區(qū)域重用。CEVA 的方法是保留這些數(shù)據(jù),從而使下一步分析所需信息量更少。
CEVA 指出,智能手機(jī)、汽車、安全和商業(yè)應(yīng)用,如無人機(jī)、自動(dòng)化將是主要目標(biāo)。
<img src="https://pic1.zhimg.com/v2-2915b06a1fe05d4ceef37c15c5245ee8_b.png" data-rawwidth="119" data-rawheight="75" class="content_image" width="119">Eyeriss事實(shí)上是MIT的一個(gè)項(xiàng)目,還不是一個(gè)公司,但是因?yàn)楂@得了大量的媒體報(bào)道,故把它單獨(dú)拿出來進(jìn)行介紹。從長遠(yuǎn)來看,如果進(jìn)展順利,很可能孵化出一個(gè)新的公司。
Eyeriss是一個(gè)高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件,該芯片內(nèi)建168 個(gè)核心,專門用來部署神經(jīng)網(wǎng)路(neural network),效能為一般行動(dòng)GPU 的10 倍。其技術(shù)關(guān)鍵在于最小化GPU 核心和記憶體之間交換數(shù)據(jù)的頻率(此運(yùn)作過程通常會(huì)消耗大量的時(shí)間與能量):一般GPU 內(nèi)的核心通常共享單一記憶體,但Eyeriss 的每個(gè)核心擁有屬于自己的記憶體。
此外,Eyeriss 還能在將數(shù)據(jù)傳送到每一個(gè)核心之前,先進(jìn)行數(shù)據(jù)壓縮,且每一個(gè)核心都能立即與鄰近的核心直接溝通,因此若需要共享數(shù)據(jù),核心們不需要透過主要記憶體就能傳遞。
目前,Eyeriss主要定位在人臉識(shí)別和語音識(shí)別,可應(yīng)用在智能手機(jī)、穿戴式設(shè)備、機(jī)器人、自動(dòng)駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上。
<img src="https://pic4.zhimg.com/v2-ff73097f03a12488a665040c030cb32f_b.png" data-rawwidth="234" data-rawheight="96" class="content_image" width="234">2016年6月20日,中星微率先推出中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)芯片,這是全球首顆具備深度學(xué)習(xí)人工智能的嵌入式視頻采集壓縮編碼系統(tǒng)級(jí)芯片,取名“星光智能一號(hào)”。這款基于深度學(xué)習(xí)的芯片運(yùn)用在人臉識(shí)別上,最高能達(dá)到98%的準(zhǔn)確率,超過人眼的識(shí)別率。該NPU采用了“數(shù)據(jù)驅(qū)動(dòng)”并行計(jì)算的架構(gòu),單顆NPU(28nm)能耗僅為400mW,極大地提升了計(jì)算能力與功耗的比例。
研發(fā)“星光智能一號(hào)”耗時(shí)三年時(shí)間。中星微集團(tuán)聚集了北京、廣東、天津、山西、江蘇、青島、硅谷的研發(fā)力量,采用了先進(jìn)的過億門級(jí)集成電路設(shè)計(jì)技術(shù)及超亞微米芯片制造工藝,在TSMC成功實(shí)現(xiàn)投片量產(chǎn)。
目前“星光智能一號(hào)”出貨量主要集中在安防攝像領(lǐng)域,其中包含授權(quán)給其他安防攝像廠商部分。未來將主要向車載攝像頭、無人機(jī)航拍、機(jī)器人和工業(yè)攝像機(jī)方面進(jìn)行推廣和應(yīng)用。
<img src="https://pic4.zhimg.com/v2-a82c0e747406e227080f58f3e072f9eb_b.png" data-rawwidth="157" data-rawheight="61" class="content_image" width="157">Horizon Robotics(地平線機(jī)器人)由前百度深度學(xué)習(xí)研究院負(fù)責(zé)人余凱創(chuàng)辦,致力于打造基于深度神經(jīng)網(wǎng)絡(luò)的人工智能“大腦”平臺(tái)-包括軟件和芯片,可以做到低功耗、本地化的解決環(huán)境感知、人機(jī)交互、決策控制等問題。其中,軟件方面,地平線做了一套基于神經(jīng)網(wǎng)絡(luò)的OS,已經(jīng)研發(fā)出分別面向自動(dòng)駕駛的的“雨果”平臺(tái)和智能家居的“安徒生”平臺(tái),并開始逐步落地。硬件方面,未來地平線機(jī)器人還會(huì)為這個(gè)平臺(tái)設(shè)計(jì)一個(gè)芯片——NPU(Neural Processing Unit),支撐自家的OS,到那時(shí)效能會(huì)提升2-3個(gè)數(shù)量級(jí)(100-1000倍)。
地平線的最終產(chǎn)品不止芯片,而是一個(gè)核心控制模塊,具有感知、識(shí)別、理解、控制的功能。把這個(gè)控制模塊做成產(chǎn)品去跟合作方做集成。換句話說,地平線提供的是一個(gè)帶有人工智能算法的解決方案。
商業(yè)模式上,目前會(huì)采取產(chǎn)品、技術(shù)加服務(wù)的方式,先把產(chǎn)品做出來,得到第一手的用戶體驗(yàn),將來再向更寬廣的生態(tài)去發(fā)展。地平線并沒有把自己定義為單純的技術(shù)提供商,不會(huì)單純的賣算法SDK或者單純出售芯片,而是打造技術(shù)平臺(tái),來幫助用戶把產(chǎn)品做出來。
<img src="https://pic3.zhimg.com/v2-072301834f91f5c9c8241873680dceaa_b.png" data-rawwidth="129" data-rawheight="57" class="content_image" width="129">深鑒科技由清華團(tuán)隊(duì)創(chuàng)辦,其產(chǎn)品稱作“深度學(xué)習(xí)處理單元”(Deep Processing Unit,DPU),目標(biāo)是以ASIC級(jí)別的功耗,來達(dá)到優(yōu)于GPU的性能,目前第一批產(chǎn)品基于FPGA平臺(tái)。
從官方提供的數(shù)據(jù)來看,嵌入式端的產(chǎn)品在性能超過Nvidia TK1 的同時(shí),功耗、售價(jià)僅為后者的1/4左右。服務(wù)器端的產(chǎn)品,性能接近Nvidia K40 GPU ,但功耗只有35瓦左右,售價(jià)300美元以下,不足后者的1/10。
深鑒科技著力于打造基于DPU的端到端的深度學(xué)習(xí)硬件解決方案,除了承載在硬件模塊(訂制的PCB板)上的DPU的芯片架構(gòu)外,還打造了針對(duì)該架構(gòu)的DPU壓縮編譯工具鏈SDK。
產(chǎn)品的應(yīng)用領(lǐng)域分為終端和云端兩類。其中嵌入式端的產(chǎn)品將主要應(yīng)用在無人機(jī)、安防監(jiān)控、機(jī)器人、AR等領(lǐng)域,目前已經(jīng)與一家知名無人機(jī)廠商建立了合作。服務(wù)器端的產(chǎn)品將主要面向大型互聯(lián)網(wǎng)公司的語音處理、圖像處理等。目前也已經(jīng)與國內(nèi)知名互聯(lián)網(wǎng)公司展開合作,在兼容對(duì)方現(xiàn)有機(jī)房的情況下,功耗降低80%,語音識(shí)別的準(zhǔn)確率提升了5%-7%。
結(jié)語
人工智能時(shí)代已經(jīng)來臨,在這個(gè)史無前例的巨大浪潮面前,有哪些公司能脫穎而出,成為新一代弄潮兒?讓我們拭目以待。
-
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268103 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237071
原文標(biāo)題:AI芯片這么多,你更看好哪個(gè)?
文章出處:【微信號(hào):ic_frontend,微信公眾號(hào):數(shù)字前端ic芯片設(shè)計(jì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論