【AI對(duì)算力的需求劇增,芯片是算力的基礎(chǔ)】
AI的三大關(guān)鍵基礎(chǔ)要素是 數(shù)據(jù)、算法和算力 。隨著云計(jì)算的廣泛應(yīng)用,特別是深度學(xué)習(xí)成為當(dāng)前AI研究和運(yùn)用的主流方式,AI對(duì)于算力的要求不斷快速提升。隨著邊緣計(jì)算的發(fā)展,AI在邊緣端的形式越來(lái)越多樣化,數(shù)量越來(lái)越多。
數(shù)據(jù)是AI算法的“飼料”
在如今這個(gè)時(shí)代,無(wú)時(shí)無(wú)刻不在產(chǎn)生數(shù)據(jù)(包括語(yǔ)音、文本、影像等等),AI產(chǎn)業(yè)的飛速發(fā)展,也萌生了大量垂直領(lǐng)域的數(shù)據(jù)需求。在AI技術(shù)當(dāng)中,數(shù)據(jù)相當(dāng)于AI算法的“飼料”。
目前,數(shù)據(jù)標(biāo)注是AI的上游基礎(chǔ)產(chǎn)業(yè),以人工標(biāo)注為主,機(jī)器標(biāo)注為輔。最常見的數(shù)據(jù)標(biāo)注類型有五種:屬性標(biāo)注(給目標(biāo)對(duì)象打標(biāo)簽)、框選標(biāo)注(框選出要識(shí)別的對(duì)象)、輪廓標(biāo)注(比框選標(biāo)注更加具體,邊緣更加精確)、描點(diǎn)標(biāo)注(標(biāo)注出目標(biāo)對(duì)象上細(xì)致的特征點(diǎn))、其他標(biāo)注(除以上標(biāo)注外的數(shù)據(jù)標(biāo)注類型)。AI算法需要通過(guò)數(shù)據(jù)訓(xùn)練不斷完善,而數(shù)據(jù)標(biāo)注是大部分AI算法得以有效運(yùn)行的關(guān)鍵環(huán)節(jié)。
算法是AI的背后“推手”
AI算法是數(shù)據(jù)驅(qū)動(dòng)型算法,是AI背后的推動(dòng)力量。
今天“AI熱潮”的出現(xiàn)主要由于機(jī)器學(xué)習(xí),尤其是機(jī)器學(xué)習(xí)中的深度學(xué)習(xí)技術(shù)取得了巨大進(jìn)展,并在大數(shù)據(jù)和大算力的支持下發(fā)揮巨大的威力。
當(dāng)前最具代表性深度學(xué)習(xí)算法模型有深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,簡(jiǎn)稱DNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡(jiǎn)稱RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)。談到深度學(xué)習(xí),DNN和RNN就是深度學(xué)習(xí)的基礎(chǔ)。DNN內(nèi)部的神經(jīng)網(wǎng)絡(luò)層可以分為三類,輸入層,隱藏層和輸出層, 一般來(lái)說(shuō)第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。DNN可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò),是非常龐大的系統(tǒng),訓(xùn)練出來(lái)需要很多數(shù)據(jù)、很強(qiáng)的算力進(jìn)行支撐。
算力是基礎(chǔ)設(shè)施
AI算法模型對(duì)于算力的巨大需求,推動(dòng)了今天芯片業(yè)的發(fā)展。據(jù)OpenAI測(cè)算,2012年開始,全球AI訓(xùn)練所用的計(jì)算量呈現(xiàn)指數(shù)增長(zhǎng),平均每3.43個(gè)月便會(huì)翻一倍,目前計(jì)算量已擴(kuò)大30萬(wàn)倍,遠(yuǎn)超算力增長(zhǎng)速度。
在AI技術(shù)當(dāng)中,算力是算法和數(shù)據(jù)的基礎(chǔ)設(shè)施,支撐著算法和數(shù)據(jù),進(jìn)而影響著AI的發(fā)展,算力的大小代表著對(duì)數(shù)據(jù)處理能力的強(qiáng)弱。
算力源于芯片,通過(guò)基礎(chǔ)軟件的有效組織,最終釋放到終端應(yīng)用上,作為算力的關(guān)鍵基礎(chǔ),AI芯片的性能決定著AI產(chǎn)業(yè)的發(fā)展。
AI運(yùn)算指以“深度學(xué)習(xí)” 為代表的神經(jīng)網(wǎng)絡(luò)算法,需要系統(tǒng)能夠高效處理大量非結(jié)構(gòu)化數(shù)據(jù)( 文本、視頻、圖像、語(yǔ)音等) 。 需要硬件具有高效的線性代數(shù)運(yùn)算能力 ,計(jì)算任務(wù)具有:?jiǎn)挝挥?jì)算任務(wù)簡(jiǎn)單,邏輯控制難度要求低,但并行運(yùn)算量大、參數(shù)多的特點(diǎn)。對(duì)于芯片的多核并行運(yùn)算、片上存儲(chǔ)、帶寬、低延時(shí)的訪存等提出了較高的需求。
自2012年以來(lái),人工智能訓(xùn)練任務(wù)所需求的算力每 3.43 個(gè)月就會(huì)翻倍,大大超越了芯片產(chǎn)業(yè)長(zhǎng)期存在的摩爾定律(每 18個(gè)月芯片的性能翻一倍)。針對(duì)不同應(yīng)用場(chǎng)景,AI芯片還應(yīng)滿足:對(duì)主流AI算法框架兼容、可編程、可拓展、低功耗、體積及價(jià)格等需求。
從技術(shù)架構(gòu)來(lái)看,AI芯片主要分為圖形處理器(GPU)、現(xiàn)場(chǎng)可編程門陣列(FPGA)、專用集成電路(ASIC)、類腦芯片四大類。其中,GPU是較為成熟的通用型人工智能芯片,F(xiàn)PGA和ASIC則是針對(duì)人工智能需求特征的半定制和全定制芯片,類腦芯片顛覆傳統(tǒng)馮諾依曼架構(gòu),是一種模擬人腦神經(jīng)元結(jié)構(gòu)的芯片,類腦芯片的發(fā)展尚處于起步階段。
- GPU 通用性強(qiáng)、速度快、效率高,特別適合用在深度學(xué)習(xí)訓(xùn)練方面,但是性能功耗比較低。
- FPGA 具有低能耗、高性能以及可編程等特性,相對(duì)于 CPU 與 GPU 有明顯的性能或者能耗優(yōu)勢(shì),但對(duì)使用者要求高。
- ASIC 可以更有針對(duì)性地進(jìn)行硬件層次的優(yōu)化,從而獲得更好的性能、功耗比。但是ASIC 芯片的設(shè)計(jì)和制造需要大量的資金、較長(zhǎng)的研發(fā)周期和工程周期,而且深度學(xué)習(xí)算法仍在快速發(fā)展,若深度學(xué)習(xí)算法發(fā)生大的變化,F(xiàn)PGA 能很快改變架構(gòu),適應(yīng)最新的變化,ASIC 類芯片一旦定制則難于進(jìn)行修改。
CPU (CentralProcessing Unit)能不能算?為什么CPU不能勝任?
中央處理器作為計(jì)算機(jī)系統(tǒng)的運(yùn)算和控制核心,是信息處理、程序運(yùn)行的最終執(zhí)行單元,CPU 是對(duì)計(jì)算機(jī)的所有硬件資源(如存儲(chǔ)器、輸入輸出單元) 進(jìn)行控制調(diào)配、執(zhí)行通用運(yùn)算的核心硬件單元。
優(yōu)點(diǎn):CPU有大量的緩存和復(fù)雜的邏輯控制單元,非常擅長(zhǎng)邏輯控制、串行的運(yùn)算
缺點(diǎn):不擅長(zhǎng)復(fù)雜算法運(yùn)算和處理并行重復(fù)的操作。
對(duì)于AI芯片來(lái)說(shuō),算力最弱的是cpu。雖然cpu主頻最高,但是單顆也就8核,16核的樣子,一個(gè)核3.5g,16核也就56g,再考慮指令周期,每秒最多也就30g次乘法。
intel、AMD、還有眾多運(yùn)用ARM內(nèi)核的芯片廠家。
1、GPU (GraphicsProcessing Unit)
圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備(如平板電腦、智能手機(jī)等)上做圖像和圖形相關(guān)運(yùn)算工作的微處理器。
目前, GPU 已經(jīng)發(fā)展到較為成熟的階段。谷歌、 FACEBOOK、微軟、 Twtter和百度等公司都在使用GPU 分析圖片、視頻和音頻文件,以改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能。此外,很多汽車生產(chǎn)商也在使用GPU芯片發(fā)展無(wú)人駕駛。不僅如此, GPU也被應(yīng)用于VR/AR 相關(guān)的產(chǎn)業(yè)。
但是 GPU也有一定的局限性。深度學(xué)習(xí)算法分為訓(xùn)練和推斷兩部分, GPU 平臺(tái)在算法訓(xùn)練上非常高效。但在推斷中對(duì)于單項(xiàng)輸入進(jìn)行處理的時(shí)候,并行計(jì)算的優(yōu)勢(shì)不能完全發(fā)揮出來(lái)。
優(yōu)點(diǎn):提供了多核并行計(jì)算的基礎(chǔ)結(jié)構(gòu),且核心數(shù)非常多,可以支撐大量數(shù)據(jù)的并行計(jì)算,擁有更高的浮點(diǎn)運(yùn)算能力。
缺點(diǎn):管理控制能力(最弱),功耗(最高)。
生產(chǎn)廠商:NVIDIA(英偉達(dá))、AMD
當(dāng)前國(guó)產(chǎn)GPU產(chǎn)業(yè)鏈進(jìn)口替代:設(shè)計(jì)環(huán)節(jié)的一些公司,景嘉微、芯動(dòng)科技、摩爾線程、沐曦科技等企業(yè)正在不斷追趕。
2、FPGA(Field Programmable Gate Array)
FPGA是在PAL、GAL等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。它是作為專用集成電路(ASIC)領(lǐng)域中的一種半定制電路而出現(xiàn)的,既解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。
優(yōu)點(diǎn):可以無(wú)限次編程,延時(shí)性比較低,同時(shí)擁有流水線并行和數(shù)據(jù)并行(GPU只有數(shù)據(jù)并行)、實(shí)時(shí)性最強(qiáng)、靈活性最高。
FPGA可同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算,在處理特定應(yīng)用時(shí)有更加明顯的效率提升。對(duì)于某個(gè)特定運(yùn)算,通用 CPU可能需要多個(gè)時(shí)鐘周期,而 FPGA 可以通過(guò)編程重組電路,直接生成專用電路,僅消耗少量甚至一次時(shí)鐘周期就可完成運(yùn)算。
此外,由于 FPGA的靈活性,很多使用通用處理器或 ASIC難以實(shí)現(xiàn)的底層硬件控制操作技術(shù), 利用 FPGA 可以很方便地實(shí)現(xiàn)。這個(gè)特性為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大空間。同時(shí)FPGA 一次性成本(光刻掩模制作成本)遠(yuǎn)低于ASIC,在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定, 需要不斷迭代改進(jìn)的情況下,利用 FPGA 芯片具備可重構(gòu)的特性來(lái)實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇之一。
功耗方面,從體系結(jié)構(gòu)而言, FPGA 也具有天生的優(yōu)勢(shì)。傳統(tǒng)的馮氏結(jié)構(gòu)中,執(zhí)行單元(如 CPU 核)執(zhí)行任意指令,都需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器及分支跳轉(zhuǎn)處理邏輯參與運(yùn)行, 而FPGA每個(gè)邏輯單元的功能在重編程(即燒入)時(shí)就已經(jīng)確定,不需要指令,無(wú)需共享內(nèi)存,從而可以極大的降低單位執(zhí)行的功耗,提高整體的能耗比。
缺點(diǎn):開發(fā)難度大、只適合定點(diǎn)運(yùn)算、價(jià)格比較昂貴
生產(chǎn)廠商:Altera(Intel收購(gòu))、Xilinx(AMD收購(gòu))
當(dāng)前國(guó)產(chǎn)FPGA廠家,復(fù)旦微、紫光同創(chuàng)、安路等公司。AI應(yīng)用對(duì)FPGA的速率、規(guī)模等都有很高的要求,國(guó)產(chǎn)廠家還在努力中。
3、ASIC(Application Specific IntegratedCircuit)
ASIC,即專用集成電路,指應(yīng)特定用戶要求和特定電子系統(tǒng)的需要而設(shè)計(jì)、制造的集成電路。目前用CPLD(復(fù)雜可編程邏輯器件)和 FPGA(現(xiàn)場(chǎng)可編程邏輯陣列)來(lái)進(jìn)行ASIC設(shè)計(jì)是最為流行的方式之一。
目前以深度學(xué)習(xí)為代表的人工智能計(jì)算需求,主要采用GPU、FPGA等已有的適合并行計(jì)算的通用芯片來(lái)實(shí)現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒有大規(guī)模興起之時(shí),使用這類已有的通用芯片可以避免專門研發(fā)定制芯片(ASIC)的高投入和高風(fēng)險(xiǎn)。但是,由于這類通用芯片設(shè)計(jì)初衷并非專門針對(duì)深度學(xué)習(xí),因而天然存在性能、 功耗等方面的局限性。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大,這類問題日益突顯。
GPU作為圖像處理器, 設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中的大規(guī)模并行計(jì)算。因此,在應(yīng)用于深度學(xué)習(xí)算法時(shí),有三個(gè)方面的局限性:
- 第一:應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。 深度學(xué)習(xí)包含訓(xùn)練和推斷兩個(gè)計(jì)算環(huán)節(jié), GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效, 但對(duì)于單一輸入進(jìn)行推斷的場(chǎng)合, 并行度的優(yōu)勢(shì)不能完全發(fā)揮。
- 第二:無(wú)法靈活配置硬件結(jié)構(gòu)。GPU 采用 SIMT 計(jì)算模式, 硬件結(jié)構(gòu)相對(duì)固定。目前深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化, GPU 無(wú)法像 FPGA 一樣可以靈活的配制硬件結(jié)構(gòu)。
- 第三:運(yùn)行深度學(xué)習(xí)算法能效低于FPGA。
盡管 FPGA 倍受看好,甚至類似百度大腦這樣的一些云計(jì)算平臺(tái),也是基于 FPGA 平臺(tái)研發(fā),但其畢竟不是專門為了適用深度學(xué)習(xí)算法而研發(fā),實(shí)際應(yīng)用中也存在諸多局限:
- 第一:基本單元的計(jì)算能力有限。為了實(shí)現(xiàn)可重構(gòu)特性, FPGA 內(nèi)部有大量極細(xì)粒度的基本單元,但是每個(gè)單元的計(jì)算能力(主要依靠 LUT 查找表)都遠(yuǎn)遠(yuǎn)低于 CPU 和 GPU 中的 ALU 模塊。
- 第二:計(jì)算資源占比相對(duì)較低。 為實(shí)現(xiàn)可重構(gòu)特性, FPGA 內(nèi)部大量資源被用于可配置的片上路由與連線。
- 第三:速度和功耗相對(duì)專用定制芯片(ASIC)仍然存在不小差距。
- 第四,:FPGA 價(jià)格較為昂貴。在規(guī)模放量的情況下單塊 FPGA 的成本要遠(yuǎn)高于專用定制芯片。
因此,隨著人工智能算法和應(yīng)用技術(shù)的日益發(fā)展,以及人工智能專用芯片 ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟, 全定制化人工智能 ASIC也逐步體現(xiàn)出自身的優(yōu)勢(shì)
優(yōu)點(diǎn):它作為集成電路技術(shù)與特定用戶的整機(jī)或系統(tǒng)技術(shù)緊密結(jié)合的產(chǎn)物,與通用集成電路相比具有體積更小、重量更輕、 功耗更低、可靠性提高、性能提高、保密性增強(qiáng)、成本降低等優(yōu)點(diǎn)。
缺點(diǎn):靈活性不夠,通用性不夠。
主要性能指標(biāo):功耗、速度、成本
-
云計(jì)算
+關(guān)注
關(guān)注
39文章
7701瀏覽量
137113 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890 -
邊緣計(jì)算
+關(guān)注
關(guān)注
22文章
3042瀏覽量
48478
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論