0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于人工智能芯片方面的一些小知識

我快閉嘴 ? 來源:半導(dǎo)體行業(yè)觀察 ? 作者:半導(dǎo)體行業(yè)觀察 ? 2020-09-25 17:03 ? 次閱讀

人工智能芯片包括圖形處理單元(GPU)、現(xiàn)場可編程門陣列(FPGA)和專門用于人工智能的特定應(yīng)用集成電路ASIC)。像中央處理器CPU)這樣的通用芯片也可以用于一些更簡單的人工智能任務(wù),但是隨著人工智能的發(fā)展,CPU的用處越來越小。

與通用CPU一樣,人工智能芯片通過集成大量越來越小的晶體管來提高速度和效率(也就是說,它們每消耗一單位能量就能完成更多的計算),這些晶體管運行速度更快,消耗的能量也更少。但與CPU不同的是,AI芯片還有其他AI優(yōu)化的設(shè)計特性。利用這些特性可以極大地加速AI算法所需的相同的、可預(yù)測的、獨立的計算。包括并行執(zhí)行大量計算,而不是像在CPU中那樣按順序執(zhí)行;這些AI芯片在減少了相同計算所需的晶體管數(shù)量下,成功實現(xiàn)了計算精度需求較低的人工智能算法;加速內(nèi)存訪問,例如,將整個AI算法存儲在一個AI芯片中;以及使用專門設(shè)計的編程語言來高效地轉(zhuǎn)換AI計算機代碼,以便在AI芯片上執(zhí)行。

不同類型的人工智能芯片適用于不同的任務(wù)。GPU最常用于最初開發(fā)和改進AI算法;這個過程被稱為“訓(xùn)練”。AI算法通常利用FPGA作為橋梁,被用于現(xiàn)實世界中的數(shù)據(jù)輸入。這通常稱為“推理”。ASIC則可以適用于訓(xùn)練或推理。

AI芯片方面的一些知識

面向AI應(yīng)用的專用芯片的趨勢是由兩個因素驅(qū)動的。首先,半導(dǎo)體功能的關(guān)鍵改進已從制造轉(zhuǎn)向設(shè)計和軟件;其次,對人工智能等應(yīng)用的需求不斷增長,需要高度并行化,可預(yù)測的計算,這得益于專用芯片。深神經(jīng)網(wǎng)絡(luò)(DNN)-負(fù)責(zé)最近人工智能突破的人工智能算法符合這項法案。

DNN通常實現(xiàn)一種稱為監(jiān)督學(xué)習(xí)的機器學(xué)習(xí),它涉及兩個計算步驟:基于訓(xùn)練數(shù)據(jù)“訓(xùn)練” AI算法(即構(gòu)建算法)和執(zhí)行訓(xùn)練后的AI算法(即執(zhí)行“推理”)以對新算法進行分類與訓(xùn)練階段從數(shù)據(jù)中獲取的知識相一致的數(shù)據(jù)。

特別地,訓(xùn)練步驟通常需要執(zhí)行相同的計算數(shù)百萬次。如第IV(B)節(jié)所述,提高的晶體管密度允許在單個芯片上使用更多類型的專用電路。AI芯片將這一點發(fā)揮到了極致—芯片上大多數(shù)或所有晶體管的布局均針對AI算法所需的高度可并行化,專門計算進行了優(yōu)化。

盡管分析師對全球人工智能芯片市場規(guī)模存在廣泛分歧,ru 2018年的估計值介于50億至200億美元之間,但他們一致認(rèn)為,市場增長速度將快于非人工智能專用芯片。直到最近,少數(shù)設(shè)計CPU等通用芯片的公司主導(dǎo)了邏輯芯片設(shè)計市場。他們享受著規(guī)模經(jīng)濟,使他們能夠再投資于強大的新CPU設(shè)計。然而,摩爾定律的放緩正在損害CPU生產(chǎn)商的規(guī)模經(jīng)濟;在摩爾定律驅(qū)動的CPU效率和速度增益克服專用芯片的好處之前,現(xiàn)在專用芯片的使用壽命更長。因此,CPU設(shè)計公司再投資于新設(shè)計以保持正在下降的市場支配地位。這一趨勢降低了芯片設(shè)計初創(chuàng)公司的進入門檻,特別是那些專注于專業(yè)芯片的公司。

人工智能芯片是一種常見的專用芯片,具有一些共同的特點。人工智能芯片并行執(zhí)行的計算量遠遠大于CPU。他們還以一種成功實現(xiàn)人工智能算法但減少晶體管數(shù)量的方式以低精度計算數(shù)字

需要相同的計算。它們還通過將整個人工智能算法存儲在一個人工智能芯片中來加速內(nèi)存訪問。最后,人工智能芯片使用專門的編程語言來有效地翻譯人工智能計算機代碼,以在人工智能芯片上執(zhí)行。

雖然通用芯片特別是CPU包括少量流行的設(shè)計,但人工智能芯片更加多樣化。人工智能芯片在設(shè)計、適用的應(yīng)用、不同人工智能任務(wù)的效率和速度、通用性和推理時的分類精度等方面有著廣泛的差異、

由于其獨特的特性,人工智能芯片在訓(xùn)練和推理AI算法方面比CPU快幾十倍甚至幾千倍。最先進的人工智能芯片比最先進的CPU更劃算,因為它們在人工智能算法上的效率更高。一千倍于CPU效率的人工智能芯片所帶來的改進相當(dāng)于26年摩爾定律為CPU帶來的改進。

先進的人工智能系統(tǒng)不僅需要AI專用芯片,還需要最先進的AI芯片。較早期的人工智能芯片——帶有更大、更慢、更耗電的晶體管——會產(chǎn)生巨大的能源消耗成本,并可以迅速飆升至這種芯片無法承受的水平。正因為如此,如今使用較早期的AI芯片在成本和計算速度方面,都至少比最新的AI芯片大一個數(shù)量級。(成本增加,計算速度卻更慢)

這些成本和速度的動態(tài)變化,推動著先進AI芯片的繁榮——如果沒有最先進的AI芯片,則幾乎不可能開發(fā)和部署最先進的AI算法。即使使用最先進的AI芯片,訓(xùn)練AI算法也可能花費數(shù)千萬美元,并且需要數(shù)周才能完成。實際上,在頂級AI實驗室中,總支出中有很大一部分用于與AI相關(guān)的計算。使用CPU等通用芯片,甚至使用較舊的AI芯片,進行這種訓(xùn)練將花費更長的時間才能完成,并且相關(guān)的支出也會更多,這使得對AI算法的研究和部署無法進行下去。類似地,使用較不先進或較不專業(yè)的芯片進行推理也可能會導(dǎo)致類似的成本超支,并且需要更長的時間。

人工智能芯片的工作原理

相對于CPU來說,人工智能芯片通過特定技術(shù)來提高效率和速度。有關(guān)通用AI芯片的自上而下視圖和這些技術(shù)的圖形表示,這些技術(shù)將在下面的小節(jié)中詳細(xì)描述。

通用人工智能芯片

(1)并行計算

與傳統(tǒng)CPU相比,人工智能芯片提供的最重要的改進是并行計算能力,也就是說,人工智能芯片可以運行比CPU更多的并行計算。

對于DNN的計算是高度并行的,因為它們是相同的,并且不依賴于其他計算的結(jié)果。DNN訓(xùn)練和推理需要大量獨立、相同的矩陣乘法運算,這反過來又需要執(zhí)行許多乘法運算,然后求和,即所謂的“乘積” 運算。

人工智能芯片設(shè)計通常要在單芯片上具備大量的“乘法累加電路”(MAC),以有效地在一個大規(guī)模并行架構(gòu)上執(zhí)行矩陣乘法操作。并行計算也使AI芯片能夠比順序計算更快地完成任務(wù)。在并行架構(gòu)中連接的多個AI芯片可以進一步提高并行程度。雖然先進的CPU具有一定程度的并行體系結(jié)構(gòu),但AI芯片實現(xiàn)了更大的并行性。

并行處理操作使用幾種技術(shù),Data parallelism是最常見的并行形式,它將輸入數(shù)據(jù)集分為不同的“批”,以便在每個批上并行執(zhí)行計算。這些批次可以跨AI芯片的不同執(zhí)行單元或并行連接的不同AI芯片。數(shù)據(jù)并行性適用于任何類型的神經(jīng)網(wǎng)絡(luò)。在各種各樣的神經(jīng)網(wǎng)絡(luò)中,在訓(xùn)練期間使用數(shù)百到數(shù)千批的數(shù)據(jù)并行性在不增加所需計算總數(shù)的情況下實現(xiàn)了相同的模型精度。然而,更多的批次需要更多的計算來實現(xiàn)相同的模型精度。超過一定數(shù)量的批次(對于一些DNN來說,超過100萬)增加的數(shù)據(jù)并行性需要更多的計算,而不會減少訓(xùn)練模型的時間,從而限制有用的數(shù)據(jù)并行性。

Model parallelism將模型分成多個部分,在這些部分,計算在AI芯片的不同執(zhí)行單元上并行執(zhí)行,或者在并行連接的不同AI芯片上并行執(zhí)行。例如,單個DNN層包括許多神經(jīng)元,一個分區(qū)可能包括這些神經(jīng)元的子集,另一個分區(qū)包括相同神經(jīng)元的不同子集。有一種替代技術(shù)可以并行地對不同神經(jīng)網(wǎng)絡(luò)層進行計算。

考慮到并行性的限制,通過更多的人工智能芯片并行擴展計算量并不是人工智能進步的可行策略,好的AI算法研究更加有意義,也是必要的,因為它允許更大程度的數(shù)據(jù)和模型并行,包括研究結(jié)合技術(shù),以增加并行度。

(2)低精度計算

低精度計算,它犧牲了速度的數(shù)值精度和效率,特別適合人工智能算法。一個x-bit處理器由執(zhí)行單元組成,每個執(zhí)行單元都是用來操作由x-bit表示的數(shù)據(jù)的。晶體管存儲一個bit,其值可以為1或0;因此,x-bit值允許2 x 不同的組合。下表顯示了處理器數(shù)據(jù)類型的x的公共值。

數(shù)據(jù)類型

高位(Higher-bit)數(shù)據(jù)類型可以表示更廣泛的數(shù)字范圍(例如:一組較大的整數(shù)) 或在有限范圍內(nèi)的更高精度的數(shù)字(例如:在0到1之間的高精度十進制數(shù))。幸運的是,在許多人工智能算法中,訓(xùn)練或推理也會執(zhí)行,或者幾乎同樣地執(zhí)行,如果一些計算是用8位或16位數(shù)據(jù)執(zhí)行的,這些數(shù)據(jù)代表有限或低精度的數(shù)字范圍。即使模擬計算也足以滿足一些人工智能算法。這些技術(shù)工作的原因如下:

首先,經(jīng)過訓(xùn)練的DNN通常不受噪聲的影響,因此在推理計算中舍入數(shù)字不會影響結(jié)果;

第二,DNN中的某些數(shù)值參數(shù)事先已知的值僅在一個小的數(shù)值范圍內(nèi),準(zhǔn)確地說是可以用低位數(shù)存儲的數(shù)據(jù)類型。

低位(Lower-bit)數(shù)據(jù)計算可以用包含較少晶體管的執(zhí)行單元進行。這產(chǎn)生了兩個好處。首先,如果每個執(zhí)行單元需要更少的晶體管,芯片可以包括更多的并行執(zhí)行單元。其次,低位計算更有效率,需要更少的操作。. 一個8位執(zhí)行單元使用比16位執(zhí)行單元少6倍的電路面積和6倍的能源。

(3)內(nèi)存優(yōu)化

如果AI算法的內(nèi)存訪問模式是可預(yù)測的,那么AI芯片可以優(yōu)化這些可預(yù)測用途的內(nèi)存數(shù)量、位置和類型。例如,一些AI芯片包括足夠的

內(nèi)存來存儲整個AI算法。與片外存儲器通信相比,片內(nèi)存儲器訪問提供了更好的效率和速度改進。

當(dāng)模型變得太大而無法存儲在單個AI芯片上時,模型并行性成為一個特別有用的工具;通過分割模型,可以在并行連接的不同AI芯片上訓(xùn)練不同的部分。

相比之下,大多數(shù)CPU都是基于“馮諾依曼”設(shè)計,其中包括一個單一的中央總線——一個在CPU和存儲程序代碼和數(shù)據(jù)的單獨內(nèi)存芯片之間共享數(shù)據(jù)的通信系統(tǒng)??紤]到總線的帶寬有限,CPU必須順序地單獨訪問代碼和數(shù)據(jù),并經(jīng)歷一個“馮諾依曼瓶頸”,其中內(nèi)存訪問延遲阻止CPU通過高晶體管開關(guān)速度獲得更快的速度。

馮·諾依曼設(shè)計對于通用計算是有用的 ,但AI芯片不需要馮諾依曼設(shè)計或經(jīng)歷馮諾依曼瓶頸。

(4)特定領(lǐng)域的語言

特定領(lǐng)域語言(Domain-specific languages :DSL)為在專用芯片上運行的專用應(yīng)用程序提供了效率增益。

程序員以人類理解的方式,使用計算機語言編寫計算機代碼(即計算機看得懂的指令)。計算機程序稱為編譯器(或解釋器),然后將此代碼轉(zhuǎn)換為處理器直接可讀和可執(zhí)行的表單。不同的計算機語言在不同的抽象層次上運作。

例如,像Python這樣的高級編程語言被簡化為人類可訪問性,但是Python代碼在執(zhí)行時往往相對較慢,因為將人類的高級指令轉(zhuǎn)換為為特定處理器優(yōu)化的機器代碼的復(fù)雜性很高。相比之下,在較低抽象級別上操作的C類編程語言需要更復(fù)雜的代碼(以及程序員的努力),但它們的代碼執(zhí)行效率往往更高,因為更容易轉(zhuǎn)換成為特定處理器優(yōu)化的機器代碼。然而,這兩個例子都是通用編程語言,其代碼可以實現(xiàn)各種各樣的計算,但不是專門為特定計算有效地轉(zhuǎn)換成機器代碼的。

相比之下,DSL是專門為專用芯片高效編程和執(zhí)行的。一個值得注意的例子是谷歌的TensorFlow,它是DSL,它的代碼在AI芯片上運行的效率比任何通用語言都高。有時,DSL的優(yōu)點可以通過PyTorch 這樣的專門代碼庫來實現(xiàn):這些代碼庫將專門的AI處理器的知識打包在通用語言(例如Python在這種情況下)可以調(diào)用的函數(shù)中。

AI芯片類型

如上所述,人工智能芯片包括三類:圖形處理器(GPU)、現(xiàn)場可編程門陣列(FPGA)和專用集成電路(ASIC)。

GPU最初是為得益于并行計算的圖像處理應(yīng)用而設(shè)計的。2012年,GPU開始被越來越多地用于訓(xùn)練人工智能系統(tǒng),到2017年,GPU占據(jù)主導(dǎo)地位。GPU有時也用于推理。然而,盡管GPU允許可以比CPU有更大程度的并行,但它仍然是為通用計算而設(shè)計的。

最近,專用FPGA和ASIC在推理方面變得更加突出,因為與GPU相比,它們提高了效率。ASIC也越來越多地用于訓(xùn)練。FPGA包括邏輯模塊(即每個模塊包含一組晶體管)其互連可以在制造后由程序員重新配置以適應(yīng)特定的算法,而ASIC包括為特定算法定制的硬連線電路。領(lǐng)先的ASIC通常比FPGA提供更高的效率,而FPGA比ASIC更易于定制,并隨著人工智能算法的發(fā)展而促進設(shè)計優(yōu)化。相比之下,隨著新的人工智能算法的開發(fā),ASIC正變得越來越過時。

考慮到每個任務(wù)對芯片的不同要求,可以使用不同的AI芯片進行訓(xùn)練和推理。

首先,不同形式的數(shù)據(jù)和模型的并行性適合于訓(xùn)練和推理。因為訓(xùn)練需要在與推理共享的步驟之上增加計算步驟。

其次,盡管訓(xùn)練實際上總是受益于數(shù)據(jù)并行,但推理通常不會。例如,可以一次對單條數(shù)據(jù)執(zhí)行推斷。然而,對于某些應(yīng)用程序,可以并行地對許多數(shù)據(jù)執(zhí)行推理,特別是當(dāng)應(yīng)用程序需要快速推斷大量不同的數(shù)據(jù)時。

第三,根據(jù)應(yīng)用的不同,訓(xùn)練和推理的效率和速度的相對重要性可能不同。對于訓(xùn)練,效率和速度對于人工智能研究人員高效、快速地迭代研究項目都很重要。

對于推理,高推理速度可能是必不可少的,因為許多人工智能應(yīng)用部署在關(guān)鍵系統(tǒng)中(例如,自動車輛)?;蛘卟荒蜔┑挠脩簦ɡ纾瑢D像進行分類的移動應(yīng)用程序)需要快速、實時的數(shù)據(jù)分類。

另一方面,有效的推理速度可能存在上限。例如,推理不需要比用戶對移動應(yīng)用程序的反應(yīng)時間更快。

推理芯片比訓(xùn)練芯片需要更少的研究突破,因為它們比訓(xùn)練芯片需要更少的計算優(yōu)化。與GPU和FPGA相比,ASIC需要的研究突破更少。由于ASIC僅針對特定算法進行優(yōu)化,設(shè)計工程師考慮的變量要少得多。

為了設(shè)計只用于一次計算的電路,工程師可以簡單地將計算轉(zhuǎn)化為針對該計算進行優(yōu)化的電路。但是,要設(shè)計用于多種類型計算的電路,工程師必須預(yù)測哪種電路能夠很好地完成各種任務(wù)。其中許多是事先未知的。

人工智能芯片的商業(yè)化依賴于其通用功能的程度。GPU早已廣泛商業(yè)化,F(xiàn)PGA也是如此,只是程度較低。同時,由于高設(shè)計成本和專業(yè)化驅(qū)動的低容量,ASIC更難以商業(yè)化。然而,在通用芯片改進速度緩慢的時代,專用芯片相對更經(jīng)濟。因為在下一代CPU達到相同的加速比或效率之前,它具有更長的使用壽命。在當(dāng)前CPU進步緩慢的時代,如果一個AI芯片的速度提高了10-100倍,那么只要1.5 - 8.3萬的銷量就足夠讓AI芯片變得經(jīng)濟。預(yù)計人工智能芯片市場規(guī)模的增長可能會創(chuàng)造規(guī)模經(jīng)濟,這將使越來越窄的人工智能ASIC有利可圖。

人工智能芯片有不同的等級,功能有強有弱。在高端,服務(wù)器級人工智能芯片通常用于高端應(yīng)用的數(shù)據(jù)中心,在封裝后,比其他人工智能芯片更大。中端是消費者常用的PC級AI芯片。在低端,移動人工智能芯片通常用于推理,并集成到系統(tǒng)級芯片中,該芯片還包括一個CPU。移動系統(tǒng)芯片需要小型化才能適合移動設(shè)備。在每一個級別,人工智能芯片市場份額的增長都是以犧牲非人工智能芯片為代價的。

超級計算機與人工智能的相關(guān)性有限,但正在不斷增強。最常見的是,服務(wù)器級芯片分布在數(shù)據(jù)中心,可以按順序執(zhí)行,也可以在稱為“網(wǎng)格計算”的設(shè)置中并行執(zhí)行。超級計算機采用服務(wù)器級芯片,將它們物理地放在一起并連接在一起,并增加了昂貴的冷卻設(shè)備以防止過熱。這種設(shè)置提高了速度,但大大降低了效率,對于許多需要快速分析的應(yīng)用程序來說,這是一種可接受的折衷方案。目前很少有人工智能應(yīng)用能證明更高速度的額外成本是合理的。但大型人工智能算法的訓(xùn)練或推理有時非常緩慢,以至于只能使用超級計算機作為最后的手段。因此,盡管CPU傳統(tǒng)上一直是超級計算芯片的首選,但人工智能芯片現(xiàn)在正在占據(jù)越來越大的份額。2018年,GPU承擔(dān)了全球新增超級計算機計算能力的大部分。

先進AI芯片的價值

領(lǐng)先的節(jié)點AI芯片對于高性價比、快速訓(xùn)練和推理AI算法越來越必要。這是因為它們相對于最先進的CPU表現(xiàn)出效率和速度的提升和尾隨節(jié)點AI芯片。而且,效率轉(zhuǎn)化為芯片成本(芯片生產(chǎn)成本的總和)的總體成本效益。(即設(shè)計、制造、組裝、測試和封裝成本)。最后,許多計算密集型AI算法的訓(xùn)練和推理的成本和速度瓶頸,使得AI開發(fā)者和用戶需要最先進的AI芯片來保持在AI研發(fā)和部署方面的競爭力。

最先進的AI芯片的效率轉(zhuǎn)化為成本效益。

效率轉(zhuǎn)化為整體成本效益。對于trailing nodes,芯片運營成本(由于能耗成本)主導(dǎo)著芯片生產(chǎn)成本,并迅速膨脹到難以管理的水平。即使對于先進節(jié)點,運營成本也與生產(chǎn)成本類似,這意味著需要繼續(xù)優(yōu)化以提高效率。

表2給出了一個CSET芯片生產(chǎn)和運行成本模型的結(jié)果,該模型針對的是與Nvidia P100 GPU類似規(guī)格的服務(wù)器級5nm芯片相同數(shù)量的90 - 5nm節(jié)點。這意味著5納米以上的芯片需要更大的表面積。對于5nm以上的節(jié)點,該模型可以等效地解釋為生產(chǎn)多個芯片,這些芯片的晶體管計數(shù)為一個5nm芯片。該模型采用無晶圓廠設(shè)計公司的視角,在2020年設(shè)計芯片,從臺積電代工,然后在自己的服務(wù)器上運行芯片。這與谷歌等公司的做法類似。谷歌在內(nèi)部設(shè)計TPU,將制造外包給臺積電,然后在谷歌服務(wù)器上運行自己的TPUs,向外部客戶提供人工智能應(yīng)用程序或云計算服務(wù)。

費用細(xì)分如下。代工廠支付的代工銷售價格包括資金消耗(即建廠和收購中小企業(yè)的成本)、材料、人工、代工研發(fā)和利潤率。無晶圓廠的公司還會額外增加芯片設(shè)計成本。制造完成后,外包的半導(dǎo)體和測試公司對芯片進行組裝、測試和封裝(ATP)。代工銷售價格、芯片設(shè)計成本、ATP成本之和等于每片芯片的生產(chǎn)總成本。無晶圓廠的公司在操作芯片時也會產(chǎn)生能源成本。我們根據(jù)每千瓦時0.07625美元的電力成本來估算能源成本。

首先,在不到兩年的時間內(nèi),運營一款先進節(jié)點的AI芯片(7或5nm)的成本超過生產(chǎn)所述芯片的成本,而運行尾部節(jié)點AI芯片(90或65nm)的累積電力成本是生產(chǎn)這種芯片的成本的三到四倍。圖2顯示了連續(xù)使用長達三年的總芯片成本:每個芯片的總生產(chǎn)成本在第0年增加。隨后每年增加使用該芯片的年度能源成本。這些結(jié)果表明,在計算生產(chǎn)和運營時,先進節(jié)點AI芯片的成本效益是落后節(jié)點AI芯片費用的33倍。同樣,由于先進節(jié)點AI芯片的效率比先進節(jié)點CPU高出一到三個數(shù)量級(表1),我們預(yù)計,在計算產(chǎn)量和OPE時,先進節(jié)點AI芯片的成本效益也比先進節(jié)點CPU高出1到3個數(shù)量級。

其次,生產(chǎn)和運行5nm芯片的成本需要8.8年才能達到運行7nm芯片的成本。8.8年后,7nm和5nm芯片更便宜。因此,只有當(dāng)預(yù)期使用5nm節(jié)點芯片8.8年時,用戶才有動力更換現(xiàn)有的7nm節(jié)點芯片(假設(shè)它們不會發(fā)生故障)。圖2顯示了90 nm和5 nm之間的節(jié)點間比較。

我們發(fā)現(xiàn),這些成本變得相等的時間段增加了,在7nm與5nm的比較中,成本急劇增加。公司通常會在運營三年后更換服務(wù)器級別的芯片,這與最近引入新節(jié)點的時間框架是一致的,依賴先進節(jié)點芯片的公司在新推出的節(jié)點芯片一上市就立即購買。然而,如果公司開始購買5nm節(jié)點芯片,他們可能期望更長時間地使用這些芯片。這將構(gòu)成一個市場預(yù)測,即摩爾定律正在放緩,3nm節(jié)點可能在很長一段時間內(nèi)不會推出。

計算密集型人工智能算法受到芯片成本和速度的瓶頸制約。

人工智能公司在人工智能相關(guān)計算上花費的時間和金錢已經(jīng)成為人工智能發(fā)展的瓶頸。鑒于先進節(jié)點AI芯片比落后節(jié)點AI芯片或先進節(jié)點CPU更具成本效益且速度更快,因此這些AI實驗室需要先進節(jié)點AI芯片來繼續(xù)推進AI進展。

第一,人工智能實驗室DeepMind領(lǐng)先的人工智能實驗,如AlphaGo、AlphaGo Zero、AlphaZero和AlphaStar的訓(xùn)練成本。估計每項費用為500萬至1億美元。一個成本模型顯示,AlphaGo Zero的訓(xùn)練成本為3500萬美元。人工智能實驗室OpenAI報告稱,在2017年2800萬美元的總成本中,有800萬美元用于云計算。將這些計算成本乘以30,用于trailing node AI芯片,或甚至更多用于先進節(jié)點CPU,會使這種實驗在經(jīng)濟上變得不可行。一些人工智能公司的計算成本增長如此之快,可能很快就會達到成本上限。從而需要最高效的人工智能芯片。

其次,領(lǐng)先的人工智能實驗可能需要幾天甚至一個月的時間進行訓(xùn)練。雖然部署了關(guān)鍵的人工智能系統(tǒng),但通常需要快速或?qū)崟r推理。通過使用trailing node的AI芯片或引導(dǎo)節(jié)點的CPU來增加這些時間,將使得AI研發(fā)所需的迭代速度和部署的關(guān)鍵人工智能系統(tǒng)慢得令人無法接受。一家芯片速度較慢的公司可以嘗試通過并行使用大量速度較慢的芯片來支付巨大的能源成本以提高速度。但這一策略可能會失敗,原因有二。首先,正如附錄A 的A節(jié)所討論的,領(lǐng)先的實驗需要人工智能研究人員調(diào)整人工智能算法,以支持更多的數(shù)據(jù)和模型并行性。人工智能研究人員可以在有限的程度上做到這一點。但如果試圖并行使用比目前領(lǐng)先的人工智能實驗所使用的更多數(shù)量的人工智能芯片,可能會面臨困難。另一方面,即使在算法上可行,這種并行也需要互補的軟件和網(wǎng)絡(luò)技術(shù)來實現(xiàn)。并行擴展數(shù)百或數(shù)千個GPU是極其困難的,如果擴展更大數(shù)量trailing node的GPU,可能會比以及當(dāng)前的能力。

新的Cerebras晶圓級引擎芯片為網(wǎng)絡(luò)技術(shù)提供了一個有趣的潛在解決方案。它是第一個晶圓級芯片,比其他任何人工智能芯片的表面積都大得多。這意味著可以在單個芯片上實現(xiàn)很大程度的并行性,減少多個芯片之間對先進網(wǎng)絡(luò)技術(shù)的需求。

對這一分析的警告是,最近的一些人工智能突破并不需要大量的計算能力。此外,正在進行的研究是開發(fā)需要最少訓(xùn)練的人工智能算法(例如“幾次射擊”學(xué)習(xí)技術(shù))。對于這些人工智能算法,將小成本或速度乘以大數(shù)字仍可能產(chǎn)生小成本或速度。

美國和中國的AI芯片競爭

最先進的AI芯片對于高級AI系統(tǒng)是必不可少的。美國及其盟國在生產(chǎn)與AI芯片相關(guān)的半導(dǎo)體領(lǐng)域中具有競爭優(yōu)勢。美國公司主導(dǎo)著AI芯片設(shè)計,其中包括用于設(shè)計芯片的電子設(shè)計自動化(EDA)軟件。中國的AI芯片設(shè)計公司落后于美國,他們需要依靠美國EDA軟件來設(shè)計其AI芯片。

美國,中國臺灣和韓國公司控制著大多數(shù)可以制造最先進的AI芯片的晶圓代工廠(“ fabs”),盡管一家中國公司最近獲得了一小部分市場占有率。但是,中國的AI芯片設(shè)計公司大都將制造外包給了非中國大陸的fab,因為它們的產(chǎn)能更大,而且制造質(zhì)量更高。

領(lǐng)先的節(jié)點AI芯片的成本效益和速度從政策的角度來看很重要。美國公司主導(dǎo)了人工智能芯片的設(shè)計,而中國公司在人工智能芯片設(shè)計上遠遠落后,依賴美國EDA軟件設(shè)計人工智能芯片,需要美國和盟國的中小企業(yè)和晶圓廠根據(jù)這些設(shè)計制造人工智能芯片。最先進的人工智能芯片的價值,加上它們的供應(yīng)鏈集中在美國及其盟國,為美國及其盟國提供了一個杠桿點,以確保人工智能技術(shù)的有益開發(fā)和采用。

美國公司NVIDIA和AMD壟斷了全球GPU設(shè)計市場,而中國最大的GPU公司景嘉微電子開發(fā)的GPU速度非常慢。同樣,美國公司Xilinx和英特爾主導(dǎo)了全球FPGA市場,但中國領(lǐng)先的FPGA公司還有很長的一段距離。

在人工智能ASIC市場,特別是推理市場,分布著較多廠商,因為ASIC和推理芯片更容易設(shè)計,進入門檻較低。與GPU和FPGA不 同,活躍在AI領(lǐng)域的公司,如谷歌、特斯拉亞馬遜,已經(jīng)開始為自己的AI應(yīng)用設(shè)計專用的AI芯片了。谷歌的TPU是一個典型例子。英特爾也在開發(fā)性能強大的專用AI芯片,并聲稱這些ASIC的效率和速度分別實現(xiàn)了10,000x和1,000x的提升。

而在專用AI芯片領(lǐng)域具有競爭力的中國公司包括燧原、百度、阿里巴巴、騰訊、華為海思、寒武紀(jì)、云天勵飛和地平線等。中國研究人員還制作了用于高端研究的ASIC。然而,它們在很大程度上僅限于推理,不過,華為最近宣布研發(fā)出了一款人工智能訓(xùn)練ASIC。

可以看到,美國人工智能芯片設(shè)計公司的產(chǎn)品都在臺積電(TSMC)、三星或英特爾制造,而制程都比較先進,以7nm、10 nm和16 nm為主。還有一點值得注意,美國GPU芯片使用的先進制程節(jié)點比FPGA和ASIC的要多,之所以如此,很可能是因為GPU的通用性強,具有更高的銷售量,從而可以攤平更先進制程的設(shè)計和制造成本。

專家對AI芯片使用先進制程節(jié)點的必要性存在分歧。EDA公司的一位高管說:“每個想做AI的人都需要7nm及更先進制程的性能、功率效率等因素。與此同時,香港應(yīng)用科學(xué)技術(shù)研究所的一位半導(dǎo)體研究員則持不同觀點:“對于人工智能芯片,如果使用28nm制程工藝技術(shù),而不是10nm或14nm技術(shù),則制造成本就會低得多,如果使用先進制程,你就需要從零開始,花很多精力在數(shù)學(xué)模型、物理層和計算語言的研究上,而所有這些都需要投資,只有少數(shù)晶圓廠能夠制造接近最先進的AI芯片,如下圖所示,全球只有大約8.5%的晶圓廠產(chǎn)能可以用來制造接近最先進的AI芯片,目前,只有很少一部分產(chǎn)能可以制造最先進的AI芯片(圖中藍色部分),而用于制造最先進人工智能芯片的實際產(chǎn)能百分比很難計算,并且在逐年變化。

其次,中國AI芯片設(shè)計公司中,GPU和FPGA使用的是非先進制程節(jié)點,而ASIC既使用了先進節(jié)點,也使用了非先進節(jié)點。盡管中國在這些非先進節(jié)點上具有一定的本地制造能力,但中國的AI芯片設(shè)計公司仍然大多將這些制程節(jié)點芯片外包給了臺積電,這可能反映了臺積電的制造工藝更可靠。

這是因為中國大陸的先進半導(dǎo)體設(shè)備生產(chǎn)水平比較有限。另外,中國的人工智能芯片設(shè)計公司也依靠美國EDA軟件。因此,中國仍然要依賴美國及其盟友才能實現(xiàn)AI芯片生產(chǎn)。

中國已經(jīng)在人工智能推理方面取得了巨大成功,因為中國擁有大量受過良好教育的工程師,他們非常適合在特定芯片上實現(xiàn)極佳性能的勞動密集型設(shè)計任務(wù)。然而,考慮到中國相對年輕的人工智能芯片設(shè)計行業(yè),中國公司尚未掌握實現(xiàn)GPU和FPGA更大優(yōu)化空間和更高復(fù)雜性所需的隱性知識(know-how)。

中國在AI芯片供應(yīng)鏈的關(guān)鍵環(huán)節(jié)能力不足,包括芯片設(shè)計、EDA軟件、半導(dǎo)體制造設(shè)備和晶圓廠,這意味著美國及其盟國在生產(chǎn)領(lǐng)先的AI芯片方面保持競爭優(yōu)勢。正如第七節(jié)所討論的,領(lǐng)先的人工智能芯片對于開發(fā)和部署先進的、與安全相關(guān)的人工智能系統(tǒng)來說,具有戰(zhàn)略價值。因此,保持這一優(yōu)勢對美國及其盟國至關(guān)重要。

此外,美國,荷蘭和日本公司共同控制著晶圓廠使用的半導(dǎo)體制造設(shè)備(SME)的市場。但是,這些優(yōu)勢可能會消失,尤其是在中國努力建設(shè)先進芯片產(chǎn)業(yè)的情況下。鑒于最先進的AI芯片對安全性的重要性,美國及其盟國必須在生產(chǎn)這些芯片時保護其競爭優(yōu)勢。
責(zé)任編輯:tzh

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    453

    文章

    50254

    瀏覽量

    421127
  • eda
    eda
    +關(guān)注

    關(guān)注

    71

    文章

    2699

    瀏覽量

    172782
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29862

    瀏覽量

    268154
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46698

    瀏覽量

    237197
收藏 人收藏

    評論

    相關(guān)推薦

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    、優(yōu)化等方面的應(yīng)用有了更清晰的認(rèn)識。特別是書中提到的基于大數(shù)據(jù)和機器學(xué)習(xí)的能源管理系統(tǒng),通過實時監(jiān)測和分析能源數(shù)據(jù),實現(xiàn)了能源的高效利用和智能化管理。 其次,第6章通過多個案例展示了人工智能在能源科學(xué)中
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運社區(qū)給我個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

    周末收到本新書,非常高興,也非常感謝平臺提供閱讀機會。 這是本挺好的書,包裝精美,內(nèi)容詳實,干活滿滿。 《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》這本書的第章,作為整
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    一些未來發(fā)展趨勢: 市場規(guī)模持續(xù)增長 :據(jù)多家研究機構(gòu)和公司的預(yù)測,RISC-V的市場規(guī)模將持續(xù)增長。到2030年,RISC-V處理器有望占據(jù)全球市場近四分之的份額。這將為RISC-V在人工智能
    發(fā)表于 09-28 11:00

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新

    芯片設(shè)計的自動化水平、優(yōu)化半導(dǎo)體制造和封測的工藝和水平、尋找新代半導(dǎo)體材料等方面提供幫助。 第6章介紹了人工智能在化石能源科學(xué)研究、可再生能源科學(xué)研究、能源轉(zhuǎn)型三個
    發(fā)表于 09-09 13:54

    微處理器在人工智能方面的應(yīng)用

    微處理器在人工智能(AI)方面的應(yīng)用日益廣泛且深入,成為了推動AI技術(shù)發(fā)展的重要力量。本文將從微處理器在AI中的核心作用、具體應(yīng)用案例、技術(shù)挑戰(zhàn)與解決方案、以及未來發(fā)展趨勢等多個方面進行探討,旨在全面展現(xiàn)微處理器在AI領(lǐng)域的廣泛
    的頭像 發(fā)表于 08-22 14:21 ?775次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個方面、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    人工智能在軍事方面的應(yīng)用

    智慧華盛恒輝人工智能在軍事方面的應(yīng)用廣泛且深入,主要包括以下幾個方面: 智慧華盛恒輝、作戰(zhàn)效能提升 自動目標(biāo)識別與跟蹤: 人工智能系統(tǒng)能夠
    的頭像 發(fā)表于 07-16 09:52 ?506次閱讀

    人工智能神經(jīng)網(wǎng)絡(luò)芯片的介紹

    人工智能神經(jīng)網(wǎng)絡(luò)芯片類專門為深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)算法設(shè)計的處理器。它們具有高性能、低功耗、可擴展等特點,廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等領(lǐng)域。以下是關(guān)于
    的頭像 發(fā)表于 07-04 09:33 ?545次閱讀

    人工智能在軍事方面的應(yīng)用有哪些

    智慧華盛恒輝人工智能在軍事方面的應(yīng)用廣泛且深入,以下是對其應(yīng)用的詳細(xì)歸納和分點表示: 、智慧華盛恒輝智能無人系統(tǒng) 智能無人機:
    的頭像 發(fā)表于 06-23 10:42 ?1076次閱讀

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2) 課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎(chǔ)知識指引 14分50秒 https
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎(chǔ)知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:參賽基礎(chǔ)知識指引
    發(fā)表于 04-01 10:40

    fpga芯片人工智能芯片的區(qū)別

    FPGA芯片人工智能芯片(AI芯片)在設(shè)計和應(yīng)用上存在一些關(guān)鍵的區(qū)別,這些區(qū)別主要體現(xiàn)在它們的功能、優(yōu)化目標(biāo)和適用場景上。
    的頭像 發(fā)表于 03-14 17:26 ?1113次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛在嵌入式人工智能
    發(fā)表于 02-26 10:17

    未來人工智能需要能源方面的突破?OpenAI創(chuàng)始人力挺核聚變

    在日前舉辦的達沃斯世界經(jīng)濟論壇上,OpenAI CEO阿爾特曼(Sam Altman)表示,未來人工智能需要能源方面的突破,因為人工智能消耗的電力將遠遠超過人們的預(yù)期。
    的頭像 發(fā)表于 01-22 11:24 ?864次閱讀