目前,人工智能領(lǐng)域已成為最受關(guān)注的熱點(diǎn)之一。人工智能領(lǐng)域是通過(guò)對(duì)計(jì)算機(jī)的研究與開(kāi)發(fā),使得其具備類(lèi)似于人類(lèi)智能的,對(duì)環(huán)境的輸入做出有意義的判斷反應(yīng)的研究應(yīng)用領(lǐng)域。決定人工智能質(zhì)量的因素往往是計(jì)算能力以及數(shù)據(jù)量的大小,而實(shí)現(xiàn)人工智能的方式則是機(jī)器學(xué)習(xí),讓機(jī)器通過(guò)訓(xùn)練和學(xué)習(xí)逐漸逼近我們希望其實(shí)現(xiàn)的效果。隨著處理器能力以及數(shù)據(jù)量的飛速增長(zhǎng),機(jī)器學(xué)習(xí)的方式也在發(fā)生革命性的變化,深度學(xué)習(xí)的概念被引入。深度學(xué)習(xí)由于其多層次形態(tài),從而增強(qiáng)了其非線(xiàn)性程度,可以帶來(lái)更強(qiáng)的擬合能力。此外,其類(lèi)似于仿生學(xué)的逐層自動(dòng)提取特征的過(guò)程,保證了所提取特征的質(zhì)量與豐富性,使得其性能相較于傳統(tǒng)的機(jī)器學(xué)習(xí)算法有了質(zhì)的提升。
隨著模型算法的發(fā)展,模型所能實(shí)現(xiàn)的性能逐步提升, 而模型本身的深度和復(fù)雜度也大大增加。以大規(guī)模圖像識(shí)別競(jìng)賽(ILSVRC)為例,2012年多倫多大學(xué)的Alex Krizhecsky 隨同其倒是Geoffrey Hinton 發(fā)布的 AlexNet 以83.0%的Top5分類(lèi)準(zhǔn)確率奪得冠軍,相較于之前傳統(tǒng)模型的最佳性能提升了百分之十幾。AlexNet 本身是一個(gè)具有5層卷積層和3層全連接層的卷積神經(jīng)網(wǎng)絡(luò),包含有6100萬(wàn)個(gè)權(quán)重參數(shù)和7.24億次乘加運(yùn)算。2017年為止,最復(fù)雜的網(wǎng)絡(luò)模型層數(shù)已超過(guò)1000層,權(quán)重參數(shù)及乘加運(yùn)算次數(shù)都比AlexNet提升了幾個(gè)數(shù)量級(jí),而所能實(shí)現(xiàn)的識(shí)別準(zhǔn)確率也已經(jīng)超越人眼。
對(duì)于最近打敗眾多人類(lèi)圍棋高手的阿爾法圍棋(AlphaGo),在其打敗李在石的第一版分布式實(shí)現(xiàn)版本中,其復(fù)雜的決策算法模型需要1300多個(gè)CPU和280個(gè)GPU來(lái)提供算力的支撐。由此可見(jiàn),面對(duì)日益復(fù)雜的人工智能算法,要滿(mǎn)足嚴(yán)格的功耗與實(shí)時(shí)性需求,需要有強(qiáng)大的處理器作為支持;因此對(duì)處理器芯片的精細(xì)化設(shè)計(jì),成為提升芯片計(jì)算功能,滿(mǎn)足應(yīng)用需求的必要條件。
通常來(lái)講,無(wú)論是對(duì)于人工智能的模型訓(xùn)練還是前向推斷應(yīng)用過(guò)程,處理器芯片的計(jì)算速度都是需要首先考慮的指標(biāo);而在某些諸如嵌入式移動(dòng)端的低功耗場(chǎng)景中,對(duì)于硬件計(jì)算的功耗也需要加以嚴(yán)格的控制。傳統(tǒng)的CPU由于其串行執(zhí)行的方式,在應(yīng)對(duì)數(shù)據(jù)與計(jì)算密集型的人工智能算法時(shí)顯得捉襟見(jiàn)肘。因此,增加處理器計(jì)算的并行度成為性能提升的一個(gè)主要方向。英偉達(dá)提出了通用計(jì)算GPU(GPGPU)的概念,將具有大量可并行計(jì)算流處理器的GPU運(yùn)用到人工智能算法的研發(fā)過(guò)程中, 并提供了成熟而穩(wěn)定的諸如CUDA和cuDNN的軟件環(huán)境支持。由于GPU強(qiáng)大的計(jì)算能力,在關(guān)注模型準(zhǔn)確度和以數(shù)據(jù)中心及服務(wù)器環(huán)境為主的模型訓(xùn)練場(chǎng)景中,GPU得到了廣泛的應(yīng)用。但同時(shí)我們也注意到,常見(jiàn)的GPU板卡功耗高達(dá)200-300W,這使得其在需要低功耗場(chǎng)景中的應(yīng)用受到局限。因此,針對(duì)應(yīng)用場(chǎng)景和算法類(lèi)型,對(duì)芯片內(nèi)部結(jié)構(gòu)進(jìn)行定制化的設(shè)計(jì),從而提升芯片整體的能效比,成為人工智能芯片發(fā)展的另一主流方向。
通常而言,對(duì)于某一類(lèi)型的人工智能算法,其往往具備可劃分的特性,并且劃分的子算法塊具有一定的相似性。以圖像應(yīng)用中常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)為例,運(yùn)算最密集的卷積層就可以抽象為滑窗類(lèi)型的乘加操作,而滑窗的大小及步幅,計(jì)算通道數(shù)的大小等均可以被抽象為可配置的參數(shù)。在硬件結(jié)構(gòu)的設(shè)計(jì)過(guò)程中,往往會(huì)針對(duì)算法劃分及抽象的方式,在計(jì)算通路和存儲(chǔ)結(jié)構(gòu)上進(jìn)行定制化,可配置的設(shè)計(jì)。大部分研究者會(huì)采用FPGA芯片實(shí)現(xiàn)的方式,快速地迭代開(kāi)發(fā)出加速硬件結(jié)構(gòu)。多家研究機(jī)構(gòu)已紛紛在頂級(jí)學(xué)術(shù)會(huì)議上發(fā)布了基于FPGA的加速結(jié)構(gòu)設(shè)計(jì),而業(yè)界企業(yè)也都開(kāi)始將常見(jiàn)的算法模型通過(guò)FPGA加速器實(shí)現(xiàn)的形式部署到應(yīng)用端,并且實(shí)現(xiàn)了較好的性能和較低的功耗。下一步,我們也可以將計(jì)算及存儲(chǔ)核心部分進(jìn)行電路固化,以專(zhuān)用集成電路(ASIC)的方式實(shí)現(xiàn),以達(dá)到更高的能效比。目前已知的優(yōu)秀ASIC芯片設(shè)計(jì),已能在實(shí)現(xiàn)數(shù)百GOPS(每秒十億次運(yùn)算數(shù))級(jí)別計(jì)算能力的情況下將功耗控制在毫瓦級(jí)別。ASIC在具備廣泛應(yīng)用市場(chǎng)的前提下,具有高能效比,量產(chǎn)成本低的諸多優(yōu)勢(shì),但其一次性的工程費(fèi)用及較大的開(kāi)發(fā)成本,在快速的算法演進(jìn)過(guò)程中往往會(huì)具有一定風(fēng)險(xiǎn)。因此,針對(duì)不同的研發(fā)及市場(chǎng)需求,應(yīng)該選取不同的平臺(tái)予以實(shí)現(xiàn)。
近年來(lái),針對(duì)硬件實(shí)現(xiàn)的算法優(yōu)化也在不斷發(fā)展,包括數(shù)據(jù)量化,模型稀疏化等多項(xiàng)技術(shù)都取得了進(jìn)展;而這些技術(shù)都有助于降低人工智能芯片的片上計(jì)算資源及存儲(chǔ)帶寬限制,以更低的硬件代價(jià)實(shí)現(xiàn)更高的吞吐速率。而數(shù)據(jù)位寬變化以及模型稀疏帶來(lái)的不規(guī)則性,則對(duì)硬件結(jié)構(gòu)的實(shí)現(xiàn)提出了挑戰(zhàn)。未來(lái)的人工智能芯片設(shè)計(jì),將更趨向于軟硬件協(xié)同設(shè)計(jì)的模式,從軟硬件兩個(gè)方向分別進(jìn)行限制條件的考量以及優(yōu)化路徑的選取,從而實(shí)現(xiàn)更優(yōu)化,更通用的解決方案。
審核編輯:劉清
-
處理器芯片
+關(guān)注
關(guān)注
0文章
117瀏覽量
19758 -
人工智能算法
+關(guān)注
關(guān)注
0文章
61瀏覽量
5217 -
人工智能芯片
+關(guān)注
關(guān)注
1文章
119瀏覽量
28987
原文標(biāo)題:人工智能芯片設(shè)計(jì)
文章出處:【微信號(hào):Semi Connect,微信公眾號(hào):Semi Connect】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論