AI語音助手和AI圖像優(yōu)化是離我們最近的AI應(yīng)用,然而這只是AI能力比較初級(jí)的體現(xiàn),未來,AI將會(huì)以目前難以想象的方式改變我們的生活。作為AI的重要推動(dòng)力之一,不同類別的AI處理器正努力滿足AI的需求,但依舊不能滿足AI不斷迭代的算法的需求。圍繞AI芯片的創(chuàng)新因此也成為了熱點(diǎn)。
本周二,總部位于美國加利福尼亞州的Achronix為滿足AI和機(jī)器學(xué)習(xí)的需求,推出了一款融合ASIC核心效率的全新類別FPGA。
到底是什么在推動(dòng)AI芯片的創(chuàng)新?
AI發(fā)展的三大要素是算力、算法和數(shù)據(jù),而這一輪AI熱潮的興起一個(gè)關(guān)鍵的原因就是深度神經(jīng)網(wǎng)絡(luò)算法的流行。不過,由于AI還處于初級(jí)階段,深度學(xué)習(xí)算法不僅種類多樣,并且在不斷迭代。另外,數(shù)據(jù)的類型也十分多樣,包含了整型和浮點(diǎn)型,以及每種數(shù)據(jù)類型的不同精度,這對(duì)芯片的通用性提出了要求。
AI處理器的硬件挑戰(zhàn)
但是,芯片的通用也就意味著算力難以做到極致,并且,不同的數(shù)據(jù)類型和精度對(duì)處理器的性能的要求又不相同,想要同時(shí)滿足算力和通用性的要求,半導(dǎo)體制程的提升是最為直接的方法。過去30年,摩爾定律帶來了顯著的計(jì)算能力的提升,半導(dǎo)體制程從微米跨越到了納米級(jí),如今的計(jì)算機(jī)處理速度也可以達(dá)到每秒千萬億次(1015 FLOPS)。
2018年,10nm和7nm的芯片已經(jīng)開始量產(chǎn),但CMOS器件的橫向尺寸接近幾納米,厚度只有幾個(gè)原子層,想要繼續(xù)靠工藝制程提升晶體管密度帶來處理性能的顯著提升,技術(shù)上難度越來越高,成本也讓越來越多的芯片公司望而卻步。
除了半導(dǎo)體工藝,當(dāng)運(yùn)算能力達(dá)到一定程度,訪問存儲(chǔ)器的速度無法跟上運(yùn)算部件消耗數(shù)據(jù)的速度,再增加運(yùn)算部件也無法得到充分利用,這個(gè)馮諾依曼架構(gòu)的瓶頸(內(nèi)存墻)也阻礙了AI芯片算力的提升。
顯然,不斷迭代的算法、不同AI模型的數(shù)據(jù)類型需求、與日俱增的數(shù)據(jù)量,都推動(dòng)承載AI算法的AI芯片不斷創(chuàng)新。
FPGA如何與ASIC融合?
目前,CPU、GPU、FPGA、ASIC都被認(rèn)為是廣義上的AI芯片,從CPU到ASIC,芯片的通用性降低,但性能依次增強(qiáng),其中,GPU憑借并行計(jì)算的優(yōu)勢(shì)成為了目前最成功的AI芯片。FPGA作為不少AI芯片公司ASIC芯片驗(yàn)證的首選,也在AI芯片市場(chǎng)占據(jù)一定的地位,但成本是其在大規(guī)模應(yīng)用中面臨的挑戰(zhàn)。
Achronix Semiconductor總裁兼首席執(zhí)行官Robert Blake
此時(shí),如果有兼具ASIC的性能和FPGA靈活性的AI處理器,應(yīng)該是一個(gè)非常有競(jìng)爭(zhēng)力的產(chǎn)品,但需要解決多個(gè)挑戰(zhàn)。Achronix Semiconductor總裁兼首席執(zhí)行官Robert Blake接受雷鋒網(wǎng)在內(nèi)的媒體采訪時(shí)表示:“最新發(fā)布的Achronix Speedster7t是靈活的FPGA技術(shù)與ASIC核心效率的融合,提供了一個(gè)全新的‘FPGA+’芯片品類,這代表了我們建立在四個(gè)架構(gòu)代系的硬件和軟件開發(fā)基礎(chǔ)上的創(chuàng)新和積淀,以及與客戶之間的密切合作?!?/p>
Robert還指出,這款新產(chǎn)品他們?cè)谌昵熬烷_始規(guī)劃,在規(guī)劃的過程中工程團(tuán)隊(duì)完全重新構(gòu)建了整個(gè)FPGA架構(gòu),要平衡片上處理、互連和外部輸入輸出接口(I/O),以實(shí)現(xiàn)數(shù)據(jù)密集型應(yīng)用吞吐量的最大化,適合高帶寬需求的應(yīng)用,比如邊緣和基于服務(wù)器的AI / ML、網(wǎng)絡(luò)處理和存儲(chǔ)。
架構(gòu)改進(jìn)讓FPGA更適合AI計(jì)算
要讓FPGA具備ASIC級(jí)別的性能,首先需要提升算力。正如前面所說,先進(jìn)半導(dǎo)體工藝對(duì)處理器性能的提升非常關(guān)鍵,因此Speedster7t采用的是臺(tái)積電7nm FinFET工藝。我們知道7nm工藝的流片成本非常高昂,著是否意味著這款7nm的FPGA+只面向云端市場(chǎng)?Robert對(duì)雷鋒網(wǎng)表示,在高端應(yīng)用市場(chǎng),無論是AI的訓(xùn)練還是推理,對(duì)性能和延遲要求都很高,需要7nm工藝。當(dāng)然,除了云端,針對(duì)邊緣市場(chǎng)我們會(huì)有更小且成本更低的產(chǎn)品,滿足不用應(yīng)用和不同市場(chǎng)的續(xù)期。
半導(dǎo)體工藝明確后,想讓FPGA適合深度學(xué)習(xí)的算法,還需要架構(gòu)的改進(jìn)。Robert表示,傳統(tǒng)的基于DSP的FPGA計(jì)算單元的設(shè)計(jì)DSP、LUTs、存儲(chǔ)單元是分立的,布線也限制了其性能,不僅不能高效地支持AI模型的不同數(shù)值精度,還要消耗額外邏輯的存儲(chǔ)資源。
“我們采用的方法是在傳統(tǒng)的架構(gòu)上進(jìn)行改進(jìn),設(shè)計(jì)出了MLP單元,采用陣列式乘累積計(jì)算架構(gòu),每個(gè)乘累加單元(MAC)支持最多32個(gè)乘法器,實(shí)現(xiàn)計(jì)算的可配置。同時(shí),MLP單元集成分別針對(duì)浮點(diǎn)和整型數(shù)據(jù)的MAC,可支持4到24位的整點(diǎn)格式和高效的浮點(diǎn)模式。并且,計(jì)算單元與緩存單元緊密相領(lǐng),可以實(shí)現(xiàn)更復(fù)雜的算法,并且不需要使用復(fù)雜的布線,確保以750 MHz的最高性能將數(shù)據(jù)傳送到MLP。” Robert指出。
Robert表示,MLP的效率比傳統(tǒng)FPGA的性能提升了5倍,使這款FPGA能以每秒萬億次運(yùn)算數(shù)量為單位(TOPS)。算法在不斷的改變,但底層的需求都是一樣的,他們希望建立一個(gè)很好的硬件底層,讓算法無論怎么改變,需求都可以被滿足。
用片上網(wǎng)絡(luò)解決數(shù)據(jù)挑戰(zhàn)
計(jì)算能力的提高可以通過增加MAC,但算力提升之后,能否解決數(shù)據(jù)傳輸?shù)奶魬?zhàn)決定著AI處理器最終的性能。據(jù)介紹,Speedster7t器件是唯一支持GDDR6存儲(chǔ)器的FPGA,并且最多可以支持8個(gè)GDDR6控制器,可以支持4 Tbps的GDDR6累加帶寬,能夠以HBM一半的成本提供與HBM等效的存儲(chǔ)帶寬。
另外,Speedster7t還有72個(gè)高性能的SerDes,可以達(dá)到1到112 Gbps的速度,Robert強(qiáng)調(diào)已經(jīng)經(jīng)過硅片驗(yàn)證過。還帶有前向糾錯(cuò)(FEC)的硬件400G以太網(wǎng)MAC,支持4x 100G和8x 50G的配置,每個(gè)控制器有8個(gè)或16個(gè)通道的硬件PCI Express Gen5控制器。為了應(yīng)對(duì)400G以太網(wǎng)數(shù)據(jù)的處理需求,Achronix采用的是將數(shù)據(jù)進(jìn)行分割并行處理的方法。
但這些最先進(jìn)和更大的帶寬只能解決芯片與外部數(shù)據(jù)的交換,芯片內(nèi)部數(shù)據(jù)效率的提升才是關(guān)鍵。這就是Achronix這款新產(chǎn)品架構(gòu)的另一大關(guān)鍵創(chuàng)新,高帶寬二維片上網(wǎng)絡(luò)(NOC)。Robert將架構(gòu)中可橫跨和垂直跨越FPGA邏輯陣列的NOC比喻為城市街道系統(tǒng)上的高速公路網(wǎng)絡(luò)。NOC中的每一行或每一列都可作為兩個(gè)256位實(shí)現(xiàn),單向的、行業(yè)標(biāo)準(zhǔn)的AXI通道,工作頻率為2Ghz,同時(shí)可為每個(gè)方向提供512 Gbps的數(shù)據(jù)流量。
他進(jìn)一步表示,專用二維 NOC極大地簡(jiǎn)化了高速數(shù)據(jù)移動(dòng),確保數(shù)據(jù)流可以輕松地定向到整個(gè)FPGA結(jié)構(gòu)中的任何自定義處理引擎。最重要的是,NOC消除了傳統(tǒng)FPGA使用可編程路由和邏輯查找表資源在整個(gè)FPGA中移動(dòng)數(shù)據(jù)流中出現(xiàn)的擁塞和性能瓶頸。不僅可以提高Speedster7t FPGA的總帶寬容量,還可以在降低功耗的同時(shí)提高有效LUT容量。
除了硬件,AI時(shí)代軟硬件的重要性被更多地關(guān)注。據(jù)Robert透露,Achronix在軟件和硬件方面的投資相當(dāng),并且在公司創(chuàng)立的時(shí)候很大的優(yōu)勢(shì)就是軟件技術(shù),這也是他們今天能做到高端配置的的重要原因。
但Robert也強(qiáng)調(diào),底層的軟件非常重要,如果NOC軟件做不好,就很難實(shí)現(xiàn)真正的提升。目前針對(duì)Speedster7t我們的ACE設(shè)計(jì)工具現(xiàn)已可以提供支持,今年第三季度會(huì)發(fā)布將TensorFlow、Caffe2等框架AI模型轉(zhuǎn)換到其芯片里的工具。第一批用于評(píng)估的器件和開發(fā)板將于2019年第四季度提供。
另據(jù)了解,安全性方面,Speedster7t FPGA系列可用最先進(jìn)的比特流安全保護(hù)功能應(yīng)對(duì)。在產(chǎn)品的批量化支持方面,Achronix在Speedcore eFPGA IP中采用了與Speedster7t FPGA中使用的同一種技術(shù),可支持從Speedster7t FPGA到ASIC的無縫轉(zhuǎn)換。并且,當(dāng)使用Speedcore eFPGA IP將Speedster7t FPGA轉(zhuǎn)換為ASIC時(shí),用戶有望節(jié)省高達(dá)50%的功耗并降低90%的成本。
哪種處理器會(huì)在AI競(jìng)爭(zhēng)中勝出?
既然功耗和成本都能夠顯著降低,那是否意味著Achronix新推出的FPGA+將成為AI芯片的主流?Robert表示,CPU、GPU、FPGA、ASIC每一類芯片都有其技術(shù)長處,并且AI芯片的市場(chǎng)在增長,所有的芯片類型都會(huì)從中受益。僅看FPGA,根據(jù)市場(chǎng)調(diào)研公司Semico Research的預(yù)測(cè),人工智能應(yīng)用中FPGA的市場(chǎng)規(guī)模將在未來4年內(nèi)增長3倍,達(dá)到52億美元。
但有觀點(diǎn)認(rèn)為,隨著AI算法的成熟,未來市場(chǎng)需要的是最通用和最專用的AI處理器,F(xiàn)PGA將失去優(yōu)勢(shì)。對(duì)此,Robert表示,隨著AI的發(fā)展,芯片發(fā)生了一些變化,ASIC也需要一些可編程的能力,而我們現(xiàn)在也在FPGA當(dāng)中增加了ASIC的屬性,因此未來FPGA和ASIC都可能不再是傳統(tǒng)定義。
更進(jìn)一步,F(xiàn)PGA會(huì)在哪個(gè)市場(chǎng)體現(xiàn)出優(yōu)勢(shì)?Robert從他們產(chǎn)品的產(chǎn)品出發(fā)指出,F(xiàn)PGA器件方面主要是云、網(wǎng)絡(luò)加速以及機(jī)器學(xué)習(xí),IP主要還是5G、汽車以及存儲(chǔ)。當(dāng)然,還需要根據(jù)客戶的反饋和需求,推出性能和架構(gòu)都最適合客戶的FPGA產(chǎn)品。
小結(jié)
隨著計(jì)算性能的不斷提升,內(nèi)存墻的瓶頸越來越明顯,在這樣的情況下,架構(gòu)的創(chuàng)新能夠體現(xiàn)的價(jià)值越來越明顯。當(dāng)然,這需要具備前瞻性以及強(qiáng)大的技術(shù)研發(fā)能力,我們看到市場(chǎng)上有一些針對(duì)存儲(chǔ)進(jìn)行的架構(gòu)創(chuàng)新設(shè)計(jì),包括存算一體、存儲(chǔ)優(yōu)先、可重組、可重構(gòu)的架構(gòu)等。
Achronix擅長于FPGA技術(shù),經(jīng)過多年的積累以及憑借對(duì)用戶需求的了解,選擇在保持FPGA靈活性的同時(shí),專為AI性能進(jìn)行優(yōu)化實(shí)現(xiàn)ASIC級(jí),并且通過片上網(wǎng)絡(luò)解決數(shù)據(jù)的傳輸問題,從最重要的計(jì)算能力和數(shù)據(jù)傳輸兩方面進(jìn)行創(chuàng)新,也是提升競(jìng)爭(zhēng)力很好的選擇。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237085 -
FPGA芯片
+關(guān)注
關(guān)注
3文章
246瀏覽量
39746
原文標(biāo)題:動(dòng)態(tài) | FPGA保持靈活性同時(shí)擁有ASIC級(jí)AI性能是可實(shí)現(xiàn)的嗎?
文章出處:【微信號(hào):wc_ysj,微信公眾號(hào):旺材芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論