深度學(xué)習(xí)有一個(gè)DRAM問題。設(shè)計(jì)用來實(shí)時(shí)處理復(fù)雜任務(wù)(比如,在汽車的備份攝像頭視頻流中分辨貓和孩子)的系統(tǒng),不斷地將構(gòu)成神經(jīng)網(wǎng)絡(luò)內(nèi)容的數(shù)據(jù)從存儲器傳送到處理器。
根據(jù)初創(chuàng)公司Flex Logix的說法,問題并不是缺乏存儲這些數(shù)據(jù)的空間,而是處理器和存儲器之間缺乏帶寬。為了將數(shù)百千兆比特的數(shù)據(jù)提供給處理器,有些系統(tǒng)需要4個(gè)甚至8個(gè)DRAM芯片,這既使占用的空間增加了不少,又消耗了大量的電能。Flex Logix表示,它為可重構(gòu)芯片開發(fā)的互連技術(shù)和tile-based架構(gòu)將使AI系統(tǒng)只需要1個(gè)DRAM芯片的帶寬,且功耗僅為十分之一。
圖片來源:Flex Logix
NMAX512tile的架構(gòu)。
位于加州山景城的Flex Logix公司已經(jīng)開始將一種新的嵌入式現(xiàn)場可編程門陣列(eFPGA)架構(gòu)商業(yè)化。但經(jīng)過一番探索后,其創(chuàng)始人之一Cheng C. Wang意識到,這項(xiàng)技術(shù)可以加快神經(jīng)網(wǎng)絡(luò)的速度。
神經(jīng)網(wǎng)絡(luò)由連接和表示連接強(qiáng)度的“權(quán)重”組成。另一位創(chuàng)始人Geoff Tate解釋說,一個(gè)好的AI芯片需要兩樣?xùn)|西。一種是一些做關(guān)鍵“推斷”計(jì)算(即乘法和累加)的電路?!暗щy的是,你必須非常擅長引入所有這些權(quán)重,以便其乘法器總能得到它們需要的數(shù)據(jù),從而進(jìn)行所需的數(shù)學(xué)運(yùn)算。Wang意識到我們在FPGA的互連方面所擁有的技術(shù),他可以對它做適應(yīng)性改造,來創(chuàng)建一種非常擅長快速高效地加載權(quán)重、高性能和低功耗的架構(gòu)?!?/p>
需要快速連續(xù)地將數(shù)百萬個(gè)權(quán)重加載到網(wǎng)絡(luò)中,這就是每秒要做數(shù)萬億次到數(shù)十萬億次運(yùn)算的AI系統(tǒng)為什么需要那么多DRAM芯片的原因。DRAM芯片上的每個(gè)引腳每秒最多可以傳輸4Gb數(shù)據(jù),因此要達(dá)到所需的每秒數(shù)百Gb的數(shù)據(jù)傳輸速度,就需要多個(gè)芯片。
在為FPGA開發(fā)最初的技術(shù)時(shí),Wang注意到,這些芯片有約80%的面積互連,因此他尋求一種能夠縮小互連面積并考慮到更多邏輯的架構(gòu)。他和他在加州大學(xué)洛杉磯分校的同事對一種稱為folded-Bene?網(wǎng)絡(luò)的電信架構(gòu)做了適應(yīng)性改造來完成這項(xiàng)工作。這使得FPGA架構(gòu)看起來像一堆邏輯和SRAM的瓦片(tile)。
圖片來源:Flex Logix
Flex Logix公司表示,在芯片中構(gòu)建分布式SRAM可加快計(jì)算速度并降低功耗。
Tate說,在這種專用互連方案中使用分布式SRAM最終會對深度學(xué)習(xí)的DRAM帶寬問題產(chǎn)生重大影響。“我們正在用芯片上的SRAM取代DRAM帶寬?!?/p>
圖片來源:Flex Logix
若干NMAXtile可以置于一個(gè)芯片上并連在一起,以擴(kuò)大計(jì)算能力。
用于Flex Logix的AI產(chǎn)品的tile稱為NMAX,采用了臺積電的16納米技術(shù),面積不到2平方毫米。每個(gè)tile都由一組核心組成,這些核心這些核心負(fù)責(zé)關(guān)鍵的乘法和累加計(jì)算、控制數(shù)據(jù)的處理和流動的可編程邏輯以及SRAM。這涉及三種不同類型的互連技術(shù)。一種tile上的所有零件連接在一起。另一種將tile與位于tile之間的附加SRAM及外部的DRAM相連接。第三種將相鄰的tile連接在一起。
在深度學(xué)習(xí)領(lǐng)域,很難進(jìn)行真正的橫向比較。但Flex Logix的分析顯示,將使用1個(gè)DRAM芯片的模擬的6×6tile的NMAX512陣列與使用8個(gè)DRAM的Nvidia Tesla T4進(jìn)行比較,結(jié)果是新架構(gòu)每秒能識別4,600張圖像,而Nvidia每秒識別3,920張圖像。在一項(xiàng)名為YOLOv3的實(shí)時(shí)視頻處理測試中,同樣大小的NMAX陣列可達(dá)到每秒22萬億次運(yùn)算,而使用的DRAM帶寬是其他系統(tǒng)的十分之一。
Tate表示,首批NMAX芯片的設(shè)計(jì)將于2019年下半年送至代工廠以便進(jìn)行制造。
Flex Logix將波音公司視作其高吞吐量嵌入式FPGA產(chǎn)品的客戶之一。但Tate承認(rèn),與神經(jīng)網(wǎng)絡(luò)相比,嵌入式FPGA是個(gè)很難賣的產(chǎn)品。“嵌入式FPGA是一項(xiàng)很好的業(yè)務(wù),但是推理可能很快就會超越它。”Tate說。
-
DRAM
+關(guān)注
關(guān)注
40文章
2298瀏覽量
183204 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4733瀏覽量
100419 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890
原文標(biāo)題:Flex Logix公司稱它解決了深度學(xué)習(xí)的DRAM問題
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論