0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度解析FPGA異構(gòu)計算芯片的技術(shù)特性

5RJg_mcuworld ? 來源:互聯(lián)網(wǎng) ? 作者:丁德輝 ? 2017-10-24 13:49 ? 次閱讀

隨著互聯(lián)網(wǎng)用戶的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的需求也在迅猛上漲。諸如深度學(xué)習(xí)在線預(yù)測、直播中的視頻轉(zhuǎn)碼、圖片壓縮解壓縮以及HTTPS加密等各類應(yīng)用對計算的需求已遠遠超出了傳統(tǒng)CPU處理器的能力所及。

歷史上,受益于半導(dǎo)體技術(shù)的持續(xù)演進,計算機體系結(jié)構(gòu)的吞吐量和系統(tǒng)性能不斷提高,處理器的性能每18個月就能翻倍(眾所周知的“摩爾定律”),使得處理器的性能可以滿足應(yīng)用軟件的需求。但是,近幾年半導(dǎo)體技術(shù)改進達到了物理極限,電路越來越復(fù)雜,每一個設(shè)計的開發(fā)成本高達數(shù)百萬美元,數(shù)十億美元才能形成新產(chǎn)品投產(chǎn)能力。2016年3月24日,英特爾宣布正式停用“Tick-Tock”處理器研發(fā)模式,未來研發(fā)周期將從兩年周期向三年期轉(zhuǎn)變。至此,摩爾定律對英特爾幾近失效。

一方面處理器性能再無法按照摩爾定律進行增長,另一方面數(shù)據(jù)增長對計算性能要求超過了按“摩爾定律”增長的速度。處理器本身無法滿足高性能計算(HPC:High Performance Compute)應(yīng)用軟件的性能需求,導(dǎo)致需求和性能之間出現(xiàn)了缺口(參見圖1)。

一種解決方法是通過硬件加速,采用專用協(xié)處理器的異構(gòu)計算方式來提升處理性能。

圖1 計算需求和計算能力的缺口發(fā)展形式

? 2.異構(gòu)計算:STANDARDS

通常我們在為業(yè)務(wù)提供解決方案的時候,部署平臺會有四種選擇CPU、GPU、FPGA、ASIC。那有什么標(biāo)準(zhǔn)來評判計算平臺的優(yōu)劣呢?

當(dāng)今理想的協(xié)處理器應(yīng)該是基于硬件的設(shè)計,具備三種基本能力。第一是設(shè)計能夠提供專門的硬件加速實現(xiàn)各種應(yīng)用中需要的關(guān)鍵處理功能。其次是協(xié)處理器設(shè)計在性能上非常靈活,使用流水線和并行結(jié)構(gòu),跟上算法更新以及性能的需求變化。最后,協(xié)處理器能夠為主處理器和系統(tǒng)存儲器提供寬帶、低延遲接口

除了硬件要求以外,理想的協(xié)處理器還應(yīng)該滿足HPC市場的“4P”要求:性能(performance)、效能(productivity)、功耗(power)和價格(price)。

HPC市場對性能的最低要求是全面加速實現(xiàn)算法,而不僅僅是某一步驟,并能夠加速實現(xiàn)整個應(yīng)用軟件。

效能需求來自最終用戶。在現(xiàn)有的計算機系統(tǒng)中,協(xié)處理器必須安裝起來很方便,提供簡單的方法來配置系統(tǒng),加速實現(xiàn)現(xiàn)有的應(yīng)用軟件。

HPC市場的功耗需求來自計算系統(tǒng)安裝和使用上的功耗限制。對于大部分用戶,能夠提供給計算機的空間有限。計算系統(tǒng)的功耗越小,那么可以采取更少的散熱措施來保持計算機不會過熱。因此,低功耗協(xié)處理器不但能夠為計算系統(tǒng)提供更低的運轉(zhuǎn)成本,而且還提高了計算系統(tǒng)的空間利用率。

價格因素在HPC市場上顯得越來越重要。十幾年前,某些應(yīng)用軟件對性能的需求超出了單個處理器能力范圍,這促使人們采用專用體系結(jié)構(gòu),例如密集并行處理(MPP)和對稱多處理(SMP)等。然而,這類系統(tǒng)要求使用定制處理器單元和專用數(shù)據(jù)通路,開發(fā)和編程都非常昂貴。

現(xiàn)在的HPC市場拋棄了如此昂貴的方法,而是采用性價比更高的集群計算方法。集群計算采用商用標(biāo)準(zhǔn)體系結(jié)構(gòu),例如IntelAMD;采用工業(yè)標(biāo)準(zhǔn)互聯(lián),例如萬兆以太網(wǎng)和InfiniBand;采用標(biāo)準(zhǔn)程序語言,例如運行在低成本Linux操作系統(tǒng)上的C語言等。當(dāng)今的協(xié)處理器設(shè)計必須能夠平滑集成到商用集群計算環(huán)境中,其成本和在集群中加入另一個節(jié)點大致相當(dāng)。

了解了基本的評判標(biāo)準(zhǔn)之后,我們以當(dāng)今最火的深度學(xué)習(xí)為例,從芯片架構(gòu)、計算性能、功耗、開發(fā)難度幾個方面來對幾種不同的芯片進行分析對比。

?3. 異構(gòu)計算:WHICH

3.1芯片特性

對常用的處理器芯片進行分類,有一個明顯的特點:CPU&GPU需要軟件支持,而FPGA&ASIC則是軟硬件一體的架構(gòu),軟件就是硬件。這個特點是處理器芯片中最重要的一個特征。

圖2 處理器芯片對比

圖2可以從兩個角度來說明:從ASIC->CPU的方向,沿著這個方向芯片的易用性越來越強,CPU&GPU的編程需要編譯系統(tǒng)的支持,編譯系統(tǒng)的作用是把高級軟件語言翻譯成機器可以識別的指令(也叫機器語言)。高級語言帶來了極大的便利性和易用性,因此用CPU&GPU實現(xiàn)同等功能的軟件開發(fā)周期要遠低于FPGA&ASIC芯片。

沿著CPU->ASIC的方向,芯片中晶體管的效率越來越高。因為FPGA&ASIC等芯片實現(xiàn)的算法直接用晶體管門電路實現(xiàn),比起指令系統(tǒng),算法直接建筑在物理結(jié)構(gòu)之上,沒有中間層次,因此晶體管的效率最高。

本質(zhì)上軟件的操作對象是指令,而CPU&GPU則扮演高速執(zhí)行指令的角色。指令的存在將程序執(zhí)行變成了軟件和硬件兩部分,指令的存在也決定了各種處理器芯片的一些完全不同的特點以及各自的優(yōu)劣勢。

FPGA&ASIC等芯片的功能是固定的,它們實現(xiàn)的算法直接用門電路實現(xiàn),因此FPGA&ASIC編程就是用門電路實現(xiàn)算法的過程,軟件完成意味著門電路的組織形式已經(jīng)確定了,從這個意義上,F(xiàn)PGA&ASIC的軟件就是硬件,軟件就決定了硬件的組織形式。軟硬件一體化的特點決定了FPGA&ASIC設(shè)計中極端重要的資源利用率特征。利用率指用門電路實現(xiàn)算法的過程中,算法對處理器芯片所擁有的門電路資源的占用情況。如果算法比較龐大,可能出現(xiàn)門電路資源不夠用或者雖然電路資源夠用,但實際布線困難無法進行的情況。

存在指令系統(tǒng)的處理器芯片CPU&GPU不存在利用率的情況。它們執(zhí)行指令的過程是不斷從存儲器讀入指令,然后由執(zhí)行器執(zhí)行。由于存儲器相對于每條指令所占用的空間幾乎是無限的,即使算法再龐大也不存在存儲器空間不夠,無法把算法讀入的情況。而且計算機系統(tǒng)還可以外掛硬盤等擴展存儲,通過把暫時不執(zhí)行的算法切換到硬盤保存更增加了指令存儲的空間。

3.2芯片計算性能

深度學(xué)習(xí)的學(xué)名又叫深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks),是從人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)模型發(fā)展而來。我們以深度學(xué)習(xí)作為切入點來分析各個芯片的性能。圖3是神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),模型中每一層的大量計算是上一層的輸出結(jié)果和其對應(yīng)的權(quán)重值這兩個矩陣的乘法運算。

圖3 神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

橫向?qū)Ρ菴PU,GPU,F(xiàn)PGA,ASIC計算能力,實際對比的是:

1.硬件芯片的乘加計算能力。

2.為什么有這樣乘加計算能力?

3.是否可以充分發(fā)揮硬件芯片的乘加計算能力?

帶著這三個問題,我們進行硬件芯片的計算能力對比。

3.2.1 CPU計算能力分析

這里CPU計算能力用Intel的Haswell架構(gòu)進行分析,Haswell架構(gòu)上計算單元有2個FMA(fused multiply-add),每個FMA可以對256bit數(shù)據(jù)在一個時鐘周期中做一次乘運算和一次加運算,所以對應(yīng)32bit單精度浮點計算能力為:(256bit/32bit) * 2(FMA) * 2(乘和加) = 32 SP FLOPs/cycle,即每個時鐘周期可以做32個單精度浮點計算。

CPU峰值浮點計算性能= CPU核數(shù)* CPU頻率*每周期執(zhí)行的浮點操作數(shù)。已Intel的CPU型號E5-2620V3來計算峰值計算能力為= 6(CPU核數(shù)) * 2.4GHz(CPU頻率) * 32 SP FLOPs/cycle = 460.8 GFLOPs/s即每秒460G峰值浮點計算能力。

CPU芯片結(jié)構(gòu)是否可以充分發(fā)揮浮點計算能力?CPU的指令執(zhí)行過程是:取指令->指令譯碼->指令執(zhí)行,只有在指令執(zhí)行的時候,計算單元才發(fā)揮作用,這樣取指令和指令譯碼的兩段時間,計算單元是不在工作的,如圖4所示。

圖4 CPU指令執(zhí)行流程

CPU為了提高指令執(zhí)行的效率,在當(dāng)前指令執(zhí)行過程的時候,預(yù)先讀取后面幾條指令,使得指令流水處理,提高指令執(zhí)行效率,如圖5所示。指令預(yù)先讀取并流水執(zhí)行的前提是指令之間不具有相關(guān)性,不能一個指令的如何執(zhí)行需要等到前面一個指令執(zhí)行完的結(jié)果才可以獲知。

圖5 CPU指令流水執(zhí)行

CPU作為通用處理器,兼顧計算和控制,70%晶體管用來構(gòu)建Cache還有一部分控制單元,用來處理復(fù)雜邏輯和提高指令的執(zhí)行效率,如圖6所示,所以導(dǎo)致計算通用性強,可以處理計算復(fù)雜度高,但計算性能一般。

圖6 CPU結(jié)構(gòu)

通過CPU計算性能分析,直接提高計算性能方向為:增加CPU核數(shù)、提高CPU頻率、修改CPU架構(gòu)增加計算單元FMA(fused multiply-add)個數(shù)。這3個方向中,直接增加CPU核數(shù)對于計算能力提升最高,但是帶來芯片功耗和價格的增加,因為每個物理核中只有30%的晶體管是計算單元。

提高CPU頻率,提升的空間有限,而且CPU頻率太高會導(dǎo)致芯片出現(xiàn)功耗過大和過熱的問題,因此英特爾等芯片制造商目前走多核化的路線,即限制單個微處理器的主頻,通過集成多個處理器內(nèi)核來提高處理性能。修改CPU架構(gòu)增加計算單元FMA個數(shù),目前英特爾按照“Tick-Tock”二年一個周期進行CPU架構(gòu)調(diào)整,從2016年開始放緩至三年,更新迭代周期較長。

3.2.2 GPU計算能力分析

GPU主要擅長做類似圖像處理的并行計算,所謂的“粗粒度并行(coarse-grain parallelism)”。圖形處理計算的特征表現(xiàn)為高密度的計算而計算需要的數(shù)據(jù)之間較少存在相關(guān)性,GPU提供大量的計算單元(多達幾千個計算單元)和大量的高速內(nèi)存,可以同時對很多像素進行并行處理。

圖7是GPU的設(shè)計結(jié)構(gòu)。GPU的設(shè)計出發(fā)點在于GPU更適用于計算強度高、多并行的計算。因此,GPU把晶體管更多用于計算單元,而不像CPU用于數(shù)據(jù)Cache和流程控制器。這樣的設(shè)計是因為并行計算時每個數(shù)據(jù)單元執(zhí)行相同程序,不需要繁瑣的流程控制而更需要高計算能力,因此也不需要大的cache容量。

圖7 GPU結(jié)構(gòu)

GPU中一個邏輯控制單元對應(yīng)多個計算單元,同時要想計算單元充分并行起來,邏輯控制必然不會太復(fù)雜,太復(fù)雜的邏輯控制無法發(fā)揮計算單元的并行度,例如過多的if…else if…else if…分支計算就無法提高計算單元的并行度,所以在GPU中邏輯控制單元也就不需要能夠快速處理復(fù)雜控制。

這里GPU計算能力用Nvidia的Tesla K40進行分析,K40包含2880個流處理器(Stream Processor),流處理器就是GPU的計算單元。每個流處理器包含一個32bit單精度浮點乘和加單元,即每個時鐘周期可以做2個單精度浮點計算。GPU峰值浮點計算性能=流處理器個數(shù)* GPU頻率*每周期執(zhí)行的浮點操作數(shù)。以K40為例,K40峰值浮點計算性能= 2880(流處理器) * 745MHz * 2(乘和加) = 4.29T FLOPs/s即每秒4.29T峰值浮點計算能力。

GPU芯片結(jié)構(gòu)是否可以充分發(fā)揮浮點計算能力?GPU同CPU一樣也是指令執(zhí)行過程:取指令->指令譯碼->指令執(zhí)行,只有在指令執(zhí)行的時候,計算單元才發(fā)揮作用。GPU的邏輯控制單元相比CPU簡單,所以要想做到指令流水處理,提高指令執(zhí)行效率,必然要求處理的算法本身復(fù)雜度低,處理的數(shù)據(jù)之間相互獨立,所以算法本身的串行處理會導(dǎo)致GPU浮點計算能力的顯著降低。

3.2.3 FPGA計算能力分析

FPGA作為一種高性能、低功耗的可編程芯片,可以根據(jù)客戶定制來做針對性的算法設(shè)計。所以在處理海量數(shù)據(jù)的時候,F(xiàn)PGA相比于CPU和GPU,優(yōu)勢在于:FPGA計算效率更高,F(xiàn)PGA更接近IO。

FPGA不采用指令和軟件,是軟硬件合一的器件。對FPGA進行編程要使用硬件描述語言,硬件描述語言描述的邏輯可以直接被編譯為晶體管電路的組合。所以FPGA實際上直接用晶體管電路實現(xiàn)用戶的算法,沒有通過指令系統(tǒng)的翻譯。

FPGA的英文縮寫名翻譯過來,全稱是現(xiàn)場可編程邏輯門陣列,這個名稱已經(jīng)揭示了FPGA的功能,它就是一堆邏輯門電路的組合,可以編程,還可以重復(fù)編程。圖8展示了可編程FPGA的內(nèi)部原理圖。

圖8 FPGA內(nèi)部結(jié)構(gòu)圖

這里FPGA計算能力用Xilinx的V7-690T進行分析,V7-690T包含3600個DSP(Digital Signal Processing),DSP就是FPGA的計算單元。每個DSP可以在每個時鐘周期可以做2個單精度浮點計算(乘和加)。FPGA峰值浮點計算性能= DSP個數(shù)* FPGA頻率*每周期執(zhí)行的浮點操作數(shù)。V7-690T運行頻率已250MHz來計算,V7-690T峰值浮點計算性能= 3600(DSP個數(shù)) * 250MHz * 2(乘和加)=1.8T FLOPs/s即每秒1.8T峰值浮點計算能力。

FPGA芯片結(jié)構(gòu)是否可以充分發(fā)揮浮點計算能力?FPGA由于算法是定制的,所以沒有CPU和GPU的取指令和指令譯碼過程,數(shù)據(jù)流直接根據(jù)定制的算法進行固定操作,計算單元在每個時鐘周期上都可以執(zhí)行,所以可以充分發(fā)揮浮點計算能力,計算效率高于CPU和GPU。

3.2.4 ASIC計算能力分析

ASIC是一種專用芯片,與傳統(tǒng)的通用芯片有一定的差異。是為了某種特定的需求而專門定制的芯片。ASIC芯片的計算能力和計算效率都可以根據(jù)算法需要進行定制,所以ASIC與通用芯片相比,具有以下幾個方面的優(yōu)越性:體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低。但是缺點也很明顯:算法是固定的,一旦算法變化就可能無法使用。

目前人工智能屬于大爆發(fā)時期,大量的算法不斷涌出,遠沒有到算法平穩(wěn)期,ASIC專用芯片如何做到適應(yīng)各種算法是個最大的問題,如果以目前CPU和GPU架構(gòu)來適應(yīng)各種算法,那ASIC專用芯片就變成了同CPU、GPU一樣的通用芯片,在性能和功耗上就沒有優(yōu)勢了。

我們來看看FPGA和ASIC的區(qū)別。FPGA基本原理是在芯片內(nèi)集成大量的數(shù)字電路基本門電路以及存儲器,而用戶可以通過燒入FPGA配置文件來來定義這些門電路以及存儲器之間的連線。這種燒入不是一次性的,即用戶今天可以把FPGA配置成一個微控制器MCU,明天可以編輯配置文件把同一個FPGA配置成一個音頻編解碼器。ASIC則是專用集成電路,一旦設(shè)計制造完成后電路就固定了,無法再改變。

比較FPGA和ASIC就像比較樂高積木和模型。舉例來說,如果你發(fā)現(xiàn)最近星球大戰(zhàn)里面Yoda大師很火,想要做一個Yoda大師的玩具賣,你要怎么辦呢?

有兩種辦法,一種是用樂高積木搭,還有一種是找工廠開模定制。用樂高積木搭的話,只要設(shè)計完玩具外形后去買一套樂高積木即可。而找工廠開模的話在設(shè)計完玩具外形外你還需要做很多事情,比如玩具的材質(zhì)是否會散發(fā)氣味,玩具在高溫下是否會融化等等,所以用樂高積木來做玩具需要的前期工作比起找工廠開模制作來說要少得多,從設(shè)計完成到能夠上市所需要的時間用樂高也要快很多。

FPGA和ASIC也是一樣,使用FPGA只要寫完Verilog代碼就可以用FPGA廠商提供的工具實現(xiàn)硬件加速器了,而要設(shè)計ASIC則還需要做很多驗證和物理設(shè)計(ESD,Package等等),需要更多的時間。如果要針對特殊場合(如軍事和工業(yè)等對于可靠性要求很高的應(yīng)用),ASIC則需要更多時間進行特別設(shè)計以滿足需求,但是用FPGA的話可以直接買軍工級的高穩(wěn)定性FPGA完全不影響開發(fā)時間。但是,雖然設(shè)計時間比較短,但是樂高積木做出來的玩具比起工廠定制的玩具要粗糙(性能差)一些(下圖),畢竟工廠開模是量身定制。

另外,如果出貨量大的話,工廠大規(guī)模生產(chǎn)玩具的成本會比用樂高積木做便宜許多。FPGA和ASIC也是如此,在同一時間點上用最好的工藝實現(xiàn)的ASIC的加速器的速度會比用同樣工藝FPGA做的加速器速度快5-10倍,而且一旦量產(chǎn)后ASIC的成本會遠遠低于FPGA方案。

FPGA上市速度快, ASIC上市速度慢,需要大量時間開發(fā),而且一次性成本(光刻掩模制作成本)遠高于FPGA,但是性能高于FPGA且量產(chǎn)后平均成本低于FPGA。目標(biāo)市場方面,F(xiàn)PGA成本較高,所以適合對價格不是很敏感的地方,比如企業(yè)應(yīng)用,軍事和工業(yè)電子等等(在這些領(lǐng)域可重配置真的需要)。而ASIC由于低成本則適合消費電子類應(yīng)用,而且在消費電子中可配置是否是一個偽需求還有待商榷。

我們看到的市場現(xiàn)狀也是如此:使用FPGA做深度學(xué)習(xí)加速的多是企業(yè)用戶,百度、微軟、IBM等公司都有專門做FPGA的團隊為服務(wù)器加速,而做FPGA方案的初創(chuàng)公司Teradeep的目標(biāo)市場也是服務(wù)器。而ASIC則主要瞄準(zhǔn)消費電子,如Movidius。由于移動終端屬于消費電子領(lǐng)域,所以未來使用的方案應(yīng)當(dāng)是以ASIC為主。

3.3平臺性能和功耗比較

由于不同的芯片生產(chǎn)工藝,對芯片的功耗和性能都有影響,這里用相同工藝或者接近工藝下進行對比,ASIC芯片還沒有商用的芯片出現(xiàn),Google的TPU也只是自己使用沒有對外提供信息,這里ASIC芯片用在學(xué)術(shù)論文發(fā)表的《DianNao: A Small-Footprint High-Throughput Acceleratorfor Ubiquitous Machine-Learning》作為代表。

平臺

架構(gòu)區(qū)別

芯片工藝

最高性能器件

單精度浮點峰值運算能力

功耗

能耗比

CPU

70%晶體管用來構(gòu)建Cache,還有一部分控制單元,計算單元少,適合運算復(fù)雜,邏輯復(fù)雜。

22nm

E5-2699 V3

1.33TFLOPS

145W

9 GFLOPS/W

GPU

晶體管大部分構(gòu)建計算單元,運算復(fù)雜度低,適合大規(guī)模并行計算。

28nm

Tesla K80

8.74TFLOPS

300W

29 GFLOPS/W

FPGA

可編程邏輯,計算效率高,更接近底層IO,通過冗余晶體管和連線實現(xiàn)邏輯可編程。

28nm

Virtex7-690T

1.8 TFLOPS

30W

60GFLOPS/W

ASIC

晶體管根據(jù)算法定制,不會有冗余,功耗低、計算性能高、計算效率高。

65nm

DianNao

452GOPS

485mW

932 GFLOPS/W

從上面的對比來看,能耗比方面:ASIC > FPGA > GPU > CPU,產(chǎn)生這樣結(jié)果的根本原因:對于計算密集型算法,數(shù)據(jù)的搬移和運算效率越高的能耗比就越高。ASIC和FPGA都是更接近底層IO,所以計算效率高和數(shù)據(jù)搬移高,但是FPGA有冗余晶體管和連線,運行頻率低,所以沒有ASIC能耗比高。

GPU和CPU都是屬于通用處理器,都需要進行取指令、指令譯碼、指令執(zhí)行的過程,通過這種方式屏蔽了底層IO的處理,使得軟硬件解耦,但帶來數(shù)據(jù)的搬移和運算無法達到更高效率,所以沒有ASIC、FPGA能耗比高。GPU和CPU之間的能耗比的差距,主要在于CPU中晶體管有大部分用在cache和控制邏輯單元,所以CPU相比GPU來說,對于計算密集同時計算復(fù)雜度低的算法,有冗余的晶體管無法發(fā)揮作用,能耗比上CPU低于GPU。

? 4 . 總結(jié)與展望

處理器芯片各自長期發(fā)展的過程中,形成了一些使用和市場上鮮明的特點。CPU&GPU領(lǐng)域存在大量的開源軟件和應(yīng)用軟件,任何新的技術(shù)首先會用CPU實現(xiàn)算法,因此CPU編程的資源豐富而且容易獲得,開發(fā)成本低而開發(fā)周期短。

FPGA的實現(xiàn)采用Verilog/VHDL等底層硬件描述語言實現(xiàn),需要開發(fā)者對FPGA的芯片特性有較為深入的了解,但其高并行性的特性往往可以使業(yè)務(wù)性能得到量級的提升;同時FPGA是動態(tài)可重配的,當(dāng)在數(shù)據(jù)中心部署之后,可以根據(jù)業(yè)務(wù)形態(tài)來配置不同的邏輯實現(xiàn)不同的硬件加速功能;舉例來講,當(dāng)前服務(wù)器上的FPGA板卡部署的是圖片壓縮邏輯,服務(wù)于QQ業(yè)務(wù);而此時廣告實時預(yù)估需要擴容獲得更多的FPGA計算資源,通過簡單的FPGA重配流程,F(xiàn)PGA板卡即可以變身成“新”硬件來服務(wù)廣告實時預(yù)估,非常適合批量部署。

ASIC芯片可以獲得最優(yōu)的性能,即面積利用率高、速度快、功耗低;但是AISC開發(fā)風(fēng)險極大,需要有足夠大的市場來保證成本價格,而且從研發(fā)到市場的時間周期很長,不適合例如深度學(xué)習(xí)CNN等算法正在快速迭代的領(lǐng)域。

講了這么多,當(dāng)遇到業(yè)務(wù)瓶頸的需要異構(gòu)計算芯片的時候,你是否能夠根據(jù)業(yè)務(wù)特性和芯片特性選擇出合適的芯片呢?


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:FPGA異構(gòu)計算芯片的特點

文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    異構(gòu)計算的前世今生

    異構(gòu)計算已經(jīng)成了半導(dǎo)體業(yè)界不得不思考的一個話題,傳統(tǒng)通用計算的性能捉襟見肘,過去承諾的每隔一段時間芯片性能翻倍的豪言壯語已經(jīng)沒有人再提了。如今我們用到的手機中,各種除CPU以外的計算
    的頭像 發(fā)表于 12-17 09:35 ?4193次閱讀

    【產(chǎn)品活動】阿里云GPU云服務(wù)器年付5折!阿里云異構(gòu)計算助推行業(yè)發(fā)展!

    ,本周將會推出針對異構(gòu)計算GPU實例GN5年付5折的優(yōu)惠活動,希望能夠打造良好的AI生態(tài)環(huán)境,幫助更多的人工智能企業(yè)以及項目順利上云。隨著深度學(xué)習(xí)對人工智能的巨大推動,深度學(xué)習(xí)所構(gòu)建的多層神經(jīng)網(wǎng)絡(luò)模型
    發(fā)表于 12-26 11:22

    「深圳云棲大會」大數(shù)據(jù)時代以及人工智能推動下的阿里云異構(gòu)計算

    的發(fā)展。無論是在產(chǎn)品形態(tài)上,還是在應(yīng)用領(lǐng)域上,阿里云異構(gòu)計算都取得了累累碩果。3月29日上午,深圳云棲大會,阿里云高級產(chǎn)品專家潘岳,針對這種時代下的阿里云異構(gòu)計算做了一場深度的剖析。在現(xiàn)場潘岳介紹到,阿里
    發(fā)表于 04-04 13:44

    異構(gòu)計算在人工智能什么作用?

    能力的需求。因此,具有GPU、ASIC、 FPGA 或其它加速器(Accelerator)等高并行、高密集的計算能力的異構(gòu)計算持續(xù)火熱,而異構(gòu)計算也將成為支撐先進和以后更復(fù)雜AI 應(yīng)用
    發(fā)表于 08-07 08:39

    什么是異構(gòu)并行計算

    、GPU、DSP、ASIC、FPGA等。異構(gòu)計算用簡單的公式可以表示為“CPU+XXX”。舉例來說,AMD著力發(fā)展的APU就屬于異構(gòu)計算,用公式表示就是CPU+GPU。由于術(shù)業(yè)有專攻,CPU、GPU、DS...
    發(fā)表于 07-19 08:27

    異構(gòu)計算的前世今生

    異構(gòu)計算已經(jīng)成了半導(dǎo)體業(yè)界不得不思考的一個話題,傳統(tǒng)通用計算的性能捉襟見肘,過去承諾的每隔一段時間芯片性能翻倍的豪言壯語已經(jīng)沒有人再提了。如今我們用到的手機中,各種除CPU以外的計算
    發(fā)表于 12-26 08:00

    異構(gòu)計算場景下構(gòu)建可信執(zhí)行環(huán)境

    )的杰出講師。 文章內(nèi)容來源 第一屆開放原子開源基金會OpenHarmony技術(shù)峰會——安全及機密計算分論壇 正 文 內(nèi) 容 異構(gòu),即將CPU、DSP、GPU、ASIC、FPGA等不同
    發(fā)表于 08-15 17:35

    異構(gòu)計算芯片的機遇與挑戰(zhàn)

    異構(gòu)計算的機遇與挑戰(zhàn) 異構(gòu)計算是指不同類型的指令集和體系架構(gòu)的計算單元組成的系統(tǒng)的計算方式,目前 CPU+GPU以及CPU+FPGA 都是最
    發(fā)表于 09-27 10:22 ?26次下載

    FPGA異構(gòu)計算現(xiàn)狀及優(yōu)化

    。 WHEN?深度學(xué)習(xí)異構(gòu)計算現(xiàn)狀 隨著互聯(lián)網(wǎng)用戶的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的需求也在迅猛上漲。同時,人工智能、高性能數(shù)據(jù)分析和金融分析等計算密集型領(lǐng)域的興起,對
    發(fā)表于 11-15 11:44 ?8385次閱讀
    <b class='flag-5'>FPGA</b><b class='flag-5'>異構(gòu)計算</b>現(xiàn)狀及優(yōu)化

    基于FPGA異構(gòu)計算是趨勢

    目前處于AI大爆發(fā)時期,異構(gòu)計算的選擇主要在FPGA和GPU之間。盡管目前異構(gòu)計算使用最多的是利用GPU來加速,FPGA作為一種高性能、低功耗的可編程
    的頭像 發(fā)表于 04-25 09:17 ?1.1w次閱讀

    異構(gòu)計算的兩大派別 為什么需要異構(gòu)計算?

    20世紀(jì)80年代,異構(gòu)計算技術(shù)就已經(jīng)誕生了。所謂的異構(gòu),就是CPU、DSP、GPU、ASIC、協(xié)處理器、FPGA等各種計算單元、使用不同的類型指令集、不同的體系架構(gòu)的
    發(fā)表于 04-28 11:41 ?2.3w次閱讀

    異構(gòu)計算:架構(gòu)與技術(shù)

    了解其中的原因十分重要。異構(gòu)計算既是計算技術(shù)也是硬件架構(gòu)。為了獲得更多好處,您最好從頭開始,利用異構(gòu)計算架構(gòu)硬件和便于執(zhí)行異構(gòu)計算的軟件棧。它結(jié)合了專門構(gòu)建的硬件和軟件棧,可以在更大的
    發(fā)表于 09-18 19:18 ?807次閱讀

    異構(gòu)計算,你準(zhǔn)備好了么?

    摩爾定律失靈了,已是不爭的事實。單純的提升一種芯片性能變的代價越來越高,與此同時,異構(gòu)計算成為提高計算力的主流方向。 什么是異構(gòu)計算異構(gòu)計算
    發(fā)表于 09-25 17:27 ?429次閱讀

    異構(gòu)計算真就完美無缺嗎

    異構(gòu)計算已經(jīng)成了半導(dǎo)體業(yè)界不得不思考的一個話題,傳統(tǒng)通用計算的性能捉襟見肘,過去承諾的每隔一段時間芯片性能翻倍的豪言壯語已經(jīng)沒有人再提了。如今我們用到的手機中,各種除CPU以外的計算
    的頭像 發(fā)表于 12-21 09:25 ?1830次閱讀

    新一代計算架構(gòu)超異構(gòu)計算技術(shù)是什么 異構(gòu)走向超異構(gòu)案例分析

    異構(gòu)計算架構(gòu)是一種將不同類型和規(guī)模的硬件資源,包括CPU、GPU、FPGA等,進行異構(gòu)集成的方法。它通過獨特的軟件和硬件協(xié)同設(shè)計,實現(xiàn)了計算資源的靈活調(diào)度和優(yōu)化利用,從而大大提高了
    發(fā)表于 08-23 09:57 ?737次閱讀
    新一代<b class='flag-5'>計算</b>架構(gòu)超<b class='flag-5'>異構(gòu)計算技術(shù)</b>是什么 <b class='flag-5'>異構(gòu)</b>走向超<b class='flag-5'>異構(gòu)</b>案例分析