0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

賽靈思發(fā)布自適應(yīng)計(jì)算加速平臺(tái)芯片系列Versal

cMdW_icsmart ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-10-22 16:52 ? 次閱讀

2018年10月16日,FPGA大廠(chǎng)賽靈思(Xilinx)在北京召開(kāi)了一年一度的“Xilinx開(kāi)發(fā)者大會(huì) ”(XDF) 。在本次會(huì)議上,賽靈思發(fā)布了全球首款自適應(yīng)計(jì)算加速平臺(tái) (Adaptive Compute Acceleration Platform ,ACAP)芯片系列Versal。與此同時(shí),賽靈思還針對(duì)云端和本地?cái)?shù)據(jù)中心市場(chǎng)還發(fā)布了一款功能強(qiáng)大的加速器卡——Alveo。至此,賽靈思的轉(zhuǎn)型大幕正式開(kāi)啟,而人工智能則是賽靈思轉(zhuǎn)型的最大推力。

AI推斷需求暴漲,推動(dòng)FPGA市場(chǎng)加速增長(zhǎng)

目前,人工智能可謂是非常的火爆。而數(shù)據(jù)的爆發(fā)式增長(zhǎng),人工智能算法的不斷完善以及芯片算力的快速增長(zhǎng),則是推動(dòng)人工智能應(yīng)用爆發(fā)的三大關(guān)鍵因素。

隨著人工智能計(jì)算的快速發(fā)展,自去年以來(lái)更是出現(xiàn)了一股AI芯片的熱潮。由于傳統(tǒng)的CPU、GPU已經(jīng)開(kāi)始難以滿(mǎn)足越來(lái)越多的新的需求,并且在AI計(jì)算能效上也開(kāi)始處于劣勢(shì)。在此形勢(shì)之下,半定制的FPGA和定制型的ASIC開(kāi)始迎來(lái)了高速的發(fā)展。

雖然ASIC芯片的計(jì)算能力和計(jì)算效率都直接根據(jù)特定的算法的需要進(jìn)行定制的,可以實(shí)現(xiàn)體積小、功耗低、計(jì)算性能高、計(jì)算效率高等優(yōu)勢(shì),但是人工智能仍在快速發(fā)展,每天都會(huì)有不少新的算法/模型出現(xiàn),很多領(lǐng)域都還沒(méi)有一個(gè)標(biāo)準(zhǔn)的算法。

而ASIC芯片則是針對(duì)特定算法的需要進(jìn)行設(shè)計(jì)的,設(shè)計(jì)一旦完成就無(wú)法修改,通常一顆ASIC芯片從設(shè)計(jì)到量產(chǎn)一般都需要18-24個(gè)月的時(shí)間,這也意味著當(dāng)這款A(yù)SIC芯片量產(chǎn)之時(shí),可能就已經(jīng)落后于當(dāng)下算法發(fā)展的18-24個(gè)月的時(shí)間。相比之下,F(xiàn)PGA則沒(méi)有這個(gè)問(wèn)題。

另外,在市場(chǎng)需求變化越來(lái)越快速的當(dāng)下,客戶(hù)都希望產(chǎn)品能夠在快速創(chuàng)新的同時(shí),盡可能的實(shí)現(xiàn)快速上市。FPGA作為一種可編程的半定制芯片,其與GPU一樣具有并行處理優(yōu)勢(shì),并且也可以設(shè)計(jì)成具有多內(nèi)核的形態(tài),當(dāng)然其最大的優(yōu)勢(shì)還是在于其可以通過(guò)軟件編程的手段更改、配置器件內(nèi)部連接結(jié)構(gòu)和邏輯單元,完成既定設(shè)計(jì)功能的數(shù)字集成電路。這也意味著即使是出廠(chǎng)后的FPGA的邏輯塊和連接,開(kāi)發(fā)者若要適應(yīng)新的AI算法或者實(shí)現(xiàn)新的功能應(yīng)用,只需通過(guò)升級(jí)軟件就可重新配置這些芯片,可以更加快速的適應(yīng)市場(chǎng)的需求。

雖然GPU也可靈活的適應(yīng)各種AI算法,但是能效很低。而GPU雖然被廣泛的用于深度學(xué)習(xí)領(lǐng)域,但是需要指出的是,其主要被應(yīng)用在深度學(xué)習(xí)的訓(xùn)練環(huán)節(jié),在推理時(shí)對(duì)于小批量數(shù)據(jù),并行計(jì)算的優(yōu)勢(shì)不能發(fā)揮出來(lái)。但而FPGA同時(shí)擁有流水線(xiàn)并行和數(shù)據(jù)并行,因此處理推理任務(wù)時(shí)候可以時(shí)延更低。

根據(jù)賽靈思在會(huì)上公布的來(lái)自Barclays Reseach于今年5月公布的數(shù)據(jù)顯示,目前人工智能市場(chǎng)主要來(lái)自于“訓(xùn)練”的需求,不過(guò)自2019年開(kāi)始來(lái)自“推斷”(包括數(shù)據(jù)中心和邊緣端)的需求將會(huì)持續(xù)快速爆發(fā)式增長(zhǎng)。而“訓(xùn)練”的需求增長(zhǎng)將會(huì)逐漸放緩,并趨于停滯。到2021年來(lái)自“推斷”的市場(chǎng)規(guī)模將會(huì)首次超過(guò)“訓(xùn)練”,之后2023年將達(dá)到“訓(xùn)練”市場(chǎng)的三倍左右。

另外有數(shù)據(jù)顯示,未來(lái)至少95%的AI計(jì)算都是用于“推斷”,只有不到5%是用于模型“訓(xùn)練”。

賽靈思軟件及IP產(chǎn)品執(zhí)行副總裁Salil Raje

賽靈思軟件及IP產(chǎn)品執(zhí)行副總裁Salil Raje也指出:“今后AI模型必須應(yīng)用在云端和邊緣的模型上,所以未來(lái)的模式更多的是推斷,而不是訓(xùn)練。賽靈思關(guān)注的就是推斷?!?/p>

而“推斷”則是FPGA的優(yōu)勢(shì)。其可以在大幅提升推能效、降低功耗(韓國(guó)SK電訊的NUGU個(gè)人助理服務(wù)器原來(lái)采用的是GPU來(lái)進(jìn)行AI加速,在采用賽靈思的FPGA之后,實(shí)現(xiàn)了每瓦性能比原本的GPU方案提升了16倍)的同時(shí),還可降低精度損失,同時(shí)其還擁有出色的靈活性和低延時(shí)特性。不難想象,隨著AI“推斷”需求的快速增長(zhǎng),F(xiàn)PGA市場(chǎng)也有望迎來(lái)高速成長(zhǎng)。

賽靈思VR Ramine在會(huì)后接受專(zhuān)訪(fǎng)時(shí)也表示:“雖然GPU現(xiàn)在在深度學(xué)習(xí)訓(xùn)練這一塊應(yīng)用非常多,但是它的功耗很高,而且這個(gè)市場(chǎng)已經(jīng)處于比較飽和的狀態(tài)。而賽靈思并不是特別關(guān)注訓(xùn)練這個(gè)市場(chǎng),我們更多關(guān)注的是推斷這部分的市場(chǎng),這個(gè)市場(chǎng)仍然處于初期上升期,尤其在推斷在加速應(yīng)用這方面剛剛處于一個(gè)快速增長(zhǎng)的階段,特別是在數(shù)據(jù)中心和邊緣計(jì)算領(lǐng)域。在推斷這塊市場(chǎng),GPU用的并不多。雖然CPU有一定的市場(chǎng)份額,但是性能、能效和時(shí)延也并不好。所以為什么賽靈思在推斷這個(gè)領(lǐng)域,包括在智慧城市、自動(dòng)駕駛車(chē)領(lǐng)域已經(jīng)有了很多的客戶(hù)?!?/p>

而作為FPGA市場(chǎng)的老大(占據(jù)了近60%的市場(chǎng)份額),賽靈思也將成為最大的受益者。在AI異?;鸨漠?dāng)下,此次賽靈思的開(kāi)發(fā)者大會(huì)也是備受行業(yè)內(nèi)外的廣泛關(guān)注,會(huì)議現(xiàn)場(chǎng)更是人氣爆棚,近千人的會(huì)場(chǎng)是座無(wú)虛席。

超越FPGA,迎來(lái)全新物種ACAP

雖然FPGA擁有很多的優(yōu)勢(shì),但是不可否認(rèn)的是,F(xiàn)PGA的基本單元的計(jì)算能力是有限的。為了實(shí)現(xiàn)可重構(gòu)的特性,F(xiàn)PGA內(nèi)部有大量極細(xì)粒度的基本單元,但是每個(gè)單元的計(jì)算能力(主要依靠LUT查找表)都遠(yuǎn)遠(yuǎn)低于CPU和GPU中的ALU模塊。另外,在計(jì)算的效率和功耗上FPGA也要低于ASIC。

隨著越來(lái)越多的應(yīng)用趨向于既具高速處理又兼具靈活性的系統(tǒng),F(xiàn)PGA廠(chǎng)商為了彌補(bǔ)單純采用FPGA的缺陷,開(kāi)始推出整合了CPU/GPU/RF/FPGA的異構(gòu)SoC的融合性方案。

比如賽靈思此前就曾推出了多處理器SoC(MPSoC,在FPGA上整合了Arm的CPU內(nèi)核,還有Mali系列的GPU等)、RFSoC(將通信級(jí)RF采樣數(shù)據(jù)轉(zhuǎn)換器、SD-FEC內(nèi)核、Arm處理器以及 FPGA 架構(gòu)整合到單芯片器件中)。而為了能夠幫助更多的用戶(hù)和開(kāi)發(fā)者提供更為強(qiáng)大的計(jì)算平臺(tái),今年3月,賽靈思還發(fā)布了全新的超越FPGA功能的突破性新型產(chǎn)品——ACAP自適應(yīng)計(jì)算加速平臺(tái)。

賽靈思軟件及IP產(chǎn)品執(zhí)行副總裁Salil Raje表示:“賽靈思在過(guò)去三十年當(dāng)中一直引領(lǐng)FPGA行業(yè)的發(fā)展。FPGA是非常強(qiáng)大的,靈活度非常好,但是現(xiàn)在我們面臨著海量的數(shù)據(jù),摩爾定律已經(jīng)不再有效了,現(xiàn)在沒(méi)有任何一個(gè)單一的計(jì)算架構(gòu)能夠適應(yīng)如此海量的數(shù)據(jù)。我們需要進(jìn)入一個(gè)異構(gòu)計(jì)算的時(shí)代,需要各種各樣的計(jì)算架構(gòu)才能解決現(xiàn)在所面臨的挑戰(zhàn)。ACAP就是我們?yōu)榱私鉀Q這項(xiàng)挑戰(zhàn)所推出的具有顛覆性的創(chuàng)新型產(chǎn)品?!?/p>

據(jù)介紹,ACAP結(jié)合了分布式存儲(chǔ)器與硬件可編程的DSP 模塊、一個(gè)多核SoC 以及一個(gè)或多個(gè)軟件可編程且同時(shí)又具備硬件自適應(yīng)性的計(jì)算引擎,并全部通過(guò)片上網(wǎng)絡(luò)(NoC,Network on Chip)實(shí)現(xiàn)互連。

賽靈思在現(xiàn)場(chǎng)展示的112G高速收發(fā)器演示

ACAP還擁有高度集成的可編程I/O功能,根據(jù)不同的器件型號(hào)這些功能從集成式硬件可編程存儲(chǔ)器控制器,到先進(jìn)的SerDes收發(fā)器技術(shù)(最高可支持112Gbps),前沿的RF-ADC/DAC和集成式高帶寬存儲(chǔ)器(HBM)。

軟件開(kāi)發(fā)人員將能夠利用C/C++、OpenCL 和Python 等軟件工具應(yīng)用ACAP系統(tǒng)。同時(shí),ACAP也仍然能利用FPGA工具從RTL級(jí)進(jìn)行編程。

賽靈思總裁兼首席執(zhí)行官Victor Peng

賽靈思總裁兼CEOVictor Peng強(qiáng)調(diào):“ACAP是一個(gè)全新的產(chǎn)品類(lèi)別,它不是一個(gè)品牌的名稱(chēng),也不是FPGA。ACAP是可擴(kuò)展的一體化程度非常高的計(jì)算平臺(tái),它的硬件和軟件都是可編程的。也就是說(shuō),你可以用它來(lái)實(shí)現(xiàn)你想要的架構(gòu)來(lái)優(yōu)化網(wǎng)絡(luò)、優(yōu)化算法,優(yōu)化應(yīng)用。也可以在幾秒甚至幾毫秒內(nèi)改變這個(gè)架構(gòu),它能夠?qū)崿F(xiàn)非常低的延時(shí),非常高的通量,和原來(lái)產(chǎn)品類(lèi)別有很大差異。”

全球首款A(yù)CAP——Versal系列

在此次的賽靈思開(kāi)發(fā)者大會(huì)上,賽靈思正式發(fā)布了其歷時(shí)4年開(kāi)放出的全球首款自適應(yīng)計(jì)算加速平臺(tái)(ACAP)產(chǎn)品——Versal系列。其整合了標(biāo)量處理引擎、自適應(yīng)硬件引擎和智能引擎以及前沿的存儲(chǔ)器和接口技術(shù),能為所有的應(yīng)用提供強(qiáng)大的異構(gòu)加速功能。

賽靈思稱(chēng)Versal ACAP獨(dú)特架構(gòu)針對(duì)云端、網(wǎng)絡(luò)、無(wú)線(xiàn)通信乃至邊緣計(jì)算和端點(diǎn)等不同市場(chǎng)的眾多應(yīng)用提供了可擴(kuò)展性和 AI 推斷功能,將為所有的開(kāi)發(fā)者開(kāi)發(fā)任何應(yīng)用開(kāi)啟了一個(gè)快速創(chuàng)新的新時(shí)代。

具體來(lái)說(shuō),Versal系列產(chǎn)品均基于臺(tái)積電最新的7nmFinFET工藝,是第一個(gè)將軟件可編程性與特定領(lǐng)域硬件加速和靈活應(yīng)變能力相結(jié)合的平臺(tái)。該產(chǎn)品組合包括了6個(gè)系列的器件:基礎(chǔ)系列(Versal Prime),旗艦系列(Versal Premium旗艦)系列和HBM系列(能針對(duì)要求最嚴(yán)格的應(yīng)用提供業(yè)界領(lǐng)先的性能、連接性、帶寬和集成功能)。此外,該產(chǎn)品組合還包括AI核心系列(AI Core),AI邊緣系列( AI Edge) 和AI射頻系列(AI RF),Versal AI系列均采用了突破性的AI引擎。

據(jù)賽靈思介紹,ACAP的AI引擎是一種新型硬件模塊,專(zhuān)為解決各種應(yīng)用低時(shí)延 AI 推斷的新需求而設(shè)計(jì),同時(shí)支持高級(jí)DSP實(shí)現(xiàn)方案,滿(mǎn)足無(wú)線(xiàn)和雷達(dá)等應(yīng)用要求。它與Versal的自適應(yīng)硬件引擎緊密結(jié)合,支持整體應(yīng)用加速,也就是說(shuō)軟硬件都能調(diào)節(jié),從而確保最高性能和效率。

不過(guò),此次開(kāi)發(fā)者大會(huì)上,賽靈思只發(fā)布了Versal基礎(chǔ)系列和Versal AI核心系列,這兩款芯片有望在今年年底流片。而Versal旗艦系列和AI Edge將會(huì)在明年上半年發(fā)布;AI RF系列將會(huì)在明年下半年發(fā)布。至于Versal HBM系列可能要等到2021年下半年才會(huì)發(fā)布。

Versal AI核心系列

據(jù)賽靈思介紹,Versal AI核心系列可提供Versal AI系列當(dāng)中最高的計(jì)算性能和最低的時(shí)延,可實(shí)現(xiàn)突破性的 AI 推斷吞吐量和性能。該系列主要針對(duì)云端、網(wǎng)絡(luò)和自動(dòng)駕駛技術(shù)進(jìn)行了優(yōu)化(支持L4級(jí)別的自動(dòng)駕駛),可提供業(yè)界最廣泛的 AI 和工作負(fù)載加速功能。

Versal AI 核心系列有5款產(chǎn)品,可提供128到400個(gè)AI引擎。

該系列還包括雙核 Arm Cortex-A72 應(yīng)用處理器、雙核 Arm Cortex-R5 實(shí)時(shí)處理器、256KB片上ECC存儲(chǔ)器、超過(guò)1900個(gè)專(zhuān)為高精度低時(shí)延浮點(diǎn)運(yùn)算而優(yōu)化的 DSP引擎。

此外,它還包括 190 多萬(wàn)個(gè)系統(tǒng)邏輯單元以及超過(guò) 130Mb 的 UltraRAM、高達(dá) 34Mb 的塊 RAM 和 28Mb 分布式 RAM 和 32Mb 新加速器 RAM 塊,任何引擎都能直接訪(fǎng)問(wèn),這也是 Versal AI 系列的獨(dú)特之處,而且都能支持定制存儲(chǔ)器架構(gòu)。

該系列還包括 PCIe Gen4 8 信道和 16 信道以及 CCIX 主機(jī)接口、功耗優(yōu)化型 32G SerDes、多達(dá) 4 個(gè)集成型 DDR4 存儲(chǔ)器控制器、多達(dá) 4 個(gè)多速率以太網(wǎng) MAC、650 個(gè)高性能 I/O(用于 MIPI D-PHY)、NAND、存儲(chǔ)級(jí)內(nèi)存接口和 LVDS、78 個(gè)多路復(fù)用 I/O(連接外部組件)和超過(guò) 40 個(gè) HD I/O(3.3V 接口)。

以上所有器件均通過(guò)業(yè)界一流的片上網(wǎng)絡(luò) (NoC) 實(shí)現(xiàn)互聯(lián),具有多達(dá) 28 個(gè)主/從端口,以低時(shí)延提供每秒多 Tb 帶寬,而且提供高功率效率和原生軟件的可編程性。

Versal基礎(chǔ)系列

相對(duì)于Versal AI核心系列來(lái)說(shuō),Versal基礎(chǔ)系列最大的不同就是沒(méi)有了AI內(nèi)核,取而代之的則是更大面積的DSP,并針對(duì)各種工作負(fù)載的連接性和在線(xiàn)加速進(jìn)行了優(yōu)化。適用于多個(gè)市場(chǎng)的廣泛應(yīng)用。

Versal基礎(chǔ)系列包括 9 款產(chǎn)品,每款產(chǎn)品都采用雙核Arm Cortex-A72 應(yīng)用處理器、雙核 Arm Cortex-R5 實(shí)時(shí)處理器、256KB 片上存儲(chǔ)器(帶 ECC)、超過(guò) 4000 個(gè)專(zhuān)為低時(shí)延高精度浮點(diǎn)運(yùn)算優(yōu)化的 DSP 引擎。

此外,它還包括 200 多萬(wàn)個(gè)系統(tǒng)邏輯單元,結(jié)合 200Mb 以上 UltraRAM、超過(guò) 90Mb 的塊 RAM 以及 30Mb 分布式 RAM,能支持定制存儲(chǔ)器架構(gòu)。該系列還包括 PCIe?Gen4 8信道和 16 信道以及 CCIX 主機(jī)接口、功耗優(yōu)化型 32Gb 每秒的 SerDes 和主流 58Gb 每秒的 PAM4 SerDes、多達(dá) 6 個(gè)集成型 DDR4 存儲(chǔ)器控制器、多達(dá) 4 個(gè)多速率以太網(wǎng) MAC、700 個(gè)高性能 I/O(支持 MIPI D-PHY)、NAND、存儲(chǔ)級(jí)內(nèi)存接口和 LVDS、78 個(gè)多路復(fù)用 I/O(連接外部組件)和超過(guò) 40 個(gè) HD I/O(3.3V 接口)。

以上均通過(guò)業(yè)界一流的片上網(wǎng)絡(luò) (NoC) 實(shí)現(xiàn)互聯(lián),具有多達(dá) 28 個(gè)主/從端口,以低時(shí)延提供每秒多 Tb 帶寬,而且提供高功率效率和原生的軟件可編程性。

性能對(duì)比

從上面的介紹來(lái)看,作為目前賽靈思ACAP的首款產(chǎn)品Versal系列,其各項(xiàng)指標(biāo)和參數(shù)都很出色。那么其AI性能與目前主流的高端CPU和GPU相比又如何呢?

根據(jù)賽靈思公布的數(shù)據(jù)顯示,在時(shí)延不敏感的AI推斷上,基于GoogleNet-V1網(wǎng)絡(luò)模型測(cè)試,Versal的CNN性能是英特爾Xeon Platinum8124 CPU的43倍,是Nvidia V100 GPU的兩倍。

如果要將時(shí)延控制在7ms以?xún)?nèi),那么Versal系列的CNN性能優(yōu)勢(shì)將會(huì)進(jìn)一步提升,達(dá)到英特爾XeonPlatinum8124Skylake CPU的72倍,Nvidia V100 GPU的2.5倍。

如果將時(shí)延控制在更低的2ms之內(nèi),那么Versal系列的CNN性能將達(dá)到Nvidia V100 GPU的8倍。

以基于GoogleNet-V1網(wǎng)絡(luò)低于2ms時(shí)延的圖片識(shí)別測(cè)試下,Versal核心系列可以實(shí)現(xiàn)每秒22500張圖片的識(shí)別,相比Nvidia今年發(fā)布的TeslaT4 GPU的性能(每秒3500張)高出約6.5倍。

如果再加上賽靈思收購(gòu)的深鑒科技的“剪枝技術(shù)”的加持,Versal核心系列在2ms以?xún)?nèi)的低時(shí)延圖像識(shí)別上的性能可進(jìn)一步提升至每秒29250張,相比Nvidia TeslaT4 GPU的性能可高出8倍以上。

Versal工具和軟件

軟件開(kāi)發(fā)者、數(shù)據(jù)科學(xué)家和硬件開(kāi)發(fā)者均可通過(guò)C/C++、OpenCL 和Python 等軟件工具應(yīng)用對(duì)Versal ACAP的硬件和軟件進(jìn)行編程和優(yōu)化,同時(shí),ACAP也仍然能利用FPGA工具從RTL級(jí)進(jìn)行編程。開(kāi)發(fā)者用一個(gè)界面就可以接入和控制各種引擎。這都要?dú)w功于其符合業(yè)界標(biāo)準(zhǔn)設(shè)計(jì)流程的一系列工具、軟件、庫(kù)、IP、中間件和框架。

不過(guò),具體的軟件編程工具需要等到明年才會(huì)發(fā)布。

供貨情況

賽靈思目前正通過(guò)早期試用計(jì)劃與多家關(guān)鍵客戶(hù)合作。Versal基礎(chǔ)系列和Versal AI核心系列將于今年年底流片,預(yù)計(jì)2019年下半年上市。

加碼數(shù)據(jù)中心,Alveo速器卡發(fā)布

除了發(fā)布了全新的Versal系列之外,賽靈思此次還首次推出了針對(duì)數(shù)據(jù)中心設(shè)計(jì)的功能強(qiáng)大的加速器卡——Alveo。用戶(hù)在通過(guò)Alveo運(yùn)行實(shí)時(shí)機(jī)器學(xué)習(xí)推斷以及視頻處理、基因組學(xué)、數(shù)據(jù)分析等關(guān)鍵的數(shù)據(jù)中心應(yīng)用時(shí),有望以較低時(shí)延實(shí)現(xiàn)突破性的性能提升。

此次賽靈思發(fā)布了兩款A(yù)lveo加速卡:Alveo U200和AlveoU250。不過(guò)這兩款產(chǎn)品并不是采用Versal系列芯片,而是采用的是賽靈思UltraScale+FPGA方案。不過(guò),其與所有賽靈思技術(shù)一樣,客戶(hù)能對(duì)硬件進(jìn)行重配置,從而針對(duì)工作負(fù)載遷移、新標(biāo)準(zhǔn)和更新的算法進(jìn)行優(yōu)化,而且無(wú)需支付替代產(chǎn)品衍生的成本。

據(jù)賽靈思介紹稱(chēng),Alveo加速器卡針對(duì)各種類(lèi)型的應(yīng)用提供顯著的性能優(yōu)勢(shì)。就機(jī)器學(xué)習(xí)而言,在GoogLeNet V1網(wǎng)絡(luò)下,Alveo U250實(shí)時(shí)推斷吞吐量比英特爾Xeon Platinum Skylake CPU(c5.18xlarge 實(shí)例)高出20倍,相對(duì)于Nvidia V100 GPU等固定功能的加速器,能讓2ms以下的低時(shí)延應(yīng)用性能提升4倍以上。

此外,Alveo 加速器卡相對(duì)于 GPU 能將時(shí)延減少 3 倍,在運(yùn)行實(shí)時(shí)推斷應(yīng)用時(shí)提供顯著的性能優(yōu)勢(shì)。比如在CNN+BLSTM 語(yǔ)音轉(zhuǎn)文本應(yīng)用時(shí),可從根本上得到加速(Alveo U250 或 U200 +Intel Xeon CPU E5-2686 v4 的運(yùn)行速度是 Nvidia P4 + Xeon CPU E5-2690v4 的 4 倍);數(shù)據(jù)庫(kù)搜索等一些應(yīng)用可從根本上得到加速,性能比CPU(EC2 C4.8xlarge 實(shí)例)高90倍以上。

“Alveo加速器卡第一是速度快;第二是架構(gòu)和算法靈活多變;第三是容易訪(fǎng)問(wèn)、易于使用?!睂?duì)于Alveo加速器卡的特點(diǎn)Victor Peng總結(jié)到。

據(jù)賽靈思介紹,Alveo已經(jīng)得到了合作伙伴和 OEM 廠(chǎng)商生態(tài)系統(tǒng)的支持,OEM 廠(chǎng)商開(kāi)發(fā)和認(rèn)證的關(guān)鍵應(yīng)用涵蓋 AI/ML、視頻轉(zhuǎn)碼、數(shù)據(jù)分析、金融風(fēng)險(xiǎn)建模、安全和基因組學(xué)等。Algo-Logic Systems Inc、Bigstream、BlackLynx Inc.、CTAccel、Falcon Computing、Maxeler Technologies、Mipsology、NGCodec、Skreens、SumUp Analytics、Titan IC、Vitesse Data、VYUsync 和 Xelera Technologies等14家生態(tài)系統(tǒng)合作伙伴開(kāi)發(fā)完成的應(yīng)用可立即投入部署。此外,頂級(jí) OEM 廠(chǎng)商也在同賽靈思合作,認(rèn)證采用 Alveo 加速器卡的多個(gè)服務(wù)器 SKU,包括 Dell EMC、Fujitsu Limited 和 IBM 等,此外還有 OEM 廠(chǎng)商會(huì)加入進(jìn)來(lái)。

賽靈思的數(shù)據(jù)中心副總裁 Manish Muthal 指出:“Alveo加速器卡的推出進(jìn)一步推進(jìn)了賽靈思向平臺(tái)公司的轉(zhuǎn)型,使不斷增長(zhǎng)的應(yīng)用合作伙伴生態(tài)系統(tǒng)以比以往更快的速度加速創(chuàng)新。我們很高興客戶(hù)對(duì)Alveo加速器的高度興趣,也很高興與我們的應(yīng)用生態(tài)系統(tǒng)展開(kāi)合作,共同向客戶(hù)推出采用Alveo的各種可產(chǎn)品化的的解決方案?!?/p>

另外值得一提的是,在此次賽靈思開(kāi)發(fā)者大會(huì)上,華為和浪潮也發(fā)布了基于賽靈思的FPGA打造自己加速卡產(chǎn)品。

轉(zhuǎn)型平臺(tái)廠(chǎng)商

賽靈思總裁兼首席執(zhí)行官(CEO)Victor Peng 表示:“自從賽靈思發(fā)明FPGA到現(xiàn)在已經(jīng)有三十多年的時(shí)間,F(xiàn)PGA也變得越來(lái)越強(qiáng)大和復(fù)雜,我們現(xiàn)在已經(jīng)超越了FPGA。賽靈思已經(jīng)不再是一家FPGA的企業(yè),我們已經(jīng)轉(zhuǎn)型為一家面向靈活應(yīng)變、萬(wàn)物智能世界的平臺(tái)公司,而且我們這個(gè)轉(zhuǎn)型也要超越FPGA這個(gè)器件來(lái)打造整個(gè)平臺(tái),因?yàn)檫@將使得我們能夠更好的滿(mǎn)足客戶(hù)的需求,尤其是在當(dāng)今這個(gè)高速變化時(shí)代?!?/p>

為了順利的轉(zhuǎn)型為一家平臺(tái)型公司,Victor Peng將“數(shù)據(jù)中心優(yōu)先”、加速核心市場(chǎng)發(fā)展和驅(qū)動(dòng)靈活應(yīng)變的計(jì)算這三個(gè)方面作為了賽靈思公司戰(zhàn)略轉(zhuǎn)型的進(jìn)一步深入。

在此次開(kāi)發(fā)者大會(huì)上,賽靈思發(fā)布的全球首款自適應(yīng)異構(gòu)計(jì)算加速平臺(tái)ACAP Versal以及針對(duì)數(shù)據(jù)中心的Alveo加速器卡,也正是賽靈思轉(zhuǎn)型平臺(tái)廠(chǎng)商新戰(zhàn)略的進(jìn)一步深化。特別是ACAP更是被賽靈思寄予厚望。而后續(xù)賽靈思也必定會(huì)推出基于ACAP的加速卡。而這又將進(jìn)一步助力賽靈思的數(shù)據(jù)中心優(yōu)先戰(zhàn)略。

“ACAP將實(shí)現(xiàn)高通量、可擴(kuò)展、低延遲的性能,目前可以應(yīng)用在很多的應(yīng)用場(chǎng)景當(dāng)中。我們認(rèn)為ACAP未來(lái)將會(huì)幾乎進(jìn)入到每一個(gè)市場(chǎng)當(dāng)中?!盫ictor Peng在賽靈思開(kāi)發(fā)者大會(huì)上非常有信心的說(shuō)到。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 賽靈思
    +關(guān)注

    關(guān)注

    32

    文章

    1794

    瀏覽量

    131126
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1850

    瀏覽量

    34847

原文標(biāo)題:AI芯片迎來(lái)”新物種“,賽靈思Versal ACAP詳解

文章出處:【微信號(hào):icsmart,微信公眾號(hào):芯智訊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    第二代AMD Versal Prime系列自適應(yīng)SoC的亮點(diǎn)

    Versal Prime 系列自適應(yīng) SoC 在視頻相關(guān)指標(biāo)中提供了至高 2 倍的性能1,充分釋放創(chuàng)造力,是打造多通道 4K 和 8K 內(nèi)容捕獲、制作和分發(fā)設(shè)備的理想芯片
    的頭像 發(fā)表于 09-14 15:32 ?292次閱讀
    第二代AMD <b class='flag-5'>Versal</b> Prime<b class='flag-5'>系列</b><b class='flag-5'>自適應(yīng)</b>SoC的亮點(diǎn)

    ALINX受邀參加AMD自適應(yīng)計(jì)算峰會(huì)

    近日,AMD 自適應(yīng)計(jì)算峰會(huì)(AMD Adaptive Computing Summit, 即 AMD ACS)在深圳舉行,聚焦 AMD 自適應(yīng) SoC 和 FPGA 產(chǎn)品最新動(dòng)態(tài),以及設(shè)計(jì)工具和開(kāi)發(fā)環(huán)境的前沿技巧,是全球硬件開(kāi)發(fā)者和工程師們深入交流與學(xué)習(xí)的優(yōu)質(zhì)
    的頭像 發(fā)表于 08-02 14:36 ?558次閱讀

    PMP22165.1-適用于 Xilinx 通用自適應(yīng)計(jì)算加速平臺(tái) (ACAP) 的電源 PCB layout 設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《PMP22165.1-適用于 Xilinx 通用自適應(yīng)計(jì)算加速平臺(tái) (ACAP) 的電源 PCB layout 設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 05-19 10:45 ?0次下載
    PMP22165.1-適用于 Xilinx 通用<b class='flag-5'>自適應(yīng)計(jì)算</b><b class='flag-5'>加速</b><b class='flag-5'>平臺(tái)</b> (ACAP) 的電源 PCB layout 設(shè)計(jì)

    AMD發(fā)布第二代Versal自適應(yīng)SoC,AI嵌入式領(lǐng)域再提速

    AMD表示,第二代Versal系列自適應(yīng)SoC搭載全新的AI引擎,相較上一代Versal AI Edge系列,每瓦TOPS功率可實(shí)現(xiàn)最多3倍
    的頭像 發(fā)表于 04-11 16:07 ?720次閱讀

    在Vivado中構(gòu)建AMD Versal可擴(kuò)展嵌入式平臺(tái)示例設(shè)計(jì)流程

    為了應(yīng)對(duì)無(wú)線(xiàn)波束形成、大規(guī)模計(jì)算和機(jī)器學(xué)習(xí)推斷等新一代應(yīng)用需求的非線(xiàn)性增長(zhǎng),AMD 開(kāi)發(fā)了一項(xiàng)全新的創(chuàng)新處理技術(shù) AI 引擎,片內(nèi)集成該AI Engine的FPGA系列Versal? 自適應(yīng)
    的頭像 發(fā)表于 04-09 15:14 ?1304次閱讀
    在Vivado中構(gòu)建AMD <b class='flag-5'>Versal</b>可擴(kuò)展嵌入式<b class='flag-5'>平臺(tái)</b>示例設(shè)計(jì)流程

    AMD Versal AI Edge自適應(yīng)計(jì)算加速平臺(tái)之PL通過(guò)NoC讀寫(xiě)DDR4實(shí)驗(yàn)(4)

    Versal的DDR4是通過(guò)NoC訪(fǎng)問(wèn),因此需要添加NoC IP進(jìn)行配置。
    的頭像 發(fā)表于 03-22 17:18 ?2036次閱讀
    AMD <b class='flag-5'>Versal</b> AI Edge<b class='flag-5'>自適應(yīng)計(jì)算</b><b class='flag-5'>加速</b><b class='flag-5'>平臺(tái)</b>之PL通過(guò)NoC讀寫(xiě)DDR4實(shí)驗(yàn)(4)

    AMD Versal AI Edge自適應(yīng)計(jì)算加速平臺(tái)之PL LED實(shí)驗(yàn)(3)

    對(duì)于Versal來(lái)說(shuō)PL(FPGA)開(kāi)發(fā)是至關(guān)重要的,這也是Versal比其他ARM的有優(yōu)勢(shì)的地方,可以定制化很多ARM端的外設(shè)
    的頭像 發(fā)表于 03-22 17:12 ?2210次閱讀

    AMD Versal AI Edge自適應(yīng)計(jì)算加速平臺(tái)PL LED實(shí)驗(yàn)(3)

    對(duì)于Versal來(lái)說(shuō)PL(FPGA)開(kāi)發(fā)是至關(guān)重要的,這也是Versal比其他ARM的有優(yōu)勢(shì)的地方,可以定制化很多ARM端的外設(shè)
    的頭像 發(fā)表于 03-13 15:38 ?897次閱讀
    AMD <b class='flag-5'>Versal</b> AI Edge<b class='flag-5'>自適應(yīng)計(jì)算</b><b class='flag-5'>加速</b><b class='flag-5'>平臺(tái)</b>PL LED實(shí)驗(yàn)(3)

    【ALINX 技術(shù)分享】AMD Versal AI Edge 自適應(yīng)計(jì)算加速平臺(tái)Versal 介紹(2)

    【ALINX 技術(shù)分享】AMD Versal AI Edge 自適應(yīng)計(jì)算加速平臺(tái)Versal 介紹,以及
    的頭像 發(fā)表于 03-07 16:03 ?938次閱讀
    【ALINX 技術(shù)分享】AMD <b class='flag-5'>Versal</b> AI Edge <b class='flag-5'>自適應(yīng)計(jì)算</b><b class='flag-5'>加速</b><b class='flag-5'>平臺(tái)</b>之 <b class='flag-5'>Versal</b> 介紹(2)

    【ALINX 技術(shù)分享】AMD Versal AI Edge 自適應(yīng)計(jì)算加速平臺(tái)之準(zhǔn)備工作(1)

    AMD Versal AI Edge 自適應(yīng)計(jì)算加速平臺(tái)之準(zhǔn)備工作,包含軟件環(huán)境、硬件環(huán)境。
    的頭像 發(fā)表于 03-07 15:49 ?729次閱讀
    【ALINX 技術(shù)分享】AMD <b class='flag-5'>Versal</b> AI Edge <b class='flag-5'>自適應(yīng)計(jì)算</b><b class='flag-5'>加速</b><b class='flag-5'>平臺(tái)</b>之準(zhǔn)備工作(1)

    AMD Versal AI Edge自適應(yīng)計(jì)算加速平臺(tái)Versal介紹(2)

    Versal 包含了 Cortex-A72 處理器和 Cortex-R5 處理器,PL 端可編程邏輯部分,PMC 平臺(tái)管理控制器,AI Engine 等模塊,與以往的 ZYNQ 7000 和 MPSoC 不同,Versal 內(nèi)部
    的頭像 發(fā)表于 03-06 18:12 ?1363次閱讀
    AMD <b class='flag-5'>Versal</b> AI Edge<b class='flag-5'>自適應(yīng)計(jì)算</b><b class='flag-5'>加速</b><b class='flag-5'>平臺(tái)</b>之<b class='flag-5'>Versal</b>介紹(2)

    Versal自適應(yīng)SoC硬件、IP和平臺(tái)開(kāi)發(fā)方法指南

    電子發(fā)燒友網(wǎng)站提供《Versal自適應(yīng)SoC硬件、IP和平臺(tái)開(kāi)發(fā)方法指南.pdf》資料免費(fèi)下載
    發(fā)表于 01-03 10:49 ?0次下載
    <b class='flag-5'>Versal</b><b class='flag-5'>自適應(yīng)</b>SoC硬件、IP和<b class='flag-5'>平臺(tái)</b>開(kāi)發(fā)方法指南

    Versal自適應(yīng)SoC系統(tǒng)集成和 確認(rèn)方法指南

    電子發(fā)燒友網(wǎng)站提供《Versal自適應(yīng)SoC系統(tǒng)集成和 確認(rèn)方法指南.pdf》資料免費(fèi)下載
    發(fā)表于 01-03 10:48 ?0次下載
    <b class='flag-5'>Versal</b><b class='flag-5'>自適應(yīng)</b>SoC系統(tǒng)集成和 確認(rèn)方法指南

    Versal 自適應(yīng)SoC設(shè)計(jì)指南

    電子發(fā)燒友網(wǎng)站提供《Versal 自適應(yīng)SoC設(shè)計(jì)指南.pdf》資料免費(fèi)下載
    發(fā)表于 12-14 16:22 ?1次下載
    <b class='flag-5'>Versal</b> <b class='flag-5'>自適應(yīng)</b>SoC設(shè)計(jì)指南

    AMD Versal系列CIPS IP核介紹

    AMD自適應(yīng)計(jì)算加速平臺(tái)(ACAP)是一個(gè)完全軟件可編程資源集合,這些資源結(jié)合在一起構(gòu)成片上系統(tǒng) (SoC),包括以下主要的資源塊
    的頭像 發(fā)表于 11-27 14:12 ?1066次閱讀
    AMD <b class='flag-5'>Versal</b><b class='flag-5'>系列</b>CIPS IP核介紹