0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

賽靈思FPGA與VMware vSphere相結(jié)合實(shí)現(xiàn)高吞吐量、低時(shí)延ML推斷性能

454398 ? 來(lái)源:Xilinx賽靈思官微 ? 作者:Xilinx賽靈思官微 ? 2020-09-29 11:52 ? 次閱讀

硬件加速器已在數(shù)據(jù)中心得到普遍使用,一系列新的工作負(fù)載已經(jīng)能夠成熟地發(fā)揮 FPGA 的加速優(yōu)勢(shì)及其更優(yōu)異的計(jì)算效率。業(yè)界對(duì)機(jī)器學(xué)習(xí) (ML) 的關(guān)注度不斷提高,推動(dòng) FPGA 加速器在私有云、公有云、混合云數(shù)據(jù)中心環(huán)境中日益普及,從而為計(jì)算密集型工作負(fù)載加速。近期,在推動(dòng) IT 基礎(chǔ)設(shè)施向異構(gòu)計(jì)算轉(zhuǎn)型的過程中,賽靈思與 VMware 展開協(xié)作,在 VMware 的云計(jì)算虛擬化平臺(tái)vSphere上測(cè)試 FPGA 加速。由于賽靈思 FPGA 越來(lái)越廣泛地應(yīng)用于 ML 推斷加速,本文將展示的是如何將賽靈思 FPGA 與 VMware vSphere 相結(jié)合,在虛擬部署和裸機(jī)部署上實(shí)現(xiàn)基本相同的高吞吐量、低時(shí)延 ML 推斷性能。

“自適應(yīng)計(jì)算”的優(yōu)勢(shì)
FPGA 是一種自適應(yīng)計(jì)算器件,能夠靈活地進(jìn)行重新編程,從而滿足目標(biāo)應(yīng)用不同的處理需求和功能要求。該特性使 FPGA 從 GPUASIC 等架構(gòu)固定的器件中脫穎而出,更是遠(yuǎn)遠(yuǎn)優(yōu)于成本不斷飆升的的定制 ASIC。此外,與其他硬件加速器相比,F(xiàn)PGA 還具備高能效、低時(shí)延的優(yōu)勢(shì),使 FPGA 特別適用于 ML 推斷工作。與基本依靠大量并行處理核心實(shí)現(xiàn)高吞吐量的 GPU 不同的是,F(xiàn)PGA 通過定制化硬件內(nèi)核、數(shù)據(jù)流流水線和互聯(lián),助力 ML 推斷同時(shí)實(shí)現(xiàn)高吞吐量和低時(shí)延。

01. 在 vSphere 上使用 FPGA 開展 ML 推斷

VMware 在其實(shí)驗(yàn)室中使用賽靈思 Alveo U250 數(shù)據(jù)中心卡進(jìn)行測(cè)試。使用在Vitis AI中提供的 Docker 容器——為從邊緣到云端的賽靈思硬件平臺(tái)提供的 ML 推斷統(tǒng)一開發(fā)棧,ML 模型可以迅速完成配置。該容器由經(jīng)過優(yōu)化的工具、庫(kù)、模型和示例構(gòu)成。Vitis AI 支持含 Caffe 和 TensorFlow 在內(nèi)的主流框架以及能夠執(zhí)行多種深度學(xué)習(xí)任務(wù)的最新模型。此外,Vitis AI 是一種開源應(yīng)用,可通過訪問GitHub獲取。

賽靈思FPGA與VMware vSphere相結(jié)合實(shí)現(xiàn)高吞吐量、低時(shí)延ML推斷性能

圖 1:Vitis AI 軟件協(xié)議棧

目前,賽靈思 FPGA 通過 DirectPath I/O 模式(直通模式)能在 vSphere 上使用。在這種模式下,我們的 FPGA 能夠由運(yùn)行在虛擬機(jī)內(nèi)部的應(yīng)用直接訪問,繞過程序管理層,從而最大化性能并最大限度降低時(shí)延。配置 DirectPath I/O 模式下的 FPGA 只需簡(jiǎn)單的兩步流程:首先,在主機(jī)層面上啟用 ESXi,然后將器件添加到目標(biāo)虛擬機(jī)。詳細(xì)操作方法參見 VMware KB 一文( https://kb.vmware.com/s/article/1010789 )。請(qǐng)注意,如果運(yùn)行的是 vSphere 7,則不再需要重啟主機(jī)。

02. 高吞吐量、低時(shí)延 ML 推斷性能

通過與賽靈思合作,VMware 使用四個(gè) CNN 模型執(zhí)行推斷任務(wù),對(duì)我們的 Alveo U250 加速器卡在 DirectPath I/O 模式工作下的吞吐量和時(shí)延性能進(jìn)行評(píng)估。這四個(gè)模型分別為Inception_v1、Inception_v2、Resnet50 和 VGG16。這些模型在模型參數(shù)數(shù)量上不盡相同,因而具備不同的處理復(fù)雜性。

測(cè)試在搭載兩顆 10 核 Intel Xeon Silver 4114 CPU 和 192GB DDR4 存儲(chǔ)器的 Dell PowerEdge R740 服務(wù)器上進(jìn)行。我們使用 ESXi 7.0 虛擬機(jī)程序管理器,將每種模型的端到端性能結(jié)果與作為基線的裸機(jī)性能進(jìn)行對(duì)比。Ubuntu 16.04(內(nèi)核版本 4.4.0-116)用作客戶端操作系統(tǒng)和本地操作系統(tǒng)。此外,在整個(gè)測(cè)試過程中將 Vitis AI v1.1 與 Docker CE 19.03.4 結(jié)合使用。同時(shí)使用源于 ImageNet2012 的 50k 圖像數(shù)據(jù)集。為進(jìn)一步避免圖像讀取過程中遭遇磁盤瓶頸,還創(chuàng)建了一個(gè) RAM 磁盤用于存儲(chǔ) 50k 圖像。

完成這些設(shè)置后,虛擬測(cè)試和裸機(jī)測(cè)試之間的性能比較可從下面的兩個(gè)圖中進(jìn)行觀察。一個(gè)針對(duì)吞吐量,另一個(gè)針對(duì)時(shí)延。y 軸代表虛擬測(cè)試和裸機(jī)測(cè)試間的吞吐量性能比值。y=1.0 代表虛擬測(cè)試和裸機(jī)測(cè)試的吞吐量性能結(jié)果相同。

圖 2:在 Alveo U250 FPGA 上運(yùn)行 ML 推斷時(shí)裸機(jī)測(cè)試和虛擬測(cè)試的吞吐量性能比較

圖 3:在 Alveo U250 FPGA 上運(yùn)行 ML 推斷時(shí)裸機(jī)測(cè)試和虛擬測(cè)試的時(shí)延性能比較

測(cè)試證明,虛擬環(huán)境和裸機(jī)間在吞吐量和時(shí)延兩方面的性能差距最大不超過 2%。這說(shuō)明在虛擬環(huán)境中運(yùn)行在 vSphere 上的 Alveo U250 的 ML 性能與作為基線的裸機(jī)性能極為相近。

03. 云端的 FPGA 性能

在數(shù)據(jù)中心中采用 FPGA 加速器已成為普遍現(xiàn)象,而且為滿足對(duì)異構(gòu)計(jì)算和性能提升的需求,F(xiàn)PGA 加速器的應(yīng)用還將繼續(xù)增長(zhǎng)。我們非常高興能夠與 VMware 展開合作,共同確保客戶能充分發(fā)揮運(yùn)行在 vSphere 平臺(tái)上的賽靈思 FPGA 加速的全部?jī)?yōu)勢(shì)。我們?cè)?vSphere 上對(duì)我們的 Alveo U250 加速器卡進(jìn)行 ML 推斷性能測(cè)試,成功地向客戶證明了該器件在 DirectPath I/O 模式下能夠?qū)崿F(xiàn)接近裸機(jī)的性能。

編輯:hfy


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1625

    文章

    21637

    瀏覽量

    601336
  • 賽靈思
    +關(guān)注

    關(guān)注

    32

    文章

    1794

    瀏覽量

    131137
  • 云計(jì)算
    +關(guān)注

    關(guān)注

    39

    文章

    7714

    瀏覽量

    137129
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8357

    瀏覽量

    132330
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    TMS320VC5510 HPI吞吐量和優(yōu)化

    電子發(fā)燒友網(wǎng)站提供《TMS320VC5510 HPI吞吐量和優(yōu)化.pdf》資料免費(fèi)下載
    發(fā)表于 10-16 09:35 ?0次下載
    TMS320VC5510 HPI<b class='flag-5'>吞吐量</b>和優(yōu)化

    TMS320C6474模塊吞吐量

    電子發(fā)燒友網(wǎng)站提供《TMS320C6474模塊吞吐量.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 13:52 ?0次下載
    TMS320C6474模塊<b class='flag-5'>吞吐量</b>

    TMS320C6474通用總線架構(gòu)(CBA)吞吐量

    電子發(fā)燒友網(wǎng)站提供《TMS320C6474通用總線架構(gòu)(CBA)吞吐量.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 10:29 ?0次下載
    TMS320C6474通用總線架構(gòu)(CBA)<b class='flag-5'>吞吐量</b>

    TMS320DM36x SoC架構(gòu)和吞吐量

    電子發(fā)燒友網(wǎng)站提供《TMS320DM36x SoC架構(gòu)和吞吐量.pdf》資料免費(fèi)下載
    發(fā)表于 10-14 10:51 ?0次下載
    TMS320DM36x SoC架構(gòu)和<b class='flag-5'>吞吐量</b>

    TMS320C6472/TMS320TCI6486的吞吐量應(yīng)用程序報(bào)告

    電子發(fā)燒友網(wǎng)站提供《TMS320C6472/TMS320TCI6486的吞吐量應(yīng)用程序報(bào)告.pdf》資料免費(fèi)下載
    發(fā)表于 10-14 09:27 ?0次下載
    TMS320C6472/TMS320TCI6486的<b class='flag-5'>吞吐量</b>應(yīng)用程序報(bào)告

    ASP4644在FPGA SERDES供電中的應(yīng)用

    ASP4644是一款集成度、四輸出的降壓型模組穩(wěn)壓器,專為需要紋波和高效率的供電場(chǎng)合設(shè)計(jì),如FPGA和SERDES供電。本文將探討如何利用ASP4644的特性實(shí)現(xiàn)
    發(fā)表于 08-16 14:55

    求助,關(guān)于使用iperf測(cè)量mesh節(jié)點(diǎn)吞吐量問題求解

    我把esp-mesh-lite的no-route例程和iperf例程合在一起,想測(cè)試兩個(gè)mesh節(jié)點(diǎn)間tcp通信的吞吐量,實(shí)際過程中一開始流量正常,數(shù)秒后客戶端發(fā)數(shù)據(jù)這邊monitor卡死沒有任何
    發(fā)表于 07-23 06:59

    用Iperf例程測(cè)試ESP32-C6的TCP通信,吞吐量很低的原因?

    為什么我用官網(wǎng)的Iperf例程測(cè)試ESP32-C6的TCP通信,吞吐量才0.33Mbps
    發(fā)表于 06-06 07:47

    FPGA flash操作原理

    FPGA flash操作原理分享
    的頭像 發(fā)表于 04-09 15:03 ?929次閱讀

    如何提高CYBT-243053-02吞吐量?

    你好我們一直在使用“EZ-Serial Firmware: v1.4.13.13 Sep 22 2023 10:24:41”測(cè)試“CYBT-243053-02”,我們得到的吞吐量比 PUART
    發(fā)表于 02-27 06:56

    Lattice Insights 簡(jiǎn)化FPGA設(shè)計(jì)和開發(fā)

    的計(jì)算吞吐量的顯著增長(zhǎng),這就增加了對(duì)硬件效率的需求?,F(xiàn)場(chǎng)可編程門陣列(FPGA)是一種理想的芯片解決方案,憑借其延遲、吞吐量和低功耗等差
    的頭像 發(fā)表于 02-20 17:22 ?2001次閱讀
    Lattice Insights 簡(jiǎn)化<b class='flag-5'>FPGA</b>設(shè)計(jì)和開發(fā)

    怎么用FPGA做算法 如何在FPGA實(shí)現(xiàn)最大公約數(shù)算法

    FPGA算法的優(yōu)點(diǎn)在于它們可以提供高度的定制化和靈活性,使得算法可以根據(jù)實(shí)際需求進(jìn)行優(yōu)化和調(diào)整。此外,FPGA還可以實(shí)現(xiàn)硬件加速,提供比傳統(tǒng)處理器更高的計(jì)算性能
    的頭像 發(fā)表于 01-15 16:03 ?1916次閱讀

    GPT推斷中的批處理(Batching)效應(yīng)簡(jiǎn)析

    機(jī)器學(xué)習(xí)模型依賴于批處理(Batching)來(lái)提高推斷吞吐量,尤其是對(duì)于 ResNet 和 DenseNet 等較小的計(jì)算機(jī)視覺模型。
    的頭像 發(fā)表于 12-18 15:52 ?662次閱讀
    GPT<b class='flag-5'>推斷</b>中的批處理(Batching)效應(yīng)簡(jiǎn)析

    GD32VW553吞吐量及場(chǎng)景功耗測(cè)試指南應(yīng)用說(shuō)明

    電子發(fā)燒友網(wǎng)站提供《GD32VW553吞吐量及場(chǎng)景功耗測(cè)試指南應(yīng)用說(shuō)明.pdf》資料免費(fèi)下載
    發(fā)表于 12-14 10:20 ?1次下載
    GD32VW553<b class='flag-5'>吞吐量</b>及場(chǎng)景功耗測(cè)試指南應(yīng)用說(shuō)明

    影響ATE電源系統(tǒng)吞吐量的關(guān)鍵因素

    從串行設(shè)備測(cè)試改變?yōu)椴⑿性O(shè)備測(cè)試可以顯著地增加測(cè)試系統(tǒng)吞吐量。測(cè)試執(zhí)行活動(dòng)的大部分可能涉及使用DC電源設(shè)置條件和進(jìn)行測(cè)量。配置測(cè)試系統(tǒng),使其能夠使用多個(gè)直流電源同時(shí)對(duì)多個(gè)設(shè)備執(zhí)行測(cè)試,是顯著提高測(cè)試吞吐量的一種經(jīng)濟(jì)有效的方法。
    發(fā)表于 11-29 12:36 ?344次閱讀
    影響ATE電源系統(tǒng)<b class='flag-5'>吞吐量</b>的關(guān)鍵因素