国产日产欧产美韩系列,中文亚洲欧美日韩无线码,四虎精品国产AV二区

本次要和大家分享的是AMD近期推出的新一代多媒體視頻加速卡，它主要應(yīng)用于視頻處理場景，我們內(nèi)部將它稱為異構(gòu)加速卡，行業(yè)同仁更認可將其稱作視頻處理單元（VPU）。AMD或賽靈思此前的主要業(yè)務(wù)方向是研發(fā)數(shù)據(jù)中心級加速器卡，因而大家可能對此次媒體加速卡的發(fā)布感到驚訝，實際上這背后伴隨著深厚的研發(fā)背景。

賽靈思時期，我們的目標(biāo)是實現(xiàn)FPGA在數(shù)據(jù)中心的算力落地，通過將FPGA包裝為PCIE擴展卡并部署在服務(wù)器上，使客戶可以按照自身需求調(diào)用加速卡的算力，最終推出了Alveo系列加速卡U200、U250和U280。

隨著FaaS（FPGA as a service）的落地，我們的工作進一步轉(zhuǎn)向應(yīng)用化并發(fā)現(xiàn)了媒體加速方面的前景，因而開始進行編解碼器和IP核的自研設(shè)計。賽靈思還專門收購了編解碼器公司以推動VPU的開發(fā)，從而促成了上一代視頻流加速器卡U30和U50的誕生。

我們認為，雖然傳統(tǒng)的流媒體服務(wù)以及相關(guān)的視頻處理、壓縮是在服務(wù)器級CPU上的軟件中完成的。但隨著分辨率的增加，幀數(shù)要求提高，流媒體體量的增加，直播和互動流應(yīng)用對低延遲的要求變得更加嚴格，傳統(tǒng)的CPU不能高效地處理這種場景。因而我們開始尋求異構(gòu)加速的方法，用專業(yè)的芯片/IP來處理視頻流。

基于以上背景，我們認為下一代視頻加速卡要支持高質(zhì)量、高密度、低時延的視頻處理，并要具備更好的拓展性，才能滿足當(dāng)前低延時、高交互、大流量多媒體應(yīng)用環(huán)境的需要。

我們將此次推出的新一代加速卡命名為Alveo MA35D Media Accelerator，它是業(yè)界首款基于ASIC的5nm視頻加速卡，在我們內(nèi)部的芯片代號為supernova。

與我們上一代產(chǎn)品（Alveo U30）和傳統(tǒng)Xilinx芯片的聯(lián)系不同，它完全脫離了 FPGA，是一個專門應(yīng)用于交互式流媒體大規(guī)模應(yīng)用場景的針對性解決方案。它內(nèi)部包含很多專用視頻單元和最先進的IP核，通過PCIE Gen 5.0和LPDDR5保證帶寬，充分助力視頻加速服務(wù)。

Bluewave Consulting發(fā)布的調(diào)研成果促使我們下定決心推出新一代流媒體加速卡，該項研究指出了兩點，一是全球視頻流媒體市場正在快速增長。據(jù)預(yù)測，流媒體的市場價值將從 2022 年的略高于 600 億美元增至 2028 年的超過 2130 億美元，復(fù)合年增長率約為 20%。在美國這很大程度上要歸功于 Netflix、Amazon Prime、Hulu、Disney+、HBO 等服務(wù)商，國內(nèi)現(xiàn)階段也存在諸如優(yōu)酷、騰訊、愛奇藝、抖音、快手、Bilibili等大量視頻平臺，甚至微博、微信和知乎等應(yīng)用也在逐步推出流媒體服務(wù)，幾乎所有公司都在進行流媒體方向的嘗試。二是流媒體服務(wù)正在迎來轉(zhuǎn)型。隨著流媒體市場的增長，直播業(yè)務(wù)所占份額越來越大（例如國內(nèi)的抖音等直播平臺），至2021年已占到總量的70%。

傳統(tǒng)流媒體服務(wù)架構(gòu)的形式為廣播流媒體，是“一對百萬”的模式，該架構(gòu)下視頻的輸入源一般較少。以體育賽事的轉(zhuǎn)播場景為例，場外的轉(zhuǎn)播車組織現(xiàn)場的數(shù)十臺攝像機拍攝賽事畫面，經(jīng)過剪輯上傳至云端數(shù)據(jù)中心/核心網(wǎng)，過程中傳輸?shù)牧飨鄬Σ⒉欢唷ｋS后視頻流被分發(fā)至CDN，廣大用戶通過ISP訪問CDN獲取視頻畫面。

雖然整個傳輸路徑較長，延遲相對較大，但該場景對實時性的要求不大，并且時延相對可控。同時由于輸入流較少，因而對轉(zhuǎn)碼的要求也不高。

迅猛增長的直播市場與傳統(tǒng)點播場景不同，每個人都能生成自己的流媒體，個人產(chǎn)生的視頻流可能與其他流混同，被不同人群在不同地點使用各異的終端設(shè)備觀看，過程中還伴隨著低時延和高交互等等要求。這種場景的實際應(yīng)用也越來越多，如online party、遠程醫(yī)療、云游戲場景和Zoom、Microsoft Te ams等在線會議軟件。

不同用戶使用的設(shè)備可能不同，導(dǎo)致輸入源的格式、清晰度等等屬性五花八門。而以上場景都具備高交互性，對時延的要求相當(dāng)高（如云游戲的時延要在10毫秒內(nèi)），因而我們希望研發(fā)新一代芯片，能夠?qū)崿F(xiàn)低時延、高容量、多路輸入（不同格式，不同速率，不同size)、多路輸出、多流交互的視頻處理。

新一代直播場景是“百萬對百萬”的多對多模式。由于每個人都會產(chǎn)生視頻流，流的數(shù)量將進一步增加，并且突發(fā)式的增長會越來越多。直播的高交互性使視頻流傳輸可能將更多采用邊到邊傳輸，避免發(fā)送至云端數(shù)據(jù)中心。用戶們使用的終端設(shè)備不盡相同，對視頻流分辨率和碼率的要求也不一樣。

為了應(yīng)對直播場景帶來的技術(shù)挑戰(zhàn)，Alveo MA35D支持32路流的1080P60 ABR轉(zhuǎn)碼；每通道功耗僅有1W，峰值功耗約35W；4K編碼的最低延時達到8毫秒，1080P可以做到單幀2ms；支持做成單個U.2/M.2 的子卡或是多卡集成部署，支持筆記本、平板、園區(qū)、數(shù)據(jù)中心等多種不同部署環(huán)境，適配用戶的不同需求。與此同時，它還具備22 TOPS AI算力（INT8），可以通過AI技術(shù)來賦能智能視頻處理。

上一代U30的“U”代表通用，而MA35D的“MA”代表媒體加速器（Media Accelerator），表示該卡專為媒體加速場景設(shè)計。和上一代相比，MA35D實現(xiàn)了全面提升，它的通道密度提高了 4 倍，每通道功耗降低2倍，壓縮效率效果提高2倍，時延降低4倍。在實現(xiàn)以上提升的基礎(chǔ)上，功耗僅為上一代的一半。

接下來介紹該卡的技術(shù)細節(jié)。首先四個位于該卡芯片四角的獨立編碼器和兩個解碼器支持當(dāng)前主流編碼標(biāo)準(zhǔn)和下一代AV1標(biāo)準(zhǔn)；自適應(yīng)比特率（ABR）縮放器支持變碼率、恒定QP、CBR、VBR等多樣化變換；合成器（Compositor）引擎支持多流分塊拼接、分層疊加等視頻合成處理，它是可編程的，可按照客戶自身需求改變輸出；VQ 前瞻（Look-Ahead）引擎用于在編碼前分析視頻流的動態(tài)特征，配合編碼器實時優(yōu)化參數(shù)；視頻質(zhì)量（VQ）和體驗質(zhì)量（QoE）引擎作為在線質(zhì)量分析引擎可以將編碼后視頻的質(zhì)量分析結(jié)果實時反饋至編碼器和AI模塊，動態(tài)調(diào)整編碼器設(shè)置以達到更好的視頻輸出質(zhì)量；AI處理器可以對視頻進行一些簡單的分類和檢測處理，依據(jù)結(jié)果實時調(diào)整編碼器參數(shù)，改善視頻質(zhì)量。

我們也致力于改善編解碼器的壓縮效率。據(jù)AMD內(nèi)部測試結(jié)果顯示，在達到同等視覺質(zhì)量的前提下，以X264 VeryFast為基準(zhǔn)對比，AMD H.264編碼器可實現(xiàn)24%的碼率節(jié)省，H.265編碼器可節(jié)省47%，AV1編碼器可節(jié)省高達52%。如果加入AI處理環(huán)節(jié)，壓縮效率還將進一步提升。

上圖展示了X265和AMD AV1編碼相同視頻的實測VMAF測試結(jié)果?？梢钥吹皆谕葪l件下，AMD AV1編碼視頻的質(zhì)量接近于X265 Slow，尤其在碼率較低時表現(xiàn)相當(dāng)好。

AMD深度耦合前述的各類硬件單元形成了上圖所示的視頻處理管道，視頻解碼、縮放與合成、ABR縮放、AI處理、編碼、質(zhì)量分析等步驟全部由硬件單元完成，通過將所有視頻處理功能硬化來最大限度減少CPU和加速卡之間的數(shù)據(jù)遷移。

在云游戲和直播場景，大家可能遇到過畫面內(nèi)字符顯示不清晰的問題，運用前述的AI技術(shù)則可對字符所在區(qū)域進行顯示質(zhì)量的針對性優(yōu)化。

用戶可通過我們隨卡附帶的AMD媒體加速軟件開發(fā)套件（SDK）訪問加速卡，它帶有FFmpeg、GStreamer接口，便于快速上手。高階用戶還可以通過AMD 媒體加速器接口客制化調(diào)用加速卡的各種視頻處理模塊。

接下來介紹MA35D的一次視頻處理性能演示，我們使用單卡雙芯片同時處理兩個4k60 8Mps H264流。其中一路解碼后分為四個流以不同碼率和編碼標(biāo)準(zhǔn)輸出，四個流中的三個在同服務(wù)器上使用加速卡自帶解碼器進行轉(zhuǎn)碼、編碼，傳輸至顯示器。另一路分為三個流按不同分辨率、碼率和編碼標(biāo)準(zhǔn)輸出，同第一路中的第四個流一并無線傳輸至不同設(shè)備解碼顯示。

如上所示，演示過程中第一路流在同服務(wù)器下的轉(zhuǎn)碼和解碼都達到了60fps水平，并且轉(zhuǎn)碼占用的CPU核1負載不大，核2到核8負責(zé)將解碼后YUV數(shù)據(jù)轉(zhuǎn)移至顯卡，因而出現(xiàn)了高負載情況。處理過程中的加速卡資源占用情況支持隨時調(diào)取查看。

上圖展示了演示的實時多流多終端傳輸顯示效果。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

FPGA

FPGA

+關(guān)注

關(guān)注
1625

文章
21620

瀏覽量
601239
加速器

加速器

+關(guān)注

關(guān)注
2

文章
790

瀏覽量
37675
編解碼器

編解碼器

+關(guān)注

關(guān)注
0

文章
250

瀏覽量
24196
視頻處理器

視頻處理器

+關(guān)注

關(guān)注
3

文章
91

瀏覽量
15635
LPDDR5

LPDDR5

+關(guān)注

關(guān)注
2

文章
87

瀏覽量
12020

原文標(biāo)題：支持AI視頻處理的高容量流媒體加速卡方案

文章出處：【微信號：livevideostack，微信公眾號：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

PCIe加速卡在數(shù)據(jù)中心的應(yīng)用

數(shù)據(jù)中心中扮演著越來越重要的角色。 1. 什么是PCIe加速卡？ PCIe加速卡是一種通過PCI Express（PCIe）接口連接到服務(wù)器的硬件設(shè)備，用于提供額外的計算能力。這些加速卡

發(fā)表于 11-06 09:32 ?214次閱讀

AMD推出新款纖薄尺寸電子交易加速卡

UL3422 為交易商、做市商和金融機構(gòu)提供了一款針對機架空間和成本進行優(yōu)化的纖薄型加速卡，旨在快速部署到各種服務(wù)器中。

發(fā)表于 10-16 09:14 ?372次閱讀

大模型向邊端側(cè)部署，AI加速卡朝高算力、小體積發(fā)展

電子發(fā)燒友網(wǎng)報道（文/李彎彎）AI加速卡是專門用于處理人工智能應(yīng)用中的大量計算任務(wù)的模塊。它集成了高性能的計算核心和大量的內(nèi)存，旨在加速機器學(xué)習(xí)、深度學(xué)習(xí)等算法的計算過程。當(dāng)前，

發(fā)表于 09-17 00:18 ?2863次閱讀

EPSON差分晶振SG3225VEN頻點312.5mhz應(yīng)用于AI加速卡

AI加速卡，通常也被稱為AI算力卡，是一種專為加速人工智能（

發(fā)表于 09-10 14:56 ?0次下載

YXC高頻差分晶振，頻點312.5mhz，高精度.高穩(wěn)定性，應(yīng)用于AI加速卡

在一些AI加速卡中，揚興推薦的YXC差分晶振YSO210PR系列，該系列頻率范圍為10MHz ~1500MHz，可滿足高精度、高穩(wěn)定度的需求，支持差分信號（LVDS/LVPECL）輸出

發(fā)表于 08-21 14:03 ?268次閱讀

貿(mào)澤開售AMD / Xilinx Alveo MA35D媒體加速器為流媒體、游戲、遠程醫(yī)療和在線學(xué)習(xí)應(yīng)用提供支持

媒體加速器。Alveo MA35D媒體加速器是一款基于 ASIC 的AI

發(fā)表于 07-12 10:44 ?526次閱讀

借助全新 AMD Alveo? V80 計算加速卡釋放計算能力

對于大規(guī)模數(shù)據(jù)處理，最佳性能不僅取決于原始計算能力，還取決于高存儲器帶寬。因此，全新 AMD Alveo? V80 計算加速卡專為具有大型數(shù)據(jù)集的內(nèi)存受限型應(yīng)用而設(shè)計，這些應(yīng)用需要 FPGA 硬件

發(fā)表于 05-16 14:09 ?193次閱讀

OpenAI Sora模型需大量AI加速卡及電力支持

若以每片H100加速卡3萬美元市價估算，總花費將高達216億美元（相當(dāng)于1561.68億元人民幣），這僅是H100加速卡采購費用。該模型在運營時還會產(chǎn)生極高的能耗，每片H100能耗達到700瓦，72萬片則意味著能耗高達50.4億瓦。

發(fā)表于 03-27 15:58 ?495次閱讀

英偉達發(fā)布最強AI加速卡Blackwell GB200

英偉達在最近的GTC開發(fā)者大會上發(fā)布了其最新、最強大的AI加速卡——GB200。這款加速卡采用了新一代AI圖形

發(fā)表于 03-20 11:38 ?1042次閱讀

英偉達發(fā)布超強AI加速卡，性能大幅提升，可支持1.8萬億參數(shù)模的訓(xùn)練

得益于NVIDIA每兩年進行一次GPU架構(gòu)升級以提高性能的策略，全新的基于Blackwell的加速卡比之前的H100更為強大，尤其適用于AI相關(guān)任務(wù)。

發(fā)表于 03-19 12:04 ?703次閱讀

英偉達發(fā)布最強AI加速卡GB200，開啟新一代AI圖形處理時代

英偉達正式發(fā)布了其最新、也是迄今為止最強大的AI加速卡——GB200。這一重大發(fā)布標(biāo)志著英偉達在AI圖形處理領(lǐng)域邁入了

發(fā)表于 03-19 11:26 ?1091次閱讀

今日看點丨英偉達發(fā)布最強 AI 加速卡--Blackwell GB200；三星面臨罷工存儲市場供需引關(guān)注

的 GTC 開發(fā)者大會上，正式發(fā)布了最強 AI 加速卡 GB200，并計劃今年晚些時候發(fā)貨。 ? GB200 采用新一代 AI 圖形處理器架

發(fā)表于 03-19 11:08 ?1168次閱讀

寧暢參與發(fā)布AI加速卡液冷設(shè)計白皮書

近日，由寧暢參與起草的《基于標(biāo)準(zhǔn)PCIe接口的人工智能加速卡液冷設(shè)計》白皮書正式發(fā)布。該技術(shù)白皮書由開放計算標(biāo)準(zhǔn)工作委員會(OCTC)歸口，旨在為冷板式人工智能加速卡的設(shè)計提供重要指導(dǎo)。

發(fā)表于 01-09 11:28 ?720次閱讀

瞬變對AI加速卡供電的影響

，尤其是在學(xué)習(xí)和推理時。這種需求不斷地將供電網(wǎng)絡(luò)的邊界推向前所未有的新水平。這些高密度工作負載變得愈加復(fù)雜，更高的瞬態(tài)需求推動配電網(wǎng)絡(luò)的每個部分都必須高效運行。AI加速卡嚴格的功耗要求對系統(tǒng)性能也有影響。本文將討論AI

發(fā)表于 12-01 18:10 ?375次閱讀

HPC領(lǐng)域的一款大殺器-HBX-G500大帶寬加速卡

HBX-G500是一款高性能可編程加速卡，為AI、計算、網(wǎng)絡(luò)等領(lǐng)域，提供多通道的高帶寬存儲、高性能計算、先進高速接口等解決方案；

發(fā)表于 11-29 09:16 ?928次閱讀