作者:安謀科技 (Arm China) 高級軟件產(chǎn)品經(jīng)理 楊喜樂
視頻編解碼技術(shù)作為支撐超高清視頻及泛音視頻產(chǎn)業(yè)發(fā)展的基石,其重要性愈發(fā)凸顯。H.264/AVC 是目前廣泛使用的編解碼標(biāo)準(zhǔn),能夠在較低的數(shù)據(jù)速率下提供高質(zhì)量的視頻流,是在線視頻和移動端視頻的理想選擇;H.265/HEVC 進一步提高了壓縮效率,在傳輸高清視頻流和 4K 視頻時所需的帶寬大約是 H.264 的一半。然而,新一代編解碼技術(shù)在節(jié)省帶寬的同時,也對算力提出了更高的要求。
盡管專用視頻加速卡(如 ASICs)和 GPU 在特定任務(wù)上展現(xiàn)出卓越性能,但通用服務(wù)器 CPU 因其出色的靈活性、廣泛的適用性以及更高的性價比,正在成為視頻轉(zhuǎn)碼場景中的主流選擇。隨著多核 CPU 架構(gòu)和視頻編解碼技術(shù)的不斷進步,可以預(yù)見 CPU 在視頻轉(zhuǎn)碼領(lǐng)域的應(yīng)用將更加廣泛。
在本文中,我們將探討基于 Armv9 架構(gòu)的中興微電子“珠峰 1.0”芯片在 x264/x265 視頻轉(zhuǎn)碼場景下,所展現(xiàn)的可擴展算力和穩(wěn)定核心,并通過與主流 x86 架構(gòu)產(chǎn)品相比,展示珠峰芯片所具備的性能和能效優(yōu)勢。
x264/x265 基準(zhǔn)測試
“珠峰 1.0”是中興微電子發(fā)布的首顆領(lǐng)域定制融合處理器,搭載 128 個核心,主頻最高達到 3.1GHz。該芯片可提供指令集加速,比如 SVE/SVE2 等向量計算技術(shù)等,并在視頻轉(zhuǎn)碼等高算力場景中能夠讓工作負(fù)載以可預(yù)測的方式穩(wěn)定運行。與此同時,依托于 Arm 成熟堅實的軟件生態(tài)和主流視頻編解碼庫中基于最新 Arm 架構(gòu)指令的優(yōu)化,珠峰芯片可以為視頻轉(zhuǎn)碼和其他云工作負(fù)載提供卓越的性能和能效收益。
x264 和 x265 作為主流的開源編解碼器實現(xiàn)在業(yè)界得到了廣泛的認(rèn)可和應(yīng)用,我們將通過實測 x264/x265 轉(zhuǎn)碼場景下的編碼速度(每秒幀數(shù),F(xiàn)PS)來對比珠峰芯片和主流 x86 產(chǎn)品(英特爾 IceLake[1]、英特爾 Sapphire Rapids (SPR)[2] 和 AMD Milan[3])在多線程和整個 socket 配置下的性能和吞吐。
表 1:珠峰芯片和主流 x86 架構(gòu)產(chǎn)品平臺配置
(配置: 內(nèi)核: 6.0; GCC 編譯器: 12.2;
x86 開啟 turbo,1 線程 = 1 邏輯 CPU)
測試視頻:
https://ultravideo.fi/video/Bosphorus_1920x1080_120fps_420_8bit_YUV_Y4M.7z
測試命令腳本:
x264:
for cpu in ${cpulist[@]};do
cmd = numactl -C $cpu ${x264_DIR}/x264 -o output_${cpu}.mkv
${input_video_DIR}/Bosphorus_1920x1080_120fps_420_8bit_YUV.y4m --preset medium --
frames 600 --threads 1 &
done
x265:
for cpu in ${cpulist[@]};do
cmd = numactl -C $cpu ${x265_DIR}/x265 -o output_${cpu}.mkv
${input_video_DIR}/Bosphorus_1920x1080_120fps_420_8bit_YUV.y4m --preset medium --
frames 600 --no-wpp --pools ',' --frame-threads 1 &
done
<<< 左右滑動查看完整腳本 >>>
八線程轉(zhuǎn)碼測試
圖 1:單線程下 x264 的平均轉(zhuǎn)碼速率對比
圖 2:單線程下 x265 的平均轉(zhuǎn)碼速率對比
我們可以看到,在八線程的配置下,珠峰芯片在 x264/x265 轉(zhuǎn)碼場景中相比 x86 架構(gòu)芯片平均每線程分別有 1.34 倍和 1.17 倍的性能優(yōu)勢。
單 socket 轉(zhuǎn)碼測試
圖 3:單 socket 下 x264 轉(zhuǎn)碼速率對比
圖 4:單 socket 下 x265 轉(zhuǎn)碼速率對比
在單 socket 的配置下,珠峰芯片在 x264/x265 轉(zhuǎn)碼場景中相比 x86 架構(gòu)芯片單 socket 分別有 2.96 倍和 2.54 倍的性能優(yōu)勢。
轉(zhuǎn)碼能效比
除了擁有最佳的轉(zhuǎn)碼性能外,基于 Armv9 架構(gòu)的珠峰芯片非常注重性能和功耗的平衡,卓越的能效可以極大地減少視頻轉(zhuǎn)碼中產(chǎn)生的碳足跡。下面是珠峰芯片和主流 x86 架構(gòu)產(chǎn)品 (IceLake、SPR 和 Milan)熱設(shè)計功耗 (TDP) 的比較:
圖 5:熱設(shè)計功耗 (TDP) 對比
結(jié)論
在 x264/x265 視頻轉(zhuǎn)碼的場景下,我們可以清楚地看到基于 Armv9 架構(gòu)的中興微電子珠峰芯片具備強勁的可擴展算力和穩(wěn)定核心,測試結(jié)果顯示,與主流 x86 架構(gòu)產(chǎn)品選擇相比(如英特爾至強第四代 Sapphire Rapids),該芯片提供了卓越的性能和能效,在運行 x264 時性能優(yōu)勢高達 2.08 倍,而在運行 x265 時性能優(yōu)勢高達 1.79 倍;此外,能效提升高達 1.35 倍。
-
處理器
+關(guān)注
關(guān)注
68文章
19111瀏覽量
228858 -
芯片
+關(guān)注
關(guān)注
453文章
50239瀏覽量
421091 -
ARM
+關(guān)注
關(guān)注
134文章
9029瀏覽量
366535 -
cpu
+關(guān)注
關(guān)注
68文章
10809瀏覽量
210874
原文標(biāo)題:基于 Arm 架構(gòu)的珠峰芯片加速極致視頻體驗
文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論