欧美日韩另类精品重口综合手机,国产av高清怡春院ww888

依據(jù)客戶真實需求，定制下一代CPU是我們的工作之一，我們選擇做視頻轉碼的另一個原因，是為了設計更好滿足音視頻領域需求的下一代硬件。所以今天還會給大家介紹下一代CPU中關于編解碼的特殊指令，這些特殊指令可以加速編碼效率。

今天，我分享的內(nèi)容分為三個章節(jié)。首先，使用英特爾豐富的工具鏈對視頻轉碼進行分析。我們作為硬件廠商，本身不做音視頻轉碼業(yè)務，但俗話說“弄斧要到班門”，所以我們首先對視頻轉碼的一些典型場景進行了微架構層面的分析，為后面的優(yōu)化做好鋪墊。然后，介紹方案的核心思想，即如何重用一次編碼的信息來提高二次編碼的效率。之前提到，計算復雜度在轉碼里占了很大的成本，所以要從源頭上降低計算復雜度。最后，介紹SIMD指令集。SIMD的全稱是Single Instruction Multiple Data，意思是單指令多數(shù)據(jù)，表明一條指令可以同時操作多個數(shù)據(jù)。

01 視頻轉碼分析

首先，我們對視頻轉碼進行分析。

我們從相關市場獲取了圖中的數(shù)據(jù)。第一張圖表示在2020年，視頻數(shù)據(jù)在互聯(lián)網(wǎng)數(shù)據(jù)占比70%。到現(xiàn)在，視頻數(shù)據(jù)在互聯(lián)網(wǎng)數(shù)據(jù)占比已超過80%。第二張圖是PRC Video Cloud Market Forecast，圖中呈增長趨勢。雖然目前共有云市場的增速減緩，但是視頻云的增長仍有很大潛力。回到轉碼本身，第三張圖和第四張圖來自Video Developer report。從第四張圖可以看到，在2019年，H.264仍是主流視頻編碼技術，90%以上仍使用H.264。其次，較多使用的是H.265，然后是VP9和AV1，H.265也在逐漸成為一種趨勢。第三張圖表示視頻編碼器開發(fā)人員計劃在2022年投入的情況。其中，投入最多的是H.265，然后是AV1，再然后是H.266，這三個協(xié)議正在成為主流編碼器協(xié)議，我們后續(xù)將基于這些主流編碼器進行開發(fā)。

接下來進行直播成本分析。這是一張直播的結構圖，主播上傳內(nèi)容到上行CDN，然后再發(fā)送到轉碼中心進行內(nèi)容識別、截屏、錄制和轉碼，接著再分發(fā)到下行CDN。這個過程中，成本最大的是網(wǎng)絡帶寬和轉碼服務器。之前提到，網(wǎng)絡帶寬取決于觀看人數(shù)和碼率。舉個例子，觀看2M的視頻和觀看500K的視頻所需的網(wǎng)絡帶寬不同，1000個人同時觀看視頻和10個人同時觀看視頻所需的網(wǎng)絡帶寬也不同。轉碼服務取決于分辨率、碼率和視頻編碼標準等。

我們對頭部的互聯(lián)網(wǎng)廠商進行了分析。如第一張圖所示，主要有兩個成本，一個是Traffic price，即帶寬成本，另一個是轉碼成本。第二張圖表示直播一小時內(nèi)，轉碼和帶寬的比例，圖的橫軸是觀看人數(shù)，縱軸是轉碼和帶寬費用的比例?？梢钥吹剑斢^眾數(shù)大于等于50時，帶寬成為主要的成本。舉個例子，頂級流量主播的一場直播的帶寬成本要幾百萬，此時轉碼成本只有幾千塊，相對帶寬成本幾乎可以忽略。但對于數(shù)量眾多的小主播來講，觀眾數(shù)可能只有十幾個，此時的帶寬較低，所以轉碼成本成為主要的成本。針對這兩種情況，在帶寬成本較大時，我們以優(yōu)化帶寬為主，在轉碼成本較大時，我們以優(yōu)化轉碼速度/轉碼性能為主。

接下來，介紹幾款好用的英特爾的工具。首先是V-Tune，是一個可以快速發(fā)現(xiàn)應用程序瓶頸的可視化的工具。左下圖展示了一個例子，可以看到，我們可以知道轉碼里每個函數(shù)占用的CPU時間，雙擊就可進入code，精確定位哪行code的占比較高，所以可以清楚地知道熱點函數(shù)在哪里。我們支持CPU、GPU和FPGA，也支持多語言和多操作系統(tǒng)。V-Tune的優(yōu)點是直觀，缺點是會為系統(tǒng)帶來一定的負擔。

另一個工具是Emon，其用于low-level層面的數(shù)據(jù)抓取。Emon的優(yōu)點是可以直接抓取Performance Monitoring Units（PMUs），即寄存器的值，因此功率消耗較少。觀察右上圖，可以知道CPU的利用率、AVX指令集的使用比例，也可以知道該函數(shù)是Backend_Bound還是Frontend_Bound。因此，可以清楚知道系統(tǒng)的問題在哪里。

利用剛才介紹的工具，可以估計轉碼消耗的算力?？梢钥吹?，在某一個轉碼場景里，編碼過程中的運動估計（Motion Estimation）占比超過40%，但不同的場景情況有所不同，舉個例子，將8K的數(shù)據(jù)轉換成360P的數(shù)據(jù)時，解碼消耗的算力大于轉碼消耗的算力。在大部分情況下，若考慮幀決策等，運動估計的占比將超過50%，因此這成為了我們關注的熱點。

02重用運動矢量等信息提高轉碼效率和質(zhì)量

接下來，介紹方案的核心思想。

我們現(xiàn)在考慮轉碼，比如將H.264或H.265轉換成H.266或AV1。在一次編碼時，我們可以獲得slice type、mb qp和mb partition等信息。在現(xiàn)在的編解碼方式中，解碼之后這些信息就會被舍棄。而我們的核心思想是，在二次編碼中重用一次編碼的信息。通過粗略計算，在大部分場景下，重用一次編碼信息可以減少大約67%的運算量。

對于這種思路，大家可能有很多問題。比如，當幀率或分辨率在轉碼前后發(fā)生變化時，會不會出現(xiàn)一些新的問題。因此，雖然方案的原理比較直接，但實際應用時需要解決很多“并發(fā)癥”。特別是，我們要考慮如何一方面提升轉碼速度，另一方面保證轉碼質(zhì)量，否則轉碼質(zhì)量不好，即使轉碼速度很快，也不能投入實用。

舉個例子說明如何重用一次編碼的信息來提高視頻質(zhì)量。JND是一種感知編碼技術，在左上的圖中，四個block中只有左下的block的值為1，其余block的值為0。但對于人眼來說，可以忽略數(shù)值1，即四個block的值可以都為0。這是JND的核心思想：過濾人眼感觸不到的信息。對此，經(jīng)典的方法是使用雙邊濾波器等進行過濾，但這些方法都是無差別的濾波，容易造成“誤傷”。而現(xiàn)在由于掌握一次編碼信息，我們知道哪些信息可以被平滑，哪些信息必須保留，通過設置權重的方式來進行“區(qū)別對待”。這樣做可以帶來兩個好處，一是可以提高主觀視覺的質(zhì)量，二是在限定碼率的情況下，可以將碼率用在刀刃上，大幅度地提高客觀質(zhì)量。比如，將一個原碼率是50Mbps的視頻轉碼為2Mbps的視頻，采用我們的方式就可以較大地提高質(zhì)量。

另一種方式是使用一次編碼的殘差。在H.264和H.265里，有two-path的算法，但這個算法通常不被使用。這是因為，雖然經(jīng)過一次編碼可以掌握大概的信息，并且在此基礎上二次編碼的結果更精準，編碼質(zhì)量更高且碼率更低，但是這會大幅度地增加計算量，推高轉碼成本和延遲。為了解決這個問題，我們直接重用一次編碼的信息來實現(xiàn)類似二次編碼的效果。

03SIMD指令集加速轉碼熱點函數(shù)

最后，介紹如何用SIMD指令集加速轉碼熱點函數(shù)。

至強服務器平臺SIMD指令集經(jīng)迭代了很多代，大家比較熟知的比如AVX2，AVX512等。第二代至強可擴展平臺在AVX512的基礎上支持了INT8數(shù)據(jù)精度，第三代支持BF16指令集，2023年初量產(chǎn)的第四代平臺的AI性能在BF16和INT8上較上一代提升了8倍，其中加入了AMX 指令集，也可以理解為在CPU內(nèi)部有一塊硬件加速器。比如INT8的算力，一顆CPU的性能接近200T，很多以前在CPU上無法完成的運算現(xiàn)在都成為可能。

最后介紹一個例子，說明如何使用SIMD指令集優(yōu)化視頻編碼。在H.264中有一個大小為16×16的宏塊，需要對其求和或平方和，那么如何用avx512對其進行加速呢？需要執(zhí)行以下幾步。首先，將16個int8的數(shù)據(jù)載入到mm128寄存器中。然后，將int8數(shù)據(jù)轉換成int32，這是因為有時候運算結果為負數(shù)，而int8無法表示負數(shù)。接著，將16個int32數(shù)據(jù)水平相加，這需要消耗0.5個指令周期，而手動計算則需要8次計算，因此極大地提高了效率。最后，將16個int32平方后再水平相加。經(jīng)過這樣的處理，性能可提高16倍或8倍（若為一條指令則提高16倍，若為兩條指令則提高8倍）。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
44

文章
3529

瀏覽量
133304
編解碼

編解碼

+關注

關注
1

文章
140

瀏覽量
19523
SIMD

SIMD

+關注

關注
0

文章
33

瀏覽量
10253
視頻轉碼

視頻轉碼

+關注

關注
0

文章
14

瀏覽量
7487

原文標題：基于運動矢量重用的轉碼優(yōu)化

文章出處：【微信號：livevideostack，微信公眾號：LiveVideoStack】歡迎添加關注！文章轉載請注明出處。

CISC（復雜指令集）與RISC（精簡指令集）的區(qū)別　　

。這種架構會增加CPU結構的復雜性和對CPU工藝的要求，但對于編譯器的開發(fā)十分有利。比如上面的例子，C程序中的a*=b就可以直接編譯為一條乘法指令

發(fā)表于 07-30 17:21

AGV輪轂電機中的編碼器

編碼器還可以提供電機的絕對位置信息，這對于AGV系統(tǒng)的定位和校準至關重要。在AGV系統(tǒng)中，一般會使用Z信號來表示編碼器的絕對位置。Z信號是一個特殊

發(fā)表于 07-22 11:33 ?247次閱讀

數(shù)控車床t指令對刀步驟

精度的關鍵步驟。通過對刀，可以確保刀具與工件之間的相對位置準確，從而保證加工尺寸的準確性。提高生產(chǎn)效率：通過對刀，可以減少加工過程中的誤差，提高加工

發(fā)表于 06-07 09:50 ?1069次閱讀

CPU中寄存器的用途

在計算機體系結構中，中央處理單元（CPU）無疑是整個系統(tǒng)的核心。CPU負責執(zhí)行指令、處理數(shù)據(jù)、控制計算機系統(tǒng)的運行等關鍵任務。而在這個過程中

發(fā)表于 05-30 17:09 ?697次閱讀

微軟推進CPU指令集更新，舊版CPU或無法運行Edge瀏覽器

按照微軟的計劃，Microsoft Edge 126.0正式版將于2024年6月13日發(fā)布。屆時，未支持SSE3指令集的舊CPU用戶可能需繼續(xù)使用現(xiàn)有的版本。

發(fā)表于 05-18 10:33 ?783次閱讀

什么是RISC-V？RISC-V指令集的優(yōu)勢

CPU 支持的所有指令和指令的字節(jié)級編碼就是這個 CPU 的指令集架構(Instruction

發(fā)表于 03-05 10:31 ?590次閱讀

服務器中的CPU核心和線程到底是什么？

CPU核心作為CPU（中央處理單元）的主要處理單元。該組件從計算機內(nèi)存中讀取并執(zhí)行指令。每個核心一次只能運行一項任務，因此具有多個核心的 CPU

發(fā)表于 03-04 17:09 ?1068次閱讀

【米爾-全志T113-i開發(fā)板試用】JPG硬件編碼的實現(xiàn)、YUV轉換neon加速和對比測試

T113-i只支持jpg/mjpg編碼，并不支持mpeg4/h263/h264/h265/av1這些也行吧，我們還可以拿這個加速JPG圖片編碼開發(fā)環(huán)境配置基礎開發(fā)環(huán)境搭建參考上

發(fā)表于 02-12 14:06

ARM中的編碼方式與尋址方式有何不同？

ARM中的編指方式與尋址方式有何不同？ ARM處理器是一種廣泛應用的微處理器架構，被廣泛用于移動設備、嵌入式設備以及智能家居等領域。在ARM架構中，編碼方式和尋址方式是兩個關鍵概念，它們在指令

發(fā)表于 01-29 18:10 ?559次閱讀

一文詳解CPU概念及運作原理

CPU指令集（Instruction Set）是CPU中計算和控制計算機系統(tǒng)所有指令的集合。計算機的程序最終需要轉化為“指令”才能在

發(fā)表于 01-16 10:59 ?1059次閱讀

PLC中Move指令可以實現(xiàn)什么功能？

　Move指令是PLC編程中的基本指令之一，常用于在程序中對數(shù)據(jù)進行移動和傳輸。在使用Move指令時，需要注意數(shù)據(jù)類型、數(shù)據(jù)長度和地址的確定

發(fā)表于 01-10 15:13 ?8725次閱讀

一文了解CPU高速緩存

CPU的核心功能包括數(shù)據(jù)運算和指令控制。CPU運算的數(shù)據(jù)和執(zhí)行的指令全部存儲在CPU的寄存器中，

發(fā)表于 01-02 16:01 ?1311次閱讀

什么是曼徹斯特編碼曼徹斯特編碼在電路中怎么表示

什么是曼徹斯特編碼曼徹斯特編碼的特點是曼徹斯特編碼在電路中怎么表示曼徹斯特編碼是一種數(shù)字信號的編碼

發(fā)表于 11-22 16:32 ?1651次閱讀

多周期cpu的設計思想是什么？怎樣實現(xiàn)cpu多流水線？

多周期cpu的設計思想是什么？怎樣實現(xiàn)cpu多流水線？多周期cpu的設計思想是針對傳統(tǒng)的單周期處理器在執(zhí)行每條指令時需要花費大量時間等待內(nèi)存訪問，而提出來一種新型的處理器設計思想。多

發(fā)表于 10-19 16:53 ?2119次閱讀

單周期cpu和多周期cpu的區(qū)別多周期cpu和流水線的區(qū)別

單周期cpu和多周期cpu的區(qū)別多周期cpu和流水線的區(qū)別? 單周期CPU和多周期CPU的區(qū)別單周期

發(fā)表于 10-19 16:53 ?1w次閱讀