本文由華為云資深產(chǎn)品專家左雯在LiveVideoStackCon2020線上峰會的演講內(nèi)容整理而成,本文從視頻編解碼技術(shù)的趨勢、難點和挑戰(zhàn)以及華為云視頻產(chǎn)品的編解碼關(guān)鍵技術(shù)實踐與成果兩方面介紹下一代視頻編解碼技術(shù)優(yōu)化應(yīng)用的探索。
大家下午好,非常榮幸參加LiveVideoStack首屆音視頻線上峰會。先自我介紹一下,我叫左雯,來自華為云,是云視頻服務(wù)的產(chǎn)品經(jīng)理。在做產(chǎn)品經(jīng)理之前,一直從事視頻編解碼算法研究優(yōu)化、轉(zhuǎn)碼產(chǎn)品架構(gòu)設(shè)計等工作!今天參加這個專題目的有兩個,一個是想通過這次峰會,向大家分享一下華為云視頻對下一代視頻編碼技術(shù)發(fā)展的想法和應(yīng)用成果,另一個是像各位專家學(xué)習(xí),相互交流,促進下一代視頻編碼技術(shù)的快速發(fā)展,推動云視頻這個行業(yè)的發(fā)展。
今天分享的主題包括三個部分,首先是華為云視頻對視頻行業(yè)發(fā)展趨勢的一些看法,以及這些趨勢對下一代視頻編碼技術(shù)提出的挑戰(zhàn);其次從標(biāo)準(zhǔn)角度來介紹下一代視頻編碼技術(shù)以及華為相關(guān)工作;最后從云視頻應(yīng)用角度來具體介紹華為云在視頻編碼技術(shù)上的一些實踐和探索。希望能給大家?guī)砀韶浐图夹g(shù)啟發(fā)。
1
視頻行業(yè)趨勢
5G、云、AI已經(jīng)成為ICT行業(yè)甚至是整個社會的發(fā)展趨勢,促使整個視頻行業(yè)需求和技術(shù)不斷演進,推動整個視頻行業(yè)不斷升級。如圖所示,視頻生命周期的每個環(huán)節(jié)都在更新升級,包括視頻生產(chǎn)、視頻處理、視頻傳輸和視頻消費。
視頻生產(chǎn):多源數(shù)據(jù)的采集,包括超高清、VR、自由視角、3D建模和視頻渲染。
視頻處理:基于AI讓視頻處理更實時、智能和準(zhǔn)確,包括各種編碼方式。
視頻傳輸:超低時延的傳輸,云邊協(xié)同等等。
視頻消費:智能終端的深度結(jié)合提供視頻服務(wù)的最佳體驗。
視頻行業(yè)本質(zhì)是對媒體數(shù)據(jù)的處理,背后是算力、存儲、網(wǎng)絡(luò)、AI的支撐,同時視頻行業(yè)又推動著5G、云、AI的不斷前行,相輔相成!
視頻演進帶動了算力、存儲、帶寬需求的大幅增長。簡單來看,視頻分辨率越來越高,從高清到超高清再到8K/VR。算力增長 24倍,存儲增長12倍,帶寬增長 20倍。這些需求通過云,也只有通過云才能很好的滿足,實現(xiàn)高質(zhì)量的視頻體驗。云原生視頻是行業(yè)趨勢,視頻將成為云的基礎(chǔ)服務(wù)能力。
前面說的是行業(yè)的整體趨勢,下面說一下具體場景?;ヂ?lián)網(wǎng)視頻發(fā)展已經(jīng)歷兩個階段,第一階段從08年到13年,以長視頻VOD、點播觀看為熱點;第二階段,從13年到19年,也就是去年,其實還在延續(xù),以直播、短視頻為熱點;第三階段,也就是下一代會以什么為熱點?我們認為因為5G、云、AI的推動,視頻將進入實時互動、VR/AR時代。
互動視頻方式從IM向?qū)崟r音視頻過渡。直播連麥,主播PK,直播帶貨,視頻分發(fā)方式的升級,百毫秒級超低時延實時互動視頻成為趨勢。
VR/AR,360度視角帶來沉浸式體驗革命,用戶從看視頻向玩視頻過渡,體驗提升的同時,視頻傳輸能力也從兆級向十兆甚至百兆級單流帶寬提升。
RTC實時音視頻會成為5G時代基礎(chǔ)設(shè)施的核心控制點,RTC應(yīng)用很廣泛,它的市場年增長率是30%左右,而且這項技術(shù)不僅能賦能直播、游戲等泛娛樂行業(yè),更能在在線醫(yī)療、教育、金融等大視頻行業(yè)滲透?,F(xiàn)有的實時音視頻市場正處于爆發(fā)期,玩家很多,但由于它是非云廠商,難以持續(xù)發(fā)展。原因之一是它的技術(shù)門檻比較高,特別是像音視頻編碼或者整個RTC網(wǎng)絡(luò)的構(gòu)建,另一點是目前各家均采用私有協(xié)議的方式接入,各家互通、客戶的自由切換都比較困難。在RTC視頻業(yè)務(wù)產(chǎn)品上,我們認為音視頻編碼處理將是各家構(gòu)建技術(shù)壁壘和性能差異化競爭力的關(guān)鍵之一。
另外一個應(yīng)用場景就是Cloud VR,我們一直認為VR是5G技術(shù)發(fā)展下的關(guān)鍵場景。VR發(fā)展是一波三折的,但在目前來看,之前碰到的一些問題正在逐漸改善。從終端的角度來看,之前的終端很貴,但是目前千元終端機已經(jīng)逐漸來臨,而且體驗也會越來越好。除了設(shè)備終端,VR此前還面臨內(nèi)容缺失的重大問題,而VR直播很大程度上緩解了內(nèi)容缺乏的問題。 雖然困境在逐步改善,但VR目前還面臨著新的問題?;ヂ?lián)網(wǎng)VR業(yè)務(wù)很難形成商業(yè)閉環(huán),主要原因在于VR業(yè)務(wù)帶來了收入增加,但與此同時帶寬增加更多,VR追求的高質(zhì)量體驗需要通過更高帶寬來實現(xiàn),高帶寬勢必會帶來高成本,而高成本就會導(dǎo)致商業(yè)無法閉環(huán)。在這樣的前提下,很多玩家都會通過降低體驗來開展VR,比如說內(nèi)容采用4K以下,碼率采用10兆以下,終端采用卡片機來體驗VR,雖然這樣可以將VR的業(yè)務(wù)打通,但體驗效果是很差的,也導(dǎo)致付費用戶非常少,產(chǎn)業(yè)發(fā)展比較緩慢。所以在VR的發(fā)展上,我們認為通過視頻壓縮編碼以降低帶寬是關(guān)鍵,是可以幫助實現(xiàn)商業(yè)閉環(huán)的一個環(huán)節(jié)。
從前面講述視頻行業(yè)趨勢不難看出,用戶體驗升級、視頻產(chǎn)業(yè)升級、商業(yè)成本等驅(qū)動著視頻全方位升級,分辨率從高清到8K,幀頻從30幀到120幀,視場角從不到90度到360度,SDR到HDR等,這些參數(shù)升級推動視頻壓縮編碼技術(shù)不斷演進,追求壓縮比是永恒不變的!
另外,前車之鑒,HEVC/H.265,其實是很優(yōu)秀的編碼技術(shù),但因為前期不友好的專利政策,市場占有率一直不高13%。還好目前有所好轉(zhuǎn)!整個行業(yè)急需壓縮比更高、生態(tài)更完善、專利政策更合理的視頻編碼技術(shù)。
提升壓縮比有兩條路線,這也是各廠商正在做的。
標(biāo)準(zhǔn)技術(shù)路線,作為基礎(chǔ)內(nèi)核,H.266、AV1、AVS3、AI編碼
非標(biāo)技術(shù)路線,依賴基礎(chǔ)標(biāo)準(zhǔn),結(jié)合人眼感知特征,感知編碼、內(nèi)容編碼、ROI編碼
2
下一代視頻編碼技術(shù)
下面將從這兩個角度來介紹華為云視頻在下一代視頻編碼技術(shù)上的一些工作。這些技術(shù)得力于華為2012媒體技術(shù)院全力支持。 2.1 下一代視頻編碼標(biāo)準(zhǔn)技術(shù)
從上圖看出,下一代的視頻編碼標(biāo)準(zhǔn)大概分為三個陣營或者三個類型:
國際標(biāo)準(zhǔn):由MPEG、VVC聯(lián)合推動的像VVC/H.266還有EVC;
國內(nèi)標(biāo)準(zhǔn):國內(nèi)標(biāo)準(zhǔn)組織正在推出或已經(jīng)推出的AVS3的phase1、AVS3的phase2,兩者主要差別在于AVS3的第1階段標(biāo)準(zhǔn)瞄準(zhǔn)H.266,第二階段的標(biāo)準(zhǔn)則是瞄準(zhǔn)未來,可能會加入一些智能編碼的技術(shù);
谷歌牽頭的AOM聯(lián)盟推出的AV1,是一個開源技術(shù)。
下一代的視頻編碼技術(shù)仍是采用傳統(tǒng)的演進思路——在經(jīng)典架構(gòu)上做模塊增強。在H.266CFP時,華為聯(lián)合其他幾家公司提了P41提案,在PSNR和MOS評估方面都是排名第一,這個提案也是后面基礎(chǔ)。華為在VVC里的核心專利數(shù)量已屬于第一陣營,這是一個了不起的成就,也說明了國內(nèi)的視頻壓縮編碼基礎(chǔ)研究實際上不弱于歐美傳統(tǒng)的公司。
上圖是以VVC為例,對其新增的增強工具進行盤點。縱軸是每個工具的壓縮收益,橫軸是每個工具編解碼復(fù)雜度,編碼復(fù)雜度的權(quán)重可能會更高一點。VVC在塊劃分、幀內(nèi)預(yù)測、幀間預(yù)測、熵編碼、變換量化等多個模塊上進行了增強,其中主要的增強是幀內(nèi)、幀間預(yù)測、塊劃分、濾波的增強以及機器學(xué)習(xí)工具演進帶來的收益。VVC暫時沒有引入深度學(xué)習(xí)這一類編碼工具。 圖中還有三個用紅圈標(biāo)出來的工具,這是VVC中公認trade off比較好的三個工具點。藍色的是ALF,這是大家比較熟悉的自適應(yīng)環(huán)路濾波,其實它在H.265的時代就已經(jīng)有了, H.266將它引入標(biāo)準(zhǔn)中;綠色的是仿射運動預(yù)測,這個主要是由華為提出的;橙色的是量化技術(shù)。
EVC標(biāo)準(zhǔn)的提出某種程度是因為H.265/H.266的專利政策不友好,有可能導(dǎo)致H.266的落地都比較困難。MPEG希望能通過一個新的專利友好的標(biāo)準(zhǔn)來推動落地,同時也促使改變H.266、H.265的專利授權(quán)政策。EVC由華為、三星、高通等共同提出推動,華為在這里面加入了很多技術(shù)。在標(biāo)準(zhǔn)立項時期望它比H.265的壓縮性能提升20%,實測在4K娛樂視頻上相比H.265壓縮效率提升達30%以上,目前已經(jīng)進入了最終的標(biāo)準(zhǔn)投票階段。 AVS3是國內(nèi)提出的標(biāo)準(zhǔn),它的phase1是瞄準(zhǔn)H.266標(biāo)準(zhǔn)的,并且在2019年3月份就已經(jīng)制定完成率先推出,在2019年9月份,華為海思也同步推出了AVS3 8K的解碼芯片,AVS3相對H.265性能提升了20%以上,并且針對娛樂視頻和監(jiān)控視頻做了很多針對性的設(shè)計,性能上還可進一步提升。
H.266實際已經(jīng)基本定稿,它的壓縮效率在4K視頻場景下相較于H.265能提升40%左右,其解碼復(fù)雜度相對提升60%,目前看最大的問題還是專利政策不夠透明,而且專利費可能比較高,推廣節(jié)奏可能相對比較慢。
EVC也基本定稿,而且其壓縮效率也能提升30%左右,解碼復(fù)雜度相對H.265增加60%。其專利收費可能相對比較低,第二是他的專利收費比較透明和明確,目前主要依靠三星、華為、高通來做產(chǎn)業(yè)的推動和生態(tài)的構(gòu)建。
AVS3在2019年3月份推出,在性能上還是有保證的,壓縮效率能夠提升25%,復(fù)雜度增加相對較低,其專利收費也是比較低的,正通過互聯(lián)網(wǎng)等行業(yè)做產(chǎn)業(yè)的推動和生態(tài)構(gòu)建,目前實際上有很多聯(lián)盟和和公司正在做推動,我們也希望AVS3盡快落地。
表格中沒有列舉AV1的數(shù)據(jù),這主要是因為它和其他三個標(biāo)準(zhǔn)不太一樣,AV1開源軟件實際上是瞄準(zhǔn)商用化去做的,大家也比較清楚其壓縮效率和解碼復(fù)雜度。AV1有個很大的優(yōu)勢就是沒有專利費,這是AOM聯(lián)盟的承諾。在產(chǎn)業(yè)落地方面AV1做的很好,生態(tài)構(gòu)建走的較前。
2.2 AI編碼 下一代視頻編碼標(biāo)準(zhǔn)還有一個趨勢就是AI編碼,這一塊實際上從HEVC、VVC標(biāo)準(zhǔn)制定就有提出,但因為考慮計算復(fù)雜度以及AI硬件普適性,都暫時擱置了。但這是個技術(shù)趨勢。
AI編碼包括兩個演進思路,第一個是全新架構(gòu),類似于圖像編碼,實際上AI的圖像編碼已經(jīng)取得了不錯的成效,谷歌牽頭的AI圖像編碼技術(shù)都已經(jīng)得到了很好地應(yīng)用,但針對視頻中的應(yīng)用還在探索過程中。所謂的全新架構(gòu),就是不用傳統(tǒng)架構(gòu),視頻進入黑盒后會得出一個壓縮過的視頻,這個視頻可能沒有塊劃分,也沒有各種其他的方式,它的壓縮效率會非常高,但這一切還處于研究的過程中。
另外一個思路是基于經(jīng)典架構(gòu),對每個架構(gòu)里的模塊做增強。例如針對塊劃分、變換、矢量量化、幀內(nèi)預(yù)測做不同的AI網(wǎng)絡(luò)適應(yīng)和增強。實際上華為也在做這方面的研究,未來可能會提出一些AI編碼方面的論文或提案。并且我們認為AI編碼的這兩種思路,最終將是融合設(shè)計的過程,不會呈相互獨立的狀態(tài)。
3
華為云視頻應(yīng)用和實踐
3.1 云視頻簡介 上面簡單介紹了下一代視頻編碼標(biāo)準(zhǔn)技術(shù),下面介紹一下從實際商用及非標(biāo)角度,介紹一下華為云視頻在視頻編碼技術(shù)上的應(yīng)用和實踐。
首先介紹一下華為云視頻,華為云視頻是從2017年開始構(gòu)建的,目前包括兩大類業(yè)務(wù),一種是比較傳統(tǒng)的直播、點播、媒體處理以及監(jiān)控業(yè)務(wù),另一種是整個行業(yè)正在新晉的服務(wù),比如RTC、VR/AR以及超高清制播。華為云視頻面向很多的場景,例如娛樂直播、短視頻、在線教育、企業(yè)直播、4K直播、4K制作等等,我們致力于幫助行業(yè)客戶、伙伴、開發(fā)者、ISV快速上線應(yīng)用,并幫他們構(gòu)建差異化的競爭力,實現(xiàn)商業(yè)閉環(huán)。這里需要重點提一下RTC,RTC是華為云視頻對下一代視頻的理解并作出了實際的推動,針對RTC,我們重點構(gòu)建超低時延、音視頻質(zhì)量等差異化競爭力。 3.2 視頻編碼技術(shù) 3.2.1 視頻編碼框架
結(jié)合今天的主題,下面重點講解華為云視頻在視頻編碼技術(shù)上的一些工作。這些技術(shù)得力于華為2012媒體技術(shù)院全力支持。上圖比較直觀地表達了這點。圖中黃框表示了編碼器的內(nèi)核,所有的華為云視頻編碼的編碼能力、編碼服務(wù)都是基于編碼內(nèi)核。編碼內(nèi)核采用了一個標(biāo)準(zhǔn)的編碼器,類似于前面提到的H.264、H.265、AVS3、H.266或者EVC這一類,在這個編碼內(nèi)核的基礎(chǔ)上,我們面向不同的場景做了不同的編碼技術(shù)的優(yōu)化和實踐。比如 面向RTC實時音視頻場景,采用低時延編碼技術(shù);面向VR場景,采用FOV tile編碼;面向多視角場景,采用空間云邊協(xié)同編碼;面向監(jiān)控場景,采用智能語義編碼;面向直播、點播,采用感知編碼和畫質(zhì)增強等;另外,華為云視頻借助鯤鵬、昇騰兩大專有硬件,加速視頻編轉(zhuǎn)碼效率。鯤鵬主要面向CPU這類計算,昇騰主要面向AI方面的加速。 3.2.2 標(biāo)準(zhǔn)編碼內(nèi)核
接下來分別介紹一下視頻編碼的技術(shù),第一是編碼內(nèi)核,華為云在商用編碼器上面也有很多的技術(shù)積累。比如說近幾年在MSU的大賽上,HW265編碼器連續(xù)兩年獲得多項測評的第1名,今年我們也會向MSU推出新的編碼器。 3.2.3 高清低碼
第二個技術(shù)是高清低碼,高清低碼目前在各個廠商或者商業(yè)領(lǐng)域里是大家比較默認的技術(shù),也就是說在基于標(biāo)準(zhǔn)編碼內(nèi)核的基礎(chǔ)上,能降低碼率的同時保證主觀質(zhì)量沒有下降,但實際上高清低碼理論可行性是現(xiàn)有視頻編碼是基于香農(nóng)定理,它的率失真模型都是連續(xù)的,但是人眼視覺模型是階梯性非連續(xù)的,在這個階梯上存在一個降碼率的空間。 高清低碼一般情況下包括三個模塊,第一是基于人眼JND模型,就是說如何找出JND,第二是基于JND去做感知編碼,第三就是通過感知編碼來控制標(biāo)準(zhǔn)編碼內(nèi)核輸出,在主觀質(zhì)量不變的情況下大幅降低碼率。華為云視頻在這方面做了很多的工作,目前針對不同的應(yīng)用場景,能達到30~50%的碼率降低。
高清低碼技術(shù)現(xiàn)在也走到了一個瓶頸期,原有高清低碼的考慮僅來源于編碼與傳輸信道,隨著AI技術(shù)的發(fā)展,是否還有進一步的發(fā)展空間?華為提出了一種新的思路:在原有的率失真模型上,加入一個接收端(解碼端)復(fù)雜度的因子,也就是在發(fā)送端主動退化,把它通過時域或者空域的下采樣變成一個相對數(shù)據(jù)量比較小的視頻,這樣做使得編碼的碼率相對更低,達到有效降低碼率的目標(biāo)。通過一些輔助信息再加上低碼率、低分辨率的編碼碼流,在接收端通過AI技術(shù)進行超分、插幀或者是增強,將視頻還原,如此整個鏈路上傳輸?shù)拇a率會大幅下降,我們初步試驗發(fā)現(xiàn)至少能降低60%以上的碼率。 3.2.4 超低時延編碼
RTC場景是我們面向下一代視頻產(chǎn)業(yè)重點打造的服務(wù)能力,RTC場景下主要是超低時延的編碼,我們提出了一個綜合的超低時延方案,比如編碼和渲染聯(lián)合優(yōu)化、編碼的內(nèi)核以及分層編碼和信源信道協(xié)同等技術(shù)手段,面向不同的實時場景會做不同的組合或者應(yīng)用,我們初步試驗發(fā)現(xiàn)在1080P這種場景下進行編碼和解碼,整體的時延能達到十毫秒級別。 3.2.5 VR FOV編碼
面向VR場景,特別是面向360°場景,我們提出來FOV TWS的編碼技術(shù)。這個技術(shù)原理是將高分辨率的全景視頻分片,多個FOV的小分片加上一路4K的背景流,這樣4K終端的播放器就能通過相應(yīng)的視角FOV分片和4K全景背景流實現(xiàn)8K VR全景視頻播放,同時還能保證MTP,不會出現(xiàn)眩暈感。該技術(shù)已經(jīng)寫入OMAF的標(biāo)準(zhǔn)。整體體驗上也得到了用戶的認可。 3.2.6 智能語義編碼
當(dāng)面向監(jiān)控場景的時候,我們提出了一種智能語義的編碼,主要通過背景建模加上視頻內(nèi)容和運動分析,再加上端側(cè)的一些實時超分、插幀來構(gòu)建智能語義編碼的方案。監(jiān)控場景的畫面往往有很多細節(jié),各種機器分析的識別率不能降低,如果壓的太狠,識別率可能就會下降。初步的原型結(jié)果顯示能做到在人和機器的識別率都不降低的前提下,達到70%以上的碼率節(jié)省。 3.2.7 空間視頻云邊協(xié)同編碼
另外一個技術(shù)是空間視頻編碼,所謂空間視頻就是是自由視角或多視角,這也是以后技術(shù)發(fā)展的一個方向。人們不再滿足于一個固定視角視頻觀看,希望多視點或者自由視角的觀看視頻。在空間視頻的編解碼當(dāng)中,我們提出一種云邊協(xié)同編碼,通過這種編碼可以在邊緣非常短的時間內(nèi)按需動態(tài)的生成任意時刻的切換流,大幅減少一般方案中切換流的碼率,初步試驗發(fā)現(xiàn)至少能降低60%左右的帶寬成本。 3.2.8 AI視頻增強
視頻質(zhì)量、視頻碼率是視頻產(chǎn)業(yè)最關(guān)鍵的兩個指標(biāo)。前面講的技術(shù),不管是標(biāo)準(zhǔn)的技術(shù)、還是非標(biāo)的技術(shù),都是追求在同等畫質(zhì)的前提下,如何降低碼率。
硬幣的另一面則是,在同等碼率下,如何追求視頻主觀體驗質(zhì)量。我們在這方面也做了很多嘗試,根據(jù)不同的場景特征,基于云端、終端AI能力,從分辨率、幀頻動態(tài)范圍等維度對視頻進行修復(fù)、增強和重建。并且考慮真實場景中往往是包含多種混合失真的等因素,我們提出一種面向混合失真的多任務(wù)視頻增強框架,能夠很好地適應(yīng)不同場景和不同需求。
以上內(nèi)容介紹的是華為云視頻在視頻編解碼上的一些實踐和探索,希望能帶給大家一些干貨或者啟發(fā)。謝謝大家!
-
視頻編碼
+關(guān)注
關(guān)注
2文章
111瀏覽量
20965 -
云視頻
+關(guān)注
關(guān)注
0文章
28瀏覽量
4609 -
華為云
+關(guān)注
關(guān)注
3文章
2343瀏覽量
17106
原文標(biāo)題:下一代視頻編碼技術(shù)的云視頻應(yīng)用探索
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論