0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

精準的編碼碼控和精致的圖像前處理

LiveVideoStack ? 來源:未知 ? 作者:李倩 ? 2018-11-23 16:12 ? 次閱讀

編碼時采用精準碼控,在碼率受限的情況下,將有限的資源合理分配,提高整體畫質(zhì);編碼前,對圖像進行精致的前處理,營造更加極致的視覺效果,提升畫質(zhì)。

大家好,我是來自騰訊視頻的汪亮,主要負責騰訊視頻業(yè)務的視頻編解碼,以及圖像前處理的工作。今天的分享內(nèi)容主要分為兩個方面:精準的編碼碼控和精致的圖像前處理。其主要目的是為了使終端用戶在看視頻時有最好的畫質(zhì)體驗。此外,在文后簡單介紹了我們的下一步工作方向和內(nèi)容。

1、轉(zhuǎn)碼框架

如上圖所示, 我們所有的直播和點播都是使用同一套邏輯框架來進行處理,包括NBA、101等節(jié)目直播流和點播文件的源介質(zhì),通過就近接入,進入轉(zhuǎn)碼系統(tǒng)。

在轉(zhuǎn)碼系統(tǒng)中,進行前處理后,執(zhí)行H.264或HEVC的視頻編碼以及AAC或Dolby的音頻編碼,然后將編碼后的音、視頻流封裝成MP4、TS、FMP4的文件,進行DRM加密處理,最后把它上傳到FS文件系統(tǒng)保存,并分發(fā)到CDN,全平臺的終端也以就近接入的方式,下載文件進行播放。

在播放的過程中,我們會加入P2P的SDK來節(jié)約帶寬。本次分享的內(nèi)容主要集中在上圖中前處理這部分邏輯。

2、畫質(zhì)評測

我們對視頻進行前處理和編碼優(yōu)化,但如何評價優(yōu)化效果的好壞,是否達到預期,就涉及對畫質(zhì)評定規(guī)則的約定。希望找到一個簡單又通用的方法來評定畫質(zhì),但實施的難點在于畫質(zhì)和人的主觀感覺強相關,就更加增加了畫質(zhì)評測的復雜度。

我們嘗試了四種評定方式psnr、ssim、vmaf和主觀評測。傳統(tǒng)的PSNR和SSIM,缺點在于評測是相對質(zhì)量而不是絕對質(zhì)量,得出的值不能很好的代表主觀結(jié)果,在發(fā)現(xiàn)這個缺點之后,業(yè)界提出了VMAF,也是目前較為通用的一種方式,包括在MSU編碼器的比賽過程中也采用VMAF作為參考指標之一,但它是基于一種傳統(tǒng)的方法且和訓練樣本相關,可能不能很好適配所有類型的視頻;最后一種方式就是主觀評測,通過兩臺電視機,或者兩個手機對比,找不同背景的同事來看,然后進行MOS評分。

為了得到更為準確的評分,我們開發(fā)了一套web評測系統(tǒng),對上述4項指標均進行評測和統(tǒng)計,在新算法全量發(fā)布前,測評結(jié)果作為不斷改進和優(yōu)化的參考指標。

3、編碼-內(nèi)核優(yōu)化

點播和直播的流進來后,首先會將其解碼成YUV的數(shù)據(jù),再進行前處理與編碼,得到編碼壓縮NAL包。

視頻編碼的經(jīng)典框架沒有大的更新,包括預測,變換,量化,掃描,熵變換,依舊是這幾個步驟。由于內(nèi)核的優(yōu)化是一個周期較久,比較耗時的過程,在沒有好的結(jié)果出來之前,會基于編碼器不變的情況下,進行類似參數(shù)調(diào)優(yōu)等操作,比如,進行場景的識別,讓其自適應的進行量化和參數(shù)的設定,達到在最低碼流情況下獲得最好視頻效果的目的。

4、編碼-分類別編碼

不同的視頻內(nèi)容,由于其復雜度不一樣,可以為其分配不同的參數(shù),在目標碼率不一樣的情況下,也能達到很好的畫質(zhì)效果;分類別編碼的目的是在總碼率一定的情況下,能夠讓碼率在不同類型的視頻間進行很好的分配和轉(zhuǎn)移,物盡其用。對片源進行分類,例如分類為四個:2D動畫、3D動畫、普通電影、以及體育視頻(如足球賽,籃球賽等)。在分類之前,所有視頻的目標碼率是同樣對待處理的,分類之后,為不同的類別的內(nèi)容分配一個更為合適的目標碼率,測試發(fā)現(xiàn),2D動畫的視頻,即使減少30%的碼率,也能夠達到同樣的畫質(zhì)效果,此時,將節(jié)約出來的碼率轉(zhuǎn)給體育視頻,使之達到更好的畫質(zhì)效果。

5、編碼-動態(tài)碼率

在一個視頻中,場景是動態(tài)變化的,有時比較平緩,有時比較復雜,碼率曲線可以很好的展示它的變換情況。片源分類是針對片源對象來說的,動態(tài)碼率則是對該片源按時間軸進行細致的劃分,區(qū)分平緩和復雜的區(qū)間,并為其分配不同的目標碼率。

點播中,編碼的過程一般會采用2-Pass的方式,首先進行720P格式進行1-Pass的編碼,得到每一幀的參考幀的一些信息,這些信息可以為第二次編碼進行指引。在第二次編碼時,參考該pass1的信息,并生成多個不同的目標格式的清晰度,例如480P、540P、1080P等。得到兩個好處,其一節(jié)約時間,只用生成一次passlog信息;其二是各個格式的I幀是對齊的,能進行無縫切換的播放。

6、編碼-ROI編碼

在演唱會等娛樂節(jié)目中,人物背后的霓光燈對畫質(zhì)的影響非常大,由于燈光相對平滑且顏色信息非常多,如果按普通的方式處理,會占用大量的碼率,導致終端用戶即使有4M或5M的帶寬也會覺得畫質(zhì)不清晰。

ROI編碼的核心思想是,基于深度學習,識別出感興趣的區(qū)域,例如人臉或人體部分,然后在編碼時,對這部分區(qū)域進行碼率增強的處理。例如我們觀看一個跳舞的視頻,人眼更關注的人體,通過把這個人體區(qū)域找出來,并將區(qū)域的信息傳遞給編碼器,分配更多的碼率,從而讓人臉顯得更加清晰。上圖展示的是傳統(tǒng)處理方法與應用ROI編碼技術后的效果對比。

7、圖像-前處理框架

由于圖像前處理算法需要應用于點播和直播兩個系統(tǒng),因此我們自研了一套框架。從圖中可以看到,來自點播和直播的輸入幀,進入一個前處理Filter,再進行編碼得到碼流,優(yōu)點就是開發(fā)的任何一個算法,類似模塊,可以直接插入,應用于點播和直播中。該框架的使用,使得自研算法的集成和應用非常方便。

8、圖像-TIE增強

上圖展示的是自研的TIE(Tencent Image Enhance)即騰訊視頻畫質(zhì)增強技術,通過對視頻進行特定的分析處理使得畫面能夠更加的通透,層次感更加突出,為用戶營造一個更加逼真的視頻效果。在大部分的點播和直播視頻中都啟用了TIE增強處理。

9、圖像-數(shù)字水印

加上數(shù)字水印的主要目標就是為了加強版權保護,在視頻幀中嵌入數(shù)字水印,方法是在高頻和中頻的信息里面加入自己的私有信息。如果視頻被盜,可以分析被盜的視頻流,進行解碼,用相應的工具進行分析,如果提取的信息包含植入的加密信息,就說明視頻流是從我們這里被盜走的。 在視頻中添加數(shù)字水印可能會導致畫面出現(xiàn)瑕疵,在加入強度和策略上會進行一個控制,盡量減少對畫質(zhì)的影響。

10、圖像-超分(老片翻新)

超分目前我們主要是應用于老片翻新和視頻分辨率清晰度提升中,因為很多老片子很有可能是從普通的VCD里傳出來的,它的畫質(zhì)是比較差的,不滿足我們對畫質(zhì)的需求。用深度學習的方法,通過構(gòu)建不同的訓練集,構(gòu)建起較為完備模型,避免圖像中的噪聲的增強,同時得到較好的效果。為了解決后端服務器處理耗時的問題,在分布式框架中啟用超分算法,并發(fā)加速。目前我們也準備在手機等終端上加入超分的特性,540P的碼流,終端可以超分到1080P,在提升畫質(zhì)的同時,節(jié)約大量碼率,當然為了達到實時性,在模型選擇上,進行了一些縮減。

11、圖像-HDR10視頻

很多終端設備已經(jīng)支持hdr視頻的顯示,即支持更高的亮度范圍和更多的顏色信息,目前常用的有hdr10、dolbyvision等標準,在支持的終端上播放,有著無與倫比的效果。但受限于片源介質(zhì)的數(shù)量較少,就自研究了sdr轉(zhuǎn)hdr10的技術。主要進行2個步驟的操作,第一個就是亮度的擴展,第二個就是要對色域的擴展,要把原先亮度的BT709的色域擴展到BT2020色域上。有兩種方式進行,第一個就是普通算法的方式,建立一個空間映射,將亮度和色度從一個空間映射到另外一個空間,但這個映射有時會導致亮度不是很均勻,需要一個調(diào)優(yōu)的過程。第二個方式是采用hdrnet進行訓練,生成一個映射模型,基于普通的sdr介質(zhì)生成hdr介質(zhì)。

12、持續(xù)探索/完善的技術

最后簡單介紹我們正在探索和即將展開的一些工作,例如,多模態(tài)內(nèi)容的理解,包括對場景的識別,在視頻內(nèi)容中植入不同的應景的廣告,實現(xiàn)千人千面的廣告;內(nèi)容的搜索,希望在片源量非常大的媒資庫中,能快速找到想要的內(nèi)容;音視頻編解碼技術,在不斷的在做更新和優(yōu)化迭代,并在環(huán)繞聲、VR等方向上也在不斷的探索。希望音視頻技術的不斷演進,能為終端用戶提供更美妙的體驗。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1075

    瀏覽量

    40274
  • 編碼
    +關注

    關注

    6

    文章

    915

    瀏覽量

    54651
  • 視頻編碼
    +關注

    關注

    2

    文章

    111

    瀏覽量

    20965

原文標題:精致前處理,精準碼控 — 極致視覺效果

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    圖像編碼標準

    目前DVR制造商,網(wǎng)絡攝像機的圖像壓縮編碼標準主要有MPEG4、H.263、H.264、M-JPEG等?! PEG4  所謂MPEG標準就是指由ISO的活動圖像專家組制定的一系列關于音視頻信號以及
    發(fā)表于 03-07 11:09

    最新的高效音視頻編碼及視頻圖像處理

    本帖最后由 mr.pengyongche 于 2013-4-30 02:58 編輯 最新的高效音視頻編碼及視頻圖像處理技術在視頻領域,圖像視頻的很多問題困擾著廣大IT技術人員。
    發(fā)表于 10-11 16:39

    基于RCPT的漸進圖像傳輸方法

    將等級樹中的集分割編碼器輸出的流分組,根據(jù)輸出的分組數(shù)據(jù)對重建圖像重要性的不同,傳輸前采用糾錯能力不同的RCPT保護。在總的碼率限制下,采用遺傳算法從有限碼率
    發(fā)表于 11-11 17:40 ?9次下載

    基于改進的SGWT和嵌入式編碼圖像處理研究

    在分析提升方案和SPECK 算法之后,提出用提升法構(gòu)造的整型小波進行數(shù)據(jù)處理、用SPECK 算法對處理后的數(shù)據(jù)進行編碼壓縮的圖像處理流程。根
    發(fā)表于 07-09 08:55 ?7次下載

    基于Blackfin 561的數(shù)字圖像的成像處理

    基于Blackfin 561的數(shù)字圖像的成像處理:摘要:數(shù)字圖像的成像處理可分為圖像前處理
    發(fā)表于 09-30 20:32 ?11次下載

    基于提升小波變換的SPECK圖像編碼算法

    基于提升小波變換的SPECK圖像編碼算法: 提升小波變換即第2代小波變換,可以實現(xiàn)圖像的完全無損編碼; SPECK(集合分裂嵌入塊編碼)是基
    發(fā)表于 01-01 11:36 ?24次下載

    圖像交織RS設計及其C語言實現(xiàn)

    針對圖像在打印傳輸或者掃描過程中,存在大量誤差,圖像發(fā)生失真。該文提出一種專門應用于圖像的交織里德所羅門設計方法,該方法是通過用交織編碼
    發(fā)表于 01-15 11:30 ?43次下載

    圖像信號編碼壓縮/頻帶壓縮是什么意思

    圖像信號編碼壓縮/頻帶壓縮是什么意思 圖像信號編碼/頻帶壓縮,是指在滿足一定的圖像質(zhì)量的條件下,通過信號
    發(fā)表于 03-06 16:55 ?1733次閱讀

    常用編碼(BCD編碼、余3、格雷反射、奇偶校驗)

    常用編碼1、BCD編碼    例 寫出十進數(shù)563.97D對應的8421BCD?!   ?563.97D=0101 0110 0011 . 1001 01118421BCD   例 寫出8421BCD
    發(fā)表于 09-19 11:23 ?9024次閱讀

    數(shù)字圖像處理算法在QR識別中的應用

    介紹了基于數(shù)字圖像處理的QR識別算法。該方案綜合運用了圖像灰度化、濾波去噪、二值化、邊緣檢測、圖像旋轉(zhuǎn)等多種
    發(fā)表于 04-08 09:16 ?64次下載
    數(shù)字<b class='flag-5'>圖像</b><b class='flag-5'>處理</b>算法在QR<b class='flag-5'>碼</b>識別中的應用

    LDPC編碼器的FPGA實現(xiàn)

    800Mbps準循環(huán)LDPC編碼器的FPGA實現(xiàn)
    發(fā)表于 05-09 10:59 ?37次下載

    bcd是什么_bcd編碼方式是什么

    BCD亦稱二進十進數(shù)或二-十進制代碼。用4位二進制數(shù)來表示1位十進制數(shù)中的0~9這10個數(shù)碼。是一種二進制的數(shù)字編碼形式,用二進制編碼的十進制代碼。BCD
    發(fā)表于 11-24 08:48 ?4.2w次閱讀
    bcd<b class='flag-5'>碼</b>是什么_bcd<b class='flag-5'>碼</b>的<b class='flag-5'>編碼</b>方式是什么

    基于小波域的圖像噪聲類型識別計算

    處理噪聲圖像前 ,有 2 點是需要明確的:1)圖像受到的是何種類型的噪聲干擾, 2)受噪聲干擾的程度如何 。
    發(fā)表于 01-08 18:49 ?1次下載

    圖像處理技術都有哪些 圖像處理技術六大技術介紹

    圖像處理主要包括圖像數(shù)字化、圖像增強和復原、圖像數(shù)據(jù)編碼、
    發(fā)表于 03-25 15:06 ?3.6w次閱讀
    <b class='flag-5'>圖像</b><b class='flag-5'>處理</b>技術都有哪些 <b class='flag-5'>圖像</b><b class='flag-5'>處理</b>技術六大技術介紹

    圖像編碼常見的編碼方式和處理過程

    圖像編碼是將圖像數(shù)據(jù)轉(zhuǎn)換為數(shù)字形式的過程,通常通過壓縮圖像數(shù)據(jù)以便于存儲和傳輸。圖像編碼的主要目
    的頭像 發(fā)表于 02-26 14:32 ?7738次閱讀