0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡(jiǎn)述音視頻算法在淘寶中的應(yīng)用

LiveVideoStack ? 來(lái)源:LiveVideoStack ? 作者:王立波 ? 2021-05-24 15:44 ? 次閱讀

近年來(lái),內(nèi)容業(yè)務(wù)在行業(yè)蓬勃發(fā)展。淘寶也在積極進(jìn)行內(nèi)容化轉(zhuǎn)型,本次LiveVideoStackCon 2021 上海站大會(huì)我們邀請(qǐng)到了阿里巴巴淘系技術(shù)高級(jí)算法專家——王立波(莊恕),回顧淘寶從圖文到短視頻直播的發(fā)展歷程,介紹音視頻算法在其中的應(yīng)用和未來(lái)的投入方向包括編解碼、視頻處理、音頻通訊與互動(dòng)。

很高興與大家進(jìn)行交流與分享,首先介紹一下自己,我是來(lái)自淘系技術(shù)部的王立波,花名莊恕,今天分享的主題是音視頻算法在淘寶中的應(yīng)用。剛接到這個(gè)任務(wù)時(shí),覺(jué)得題目特別大,可以講的東西特別多,經(jīng)過(guò)考慮我還是決定集中講3個(gè)觀點(diǎn),可以為大家介紹得更詳細(xì)。

這三個(gè)觀點(diǎn)分別是:視頻壓縮有效降低成本(這個(gè)觀點(diǎn)在業(yè)界應(yīng)該已經(jīng)被大家所接受)、視頻處理提升畫(huà)質(zhì)體驗(yàn)(隨著阿里云的窄帶高清的推廣,也逐漸被大家接受)、音頻技術(shù)是新的生產(chǎn)力(這是淘寶過(guò)去1-2年發(fā)力探索的方向,希望能夠?yàn)樾袠I(yè)帶來(lái)新的思考)。

01

業(yè)務(wù)介紹

首先我簡(jiǎn)短介紹一下淘寶的內(nèi)容業(yè)務(wù)。隨著通信技術(shù)的發(fā)展,互聯(lián)網(wǎng)內(nèi)容生態(tài)從2G時(shí)代的文字,過(guò)渡到3G時(shí)代的圖片,再到4G時(shí)代的直播和短視頻;對(duì)于淘寶來(lái)講,同樣也面臨“內(nèi)容化”的全面升級(jí)。

淘寶從PC走向移動(dòng),從圖文走向直播短視頻,從傳統(tǒng)電商走向內(nèi)容電商再到發(fā)現(xiàn)電商、興趣電商。在過(guò)去的2020年,淘寶直播的GMV突破4000億,去年雙十一一天之內(nèi)有超過(guò)7億人次觀看淘寶直播;2020年底隨著點(diǎn)淘,逛逛的推出,短視頻成為內(nèi)容業(yè)務(wù)發(fā)展的新引擎;在這個(gè)飛速發(fā)展過(guò)程中面臨巨大的成本壓力。

02

視頻壓縮有效降低成本

2.1 從圖片壓縮說(shuō)起

第一個(gè)觀點(diǎn),視頻壓縮有效降低成本。

說(shuō)起編解碼,可能不得不先提圖片壓縮了,這是一張小小的商品詳情圖,在直播短視頻興起之前,圖片是大家獲取信息主要手段,隨著用戶增長(zhǎng),成本壓力越來(lái)越大,過(guò)去幾年中,淘寶圖片日均播放量超過(guò)千億次,如果通過(guò)降低質(zhì)量來(lái)降低成本會(huì)犧牲大家的體驗(yàn),所以我們希望依靠技術(shù)升級(jí)來(lái)提高壓縮效率。

2.1.1 圖片壓縮標(biāo)準(zhǔn)的演進(jìn)

885942ca-bc62-11eb-bf61-12bb97331649.png

大家應(yīng)該很熟悉圖片壓縮。圖片壓縮實(shí)際上是一個(gè)去除空間冗余的過(guò)程,從標(biāo)準(zhǔn)發(fā)展上來(lái)看,主要經(jīng)歷了JPEG,基于VP8內(nèi)核的WebP,以及HEVC MSP三代。

這里我對(duì)各種格式做了一個(gè)簡(jiǎn)單總結(jié),JPEG是目前使用最廣泛的圖片壓縮標(biāo)準(zhǔn),從1992年公布至今已經(jīng)接近三十年,它非常簡(jiǎn)單高效。10年前左右,Google基于VP8內(nèi)核發(fā)布了WebP格式。WebP在塊劃分,預(yù)測(cè),變化,量化,熵編碼方面比JPEG更優(yōu),且增加了Deblock功能;HEVC則比WebP更進(jìn)一步,通過(guò)多個(gè)工具的升級(jí)來(lái)提升壓縮效率,另一方面,由于Tile劃分及Wpp技術(shù)的引入,HEVC給Codec工程實(shí)現(xiàn)提供很多并行化的手段,這對(duì)現(xiàn)代多核CPU來(lái)說(shuō)比較友好。

為了比較三種格式在不同場(chǎng)景數(shù)據(jù)集下的壓縮效率,我們?cè)O(shè)計(jì)圖中實(shí)驗(yàn)。得出的結(jié)論是WebP比JPEG大約提升29%的壓縮性能,HEVC對(duì)比JPEG大約提升接近50%壓縮效率。

2.1.2 淘寶自研APG格式

889f3bea-bc62-11eb-bf61-12bb97331649.png

APG是淘寶自研的圖片格式,有三個(gè)特點(diǎn)。第一,有非常高的壓縮效率,對(duì)比JPEG節(jié)省50%碼率,非常接近HEVC;第二,高效率的移動(dòng)端解碼器,對(duì)比Webp減少20%解碼時(shí)間;第三,支持Alpha通道和動(dòng)圖,動(dòng)圖被廣泛使用的是GIF格式,而GIF沒(méi)有考慮到幀與幀之間的相關(guān)性,壓縮效率不高,而APG對(duì)比GIF節(jié)省10倍體積;

除此之外,我們對(duì)整個(gè)系統(tǒng)的架構(gòu)方面也進(jìn)行了大量工作,比如高并發(fā)實(shí)時(shí)響應(yīng)、CDN的下發(fā)策略、存儲(chǔ)和計(jì)算分離,多內(nèi)容災(zāi)等策略,最終實(shí)現(xiàn)了淘寶千億級(jí)的實(shí)時(shí)圖片處理系統(tǒng),在大大節(jié)省業(yè)務(wù)成本的同時(shí)也保障了畫(huà)質(zhì)體驗(yàn)。

2.1.3 內(nèi)容業(yè)務(wù)進(jìn)化為視頻為主

892462b6-bc62-11eb-bf61-12bb97331649.png

隨著內(nèi)容業(yè)務(wù)的進(jìn)化,視頻和直播占據(jù)了主要流量。一方面信息表達(dá)從空間維度拓展到時(shí)間維度,另一方面,分辨率也提升到720P,1080P甚至4K,消費(fèi)時(shí)長(zhǎng)也成倍增長(zhǎng),(剛才陳老師有數(shù)據(jù),每個(gè)人花費(fèi)在視頻的平均時(shí)間可能有好幾十分鐘)。我們也知道,每一代視頻壓縮標(biāo)準(zhǔn)相比上一代有50%的碼率節(jié)省,從MPEG4到H.264/AVC到H.265/HEVC,再到去年發(fā)布的的H.266/VVC,很自然我們會(huì)想到通過(guò)升級(jí)編碼標(biāo)準(zhǔn)來(lái)節(jié)省視頻成本。

2.1.4 HEVC在視頻業(yè)務(wù)落地挑戰(zhàn)

89b220f6-bc62-11eb-bf61-12bb97331649.png

首先我們探討一下HEVC在視頻業(yè)務(wù)落地的挑戰(zhàn)。HEVC標(biāo)準(zhǔn)在2013年公布已有8年時(shí)間,但直到最近幾年才在業(yè)務(wù)上大規(guī)模落地,這里主要有以HM下幾個(gè)原因:

首先是編碼速度,H265的官方模型HM,在普通PC上編碼720P視頻時(shí)只能達(dá)到0.1fps,想象一下,壓縮一段十分鐘的視頻需要花費(fèi)一天甚至幾天的時(shí)間。業(yè)界最好的開(kāi)源編碼器X265,在慢速檔也只有6.8fps,距離30fps實(shí)時(shí)編碼的需求有相當(dāng)大的差距;

其次是編碼質(zhì)量,由于復(fù)雜度的原因,X265僅比X264節(jié)省18%的碼率,遠(yuǎn)遠(yuǎn)達(dá)不到HEVC相比AVC理論上的上限值(HEVC標(biāo)準(zhǔn)在設(shè)計(jì)時(shí)以50%的碼率節(jié)省為目標(biāo));

第三是碼率控制,業(yè)界有許多場(chǎng)景的碼率控制方法,比如ABR、CBR、CRF,但現(xiàn)在實(shí)時(shí)音視頻的業(yè)務(wù)場(chǎng)景非常復(fù)雜,無(wú)法直接使用這樣的碼率控制方法;

第四是解碼的兼容性和性能,也是大家普遍關(guān)心的問(wèn)題。用戶觀看環(huán)境多種多樣,有Android、IOS、Web的H5觀看,H265在H5上的支持不太好,限制了它的發(fā)展,硬解設(shè)備兼容性也不完善,所以在解碼兼容性方面也面臨著很大的挑戰(zhàn)。

2.1.5 S265編碼內(nèi)核優(yōu)化

89eade00-bc62-11eb-bf61-12bb97331649.png

S265編碼器是2017開(kāi)始研發(fā)的,花費(fèi)三年多時(shí)間使之達(dá)到較好的狀態(tài)。我們主要在編碼工具、快速算法、工程優(yōu)化、碼控方法、框架優(yōu)化方面做了大量的優(yōu)化工作從而提升壓縮效率和編碼速度。

8a1d0d94-bc62-11eb-bf61-12bb97331649.png

下面為大家詳細(xì)介紹一下速度優(yōu)化的相關(guān)技術(shù)。

1、Cu深度預(yù)測(cè)算法,HEVC的塊劃分從64劃分到8*8,深度有4層,如何預(yù)測(cè)出CTU的劃分深度是具有挑戰(zhàn)性的事情。HM為了確保編碼性能會(huì)對(duì)每一層都計(jì)算其RDcost,我們這里結(jié)合紋理復(fù)雜度、時(shí)空域相鄰塊及前處理運(yùn)動(dòng)信息,做到比較準(zhǔn)確的Cu深度預(yù)測(cè)。進(jìn)一步深度預(yù)測(cè)方面有許多研究,比如一些機(jī)器學(xué)習(xí)深度學(xué)習(xí)的方法能夠精準(zhǔn)預(yù)測(cè)塊的劃分層級(jí)。

2、自適應(yīng)的EarlySkip算法和RecursionSkip算法。這兩個(gè)算法比較類似,EarlySkip的目的是在本層跳過(guò)其它模式的計(jì)算,而RecursionSkip目的是跳過(guò)當(dāng)前層不再Split。X265也有類似的技術(shù),我們比X265更進(jìn)一步,做RS時(shí)會(huì)同時(shí)考慮skip和merge模式子塊的satd,做ES時(shí),會(huì)同時(shí)考慮最佳模式的cost大小避免殘差過(guò)大,我們的結(jié)果做到在相同速度條件下對(duì)比X265相當(dāng)程度的節(jié)省碼率。

3、All Zero Block的檢測(cè)。如果一個(gè)塊經(jīng)過(guò)量化后是全零塊,就沒(méi)有必要進(jìn)行RDO及編碼了,但怎樣預(yù)測(cè)一個(gè)塊是All Zero Block。我們發(fā)現(xiàn)一種方法可能適合于一種大小的塊,在8*8中比較準(zhǔn)確,但放在32*32中不可用,所以要根據(jù)塊大小及內(nèi)部紋理強(qiáng)度,更加精確地預(yù)測(cè)出是否是All Zero Block。

4、Fast Intra Prediction。這個(gè)技術(shù)有很多人研究,H.265總共有35種預(yù)測(cè)方式,如何快速找到預(yù)測(cè)角度,有許多相關(guān)論文。我們使用Bayes估計(jì)模型,在橫向及縱向找到準(zhǔn)確方向,再去做細(xì)分角度預(yù)測(cè),提高角度預(yù)測(cè)的速度。

5、分像素的搜索。傳統(tǒng)的分像素的搜索在整像素最佳點(diǎn)上下左右找4或8個(gè)點(diǎn),相對(duì)來(lái)說(shuō)計(jì)算量比較大,根據(jù)整像素結(jié)果通過(guò)誤差平面估計(jì)模型推導(dǎo)出分像素點(diǎn)的位置,從而節(jié)省分像素的計(jì)算個(gè)數(shù)。

6、多參考幀的選擇。為了提高壓縮效率,現(xiàn)在的編碼器會(huì)選擇更多參考幀,比如在一個(gè)方向選擇3到4個(gè)參考幀,我們會(huì)根據(jù)參考幀的質(zhì)量,距離來(lái)做加權(quán),選擇適合的參考幀。在拿到一個(gè)比較好的結(jié)果后如何提前跳出其它參考幀的遍歷?多參考幀是提升壓縮質(zhì)量的一個(gè)很好選擇,但需要避免計(jì)算復(fù)雜升高。

7、Distortion的快速估計(jì)。在RDO過(guò)程中要對(duì)誤差進(jìn)行仔細(xì)估計(jì),如果用傳統(tǒng)下的SATD做的話,效率不高,但如果做完整的RDO計(jì)算非常耗時(shí),所以我們有殘差的預(yù)估模型,從量化后的系數(shù)中用模型推導(dǎo)出Distortion的結(jié)果避免再做反量化,反變化。還有像Bits估計(jì),RDCost的另一個(gè)分量是Bits代價(jià),用一次完整的熵編碼會(huì)非常耗時(shí),如果用一個(gè)分段線性模型能夠估算出來(lái)Bits來(lái),我們就可以快速做出RDO的計(jì)算。

其它的比如Deblock,SAO優(yōu)化偏一些工程方面手段。

8a6be0f4-bc62-11eb-bf61-12bb97331649.png

除了快速算法之外,我還對(duì)壓縮性能做了一些總結(jié),速度不變的前提下,相比于X265,我們有》30%的性能增益。我們的編碼器在以下幾個(gè)方面有性能收益:

1、第一個(gè)碼率控制。碼率控制的目標(biāo)是把碼率分配到更有價(jià)值的地方。它分幀級(jí)別碼控和塊級(jí)別碼控。在幀級(jí)別碼控中,我們對(duì)I幀碼控和P幀碼控做了精確的預(yù)分析,在塊級(jí)別碼控中,我們?cè)O(shè)計(jì)了增強(qiáng)型的Cu-tree算法。

2、分層B幀以及參考結(jié)構(gòu)的優(yōu)化。分層B幀在實(shí)現(xiàn)方面不難,對(duì)壓縮效率方面有大的幫助。前面介紹了GOP結(jié)構(gòu)的優(yōu)化,我們會(huì)對(duì)參考幀的選擇會(huì)做權(quán)衡。

3、大家知道在靜止場(chǎng)景下,分層越多壓縮效率越高,但在運(yùn)動(dòng)場(chǎng)景就不那么有效,所以我們實(shí)現(xiàn)了自適應(yīng)的GOP Size,并自研了Scenecut算法。能夠適應(yīng)不同運(yùn)動(dòng)強(qiáng)度、場(chǎng)景切換的需求包括淡入淡出的需求。

4.此外,在Bi-Search,GPB,LTR這幾個(gè)工具,在開(kāi)源軟件X265是沒(méi)有的,但對(duì)提高預(yù)測(cè)效率很有幫助;MCTF工具對(duì)編碼噪聲的去除非常有幫助,我們將這幾個(gè)技術(shù)加入到S265之后獲得了5%以上的BD-rate收益。

5、2-pass是在求解一個(gè)全局最優(yōu)的Qscale,它在離線轉(zhuǎn)碼場(chǎng)景中被用到,允許對(duì)視頻做更多分析,但在求解過(guò)程中,失真度量是MSE,我們對(duì)度量函數(shù)進(jìn)行了重新推導(dǎo),獲得5%壓縮性能;

6、Dynamic CRF和Pboffset,常規(guī)做法是是固定幀級(jí)P,B幀的Offset,我們會(huì)根據(jù)幀的復(fù)雜度來(lái)調(diào)節(jié)幀級(jí)QP值;

7、AQ和RDO的代價(jià)計(jì)算通常基于MSE,但如果是針對(duì)SSIM指標(biāo)的話,可以推導(dǎo)SSIM的模型,RD也一樣。

8、針對(duì)會(huì)議場(chǎng)景,我們還實(shí)現(xiàn)了IBC工具,對(duì)PPT投屏有幫助。并專門(mén)設(shè)計(jì)了對(duì)屏幕內(nèi)容優(yōu)化的搜索算法,傳統(tǒng)的快速算法如菱形搜索、六邊形搜索在SCC場(chǎng)景下效率很低,很難找到最優(yōu)解,但如果用自研的算法搜索就有較好的效率提升。

8aa581ec-bc62-11eb-bf61-12bb97331649.png

上述是S265技術(shù)的介紹,記得在2016年的時(shí)候,金山KS265第一次參加MSU比賽獲得了非常好的成績(jī),后來(lái)國(guó)內(nèi)有不少同行參賽也獲得了不錯(cuò)的名次。阿里巴巴S265從2017年開(kāi)始投入研究到2020年首次參加MSU比賽, 我們?cè)诒荣愔蝎@得了3項(xiàng)第一:1080P 30FPS PNSR指標(biāo)第一、1080P 1FPS PNSR指標(biāo)第一、1080P 30FPS主觀質(zhì)量第一。

2.2 場(chǎng)景自適應(yīng)編碼

8aeac43c-bc62-11eb-bf61-12bb97331649.png

除了核心編碼器之外,在編碼器應(yīng)用方面,我們還自研了一套場(chǎng)景自適應(yīng)編碼方法,分為三個(gè)步驟:

1、視頻分析:利用機(jī)器學(xué)習(xí)方法做視頻切分,并得到高層語(yǔ)義分類,比如動(dòng)畫(huà),體育,秀場(chǎng),商品介紹等;

2、另一個(gè)維度看利用信號(hào)分析手段檢測(cè)出視頻的底層特征,比如運(yùn)動(dòng)強(qiáng)度,紋理特征,噪聲強(qiáng)度,亮度特征等,根據(jù)高低維度信息決定編碼參數(shù)。

3、自適應(yīng)決策引擎(ADE):根據(jù)語(yǔ)義特征和信號(hào)特征以及網(wǎng)絡(luò)狀況,決策出最佳編碼參數(shù)組合。這個(gè)決策過(guò)程被建模為一個(gè)帶約束優(yōu)化模型;

2.3 S265解碼提升覆蓋率

8b4139f2-bc62-11eb-bf61-12bb97331649.png

一直以來(lái),H265的解碼兼容性是大家關(guān)心的話題,假如生產(chǎn)端編碼出265碼流,但播放端不能支持265解碼,需要在服務(wù)端轉(zhuǎn)碼成264格式,這不僅不能減少CDN帶寬,反而會(huì)增加轉(zhuǎn)碼成本。在解碼這一側(cè)我們做了很多工作:

1、硬解碼適配。對(duì)市面上基本所有機(jī)型(》1000款)都進(jìn)行了適配;

2、自研高性能Native H265解碼器,在小米5 720P的設(shè)備上做測(cè)試得到240幀左右的速度,通過(guò)很低的功耗實(shí)現(xiàn)實(shí)時(shí)解碼。

3、H5的解碼。H.265在H5中沒(méi)有支持,我們基于WebAssembly技術(shù)來(lái)支持H5的播放。目前可以做到在i7電腦上1080P 30fps的實(shí)時(shí)解碼,CPU消耗在30%以內(nèi);

2.4 淘寶編碼器落地歷程

8b876800-bc62-11eb-bf61-12bb97331649.png

基于以上的編解碼內(nèi)核和應(yīng)用方面的探索,我來(lái)介紹一下淘寶編碼器的落地歷程。2017年開(kāi)始投入S265的研究,經(jīng)過(guò)一年多時(shí)間,開(kāi)始在直播業(yè)務(wù)的落地;2019年的Q1第一版上線后結(jié)果不算太好,大約節(jié)省30%碼率;2020年Q1第二版上線后節(jié)省40%碼率;今年的Q1第三版結(jié)合窄帶高清技術(shù)實(shí)現(xiàn)了50%碼率節(jié)省。短視頻方面,我們嘗試將S265應(yīng)用到淘寶短視頻轉(zhuǎn)碼,2019年Q3第一版上線,2020年上線第二版。

8bb7621c-bc62-11eb-bf61-12bb97331649.png

基于在S265核心編碼器上的積累,我們從2020年Q2開(kāi)始了S266編解碼器的研發(fā)工作,并率先在行業(yè)內(nèi)公布了可商用的S266解碼器。

解碼器方面對(duì)比VTM實(shí)現(xiàn)單核3.5倍提速,多核16倍提速;在高端的手機(jī)IPhone12、P40)實(shí)現(xiàn)4K 30FPS解碼,低端手機(jī)720P雙核實(shí)現(xiàn)30FPS解碼。720P內(nèi)存消耗《35m《 span=“”》和Binary《1m《 span=“”》,對(duì)大型APP來(lái)說(shuō)非常關(guān)鍵,包過(guò)大時(shí)安裝下載會(huì)受阻。

我們內(nèi)部正在做VVC編碼器,目標(biāo)是1FPS Slow檔對(duì)比X265 Veryslow節(jié)省50%碼率;30FPS Fast檔對(duì)比X265 Medium節(jié)省40%碼率。大家知道VVC比HEVC會(huì)更慢,一段1分鐘的4k視頻用HEVC的HM壓縮需要幾天,而如果用VVC的VTM則可能需要一個(gè)月,時(shí)間消耗會(huì)非常長(zhǎng)。目前我們Slow檔已經(jīng)做到比VTM提升100倍速度但是壓縮效率接近。

8c021456-bc62-11eb-bf61-12bb97331649.png

總結(jié)一下,淘寶的S265智能編碼方案目標(biāo)是讓視頻更清晰,覆蓋所有業(yè)務(wù)場(chǎng)景,包括圖片壓縮、會(huì)議SCC、直播、云轉(zhuǎn)碼甚至云游戲。

業(yè)務(wù)策略上包括場(chǎng)景分類自適應(yīng)、智能碼控、針對(duì)不同場(chǎng)景的延時(shí)需求,做延時(shí)的適配及優(yōu)化(在非常低的延時(shí)下達(dá)到接近不限延時(shí)的壓縮效率)、算力自適應(yīng)(根據(jù)不同的設(shè)備自適應(yīng)調(diào)節(jié)編碼的速度檔次)。

編解碼內(nèi)核包括碼控及前處理、編碼工具集、快速算法,編碼框架等優(yōu)化。系統(tǒng)平臺(tái)包括基于ARM平臺(tái)的(armV7/arm64)及X86實(shí)現(xiàn)(SSE/AVX)、目前在考慮基于FPGA、ASIC的實(shí)現(xiàn),還有質(zhì)量評(píng)價(jià)系統(tǒng)和訓(xùn)練集群來(lái)輔助編碼器研發(fā)。

03

視頻處理提升畫(huà)質(zhì)體驗(yàn)

下面介紹視頻處理提升畫(huà)質(zhì)體驗(yàn)的觀點(diǎn)。

3.1 視頻處理提升畫(huà)質(zhì)

8c4e1dba-bc62-11eb-bf61-12bb97331649.png

視頻失真來(lái)源于很多方面:包括過(guò)曝失曝、縮放、失焦、頻閃、色彩損失、壓縮損失、噪聲、抖動(dòng)、幀率下采樣。我們有自己的視頻增強(qiáng)工具集做對(duì)應(yīng)適配比如去塊失真(DeBlk)、超分辨率(偏向端側(cè)的和服務(wù)端不同版本的模型)、紋理細(xì)節(jié)增強(qiáng)、視頻去抖(DEI)、色彩增強(qiáng)、暗光增強(qiáng)、時(shí)空域去噪。

3.2 淘寶短視頻窄帶高清轉(zhuǎn)碼

8cd048b2-bc62-11eb-bf61-12bb97331649.png

淘寶短視頻的整個(gè)轉(zhuǎn)碼遷移到窄帶高清技術(shù)上,從視頻生產(chǎn)鏈條分為內(nèi)容編輯、上傳(上傳要求上傳成功率高、速度快,我們有多PASS上傳,切分上傳、轉(zhuǎn)碼、審核(有低質(zhì)、失真視頻需要篩選)、播放(根據(jù)播放設(shè)備能力做后處理及渲染)。

向大家介紹一下轉(zhuǎn)碼服務(wù),它的核心技術(shù)是窄帶高清和S265,分別有兩個(gè)視覺(jué)處理模型。首先是窄帶高清的處理模型包括質(zhì)量分類,細(xì)小紋理去除、脫焦區(qū)域弱化(節(jié)省碼率)、易感知紋理增強(qiáng)(增強(qiáng)視覺(jué)體驗(yàn))、人臉保護(hù)(避免過(guò)度增強(qiáng)引起體感不好)、馬賽克修復(fù)、去隔行掃描。

S265視覺(jué)壓縮模型有三個(gè)點(diǎn),人眼感知與失真拐點(diǎn)(BD-rate曲線剛開(kāi)始較陡,向后較緩,要找到高性價(jià)比的點(diǎn),感覺(jué)不出更多的失真又可以達(dá)到合適碼率)、碼率與分辨率甜蜜拐點(diǎn)(不同碼率在不同內(nèi)容上適合于不同分辨率壓縮。如果一個(gè)非常低的碼率300K強(qiáng)行壓縮1080P出來(lái)都是塊主觀體驗(yàn)很差,如果壓縮540P、360P可以獲得更高的視覺(jué)體驗(yàn))、場(chǎng)景分類編碼(不同分類場(chǎng)景適合不同編碼參數(shù)、碼率的選擇)。

3.3 電競(jìng)場(chǎng)景中的美顏

8d3c0f84-bc62-11eb-bf61-12bb97331649.png

在內(nèi)容生產(chǎn)中美顏?zhàn)鳛橐豁?xiàng)基礎(chǔ)功能,已經(jīng)被人們廣泛接受,但是常規(guī)美顏在電商場(chǎng)景中存在一些問(wèn)題,比如過(guò)度美化,商品變色,背景模糊,資源消耗大等等;在PixelAI美顏中,我們使用了Face3D重建來(lái)保障形變的自然,使用AI膚色模型來(lái)保證美顏不會(huì)傷害到背景和商品。

3.4 HDR10端到端系統(tǒng)

8d8842fa-bc62-11eb-bf61-12bb97331649.png

隨著采集和顯示設(shè)備的發(fā)展,HDR+10Bit逐漸有一些應(yīng)用,我們覺(jué)得HDR10有三項(xiàng)核心技術(shù):第一是動(dòng)態(tài)范圍。在低照度、曝光過(guò)度場(chǎng)景下幫助我們看清內(nèi)容;第二是色域空間。支持BT2020提升色彩還原;第三是10bit位深。HDR對(duì)我們的商品還原會(huì)非常有幫助,因?yàn)殡娚讨辈ズ投桃曨l中最核心的是還原商品而不是美化商品。

但HDR是一個(gè)端到端的系統(tǒng),需要考慮到各種設(shè)備的兼容,所以我們做了一些適配來(lái)提升用戶體驗(yàn),比如普通相機(jī)拍出的內(nèi)容就用普通通道傳輸解碼,而一些高端設(shè)備支持HDR10,可以把內(nèi)容做10Bit壓縮,傳輸,在對(duì)端根據(jù)播放設(shè)備能力,做HDR To SDR、10Bit To 8Bit的轉(zhuǎn)換來(lái)保證質(zhì)量,對(duì)于好的手機(jī)就可以得到最好的HDR體驗(yàn),一般手機(jī)也能得到基礎(chǔ)的HDR體驗(yàn)。圖中可以看到HDR技術(shù)使照片顏色更接近實(shí)物顏色。

04

音頻技術(shù)提升體驗(yàn)和生產(chǎn)力

第三個(gè)觀點(diǎn)是視頻技術(shù)提升體驗(yàn)和生產(chǎn)力。音頻在過(guò)去幾年都伴隨視頻出現(xiàn),而在去年Clubhouse的發(fā)布,大家覺(jué)得音頻可以獨(dú)立玩,這對(duì)音頻技術(shù)來(lái)說(shuō)是一個(gè)很好的啟發(fā)。除此以外,音頻的技術(shù)還可以輔助我們做內(nèi)容的生產(chǎn)、審核及各種音頻處理,個(gè)人認(rèn)為音頻會(huì)是后續(xù)很重要的生產(chǎn)力。

4.1 業(yè)務(wù):用戶數(shù)和時(shí)長(zhǎng)

8dbfbe1a-bc62-11eb-bf61-12bb97331649.png

對(duì)內(nèi)容業(yè)務(wù)來(lái)說(shuō),最核心的是用戶數(shù)和時(shí)長(zhǎng)。對(duì)于技術(shù)來(lái)說(shuō),如何提升消費(fèi)體驗(yàn),提升主播生產(chǎn)效率,做好平臺(tái)治理工作是核心工作。在這幾個(gè)方面音頻都可以起到非常重要的作用。

在主播角度,音頻技術(shù)可以來(lái)做口播自動(dòng)剪輯、來(lái)客提醒(不用一直守在電腦旁邊)、開(kāi)播輔助、字幕和配樂(lè)生成。在用戶角度,音頻的互動(dòng)可以支持連麥、游戲、猜價(jià)格、語(yǔ)音評(píng)論。在平臺(tái)角度,音頻可以監(jiān)管黃暴政、盜播、盜鏈、檢測(cè)空鏡。

8e1b401e-bc62-11eb-bf61-12bb97331649.png

分享幾個(gè)典型案例。第一,音頻技術(shù)提高音質(zhì)體驗(yàn)。這是一個(gè)簡(jiǎn)單的音頻傳輸系統(tǒng),采集、預(yù)處理、AEC/ANS/AGC、編碼、網(wǎng)絡(luò)傳輸(FEC/NACK技術(shù))、對(duì)端(Jitter Buffer/NETEQ)、解碼、重采樣。要實(shí)現(xiàn)高音質(zhì)體驗(yàn),我們?cè)诿總€(gè)環(huán)節(jié)都需要做非常細(xì)致的工作:

采集中做高保真,雙聲道處理(Alidenoise、回聲抑制、智能美聲),編碼中做自適應(yīng)碼率(HE-AAC),傳輸過(guò)程要保障傳輸質(zhì)量QOS(FEC/NACK),接收中還需要原音頻數(shù)據(jù)(PLC/NETEQ),播放中應(yīng)用各種音效技術(shù)(3D音效、空間音效、重低音)來(lái)提升收聽(tīng)體驗(yàn)。

直播內(nèi)容中,對(duì)音頻的適配也非常重要。(陳老師提到一個(gè)例子:如果是音樂(lè)直播間,用普通模板做音質(zhì)會(huì)很差,所以需要幾套針對(duì)不同類型直播間的聲音模板。)在這樣的系統(tǒng)上,我們支持淘寶直播,語(yǔ)音聊天室等業(yè)務(wù)。

4.2 AliDenoise——讓聲音更清晰

淘寶自研的AliDenoise技術(shù)是一個(gè)智能降噪技術(shù),可以使聲音更清晰。傳統(tǒng)的降噪是根據(jù)時(shí)域傅里葉變換+維拉增益來(lái)做,痛點(diǎn)是對(duì)非平穩(wěn)噪聲抑制差,在低信噪比失效,而AliDenoise根據(jù)端到端的語(yǔ)音降噪,用數(shù)據(jù)驅(qū)動(dòng)方式,基于先驗(yàn)信噪比方法做模型訓(xùn)練。

還有Cache Buffer的流式處理以及1D卷積+模型小型化的工作,核心優(yōu)勢(shì)是降噪能力強(qiáng)、語(yǔ)音保真度高(我們做了一些競(jìng)品對(duì)比,AliDenoise的主客觀指標(biāo)都超過(guò)競(jìng)品)、極輕量小模型(1.6M的模型可以在普通手機(jī)實(shí)現(xiàn)降噪,且CPU消耗只有6%)、延時(shí)可控(可根據(jù)設(shè)備能力做延時(shí)調(diào)節(jié))。

有三段音頻,第一段是街邊的場(chǎng)景,是原聲;第二段是RTC處理后的效果(汽車(chē)走過(guò)的聲音比較明顯);第三段是AliDenoise處理后的效果,可以聽(tīng)出它對(duì)非平穩(wěn)噪聲的抑制很好,且人聲保留度高。

第二個(gè)例子是端上互動(dòng)。直播答題是前幾年非常火的互動(dòng)玩法,2020年雙十一點(diǎn)淘推出了猜價(jià)格活動(dòng),答題交互從觸屏到語(yǔ)音,需要低延時(shí)、高并發(fā)、低誤識(shí)率。如果用服務(wù)端ASR做,會(huì)需要上千臺(tái)服務(wù)器來(lái)支持同時(shí)在線10萬(wàn)人?;谶@樣的痛點(diǎn),我們采用了自研離線ASR技術(shù),在端上做語(yǔ)音識(shí)別??梢宰龅侥P痛笮?3M,內(nèi)存大小50M,字錯(cuò)誤率1.3%,識(shí)別延遲《50ms的水平。

第三個(gè)案例,語(yǔ)音技術(shù)可以輔助短視頻的直播編輯生產(chǎn)。在“親拍”APP中可以做到輔助“逛逛”的內(nèi)容生產(chǎn)。內(nèi)容生產(chǎn)中有非常多需求,包括刪除無(wú)用片段、自動(dòng)添加字幕,旁白、音樂(lè)標(biāo)簽,自動(dòng)配樂(lè)、音頻變速,變聲,降噪。借助后臺(tái)一整套技術(shù)和曲庫(kù)(蝦米1000萬(wàn)曲庫(kù)、ASR以及信號(hào)處理算法),我們提供一鍵導(dǎo)入、一鍵編輯這樣的音頻功能比如停頓刪除、感知配樂(lè)、自動(dòng)字幕、自動(dòng)變聲。通過(guò)音頻技術(shù)大大提高編輯效率,原先30min的編輯通過(guò)可以降到3min,質(zhì)量也會(huì)比較有保證。

4.3 直播短視頻音頻解決方案——TaoAudio

我們給淘寶業(yè)務(wù)提供了一套直播短視頻音頻解決方案——TaoAudio。在業(yè)務(wù)上支持淘寶直播、點(diǎn)淘、逛逛、親拍、語(yǔ)音聊天室等需求。在應(yīng)用方案上有直播看點(diǎn)、直播互動(dòng)、直播安全、短視頻編輯。在算法技術(shù)中有三個(gè)核心技術(shù)是音頻處理、音頻安全、語(yǔ)音交互?;A(chǔ)設(shè)施包括端上推力引擎、云上資源、端側(cè)設(shè)備等。

總之音頻的核心是良好的音質(zhì)、很強(qiáng)的互動(dòng)體驗(yàn)及平臺(tái)安全,在未來(lái)可能還有豐富的音樂(lè)體驗(yàn)。

05

淘寶音視頻算法的發(fā)展

最后和大家分享淘寶音視頻算法的發(fā)展。

1、下一代APG2要做到比前一代有更高的壓縮效率;

2、S266的落地,將S266真實(shí)的應(yīng)用到業(yè)務(wù)場(chǎng)景中;

3、AR+3D+多視角直播的探索。傳統(tǒng)的直播已經(jīng)固化很多年了,我們希望通過(guò)更多技術(shù)提高交互和沉浸式體驗(yàn);

4、下一代窄帶高清技術(shù)。以更高的質(zhì)量和更低的成本呈現(xiàn);

5、端側(cè)ASR技術(shù)。前面提到的“猜價(jià)格”應(yīng)用到ASR,還需要進(jìn)一步提高準(zhǔn)確率并降低成本;

6、場(chǎng)景自適應(yīng)語(yǔ)音增強(qiáng)。傳統(tǒng)的語(yǔ)音增強(qiáng)沒(méi)有考慮到語(yǔ)音環(huán)境也沒(méi)有做更多的自適應(yīng)(比如在一個(gè)嘈雜的環(huán)境或是安靜的環(huán)境分別要用怎樣的模型),加入場(chǎng)景檢測(cè)機(jī)制可以適配收音場(chǎng)景和聽(tīng)音的環(huán)境;

7、智能的音樂(lè)配樂(lè)服務(wù);

8、大規(guī)模無(wú)參考評(píng)價(jià)系統(tǒng)。

以上是本次分享的內(nèi)容,謝謝大家!

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • PC
    PC
    +關(guān)注

    關(guān)注

    9

    文章

    2030

    瀏覽量

    153548
  • 編解碼
    +關(guān)注

    關(guān)注

    1

    文章

    140

    瀏覽量

    19523
  • 阿里巴巴
    +關(guān)注

    關(guān)注

    7

    文章

    1603

    瀏覽量

    46774
  • 視頻壓縮
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    9046

原文標(biāo)題:音視頻算法在淘寶中的應(yīng)用

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    盤(pán)點(diǎn)那些常見(jiàn)音視頻接口

    我們熟知的一些常見(jiàn)音視頻接口,發(fā)展至今日常使用已經(jīng)漸漸少了。但是工業(yè)領(lǐng)域的音視頻連接,依然能看到其身影。這些看似消失的接口,它們現(xiàn)在發(fā)
    的頭像 發(fā)表于 09-09 14:34 ?164次閱讀

    常見(jiàn)音視頻接口的靜電浪涌防護(hù)和濾波方案

    音視頻接口現(xiàn)代多媒體設(shè)備扮演著至關(guān)重要的角色,它們確保了音視頻信號(hào)不同設(shè)備間的順暢傳輸,各種類型的
    的頭像 發(fā)表于 06-25 11:28 ?425次閱讀

    音視頻IP化浪潮全面來(lái)襲,分布式系統(tǒng)開(kāi)創(chuàng)音視頻行業(yè)新時(shí)代!

    傳統(tǒng)音視頻頻系統(tǒng),廠商們各自采用不同的通訊方式和控制協(xié)議,這使得不同的產(chǎn)品之間就像一座座的信息孤島,要連接起來(lái)就需要復(fù)雜的轉(zhuǎn)換設(shè)備和系統(tǒng)再開(kāi)發(fā)。隨著音視頻項(xiàng)目的規(guī)模不斷擴(kuò)大,各類音
    的頭像 發(fā)表于 05-30 16:55 ?505次閱讀

    音視頻產(chǎn)品EMC整改案例解析

    音視頻產(chǎn)品EMCRE整改案例解析
    的頭像 發(fā)表于 05-20 16:49 ?247次閱讀
    <b class='flag-5'>音視頻</b>產(chǎn)品EMC整改案例解析

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】音視頻的編解碼壓縮技術(shù)

    音視頻所載有的信息通過(guò)傳輸?shù)臅r(shí)候就需要壓縮編碼。 其中,文本壓縮是指通過(guò)使用各種算法和技術(shù),將文本數(shù)據(jù)表示為更緊湊的形式,以減少存儲(chǔ)空間。 霍夫曼編碼是一種無(wú)損壓縮算法,它可以根
    發(fā)表于 04-28 21:04

    音視頻SoC與AI技術(shù)融合,帶來(lái)更智能的音視頻處理解決方案

    ,如WiFi路由器和物聯(lián)網(wǎng)設(shè)備。安防、智能音頻等領(lǐng)域,對(duì)SoC芯片的算力要求相比智能手機(jī)、服務(wù)器等略低。 ? 人工智能技術(shù)與音視頻SoC 的融合??????????????????????????????????????? ? 隨著人工智能技術(shù)的快速發(fā)展,
    的頭像 發(fā)表于 04-26 01:20 ?3733次閱讀

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】新書(shū)一瞥

    本人從事音視頻領(lǐng)域的開(kāi)發(fā),經(jīng)常接觸實(shí)時(shí)音視頻處理相關(guān)的技術(shù),看到這本書(shū)非常有興趣閱讀,這本書(shū)全面介紹實(shí)時(shí)音視頻(RTC)技術(shù)的權(quán)威著作,該書(shū)詳細(xì)講解了RTC的基本概念、技術(shù)原理、系統(tǒng)設(shè)計(jì)以及實(shí)際
    發(fā)表于 04-22 09:09

    音視頻解碼生成:打造極致觀影體驗(yàn)的關(guān)鍵技術(shù)

    現(xiàn)代多媒體時(shí)代,音視頻解碼生成技術(shù)已成為提供極致觀影體驗(yàn)的核心要素。它不僅能夠確保音視頻數(shù)據(jù)的高效傳輸,還能保證播放的流暢性和畫(huà)質(zhì)清晰度,為用戶帶來(lái)身臨其境的觀影享受。 1. 解碼生成的重要性
    的頭像 發(fā)表于 02-25 14:43 ?345次閱讀

    音視頻解碼生成常見(jiàn)問(wèn)題及解決方案

    音視頻解碼生成的過(guò)程,我們可能會(huì)遇到一些常見(jiàn)問(wèn)題,這些問(wèn)題可能會(huì)影響解碼的效果和效率。以下是一些常見(jiàn)問(wèn)題及其解決方案: 問(wèn)題1:解碼失敗 原因 :可能是文件本身有問(wèn)題,如損壞或格式不支持;也
    的頭像 發(fā)表于 02-21 14:39 ?921次閱讀

    音視頻解碼生成多媒體制作的應(yīng)用

    音視頻解碼生成是多媒體制作不可或缺的一部分,它扮演著將編碼的音視頻數(shù)據(jù)轉(zhuǎn)化為可播放、可編輯的內(nèi)容的關(guān)鍵角色。多媒體制作的全過(guò)程,
    的頭像 發(fā)表于 02-21 14:39 ?272次閱讀

    音視頻解碼生成與流媒體傳輸?shù)慕Y(jié)合

    音視頻解碼生成與流媒體傳輸是現(xiàn)代數(shù)字媒體技術(shù)兩個(gè)不可或缺的部分,它們的結(jié)合為用戶提供了高質(zhì)量、實(shí)時(shí)性的多媒體體驗(yàn)。 1. 解碼生成與流媒體傳輸?shù)年P(guān)系 解碼生成是流媒體傳輸?shù)那疤帷?b class='flag-5'>在流媒體服務(wù)
    的頭像 發(fā)表于 02-21 14:36 ?277次閱讀

    音視頻

    對(duì)音視頻技術(shù)都喜歡深究?jī)?nèi)部最核心的原理和機(jī)制,尤其是ffmpeg這個(gè)編解碼庫(kù),可以說(shuō)是音視頻領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)。語(yǔ)音智能算法,語(yǔ)言語(yǔ)義分析和理解,流媒體服務(wù)器等高端技術(shù)也都基于它而構(gòu)建。希望有幸獲得本書(shū),深度學(xué)習(xí)ffmpeg核心技
    發(fā)表于 11-23 08:51

    ESP RTC音視頻傳輸延遲測(cè)試

    音視頻
    Kevincoooool
    發(fā)布于 :2023年11月11日 10:54:02

    議程揭曉!RT-Thread議題:嵌入式低資源系統(tǒng)實(shí)現(xiàn)高效音視頻播放

    、深入學(xué)習(xí)技術(shù)內(nèi)容和工程化方面的一手實(shí)踐。 現(xiàn)在,深圳站大會(huì)日程正式揭曉,一起來(lái)看看您所關(guān)注的演講都出現(xiàn)在哪些時(shí)段吧! 01 主題演講·11月24日上午 環(huán)境的全面推動(dòng)下,音視頻技術(shù)近年來(lái)展現(xiàn)出驚人的發(fā)展態(tài)勢(shì)。 即將舉行的主題演講
    的頭像 發(fā)表于 10-26 09:05 ?339次閱讀
    議程揭曉!RT-Thread議題:<b class='flag-5'>在</b>嵌入式低資源系統(tǒng)<b class='flag-5'>中</b>實(shí)現(xiàn)高效<b class='flag-5'>音視頻</b>播放

    HarmonyOS音視頻開(kāi)發(fā)概述

    音視頻開(kāi)發(fā)指導(dǎo),將介紹各種涉及音頻、視頻播放或錄制功能場(chǎng)景的開(kāi)發(fā)方式,指導(dǎo)開(kāi)發(fā)者如何使用系統(tǒng)提供的音視頻API實(shí)現(xiàn)對(duì)應(yīng)功能。比如使用To
    發(fā)表于 10-17 16:39