回顧今年的2月份,可以說是音頻編解碼器最為熱鬧的一個(gè)月。先是微軟宣布推出最新款由AI支持的音頻編解碼器——Satin。僅一周后,谷歌推出了用于語音壓縮的新型超低比特率音頻編解碼器——Lyra,并且Android版本已開源。在此,也非常感謝來自國內(nèi)音頻領(lǐng)域的知名業(yè)內(nèi)人士對(duì)本文發(fā)表評(píng)論及審校。
不難發(fā)現(xiàn),硅谷大佬們對(duì)音頻編解碼器的深度研發(fā)進(jìn)度已提上日程,對(duì)未來可應(yīng)用的場(chǎng)景讓人們充滿期待。值得注意的是這兩款音頻編解碼器都是基于AI的語音編碼,但它們又有各自不同的特點(diǎn)。
Satin:用于實(shí)時(shí)通信的AI音頻編解碼器 作為一款由人工智能驅(qū)動(dòng)的音頻編解碼器,Satin可以在網(wǎng)速6kbps時(shí)提供超寬頻段的語音,17kbps時(shí)提供全頻段的立體聲音樂,網(wǎng)速越高,質(zhì)量越高。
Satin旨在高丟包率下也提供良好的音頻質(zhì)量。此外,在冗余算法的改進(jìn)下,可以應(yīng)對(duì)突發(fā)丟包情況,提供更好的保護(hù)。以下是經(jīng)過改進(jìn)的彈性算法和Satin編解碼器的最終效果: SILK@6kbps,突發(fā)數(shù)據(jù)包丟失(附加6kbps的冗余) Satin@6kbps,突發(fā)數(shù)據(jù)包丟失,改進(jìn)的冗余算法(附加6kbps的冗余)
相對(duì)于Silk推出的超寬帶語音,12kHz的頻率,以24kHz的采樣率(在人類聲音超過12kHz的頻率時(shí),能量會(huì)迅速下降);Satin重新定義了超寬帶,以覆蓋16kHz的頻率,采樣率在32kHz,以提供更高的清晰度和穩(wěn)定性,而其高效的壓縮功能則可以實(shí)現(xiàn)6 kbps的超寬帶語音。
/ t /一詞在“ suit”一詞中的頻率分量。除了4 kHz的窄帶截止甚至8 kHz的寬帶截止以外,還有大量的能量。將能量保留在較高的頻譜分量中會(huì)導(dǎo)致聲音聽起來更加自然。 以下分別為在6kbps下,Silk窄帶和Satin超寬帶的音頻示例(建議使用耳機(jī)試聽): 為了保證在6kbps超寬帶下的語音質(zhì)量,Satin使用對(duì)語音產(chǎn)生、建模和心理聲學(xué)的深度理解來提取和編碼信號(hào)的稀疏表達(dá)。
為了進(jìn)一步降低所需的比特率,Satin只在較低的頻帶中編碼和傳輸某些參數(shù)。在解碼器上,Satin使用深層神經(jīng)網(wǎng)絡(luò)從接收到的低頻帶參數(shù)以及通過導(dǎo)線發(fā)送的最少量輔助信息中估計(jì)高頻帶參數(shù)。 雖然這種方法解決了在超低比特率下對(duì)使用超寬帶語音的最大挑戰(zhàn),但也帶來了計(jì)算復(fù)雜度的新挑戰(zhàn)。對(duì)此,微軟將重心放在對(duì)算法優(yōu)化和循環(huán)向量化等技術(shù)上,使計(jì)算復(fù)雜度降低40%,并保障能夠在所有用戶的設(shè)備上運(yùn)行。
除此之外,微軟還關(guān)注到了關(guān)于Satin的丟包數(shù)據(jù)恢復(fù)能力。對(duì)此,Satin對(duì)每個(gè)數(shù)據(jù)包進(jìn)行獨(dú)立編碼,因此丟失一個(gè)數(shù)據(jù)包的效果不會(huì)影響后續(xù)數(shù)據(jù)包的質(zhì)量。編解碼器還被設(shè)計(jì)為有助于在內(nèi)部參數(shù)域中隱藏高質(zhì)量的丟包。這些功能可幫助Satin無縫處理隨機(jī)丟失,一次丟失一個(gè)或兩個(gè)數(shù)據(jù)包。
目前,Satin已被用于所有Teams和Skype兩方通話,并將很快用于Teams會(huì)議。目前,它以6-36 kbps的比特率范圍在寬帶語音模式下運(yùn)行,并且在不久的將來將擴(kuò)展為以48 kHz的最大采樣率支持全頻帶立體聲音樂。
Lyra:一款用于語音壓縮的新型超低比特率編解碼器 Lyra是由谷歌團(tuán)隊(duì)研發(fā)并已開源了Android版本。它所擁有的能力在于能在3kbps網(wǎng)絡(luò)帶寬下為用戶提供自然清晰的語音聊天,以及僅90ms延遲的情況下在從高端云服務(wù)器到中端智能手機(jī)的任何設(shè)備上運(yùn)行。(有關(guān)Lyra的詳細(xì)介紹請(qǐng)瀏覽:在3kbps的帶寬下還能清晰地語音聊天?)
對(duì)比Satin & Lyra:雖然這兩個(gè)音頻編解碼器都能夠在低比特率下進(jìn)行操作,并通過AI提供動(dòng)力,但它們有很大的不同。Lyra僅專注于窄帶,而Satin則致力于超寬帶。 另外,國內(nèi)音頻領(lǐng)域的知名業(yè)內(nèi)人士指出:“在AI Codec領(lǐng)域中,有兩種方式。一種是 end to end 也就是全AI,所以Lyra屬于全AI結(jié)構(gòu)
。而另一種是hybird結(jié)構(gòu),就是只有部分模塊才使用AI,因此Satin是hybird結(jié)構(gòu)。那么之所以現(xiàn)在才使用AI與音頻編解碼器結(jié)合,是因?yàn)樵谙嗤a率下,使用AI能夠大幅提升音頻質(zhì)量?!?/p>
相關(guān)鏈接: https://mp.weixin.qq.com/s/Y1wceNAuMO7X8Vq3NiJ_GQ https://techcommunity.microsoft.com/t5/microsoft-teams-blog/satin-microsoft-s-latest-ai-powered-audio-codec-for-real-time/ba-p/2141382 https://bloggeek.me/lyra-satin-webrtc-voice-codecs/
編輯:jq
-
寬帶
+關(guān)注
關(guān)注
4文章
986瀏覽量
60163 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6808瀏覽量
88743 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268103 -
音頻編解碼器
+關(guān)注
關(guān)注
4文章
127瀏覽量
55851
原文標(biāo)題:從Satin到Lyra 為何微軟、谷歌都盯向音頻編解碼器?
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論