Santosh Singh 和 Aravind Navada
消費(fèi)類娛樂對(duì)沉浸式體驗(yàn)的要求越來越高,用戶希望獲得身臨其境的體驗(yàn)并消費(fèi)內(nèi)容,聲音則是臨場感的重要組成部分。在未來,我們將更了解人類大腦處理和定位聲音的方式,由此開發(fā)出創(chuàng)新的聲音重現(xiàn)技術(shù),助力基于視覺智能的音頻系統(tǒng)。ADI公司將依托前沿的飛行時(shí)間(ToF)成像器和先進(jìn)的DSP技術(shù)組合,為新一代沉浸式音頻系統(tǒng)構(gòu)建理想的平臺(tái)。
新時(shí)代消費(fèi)電子娛樂設(shè)備頻頻提到"沉浸"一詞,但其真正含義是什么呢?在1999年爆火的電影《黑客帝國》中,Morpheus詢問Neo他能聞到、嘗到或觸摸到的東西是否真實(shí),并展示他所知的真實(shí)世界不過是用計(jì)算機(jī)愚弄人的感官而已。這就是真正的沉浸式體驗(yàn),亦是人工沉浸式體驗(yàn)要達(dá)成的目標(biāo)。
要讓自己確信已置身于某個(gè)場景中,聲音和感觸方式是影響整個(gè)體驗(yàn)的關(guān)鍵。聲音會(huì)激活大腦,決定著我們應(yīng)對(duì)情境的第一反應(yīng)。大腦利用聲音來更清晰地構(gòu)建所處的環(huán)境或情境。聲音說服大腦相信人工構(gòu)建的沉浸式體驗(yàn),在提供預(yù)期的沉浸式體驗(yàn)方面發(fā)揮著至關(guān)重要的作用。
多年來,聲音重現(xiàn)技術(shù)取得了巨大飛躍,從基礎(chǔ)的單聲道音頻系統(tǒng)到如今的環(huán)繞音頻系統(tǒng),從適合家庭影院的小型5.1(6聲道)或7.1(8聲道)配置到適合影院屏幕的大型64聲道和更高級(jí)別的配置。但在這些系統(tǒng)中,聲音的空間感和精度受到揚(yáng)聲器數(shù)量和所處位置的限制。
新型聲音重現(xiàn)技術(shù)基于對(duì)大腦聲音處理和定位方式的深入了解,助力構(gòu)建新一代沉浸式音頻系統(tǒng),無需在聽眾周圍部署大量揚(yáng)聲器。即可為家庭影院帶來360度沉浸式聲音體驗(yàn),但此類系統(tǒng)由于缺乏對(duì)聽眾及聽音環(huán)境的感知,這便也成為了沉浸式音頻需求的主要障礙。視覺智能與聲音重現(xiàn)技術(shù)的組合可應(yīng)對(duì)這一挑戰(zhàn),真正打造出下一代沉浸式音頻系統(tǒng)。
在真實(shí)場景中自然接收聲音時(shí),我們的大腦會(huì)基于傳到左右耳的音頻信號(hào)來提取有關(guān)聲源的空間線索。這與我們的雙眼視覺系統(tǒng)的工作原理非常相似,大腦也是通過結(jié)合左右眼所看到的圖像來感知深度。大腦處理到達(dá)左右耳的聲音,通過比較振幅和時(shí)間延遲來推算聲源位置。這是人類在進(jìn)化過程中形成的能力,也是原始社會(huì)的關(guān)鍵生存技能。
雙耳聲音重現(xiàn)技術(shù)旨在通過新型信號(hào)處理,在左右耳生成與真實(shí)場景相同的左右音頻信號(hào),再現(xiàn)聲音的自然體驗(yàn)(圖1)。但在實(shí)踐中實(shí)現(xiàn)這一目標(biāo)并非易事,會(huì)面臨重重問題。
圖1. 來自聲源x(t)的自然接收?qǐng)鼍?,XL (t)表示到達(dá)左耳的音頻信號(hào),XR (t)表示到達(dá)右耳的音頻信號(hào)。
記錄雙耳音頻的一種簡單方法是在真實(shí)環(huán)境中人的左右耳各部署一個(gè)麥克風(fēng),然后記錄到達(dá)每只耳朵的聲音信號(hào),這種方法稱為雙耳記錄。然后通過耳機(jī)重現(xiàn)聲音,傳至聽眾的耳朵。那這種方式效果如何呢?在針對(duì)同一位聽眾進(jìn)行捕捉和回放時(shí)確實(shí)有效,但由于每個(gè)人大腦定位聲音的方式不同,這一技術(shù)并非百試百靈。我們的頭/耳廓/身體對(duì)聲音的影響會(huì)在頻域中留下特定的特征,幫助我們的大腦定位聲音。這種特征因人而異,被稱為頭部相關(guān)傳遞函數(shù)(HRTF)。如想讓雙耳技術(shù)真正有效,須在聲音重現(xiàn)過程中聽眾的耳朵上準(zhǔn)確再現(xiàn)HRTF對(duì)聲音的影響。
因此,我們需要針對(duì)每位聽眾測量并定制HRTF,不能采用通用的解決方案。研究表明,當(dāng)人們體驗(yàn)用其他人的HRTF制作的音頻時(shí),其在體驗(yàn)期間的聲音定位能力會(huì)顯著降低。1,2,3
在揚(yáng)聲器上實(shí)現(xiàn)雙耳音頻還會(huì)面臨更大的挑戰(zhàn)。首先,來自多個(gè)揚(yáng)聲器的聲音信號(hào)會(huì)相互干擾,即所謂的串?dāng)_效應(yīng)(圖2)。其次是聽音環(huán)境,在聲音到達(dá)聽眾耳朵之前,它不可避免地會(huì)對(duì)聲音產(chǎn)生一些影響。
圖2. 立體聲揚(yáng)聲器中的串?dāng)_效應(yīng)。
在實(shí)現(xiàn)真實(shí)模擬自然聲音接收體驗(yàn)時(shí),揚(yáng)聲器串?dāng)_、HRTF個(gè)性化需求以及房間/聽音環(huán)境的影響是主要的阻礙因素。而視覺系統(tǒng)能夠捕捉到有關(guān)聽眾和聽音環(huán)境的所有細(xì)節(jié),有助于解決雙耳聲音重現(xiàn)所面臨的挑戰(zhàn)。
例如,可以構(gòu)建為計(jì)算機(jī)視覺算法提供數(shù)據(jù)的攝像頭來捕捉聲音接收環(huán)境的三維架構(gòu)信息(即房間形狀、不同表面的幾何測量細(xì)節(jié)以及存在的物體),用于計(jì)算聽音環(huán)境對(duì)聲音的影響。然后,可以在聲音重現(xiàn)系統(tǒng)中適當(dāng)增加濾波器和濾波器系數(shù)以消除不良影響。雖然家庭影院音頻已采用此類系統(tǒng),但它通常依賴于在校準(zhǔn)期間使用麥克風(fēng)捕捉房間對(duì)聲音的影響,如果接收位置或房間結(jié)構(gòu)發(fā)生變化,則需要重新進(jìn)行校準(zhǔn)。
視覺系統(tǒng)可以進(jìn)一步捕捉人體測量數(shù)據(jù),比如身體位置和結(jié)構(gòu)細(xì)節(jié)4,通過必要的計(jì)算將HRTF個(gè)性化,以呈現(xiàn)準(zhǔn)確的空間線索(圖3)。使用聽眾頭部位置相對(duì)于揚(yáng)聲器的信息和頭部尺寸,部署串?dāng)_消除算法,在揚(yáng)聲器中呈現(xiàn)實(shí)時(shí)雙耳音頻,聽眾能夠隨意移動(dòng),同時(shí)保持理想的聲音體驗(yàn)(圖4)。
圖3. 通過人體測量實(shí)現(xiàn)HRTF個(gè)性化。
圖4. 采用串?dāng)_消除技術(shù),通過自由場揚(yáng)聲器系統(tǒng)實(shí)現(xiàn)雙耳聲音再現(xiàn)。
使用音頻系統(tǒng)存在隱私問題,但從視覺系統(tǒng)獲取的攝像頭數(shù)據(jù)會(huì)經(jīng)過實(shí)時(shí)處理,無需存儲(chǔ)或傳輸?shù)搅硪慌_(tái)遠(yuǎn)程機(jī)器,因此,使用專用的計(jì)算處理器在邊緣處理視覺數(shù)據(jù)分析可以保護(hù)用戶隱私。
ADI最新的多核SHARC? DSP和先進(jìn)的ToF成像器提供了硬件平臺(tái)實(shí)現(xiàn)音視頻融合所需的關(guān)鍵部件,以創(chuàng)建下一代沉浸式音頻系統(tǒng)(圖5)。
圖5. 下一代沉浸式音頻系統(tǒng)。
我們的ADSP-SC598 SOC搭載SHARC雙核和一個(gè)A55 Arm?內(nèi)核,由大型片內(nèi)存儲(chǔ)器和外部存儲(chǔ)器DDR接口提供支持,可滿足低延遲和內(nèi)存密集型計(jì)算要求,是實(shí)現(xiàn)真正沉浸式音頻的理想平臺(tái)(圖6)。SHARC DSP上的計(jì)算資源,例如ADSP-SC598,可以將與音頻解碼相關(guān)的工作負(fù)載劃分至DSP內(nèi)核上,在第二個(gè)SHARC內(nèi)核上實(shí)現(xiàn)音頻回放的后處理和個(gè)性化。Arm A55可用于進(jìn)行多種控制處理。6圖5所示的視覺系統(tǒng)可以組合使用RGB和深度攝像頭或單獨(dú)使用深度攝像頭。我們的高分辨率100萬像素ToF深度成像器ADSD3100可以捕捉毫米分辨率級(jí)別的深度圖,且能在不同的照明條件下工作,為之前所述的個(gè)性化算法(串?dāng)_消除、房間均衡、HRTF人性化等)提供了所需的高精度幾何測量數(shù)據(jù)。
圖6. 下一代沉浸式音頻系統(tǒng)的系統(tǒng)分區(qū)。
ADTF3175是基于ADSD3100 ToF深度成像器的100萬像素、75 × 75度視場(FOV) ToF模塊,它還集成了用于成像器的透鏡和光學(xué)帶通濾波器、紅外光源(包含光學(xué)元件、激光二極管、激光二極管驅(qū)動(dòng)器和光電探測器)、閃存和功率調(diào)節(jié)器以生成本地電源電壓。該模塊在多個(gè)范圍和分辨率模式下進(jìn)行完全校準(zhǔn)。如需完善深度測量系統(tǒng),可以將來自ADTF3175的原始圖像數(shù)據(jù)通過主機(jī)系統(tǒng)處理器或深度ISP進(jìn)行外部處理。ADTF3175圖像數(shù)據(jù)輸出接口通過4通道移動(dòng)行業(yè)處理器接口(MIPI)、攝像頭串行接口2 (CSI-2)變送器接口與主機(jī)系統(tǒng)進(jìn)行電氣接口。該模塊編程和操作通過4線式SPI和I2C串行接口進(jìn)行控制。
我們當(dāng)前提供的 EVAL-MELODY-8/9開發(fā)平臺(tái)板、 EV-2159X/SC59x-EZKIT板和 CrossCore?Embedded Studio(一款基于eclipse的編輯工具)可以幫助您部署和運(yùn)行我們的ADSP SOC,以實(shí)時(shí)部署和調(diào)試應(yīng)用。7
Melody平臺(tái)是ADI為AVR和條形音箱應(yīng)用提供的完整信號(hào)鏈解決方案。它將視頻、DSP、音頻、電源和軟件方面的一流ADI組件結(jié)合到組合系統(tǒng)解決方案中,使客戶能夠利用最新技術(shù)快速進(jìn)入市場,以達(dá)到他們的年度升級(jí)窗口。8
ToF模塊ADTF3175可以連接至視覺計(jì)算平臺(tái),并連接至Melody板,為下一代沉浸式音頻系統(tǒng)構(gòu)建硬件平臺(tái)(圖7)。RGB攝像頭可耦合至ADTF3175 ToF模塊,構(gòu)建RGBD攝像頭來進(jìn)行強(qiáng)化視覺分析。
圖7. 使用ADI平臺(tái)實(shí)現(xiàn)沉浸式音頻系統(tǒng)。
結(jié)論
ADI借助包含DSP、HDMI收發(fā)器、D類放大器和ToF成像器的解決方案系列,持續(xù)不懈地追求實(shí)現(xiàn)真正沉浸式的音頻系統(tǒng),力求提供與真實(shí)世界一般無二的聲音。
審核編輯:郭婷
-
dsp
+關(guān)注
關(guān)注
552文章
7959瀏覽量
347925 -
adi
+關(guān)注
關(guān)注
144文章
45810瀏覽量
248207 -
TOF
+關(guān)注
關(guān)注
9文章
475瀏覽量
36224
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論