0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沉浸式音頻的未來:計(jì)算機(jī)視覺輔助下的聲音重現(xiàn)

星星科技指導(dǎo)員 ? 來源:ADI ? 作者:Santosh Singh 和 Ara ? 2023-06-08 14:23 ? 次閱讀

Santosh SinghAravind Navada

消費(fèi)類娛樂對(duì)沉浸式體驗(yàn)的要求越來越高,用戶希望獲得身臨其境的體驗(yàn)并消費(fèi)內(nèi)容,聲音則是臨場感的重要組成部分。在未來,我們將更了解人類大腦處理和定位聲音的方式,由此開發(fā)出創(chuàng)新的聲音重現(xiàn)技術(shù),助力基于視覺智能音頻系統(tǒng)。ADI公司將依托前沿的飛行時(shí)間(ToF)成像器和先進(jìn)的DSP技術(shù)組合,為新一代沉浸式音頻系統(tǒng)構(gòu)建理想的平臺(tái)。

新時(shí)代消費(fèi)電子娛樂設(shè)備頻頻提到"沉浸"一詞,但其真正含義是什么呢?在1999年爆火的電影《黑客帝國》中,Morpheus詢問Neo他能聞到、嘗到或觸摸到的東西是否真實(shí),并展示他所知的真實(shí)世界不過是用計(jì)算機(jī)愚弄人的感官而已。這就是真正的沉浸式體驗(yàn),亦是人工沉浸式體驗(yàn)要達(dá)成的目標(biāo)。

要讓自己確信已置身于某個(gè)場景中,聲音和感觸方式是影響整個(gè)體驗(yàn)的關(guān)鍵。聲音會(huì)激活大腦,決定著我們應(yīng)對(duì)情境的第一反應(yīng)。大腦利用聲音來更清晰地構(gòu)建所處的環(huán)境或情境。聲音說服大腦相信人工構(gòu)建的沉浸式體驗(yàn),在提供預(yù)期的沉浸式體驗(yàn)方面發(fā)揮著至關(guān)重要的作用。

多年來,聲音重現(xiàn)技術(shù)取得了巨大飛躍,從基礎(chǔ)的單聲道音頻系統(tǒng)到如今的環(huán)繞音頻系統(tǒng),從適合家庭影院的小型5.1(6聲道)或7.1(8聲道)配置到適合影院屏幕的大型64聲道和更高級(jí)別的配置。但在這些系統(tǒng)中,聲音的空間感和精度受到揚(yáng)聲器數(shù)量和所處位置的限制。

新型聲音重現(xiàn)技術(shù)基于對(duì)大腦聲音處理和定位方式的深入了解,助力構(gòu)建新一代沉浸式音頻系統(tǒng),無需在聽眾周圍部署大量揚(yáng)聲器。即可為家庭影院帶來360度沉浸式聲音體驗(yàn),但此類系統(tǒng)由于缺乏對(duì)聽眾及聽音環(huán)境的感知,這便也成為了沉浸式音頻需求的主要障礙。視覺智能與聲音重現(xiàn)技術(shù)的組合可應(yīng)對(duì)這一挑戰(zhàn),真正打造出下一代沉浸式音頻系統(tǒng)。

在真實(shí)場景中自然接收聲音時(shí),我們的大腦會(huì)基于傳到左右耳的音頻信號(hào)來提取有關(guān)聲源的空間線索。這與我們的雙眼視覺系統(tǒng)的工作原理非常相似,大腦也是通過結(jié)合左右眼所看到的圖像來感知深度。大腦處理到達(dá)左右耳的聲音,通過比較振幅和時(shí)間延遲來推算聲源位置。這是人類在進(jìn)化過程中形成的能力,也是原始社會(huì)的關(guān)鍵生存技能。

雙耳聲音重現(xiàn)技術(shù)旨在通過新型信號(hào)處理,在左右耳生成與真實(shí)場景相同的左右音頻信號(hào),再現(xiàn)聲音的自然體驗(yàn)(圖1)。但在實(shí)踐中實(shí)現(xiàn)這一目標(biāo)并非易事,會(huì)面臨重重問題。

wKgaomSBc-mABEs7AABP5VsUUeU987.png

圖1. 來自聲源x(t)的自然接收?qǐng)鼍?,XL (t)表示到達(dá)左耳的音頻信號(hào),XR (t)表示到達(dá)右耳的音頻信號(hào)。

記錄雙耳音頻的一種簡單方法是在真實(shí)環(huán)境中人的左右耳各部署一個(gè)麥克風(fēng),然后記錄到達(dá)每只耳朵的聲音信號(hào),這種方法稱為雙耳記錄。然后通過耳機(jī)重現(xiàn)聲音,傳至聽眾的耳朵。那這種方式效果如何呢?在針對(duì)同一位聽眾進(jìn)行捕捉和回放時(shí)確實(shí)有效,但由于每個(gè)人大腦定位聲音的方式不同,這一技術(shù)并非百試百靈。我們的頭/耳廓/身體對(duì)聲音的影響會(huì)在頻域中留下特定的特征,幫助我們的大腦定位聲音。這種特征因人而異,被稱為頭部相關(guān)傳遞函數(shù)(HRTF)。如想讓雙耳技術(shù)真正有效,須在聲音重現(xiàn)過程中聽眾的耳朵上準(zhǔn)確再現(xiàn)HRTF對(duì)聲音的影響。

因此,我們需要針對(duì)每位聽眾測量并定制HRTF,不能采用通用的解決方案。研究表明,當(dāng)人們體驗(yàn)用其他人的HRTF制作的音頻時(shí),其在體驗(yàn)期間的聲音定位能力會(huì)顯著降低。1,2,3

在揚(yáng)聲器上實(shí)現(xiàn)雙耳音頻還會(huì)面臨更大的挑戰(zhàn)。首先,來自多個(gè)揚(yáng)聲器的聲音信號(hào)會(huì)相互干擾,即所謂的串?dāng)_效應(yīng)(圖2)。其次是聽音環(huán)境,在聲音到達(dá)聽眾耳朵之前,它不可避免地會(huì)對(duì)聲音產(chǎn)生一些影響。

wKgZomSBc-qAZFK4AABpyr6sVOo616.png

圖2. 立體聲揚(yáng)聲器中的串?dāng)_效應(yīng)。

在實(shí)現(xiàn)真實(shí)模擬自然聲音接收體驗(yàn)時(shí),揚(yáng)聲器串?dāng)_、HRTF個(gè)性化需求以及房間/聽音環(huán)境的影響是主要的阻礙因素。而視覺系統(tǒng)能夠捕捉到有關(guān)聽眾和聽音環(huán)境的所有細(xì)節(jié),有助于解決雙耳聲音重現(xiàn)所面臨的挑戰(zhàn)。

例如,可以構(gòu)建為計(jì)算機(jī)視覺算法提供數(shù)據(jù)的攝像頭來捕捉聲音接收環(huán)境的三維架構(gòu)信息(即房間形狀、不同表面的幾何測量細(xì)節(jié)以及存在的物體),用于計(jì)算聽音環(huán)境對(duì)聲音的影響。然后,可以在聲音重現(xiàn)系統(tǒng)中適當(dāng)增加濾波器和濾波器系數(shù)以消除不良影響。雖然家庭影院音頻已采用此類系統(tǒng),但它通常依賴于在校準(zhǔn)期間使用麥克風(fēng)捕捉房間對(duì)聲音的影響,如果接收位置或房間結(jié)構(gòu)發(fā)生變化,則需要重新進(jìn)行校準(zhǔn)。

視覺系統(tǒng)可以進(jìn)一步捕捉人體測量數(shù)據(jù),比如身體位置和結(jié)構(gòu)細(xì)節(jié)4,通過必要的計(jì)算將HRTF個(gè)性化,以呈現(xiàn)準(zhǔn)確的空間線索(圖3)。使用聽眾頭部位置相對(duì)于揚(yáng)聲器的信息和頭部尺寸,部署串?dāng)_消除算法,在揚(yáng)聲器中呈現(xiàn)實(shí)時(shí)雙耳音頻,聽眾能夠隨意移動(dòng),同時(shí)保持理想的聲音體驗(yàn)(圖4)。

wKgaomSBc-yAFdu4AACfAuAuFUA567.png

圖3. 通過人體測量實(shí)現(xiàn)HRTF個(gè)性化。

wKgZomSBc-2AHrKaAAChE6W-P_s740.png

圖4. 采用串?dāng)_消除技術(shù),通過自由場揚(yáng)聲器系統(tǒng)實(shí)現(xiàn)雙耳聲音再現(xiàn)。

使用音頻系統(tǒng)存在隱私問題,但從視覺系統(tǒng)獲取的攝像頭數(shù)據(jù)會(huì)經(jīng)過實(shí)時(shí)處理,無需存儲(chǔ)或傳輸?shù)搅硪慌_(tái)遠(yuǎn)程機(jī)器,因此,使用專用的計(jì)算處理器在邊緣處理視覺數(shù)據(jù)分析可以保護(hù)用戶隱私。

ADI最新的多核SHARC? DSP和先進(jìn)的ToF成像器提供了硬件平臺(tái)實(shí)現(xiàn)音視頻融合所需的關(guān)鍵部件,以創(chuàng)建下一代沉浸式音頻系統(tǒng)(圖5)。

wKgaomSBc--ALJx6AADU27TKGVc257.png

圖5. 下一代沉浸式音頻系統(tǒng)。

我們的ADSP-SC598 SOC搭載SHARC雙核和一個(gè)A55 Arm?內(nèi)核,由大型片內(nèi)存儲(chǔ)器和外部存儲(chǔ)器DDR接口提供支持,可滿足低延遲和內(nèi)存密集型計(jì)算要求,是實(shí)現(xiàn)真正沉浸式音頻的理想平臺(tái)(圖6)。SHARC DSP上的計(jì)算資源,例如ADSP-SC598,可以將與音頻解碼相關(guān)的工作負(fù)載劃分至DSP內(nèi)核上,在第二個(gè)SHARC內(nèi)核上實(shí)現(xiàn)音頻回放的后處理和個(gè)性化。Arm A55可用于進(jìn)行多種控制處理。6圖5所示的視覺系統(tǒng)可以組合使用RGB和深度攝像頭或單獨(dú)使用深度攝像頭。我們的高分辨率100萬像素ToF深度成像器ADSD3100可以捕捉毫米分辨率級(jí)別的深度圖,且能在不同的照明條件下工作,為之前所述的個(gè)性化算法(串?dāng)_消除、房間均衡、HRTF人性化等)提供了所需的高精度幾何測量數(shù)據(jù)。

chaijie_default.png

圖6. 下一代沉浸式音頻系統(tǒng)的系統(tǒng)分區(qū)。

ADTF3175是基于ADSD3100 ToF深度成像器的100萬像素、75 × 75度視場(FOV) ToF模塊,它還集成了用于成像器的透鏡和光學(xué)帶通濾波器、紅外光源(包含光學(xué)元件、激光二極管、激光二極管驅(qū)動(dòng)器光電探測器)、閃存和功率調(diào)節(jié)器以生成本地電源電壓。該模塊在多個(gè)范圍和分辨率模式下進(jìn)行完全校準(zhǔn)。如需完善深度測量系統(tǒng),可以將來自ADTF3175的原始圖像數(shù)據(jù)通過主機(jī)系統(tǒng)處理器或深度ISP進(jìn)行外部處理。ADTF3175圖像數(shù)據(jù)輸出接口通過4通道移動(dòng)行業(yè)處理器接口(MIPI)、攝像頭串行接口2 (CSI-2)變送器接口與主機(jī)系統(tǒng)進(jìn)行電氣接口。該模塊編程和操作通過4線式SPI和I2C串行接口進(jìn)行控制。

我們當(dāng)前提供的 EVAL-MELODY-8/9開發(fā)平臺(tái)板、 EV-2159X/SC59x-EZKIT板和 CrossCore?Embedded Studio(一款基于eclipse的編輯工具)可以幫助您部署和運(yùn)行我們的ADSP SOC,以實(shí)時(shí)部署和調(diào)試應(yīng)用。7

Melody平臺(tái)是ADI為AVR和條形音箱應(yīng)用提供的完整信號(hào)鏈解決方案。它將視頻、DSP、音頻、電源和軟件方面的一流ADI組件結(jié)合到組合系統(tǒng)解決方案中,使客戶能夠利用最新技術(shù)快速進(jìn)入市場,以達(dá)到他們的年度升級(jí)窗口。8

ToF模塊ADTF3175可以連接至視覺計(jì)算平臺(tái),并連接至Melody板,為下一代沉浸式音頻系統(tǒng)構(gòu)建硬件平臺(tái)(圖7)。RGB攝像頭可耦合至ADTF3175 ToF模塊,構(gòu)建RGBD攝像頭來進(jìn)行強(qiáng)化視覺分析。

wKgZomSBc_GASdprAAC8Tgy4Plk944.png

圖7. 使用ADI平臺(tái)實(shí)現(xiàn)沉浸式音頻系統(tǒng)。

結(jié)論

ADI借助包含DSP、HDMI收發(fā)器、D類放大器和ToF成像器的解決方案系列,持續(xù)不懈地追求實(shí)現(xiàn)真正沉浸式的音頻系統(tǒng),力求提供與真實(shí)世界一般無二的聲音。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    552

    文章

    7959

    瀏覽量

    347925
  • adi
    adi
    +關(guān)注

    關(guān)注

    144

    文章

    45810

    瀏覽量

    248207
  • TOF
    TOF
    +關(guān)注

    關(guān)注

    9

    文章

    475

    瀏覽量

    36224
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是計(jì)算機(jī)視覺?計(jì)算機(jī)視覺的三種方法

    計(jì)算機(jī)視覺是指通過為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)
    的頭像 發(fā)表于 11-16 16:38 ?4408次閱讀
    什么是<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>?<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>的三種方法

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】+ 初識(shí)量子計(jì)算機(jī)

    感覺量子技術(shù)神奇神秘,希望通過閱讀此書來認(rèn)識(shí)量子計(jì)算機(jī)。 先瀏覽一目錄: 通過目錄,基本可以確定這是一本關(guān)于量子計(jì)算機(jī)的科普書籍,主要包括什么是量子計(jì)算機(jī)、量子
    發(fā)表于 03-05 17:37

    介紹一計(jì)算機(jī)底層知識(shí)

    我們每個(gè)程序員或許都有一個(gè)夢,那就是成為大牛,我們或許都沉浸在各種框架中,以為框架就是一切,以為應(yīng)用層才是最重要的,你錯(cuò)了。在當(dāng)今計(jì)算機(jī)行業(yè)中,會(huì)應(yīng)用是基本素質(zhì),如果你懂其原理才能讓你在行業(yè)中走
    發(fā)表于 07-26 06:21

    深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺簡介

    單板計(jì)算機(jī)(指所有的邏輯線路、定時(shí)線路、內(nèi)部存儲(chǔ)器和外部界面都包含在一塊單獨(dú)的印制板上的一種微算機(jī))上提供嵌入視覺的各種選項(xiàng)。近年來,隨著計(jì)算機(jī)
    發(fā)表于 12-23 06:17

    基于OpenCV的計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)

    基于OpenCV的計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)OpencV是用來實(shí)現(xiàn)計(jì)算機(jī)視覺相關(guān)技術(shù)的開放源碼工作庫,是計(jì)算機(jī)
    發(fā)表于 11-23 21:06 ?0次下載
    基于OpenCV的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>技術(shù)實(shí)現(xiàn)

    什么是計(jì)算機(jī)輔助制造(CAM)

    什么是計(jì)算機(jī)輔助制造(CAM) CAM (computer Aided Manufacturing,計(jì)算機(jī)輔助制造)的核心是計(jì)算機(jī)數(shù)值控制(簡稱數(shù)控),是將計(jì)算機(jī)應(yīng)用于制造生產(chǎn)過程的
    發(fā)表于 04-10 12:53 ?4768次閱讀

    計(jì)算機(jī)視覺與機(jī)器視覺區(qū)別

     “計(jì)算機(jī)視覺”,是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺功能,對(duì)客觀世界的三維場景的感知、識(shí)別和理解。計(jì)算機(jī)視覺
    的頭像 發(fā)表于 12-08 09:27 ?1.2w次閱讀

    計(jì)算機(jī)視覺的應(yīng)用

    計(jì)算機(jī)視覺的應(yīng)用領(lǐng)域主要包括對(duì)照片、視頻資料如航空照片、衛(wèi)星照片、視頻片段等的解釋、精確制導(dǎo)、移動(dòng)機(jī)器人視覺導(dǎo)航、醫(yī)學(xué)輔助診斷、工業(yè)機(jī)器人的手眼系統(tǒng)、地圖繪制、物體三維形狀分析與識(shí)別及
    的頭像 發(fā)表于 04-04 16:01 ?8650次閱讀

    計(jì)算機(jī)視覺常用算法_計(jì)算機(jī)視覺有哪些分類

    本文主要介紹了計(jì)算機(jī)視覺常用算法及計(jì)算機(jī)視覺的分類。
    的頭像 發(fā)表于 07-30 17:34 ?1.4w次閱讀

    計(jì)算機(jī)輔助技術(shù)有哪些_計(jì)算機(jī)輔助技術(shù)的應(yīng)用

    計(jì)算機(jī)輔助技術(shù)包括計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)輔助制造、計(jì)算機(jī)輔助測試和計(jì)算機(jī)輔助教學(xué)等。
    的頭像 發(fā)表于 11-17 14:31 ?4w次閱讀

    計(jì)算機(jī)視覺的工作流程

    引言 計(jì)算機(jī)視覺(Computer Vision)自興起以來就非常迅速且廣泛應(yīng)用于各個(gè)領(lǐng)域,比如我們熟悉的且每天都會(huì)使用的基于手機(jī)攝像頭的人臉識(shí)別,除此之外,它還可以在自動(dòng)駕駛領(lǐng)域輔助汽車識(shí)別
    的頭像 發(fā)表于 12-26 11:00 ?6277次閱讀

    了解計(jì)算機(jī)視覺發(fā)展未來的核心技術(shù)

      隨著人工智能越來越多地融入我們的日常生活,計(jì)算機(jī)視覺技術(shù)不斷發(fā)展。計(jì)算機(jī)視覺在最新的新聞?lì)^條中也變得越來越普遍。
    的頭像 發(fā)表于 05-30 09:57 ?2191次閱讀

    計(jì)算機(jī)視覺的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用

    本文將介紹計(jì)算機(jī)視覺的基礎(chǔ)概念和現(xiàn)實(shí)應(yīng)用,對(duì)任何聽說過計(jì)算機(jī)視覺但不確定它是什么以及如何應(yīng)用的人,本文是了解計(jì)算機(jī)
    的頭像 發(fā)表于 11-08 10:10 ?1431次閱讀

    數(shù)控加工計(jì)算機(jī)輔助編程步驟

    數(shù)控加工程序可通過手工編程或計(jì)算機(jī)自動(dòng)編程來獲得。目前計(jì)算機(jī)自動(dòng)編程采用圖形交互自動(dòng)編程,即計(jì)算機(jī)輔助編程。
    發(fā)表于 10-18 09:39 ?556次閱讀

    最適合AI應(yīng)用的計(jì)算機(jī)視覺類型是什么?

    計(jì)算機(jī)視覺是指為計(jì)算機(jī)賦予人類視覺這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)
    的頭像 發(fā)表于 11-15 16:38 ?407次閱讀
    最適合AI應(yīng)用的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺</b>類型是什么?