0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從2D到3D,沉浸式的實(shí)時(shí)視頻通信是如何實(shí)現(xiàn)的?

BYXG_shengwang ? 來源:未知 ? 作者:姚遠(yuǎn)香 ? 2018-10-05 16:54 ? 次閱讀

過去幾年,我們探索工作的初衷是什么?就是如何在未來提供更好的沉浸式的通訊體驗(yàn)。

我們所從事的是通信技術(shù)。最早,我們提供電網(wǎng)絡(luò),語音通話是我們唯一的業(yè)務(wù)。語音通話的體驗(yàn)很重要,但始終無法提供面對(duì)面、身臨其境的體驗(yàn)。如何提升呢?第一步,就是加入視頻,有了視頻就拉近了彼此距離,雙方獲得了更好的交流體驗(yàn)。但這還不夠。

在我們的設(shè)想中,沉浸式的通訊體驗(yàn)應(yīng)該像圖中所示,人們?cè)谕ㄔ挄r(shí)就像在同一個(gè)屋子中相視而坐。這是我們希望最終達(dá)到的體驗(yàn)效果。

在7、8年前,我們做了一個(gè)項(xiàng)目,它叫 Augmented Personal Telepresence Overlay System(如下圖)。那時(shí),統(tǒng)一通信的概念已經(jīng)比較普遍,每個(gè)人在自己的桌面上都可以發(fā)起實(shí)時(shí)通信,但體驗(yàn)并不特別好。那時(shí)深度相機(jī)開始出現(xiàn)了,它通過對(duì)深度的獲取可以把人物分割出來,分割出來之后在桌面上進(jìn)行視頻通話時(shí)可以把兩個(gè)人放到一個(gè)空間里。在這個(gè)項(xiàng)目里,每個(gè)人坐在自己的桌子前,通過深度相機(jī)將人從環(huán)境中分割出來之后,可以在電腦上看到兩個(gè)人坐在一張桌子上,但其實(shí)他們是在不同的屋子里。同時(shí),支持屏幕共享,這讓沉浸感得到了提升。

圖:Augmented Personal Telepresence Overlay System

但是這個(gè)項(xiàng)目看起來還是在一個(gè)小屏幕上,它的沉浸感比較弱。那么我們能不能進(jìn)一步提升沉浸式的體驗(yàn)?zāi)兀?/p>

2012年,我們采用了更大的屏幕。這個(gè)屏幕就像一面墻,需要把人物的全身從背景中分割出來。那時(shí)深度學(xué)習(xí)沒有廣泛被大家了解,不像現(xiàn)在用深度學(xué)習(xí)進(jìn)行圖像的分割已經(jīng)非常普遍。那時(shí)的圖像分割比較困難,需要借助于一些手段對(duì)人的動(dòng)態(tài)進(jìn)行分割,才可以把它疊加在同一個(gè)背景下,這樣你站在這個(gè)大屏幕前,跟對(duì)方才有面對(duì)面、沉浸式的感受。

剛剛的項(xiàng)目雖然提供了一定的沉浸感,但是它無法提供六自由度。2013年、2014年,各類 AR、VR 設(shè)備陸續(xù)面市。而頭盔、眼鏡,彌補(bǔ)了這一特性,能提供更沉浸式的體驗(yàn)。

我們?cè)鯓影殉两械囊曨l通信實(shí)現(xiàn)出來呢?

2016年,微軟做了一個(gè)名為 Holoportation 的項(xiàng)目。通過這個(gè)眼鏡,我們配合采集3D的軟件進(jìn)行實(shí)時(shí)建模,然后傳遞給對(duì)方,對(duì)方戴上眼鏡可以實(shí)現(xiàn)六自由的實(shí)時(shí)交互。在眼鏡中,另一個(gè)人是通過實(shí)時(shí)的3D 建模,在本地渲染出來的。

圖:微軟的Holoportation

這與以前 2D 時(shí)代非常不同,需要進(jìn)行 3D 建模。在以前傳統(tǒng)的 2D 時(shí)代,我們會(huì)從一個(gè)角度,用一個(gè)攝像機(jī),拍一個(gè)視頻,然后實(shí)時(shí)獲取到信息后,傳遞給對(duì)方,1分鐘內(nèi)就可以重現(xiàn)它,并進(jìn)行渲染。到了 3D 環(huán)境下,我們沒有辦法再利用一個(gè)攝像機(jī),來獲取 人物的 3D 信息。如何獲取這個(gè)信息,變成了非常具有挑戰(zhàn)性的工作。

以前 2D 時(shí),我們獲取的信息是像素,一個(gè) XY 座標(biāo),座標(biāo)上有 RGB 的信息,有了這個(gè)信息就可以得到完整的 2D 畫面。

但是到了 3D 時(shí),信息變成了三維的,我們需要在三維坐標(biāo)上要有色彩信息和其他屬性 信息,現(xiàn)在沒有一個(gè)手段能夠直接獲取它。當(dāng)然,現(xiàn)在有很多種嘗試。我們現(xiàn)在的系統(tǒng)是試著實(shí)現(xiàn)多視角,要能同時(shí)從四面八方獲取信息,所以我們采用了八視角,有八組相機(jī)分布在人的周圍,進(jìn)行實(shí)時(shí)的采集。

3D 的采集在很早以前就有。如果不是實(shí)時(shí)的,用幾百個(gè)攝像機(jī),可以非常好的進(jìn)行重建,但都是離線狀態(tài)下進(jìn)行重建,需要很長時(shí)間。但是,我們要做到實(shí)時(shí)的采集、重建,非常困難。

我們簡單來講一下當(dāng)時(shí)我們是如何來實(shí)現(xiàn)實(shí)時(shí)的 3D 的采集(如圖)。首先我們用了八組深度攝像機(jī)來進(jìn)行采集,然后實(shí)時(shí)地生成點(diǎn)云信息。

在動(dòng)態(tài)重建時(shí),frame 之間的差別很大。如果 frame 與 frame 之間沒有一定約束的話,人們看到的圖像會(huì)抖動(dòng)、晃動(dòng),效果會(huì)很差。如果要提升效果,就要有動(dòng)態(tài)的約束。對(duì)于人物這種非剛性的物體進(jìn)行實(shí)時(shí)重建,挑戰(zhàn)是非常大的。在這個(gè)重建過程中,我們是用八個(gè)攝像機(jī)獲取到的深度彩色圖,合成為當(dāng)前 frame 的模型。而它與前一個(gè) frame 需要進(jìn)行空間的匹配,從前一個(gè)模型匹配到當(dāng)前的模型。我們知道,在 2D 中,我們只需要計(jì)算運(yùn)動(dòng)矢量,但在 3D 中則需要進(jìn)行矩陣的運(yùn)算,空間搜索非常復(fù)雜。在完成匹配之后還需要進(jìn)行融合,融合后形成當(dāng)前 frame 的 3D 模型。然后,我們?cè)購狞c(diǎn)云模型計(jì)算 Mesh。

紋理也很有挑戰(zhàn)性。我們有八個(gè)攝像機(jī),它們從不同視角觀察同一個(gè)點(diǎn)的時(shí)候,由于光照不同、角度不同,它顏色、紋理都有差異。所以在這個(gè)過程中,還需要我們進(jìn)行融合、優(yōu)化,才能有比較平滑的視覺觀感。然后再進(jìn)行傳輸。在傳輸時(shí),我們也做了一些簡單的壓縮。比如我們將 3D 紋理轉(zhuǎn)為 2D ,再進(jìn)行壓縮。在這個(gè)過程中,我們也做了很多工作,比如 frame 與 frame 之間如何匹配,才能使他們相關(guān)性更高,從而提升壓縮率。

以上就是我們所做過的一些嘗試。

其實(shí),國際上有很多組織也在研究相關(guān)的技術(shù)標(biāo)準(zhǔn)。例如,MPEG 組織也在考慮未來的沉浸式信息,如何編碼、表示和傳輸。我們也正積極參與其中,與更多人共同探索。

目前 MPEG 正在做的就是 MPEG-I。它是針對(duì)未來沉浸式多媒體的格式、編碼、壓縮、傳輸?shù)纫幌盗械臉?biāo)準(zhǔn)。大家可能了解的更多的就是與視頻相關(guān)的 MPEG-I Part3。實(shí)際上大家可以將它理解為 H.266,也就是 H.255 的下一代。它會(huì)更多地針對(duì)沉浸式媒體的壓縮。另一方面就是 MPEG-I Part5,即點(diǎn)云的壓縮。這與我們剛剛分享的項(xiàng)目非常相關(guān)。當(dāng)你獲得了 3D 模型,怎么進(jìn)行高效的壓縮、存儲(chǔ)、傳輸,國際上也有相應(yīng)的標(biāo)準(zhǔn)化組織在共同探索如何來做。現(xiàn)在來講還屬于比較超前的研究,仍處于早期階段。這也是第一次在 MPEG 里嘗試做點(diǎn)云的標(biāo)準(zhǔn)化工作,預(yù)計(jì)在明年會(huì)有第一版的標(biāo)準(zhǔn)。

在點(diǎn)云壓縮標(biāo)準(zhǔn)中有兩個(gè)類別,第一種是對(duì)靜態(tài)的高質(zhì)量 3D 模型進(jìn)行壓縮;第二種是針對(duì)動(dòng)態(tài)的 3D 模型進(jìn)行壓縮;第三種則是針對(duì)邊采集邊生成點(diǎn)云時(shí),如何來進(jìn)行壓縮。其中第二種與我們正在做的項(xiàng)目更加相關(guān)。

在去年的一次 MPEG 的會(huì)議上,我們經(jīng)過對(duì)比選擇了由蘋果提出一套基于視頻壓縮的方案,它是目前性能表現(xiàn)最好的。隨后我們各個(gè)公司也會(huì)基于這套方案來進(jìn)行不同程度的改進(jìn),最終會(huì)形成一套標(biāo)準(zhǔn)。

這套壓縮方案是怎么做的呢?首先對(duì)一個(gè)動(dòng)態(tài)的 3D 模型壓縮時(shí),將它映射到 6 個(gè) 2D 平面上,然后再 patch 放在同一個(gè) 2D 的圖中,最后將 Patch 信息、紋理、色彩、空間數(shù)據(jù)等到一起,再進(jìn)行編碼傳輸。

VPCC(Video Point Cloud Compression)編碼器端的基本工作流程是這樣的:首先進(jìn)行映射,然后選取每個(gè)部分映射到哪一個(gè)面上,然后生成 patch 信息,用視頻的方法進(jìn)行壓縮。因?yàn)樵趬嚎s之后會(huì)有一定的誤差,所以要根據(jù)原來的 patch info 進(jìn)行調(diào)整,也就是圖中的“smoothing”模塊。調(diào)整之后,再通過視頻的方法對(duì)它進(jìn)行壓縮。

圖:編碼器架構(gòu)

圖:解碼器架構(gòu)

由于在 3D 上進(jìn)行配準(zhǔn)、深度計(jì)算等工作的復(fù)雜度非常高,所以現(xiàn)在我們?cè)谟?jì)算能力上海很難實(shí)現(xiàn)非常高精度的 3D 實(shí)時(shí)建模重建。但是隨著我們計(jì)算能力的不斷提升,以及深度學(xué)習(xí)的應(yīng)用,可以進(jìn)一步提升我們算法的性能。所以在未來會(huì)有更長足的發(fā)展。雖然動(dòng)態(tài)的、高還原度的 3D 重建距離商業(yè)應(yīng)用還有很長的距離。但回想我們?cè)?、8年前做的圖像分割的技術(shù),當(dāng)時(shí)來看有很大的難度,但現(xiàn)在已經(jīng)在手機(jī)中得到了廣泛應(yīng)用。所以我們相信其中很多技術(shù)會(huì)逐步得到應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2836

    瀏覽量

    107004
  • 2D
    2D
    +關(guān)注

    關(guān)注

    0

    文章

    62

    瀏覽量

    15140
  • 視頻通信
    +關(guān)注

    關(guān)注

    1

    文章

    20

    瀏覽量

    9132

原文標(biāo)題:RTC 技術(shù)分享 | 從 2D 到 3D,沉浸式的實(shí)時(shí)視頻通信

文章出處:【微信號(hào):shengwang-agora,微信公眾號(hào):聲網(wǎng)Agora】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    為什么3D2D模型不能相互轉(zhuǎn)換?

    AD17.1.5軟件,3D2D模型不能相互轉(zhuǎn)換,按3可以進(jìn)入3D模型,按2不可以進(jìn)入2D模型,
    發(fā)表于 09-20 05:35

    Dialog半導(dǎo)體推出首款2D3D視頻轉(zhuǎn)換芯片,為智能手機(jī)

    Dialog半導(dǎo)體推出首款2D3D視頻轉(zhuǎn)換芯片,為智能手機(jī)和平板電腦帶來3D體驗(yàn) 低功耗3D
    發(fā)表于 12-13 15:08 ?839次閱讀

    全球首款2D/3D視頻轉(zhuǎn)換實(shí)時(shí)處理芯片:DA8223

      Dialog半導(dǎo)體股份有限公司日前宣布推出全球首款2D/3D影像轉(zhuǎn)換實(shí)時(shí)處理芯片:DA8223.該芯片為包括智能手機(jī)和平板電腦等在內(nèi)的各種便攜設(shè)備提供了
    發(fā)表于 12-14 09:17 ?5064次閱讀

    Lattice將在CES 2013上展示基于LatticeECP3實(shí)時(shí)3D視頻轉(zhuǎn)換器

    萊迪思將在CES 2013上展示3D Impact Media的基于低密度LatticeECP3 FPGA的實(shí)時(shí)3D 視頻轉(zhuǎn)換器Realit
    發(fā)表于 12-18 08:53 ?1699次閱讀

    2D3D視頻自動(dòng)轉(zhuǎn)換系統(tǒng)

    研究和實(shí)現(xiàn)了一個(gè)基于OMAP3530的2D3D視頻自動(dòng)轉(zhuǎn)換系統(tǒng),重點(diǎn)研究深度圖獲取和深度信息渲染等主要核心技術(shù)及其
    發(fā)表于 03-06 14:20 ?1次下載
    <b class='flag-5'>2D</b><b class='flag-5'>到</b><b class='flag-5'>3D</b><b class='flag-5'>視頻</b>自動(dòng)轉(zhuǎn)換系統(tǒng)

    適用于顯示屏的2D多點(diǎn)觸摸與3D手勢(shì)模塊

    視頻將展示結(jié)合多點(diǎn)觸摸與3D手勢(shì)模塊的Microchip顯示解決方案。支持2D/3D功能的顯示屏是Microchip基于GestIC?技術(shù)的最新解決方案。顯示屏上結(jié)合了
    的頭像 發(fā)表于 06-06 02:45 ?5023次閱讀

    如何把OpenGL中3D坐標(biāo)轉(zhuǎn)換成2D坐標(biāo)

    在OpenGL中,一切事物都在3D空間中,但我們的屏幕坐標(biāo)確實(shí)2D像素?cái)?shù)組,OpenGL大部分工作就是把3D坐標(biāo)轉(zhuǎn)換成適應(yīng)屏幕的2D像素。3D
    的頭像 發(fā)表于 07-09 10:40 ?8470次閱讀

    阿里研發(fā)全新3D AI算法,2D圖片搜出3D模型

    AI技術(shù)的研究正在從2D走向更高難度的3D。12月3日,記者獲悉,阿里技術(shù)團(tuán)隊(duì)研發(fā)了全新3D AI算法,可基于2D圖片精準(zhǔn)搜索出相應(yīng)的
    的頭像 發(fā)表于 12-04 15:49 ?3417次閱讀

    3d人臉識(shí)別和2d人臉識(shí)別的區(qū)別

    首先是3d人臉識(shí)別和2d人臉識(shí)別圖像數(shù)據(jù)獲取不同。3D人臉識(shí)別是以3D攝像頭立體成像,而2D是以2D
    發(fā)表于 02-05 16:00 ?4w次閱讀

    基于神經(jīng)網(wǎng)絡(luò)的2D3D的機(jī)器學(xué)習(xí)

    FSD beta所采用的voxel 3D NN的技術(shù)細(xì)節(jié)并未得到披露,類似的一般性的公開方法來說,2D單個(gè)圖像中恢復(fù)出voxel 3D
    發(fā)表于 10-11 15:32 ?682次閱讀

    探討一下2D3D拓?fù)浣^緣體

    這樣的物理規(guī)范,具有很高的普適性,applicable 所有維度空間。對(duì)二維 2D 拓?fù)浣^緣體 (2D - TI) 和三維 3D 拓?fù)浣^緣體 (3
    的頭像 發(fā)表于 11-23 10:23 ?2128次閱讀

    2D/3D圖表和圖形添加到WindowsForms應(yīng)用程序中

    ? 將2D/3D圖表和圖形添加到WindowsForms應(yīng)用程序中 包括您可能需要的所有功能,并以100%托管代碼編寫。很好地集成儀表板和商業(yè)智能軟件中。由響應(yīng)迅速的支持團(tuán)隊(duì)提供支持。 14種主要
    的頭像 發(fā)表于 06-15 11:45 ?1978次閱讀

    2D3D視覺技術(shù)的比較

    作為一個(gè)多年經(jīng)驗(yàn)的機(jī)器視覺工程師,我將詳細(xì)介紹2D3D視覺技術(shù)的不同特點(diǎn)、應(yīng)用場(chǎng)景以及它們能夠解決的問題。在這個(gè)領(lǐng)域內(nèi),2D3D視覺技術(shù)是實(shí)現(xiàn)
    的頭像 發(fā)表于 12-21 09:19 ?907次閱讀

    一文了解3D視覺和2D視覺的區(qū)別

    一文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D視覺是兩種不同的視覺模式,其區(qū)別主要體現(xiàn)在立體感、深度感和逼真度上。本文將詳細(xì)闡述這些區(qū)別,并解釋為什么
    的頭像 發(fā)表于 12-25 11:15 ?2344次閱讀

    有了2D NAND,為什么要升級(jí)3D呢?

    2D NAND和3D NAND都是非易失性存儲(chǔ)技術(shù)(NVM Non-VolatileMemory),屬于Memory(存儲(chǔ)器)的一種。
    的頭像 發(fā)表于 03-17 15:31 ?757次閱讀
    有了<b class='flag-5'>2D</b> NAND,為什么要升級(jí)<b class='flag-5'>到</b><b class='flag-5'>3D</b>呢?