0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

場(chǎng)景視頻景深學(xué)習(xí)領(lǐng)域,谷歌AI公布三項(xiàng)最新研究突破

ml8z_IV_Technol ? 來源:YXQ ? 2019-04-29 15:38 ? 次閱讀

視頻中估計(jì)3D結(jié)構(gòu)和相機(jī)運(yùn)動(dòng)是計(jì)算機(jī)視覺中的一個(gè)關(guān)鍵問題,這個(gè)技術(shù)在自動(dòng)駕駛領(lǐng)域有著廣闊的工業(yè)應(yīng)用前景。目前自動(dòng)駕駛的核心技術(shù)是LiDAR(激光雷達(dá)),一種運(yùn)用雷達(dá)原理,采用光和激光作為主要傳感器的汽車視覺系統(tǒng)。LiDAR傳感器賦予了自動(dòng)駕駛汽車能夠看到周邊環(huán)境的“雙眼”,激光雷達(dá)技術(shù)越先進(jìn),視覺感知的精準(zhǔn)程度越高,這是自動(dòng)駕駛得以實(shí)現(xiàn)的底層技術(shù)基礎(chǔ)。但是最近幾年,放在攝像頭上的深度學(xué)習(xí)研究,發(fā)展很蓬勃。相比之下, 雖然激光雷達(dá) (LiDAR)的數(shù)據(jù)有諸多優(yōu)點(diǎn),但相關(guān)學(xué)術(shù)進(jìn)展并不太多。相機(jī)+數(shù)據(jù)+神經(jīng)網(wǎng)絡(luò)的組合,正在迅速縮小與LiDAR的能力差距。

無需相機(jī)參數(shù)、單目、以無監(jiān)督學(xué)習(xí)的方式從未標(biāo)記場(chǎng)景視頻中搞定深度圖!

什么是深度圖?

深度圖像(depth image)也被稱為距離影像(range image),由相機(jī)拍攝,是指將從圖像采集器到場(chǎng)景中各點(diǎn)的距離(深度)作為像素值的圖像,它直接反映了景物可見表面的幾何形狀。單位為mm,效果參考下圖:

在場(chǎng)景視頻景深學(xué)習(xí)領(lǐng)域,谷歌AI機(jī)器人實(shí)驗(yàn)室聯(lián)合公布了三項(xiàng)最新研究突破:

第一,證明了可以以一種無監(jiān)督的方式訓(xùn)練深度網(wǎng)絡(luò),這個(gè)深度網(wǎng)絡(luò)可以從視頻本身預(yù)測(cè)相機(jī)的內(nèi)在參數(shù),包括鏡頭失真(見圖1)。

第二,在這種情況下,他們是第一個(gè)以幾何方式從預(yù)測(cè)深度直接解決遮擋的問題。

第三,大大減少了處理場(chǎng)景中移動(dòng)元素所需的語義理解量只需要一個(gè)覆蓋可能屬于移動(dòng)對(duì)象的像素的單個(gè)掩碼,而不是分割移動(dòng)對(duì)象的每個(gè)實(shí)例并跨幀跟蹤它。

圖1:從未知來源的視頻中學(xué)習(xí)深度的方法的定性結(jié)果,通過同時(shí)學(xué)習(xí)相機(jī)的外在和內(nèi)在參數(shù)來實(shí)現(xiàn)。 由于該方法不需要知道相機(jī)參數(shù),因此它可以應(yīng)用于任何視頻集。 所有深度圖(在右側(cè)可視化,作為差異)都是從原始視頻中學(xué)習(xí)而不使用任何相機(jī)內(nèi)在函數(shù)。 從上到下:來自YouTube8M的幀,來自EuRoC MAV數(shù)據(jù)集,來自Cityscapes和來自KITTI的幀。

推特網(wǎng)友對(duì)此不吝贊美:“這是我見過的最令人印象深刻的無監(jiān)督結(jié)果之一。來自未標(biāo)記視頻的深度圖對(duì)于自動(dòng)駕駛非常有用:)“

以下是論文具體內(nèi)容:

從視頻中估計(jì)3D結(jié)構(gòu)和相機(jī)運(yùn)動(dòng)是計(jì)算機(jī)視覺中的一個(gè)關(guān)鍵問題,這個(gè)技術(shù)在自動(dòng)駕駛領(lǐng)域有著廣闊的工業(yè)應(yīng)用前景。

解決該問題的傳統(tǒng)方法依賴于在多個(gè)連續(xù)幀中識(shí)別場(chǎng)景中的相同點(diǎn),并求解在這些幀上最大程度一致的3D結(jié)構(gòu)和相機(jī)運(yùn)動(dòng)。

但是,幀之間的這種對(duì)應(yīng)關(guān)系只能針對(duì)所有像素的子集建立,這導(dǎo)致了深度估計(jì)不確定的問題。與通常處理逆問題一樣,這些缺口是由連續(xù)性和平面性等假設(shè)填充的。

深度學(xué)習(xí)能夠從數(shù)據(jù)中獲得這些假設(shè),而不是手工指定這些假設(shè)。信息不足以解決模糊性的地方,深度網(wǎng)絡(luò)可以通過對(duì)先前示例進(jìn)行歸納,以生成深度圖和流場(chǎng)。

無監(jiān)督方法允許單獨(dú)從原始視頻中學(xué)習(xí),使用與傳統(tǒng)方法類似的一致性損失,但在訓(xùn)練期間對(duì)其進(jìn)行優(yōu)化。在推論中,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)能夠預(yù)測(cè)來自單個(gè)圖像的深度以及來自成對(duì)或更長(zhǎng)圖像序列的運(yùn)動(dòng)。

隨著對(duì)這個(gè)方向的研究越來越有吸引力,很明顯,物體運(yùn)動(dòng)是一個(gè)主要障礙,因?yàn)樗`反了場(chǎng)景是靜態(tài)的假設(shè)。已經(jīng)提出了幾個(gè)方向來解決該問題,包括通過實(shí)例分割利用對(duì)場(chǎng)景的語義理解。

遮擋是另一個(gè)限制因素,最后,在此方向的所有先前工作中,必須給出相機(jī)的內(nèi)在參數(shù)。這項(xiàng)工作解決了這些問題,因此減少了監(jiān)督,提高了未標(biāo)記視頻的深度和運(yùn)動(dòng)預(yù)測(cè)質(zhì)量。

首先,我們證明了可以以一種無監(jiān)督的方式訓(xùn)練深度網(wǎng)絡(luò),這個(gè)深度網(wǎng)絡(luò)從視頻本身預(yù)測(cè)相機(jī)的內(nèi)在參數(shù),包括鏡頭失真(見圖1)。

其次,在這種情況下,我們是第一個(gè)以幾何方式從預(yù)測(cè)深度直接解決遮擋的問題。

最后,我們大大減少了處理場(chǎng)景中移動(dòng)元素所需的語義理解量:我們需要一個(gè)覆蓋可能屬于移動(dòng)對(duì)象的像素的單個(gè)掩碼,而不是分割移動(dòng)對(duì)象的每個(gè)實(shí)例并跨幀跟蹤它。

這個(gè)掩模可能非常粗糙,實(shí)際上可以是矩形邊界框的組合。獲得這樣的粗糙掩模是一個(gè)簡(jiǎn)單得多的問題,而且與實(shí)例分割相比,使用現(xiàn)有的模型可以更可靠地解決這個(gè)問題。

除了這些定性進(jìn)展之外,我們還對(duì)我們的方法進(jìn)行了廣泛的定量評(píng)估,并發(fā)現(xiàn)它在多個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上建立了新的技術(shù)水平。將數(shù)據(jù)集匯集在一起,這種能力通過我們的方法得到了極大的提升,證明可以提高質(zhì)量。

表1:總結(jié)了在KITTI上訓(xùn)練的模型和評(píng)估結(jié)果,使用給定相機(jī)內(nèi)建和學(xué)習(xí)相機(jī)內(nèi)建兩種方式來評(píng)估我們方法的深度估計(jì),結(jié)果顯而易見,我們獲得了當(dāng)前最佳SOTA。

表2:總結(jié)了在Cityscapes上訓(xùn)練和測(cè)試的模型的評(píng)估結(jié)果,我們的方法優(yōu)于以前的方法,并從學(xué)習(xí)的內(nèi)建中獲益。

表3:深度估計(jì)的消融實(shí)驗(yàn)。 在所有實(shí)驗(yàn)中,訓(xùn)練集是Cityscapes(CS)和KITTI組合,我們分別在Cityscapes(CS)和KITTI(Eigen partition)上測(cè)試模型。 每行代表一個(gè)實(shí)驗(yàn),其中與主方法相比進(jìn)行了一次更改,如“實(shí)驗(yàn)”行中所述。 數(shù)字越小越好。

除了這些定性的進(jìn)步,我們對(duì)我們的方法進(jìn)行了廣泛的定量評(píng)估,發(fā)現(xiàn)它在多個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上建立了一個(gè)新的技術(shù)狀態(tài)。將數(shù)據(jù)集集中在一起,這種方法大大提高了數(shù)據(jù)集的質(zhì)量。

最后,我們首次演示了可以在YouTube視頻上學(xué)習(xí)深度和相機(jī)內(nèi)在預(yù)測(cè),這些視頻是使用多個(gè)不同的相機(jī)拍攝的,每個(gè)相機(jī)的內(nèi)建都是未知的,而且通常是不同的。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6080

    瀏覽量

    104370
  • LIDAR
    +關(guān)注

    關(guān)注

    10

    文章

    316

    瀏覽量

    29256

原文標(biāo)題:谷歌AI:根據(jù)視頻生成深度圖,效果堪比激光雷達(dá)

文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    谷歌Pixel 9系列AI功能搶眼,蘋果被指AI領(lǐng)域落后

    8月15日,谷歌意外提前揭曉了其新品發(fā)布會(huì),借助Pixel 9系列手機(jī)搭載的Gemini AI技術(shù),在蘋果iPhone 16系列發(fā)布前夕搶占了科技頭條。此舉不僅展示了谷歌在人工智能領(lǐng)域
    的頭像 發(fā)表于 08-15 15:31 ?428次閱讀

    谷歌Chrome瀏覽器新增AI功能,提升用戶體驗(yàn)

    谷歌近日宣布,在其廣受歡迎的Chrome瀏覽器中引入了三項(xiàng)前沿的AI技術(shù)功能,旨在為用戶提供更加智能、便捷的瀏覽體驗(yàn)。這些新功能由Gemini技術(shù)強(qiáng)力驅(qū)動(dòng),目前已在Chrome桌面版上線,標(biāo)志著
    的頭像 發(fā)表于 08-05 11:26 ?496次閱讀

    RISC-V適合什么樣的應(yīng)用場(chǎng)景

    學(xué)術(shù)和科學(xué)軟件開發(fā)社區(qū)為RISC-V軟件貢獻(xiàn)和開發(fā)科學(xué)應(yīng)用和算法,這有助于推動(dòng)RISC-V在教育和研究領(lǐng)域的廣泛應(yīng)用。 學(xué)習(xí)工具:RISC-V的簡(jiǎn)潔性和模塊化設(shè)計(jì)使得其成為學(xué)習(xí)計(jì)算機(jī)架
    發(fā)表于 07-29 17:16

    谷歌AI突破:為無聲視頻智能配音

    近日,谷歌DeepMind團(tuán)隊(duì)公布了一項(xiàng)革命性的技術(shù)——利用AI為無聲視頻生成背景音樂的“video-to-audio”技術(shù)。這一技術(shù)的出現(xiàn)
    的頭像 發(fā)表于 06-21 10:50 ?401次閱讀

    NVIDIA和谷歌云宣布開展一項(xiàng)新的合作,加速AI開發(fā)

    NVIDIA 和谷歌云宣布開展一項(xiàng)新的合作,以幫助全球初創(chuàng)企業(yè)加速創(chuàng)建生成式 AI 應(yīng)用和服務(wù)。
    的頭像 發(fā)表于 04-11 14:03 ?388次閱讀

    谷歌推出能制作旅行攻略的AI工具

    谷歌近日發(fā)布了一項(xiàng)令人矚目的新功能,它是一款能夠借助自然語言對(duì)話幫助用戶生成旅行行程和出游建議的AI工具。這款工具的推出,標(biāo)志著谷歌在人工智能領(lǐng)域
    的頭像 發(fā)表于 03-29 11:08 ?526次閱讀

    維信諾主導(dǎo)三項(xiàng)柔性顯示器件團(tuán)體標(biāo)準(zhǔn)發(fā)布

    近日,維信諾昆山公司憑借其深厚的技術(shù)積累和行業(yè)影響力,主導(dǎo)制定并發(fā)布了三項(xiàng)團(tuán)體標(biāo)準(zhǔn):T/SOECC 014-2024《柔性顯示器件 折痕測(cè)試方法》、T/SOECC 015-2024《柔性顯示器
    的頭像 發(fā)表于 03-13 10:37 ?746次閱讀

    NanoEdge AI的技術(shù)原理、應(yīng)用場(chǎng)景及優(yōu)勢(shì)

    領(lǐng)域。以下是一些具體的應(yīng)用場(chǎng)景: 1 . 智能家居:通過將 NanoEdge AI 集成到智能家居設(shè)備中,可以實(shí)現(xiàn)對(duì)家庭環(huán)境的實(shí)時(shí)監(jiān)控和智能控制,如溫度調(diào)節(jié)、照明控制、安防監(jiān)控等。 2.工業(yè)自動(dòng)化
    發(fā)表于 03-12 08:09

    中興通訊榮獲GTI Awards 2024三項(xiàng)大獎(jiǎng),展現(xiàn)5G領(lǐng)域硬核實(shí)力

    近日,在備受矚目的MWC24巴塞羅那大會(huì)上,中興通訊憑借其卓越的技術(shù)創(chuàng)新和應(yīng)用實(shí)力,榮獲了三項(xiàng)GTI Awards 2024大獎(jiǎng)。這些獎(jiǎng)項(xiàng)不僅是對(duì)中興通訊在5G領(lǐng)域的突出貢獻(xiàn)的認(rèn)可,更是對(duì)其持續(xù)引領(lǐng)行業(yè)發(fā)展的肯定。
    的頭像 發(fā)表于 03-03 15:40 ?765次閱讀

    高通在2024 MWC展示AI領(lǐng)域突破

    在2024年巴塞羅那世界移動(dòng)通信大會(huì)(2024 MWC)上,高通技術(shù)公司展現(xiàn)了其在AI領(lǐng)域的最新成果,從全新的高通?AI Hub到前沿研究突破
    的頭像 發(fā)表于 02-27 10:57 ?855次閱讀

    谷歌推出AI擴(kuò)散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴(kuò)散模型Lumiere,這款模型基于谷歌自主研發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu),旨在實(shí)現(xiàn)視頻
    的頭像 發(fā)表于 02-04 13:49 ?867次閱讀

    NVIDIA 人工智能開講 | 什么是 AI For Science?詳解 AI 助力科學(xué)研究領(lǐng)域的新突破

    ”兩大音頻 APP上搜索“ NVIDIA 人工智能開講 ”專輯,眾多技術(shù)大咖帶你深度剖析核心技術(shù),把脈未來科技發(fā)展方向! AI For Science (亦稱 “AI In Science” ),是人工智能領(lǐng)域的一大熱門話題,
    的頭像 發(fā)表于 12-25 18:30 ?809次閱讀
    NVIDIA 人工智能開講 | 什么是 <b class='flag-5'>AI</b> For Science?詳解 <b class='flag-5'>AI</b> 助力科學(xué)<b class='flag-5'>研究</b><b class='flag-5'>領(lǐng)域</b>的新<b class='flag-5'>突破</b>

    三項(xiàng)交流電主軸電機(jī)啟動(dòng)后轉(zhuǎn)子無法轉(zhuǎn)動(dòng)卻左右劇烈擺動(dòng)是什么原因呀?

    一臺(tái)數(shù)控齒輪磨床三項(xiàng)交流電主軸砂輪主軸電機(jī)主軸帶編碼器,啟動(dòng)后轉(zhuǎn)子無法轉(zhuǎn)動(dòng)卻左右劇烈擺動(dòng)。什么原因呀?編碼器和主軸電機(jī)驅(qū)動(dòng)器均已更換,電機(jī)繞組已檢查無短路斷路三項(xiàng)繞阻平衡。請(qǐng)版主幫幫忙呀!
    發(fā)表于 12-12 06:07

    安富利榮獲Nordic三項(xiàng)大獎(jiǎng)!

    11月6日,安富利榮獲全球先進(jìn)的集成電路硬件及軟件供應(yīng)商N(yùn)ordic頒發(fā)的三項(xiàng)大獎(jiǎng)——授予安富利中國(guó)團(tuán)隊(duì)中表現(xiàn)突出的“Nordic大使”、“最佳分銷FAE”獎(jiǎng),以及授予安富利亞洲團(tuán)隊(duì)的“年度分銷商”獎(jiǎng)項(xiàng)。
    的頭像 發(fā)表于 11-28 17:07 ?463次閱讀

    不同型號(hào)的三項(xiàng)電容可以串聯(lián)嗎?

    近年來,隨著電子產(chǎn)品的普及和需求的增加,電容器的應(yīng)用越來越廣泛。在電路設(shè)計(jì)中,有時(shí)候需要將不同型號(hào)的三項(xiàng)電容串聯(lián)在一起使用。那么,不同型號(hào)的三項(xiàng)電容可以串聯(lián)嗎?
    的頭像 發(fā)表于 11-15 14:22 ?1445次閱讀
    不同型號(hào)的<b class='flag-5'>三項(xiàng)</b>電容可以串聯(lián)嗎?