1024免费看片无码区,免费久久人人爽人人av

本文提出了一種新的深度立體網(wǎng)絡(luò)訓(xùn)練框架，可以從使用單個(gè)手持相機(jī)拍攝的圖像序列中生成立體訓(xùn)練數(shù)據(jù)。這種方法利用了神經(jīng)渲染解決方案提供的立體圖像，跳過了基于ground-truth的訓(xùn)練，使用三元組來補(bǔ)償遮擋和深度圖像作為代理標(biāo)簽進(jìn)行NeRF監(jiān)督訓(xùn)練。實(shí)驗(yàn)結(jié)果表明，訓(xùn)練模型的效果比現(xiàn)有的自我監(jiān)督方法提高了30-40％，在Middlebury數(shù)據(jù)集中達(dá)到了受監(jiān)督模型的效果，而且大多數(shù)情況下在零拍攝泛化方面表現(xiàn)出色。

1 前言

本文介紹了神經(jīng)渲染用于構(gòu)建靈活可擴(kuò)展訓(xùn)練數(shù)據(jù)的新范式，該方法可以輕松地訓(xùn)練深度立體網(wǎng)絡(luò)且無需任何基礎(chǔ)知識。該方法使用標(biāo)準(zhǔn)單手持相機(jī)在野外收集稀疏的圖像序列，并在其上訓(xùn)練NeRF模型。通過NeRF模型，可以從任意視點(diǎn)合成立體對以自我監(jiān)督的方式訓(xùn)練任何立體網(wǎng)絡(luò)，其中通過渲染每個(gè)對的第三個(gè)視圖來有效地解決遮擋問題。此外，NeRF渲染的深度作為代理監(jiān)督完善了我們的NeRF監(jiān)督訓(xùn)練方法。實(shí)驗(yàn)結(jié)果表明，相對于現(xiàn)有的自我監(jiān)督方法和合成數(shù)據(jù)集方法，所提出的方法在零拍攝泛化方面表現(xiàn)更出色。

本文的主要貢獻(xiàn)可以總結(jié)為以下幾點(diǎn)：

創(chuàng)新的方法來使用神經(jīng)渲染和一系列用戶收集的圖像序列來收集和生成立體訓(xùn)練數(shù)據(jù)。

一個(gè) NeRF-Supervised 訓(xùn)練協(xié)議，結(jié)合渲染圖像三元組和深度圖來解決遮擋和增強(qiáng)細(xì)節(jié)。

在具有挑戰(zhàn)性的立體數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的零樣本泛化結(jié)果，且沒有利用任何真實(shí)立體對或基準(zhǔn)。

2 相關(guān)背景

本文這部分介紹了立體匹配、無監(jiān)督立體、零樣本泛化和神經(jīng)輻射場等方面的相關(guān)工作。在立體匹配中，介紹了近幾年深度學(xué)習(xí)成為該領(lǐng)域主導(dǎo)技術(shù)的情況。然而，這些方法嚴(yán)格要求密集的真實(shí)地面實(shí)況。在無監(jiān)督立體中，使用光度損失的策略是常見的，但根據(jù)作者的說法，這些策略只適用于單個(gè)領(lǐng)域的專業(yè)化或適應(yīng)。在零樣本泛化中，將視差估算視為制作立體算法的問題進(jìn)行改進(jìn)是一條研究思路。在神經(jīng)輻射場中，NeRF是主要的方法，其模型可以解決多種問題。作者提出的方法是通過從單個(gè)圖像生成立體對來學(xué)習(xí)，不需要在數(shù)百萬圖像上預(yù)先訓(xùn)練任何模型或有實(shí)況標(biāo)簽，但仍然能取得更好的結(jié)果。

3 方法

本文提出了NeRF-Supervised（NS）學(xué)習(xí)框架，用于訓(xùn)練立體匹配網(wǎng)絡(luò)。該框架的步驟主要包括：從多個(gè)靜態(tài)場景中收集多視角圖像，適配NeRF以渲染立體三元組和深度信息，最后使用渲染的數(shù)據(jù)訓(xùn)練立體匹配網(wǎng)絡(luò)。

3.1 Background: Neural Radiance Field (NeRF) - NeRF背景

神經(jīng)放射場（NeRF）是一種將場景中點(diǎn)的 3D 坐標(biāo)和捕捉該點(diǎn)的相機(jī)的視角作為輸入，映射到顏色-密度輸出的模型。為了渲染 2D 圖像，該模型通過將相機(jī)光線分成預(yù)定義的采樣點(diǎn)，并使用 MLP 估計(jì)每個(gè)采樣點(diǎn)的密度和顏色，最終使用體渲染合成 2D 圖像。顯式表示例如體素網(wǎng)格可以存儲其他特征，以加速模型訓(xùn)練和計(jì)算。

3.2 NeRF as a Data Factory - NeRF作為數(shù)據(jù)工廠

這部分作者介紹了如何使用NeRF作為數(shù)據(jù)工廠生成立體圖像對以訓(xùn)練深度立體網(wǎng)絡(luò)。首先，作者通過COLMAP對圖像進(jìn)行預(yù)處理，然后為每個(gè)場景擬合獨(dú)立的NeRF，并使用渲染損失進(jìn)行優(yōu)化。最后，通過虛擬立體相機(jī)參數(shù)渲染兩個(gè)新視圖和一個(gè)第二個(gè)目標(biāo)幀，創(chuàng)建完美校正的立體三元組。在這個(gè)過程中，我作者從渲染深度中提取位移，并用它來輔助訓(xùn)練深度立體網(wǎng)絡(luò)。

3.3 NeRF-Supervised Training Regime - NeRF監(jiān)督訓(xùn)練機(jī)制

作者提出了一個(gè)NeRF-Supervised訓(xùn)練方案，其中利用一個(gè)圖像三元組通過光度損失和渲染位移損失對深度立體模型進(jìn)行監(jiān)督。三元組光度損失通過使用圖像重建來對遮擋問題進(jìn)行補(bǔ)償。渲染位移損失被過濾以去除不可靠的像素。最終，兩個(gè)損失被加權(quán)平衡后，用于訓(xùn)練任何深度立體網(wǎng)絡(luò)。

4 實(shí)驗(yàn)

4.1 實(shí)施細(xì)節(jié)

作者使用移動設(shè)備捕獲的高分辨率場景進(jìn)行深度估計(jì)的方法。通過收集270個(gè)靜態(tài)場景和渲染三元組來生成訓(xùn)練數(shù)據(jù)，并使用Instant-NGP作為NeRF engine實(shí)現(xiàn)，以實(shí)現(xiàn)精確深度估計(jì)。此外，還引入了一個(gè)提議來提高現(xiàn)有立體算法的性能，并利用普通的相機(jī)進(jìn)行實(shí)現(xiàn)。其中，作者采用了準(zhǔn)確性和快速收斂的RAFT-Stereo作為主要架構(gòu)，并使用PSMNet和CFNet進(jìn)行評估，提高了這些算法的性能。

4.2 評估數(shù)據(jù)集與協(xié)議

作者使用KITTI、Middlebury和ETH3D數(shù)據(jù)集進(jìn)行評估，計(jì)算視差誤差指標(biāo)，并按照立體匹配領(lǐng)域的協(xié)議定義驗(yàn)證和測試集。評估采用固定的閾值τ，分別為KITTI固定τ = 3，Middlebury固定τ = 2，ETH3D固定τ = 1。在評估期間，考慮遮擋和非遮擋區(qū)域并具有有效的基準(zhǔn)視差。

歡迎關(guān)注微信公眾號「3D視覺工坊」，加群/文章投稿/課程主講，請加微信：QYong2014，添加時(shí)請備注：加群/投稿/主講申請

4.3 消融研究

作者使用渲染視頻生成大規(guī)模立體訓(xùn)練數(shù)據(jù)集的方法，涉及渲染參數(shù)選擇，標(biāo)簽生成和代理損失的選擇方法等。在進(jìn)行降板研究時(shí)，作者發(fā)現(xiàn)在他們的數(shù)據(jù)集上使用L3ρ損失是最佳的，這利用了他們的渲染三重組合產(chǎn)生的三角形幾何形狀的自監(jiān)督。本文還介紹了使用虛擬基線對視差分布的影響，評估了渲染圖像的分辨率以及收集的場景數(shù)量在訓(xùn)練過程中的影響。作者發(fā)現(xiàn)，更多的圖像及更小的虛擬基線可以提高模型的性能。在最具挑戰(zhàn)性的數(shù)據(jù)集上使用更多場景可以顯著提高模型的準(zhǔn)確性。

4.4 與MFS對比

作者比較了本文的方法和最新的從單一圖像生成立體圖對方法MfS，并通過訓(xùn)練三種立體網(wǎng)絡(luò)得出。研究表明，在使用MfS生成方法和使用MfS數(shù)據(jù)集上訓(xùn)練時(shí)，MfS表現(xiàn)較好（A，D和G）。然而，本文的方法在不需要使用大量訓(xùn)練數(shù)據(jù)的情況下，通過NS范式提供的監(jiān)督訓(xùn)練的立體網(wǎng)絡(luò)在大多數(shù)情況下表現(xiàn)更好，證明了我們的NS范式實(shí)現(xiàn)了更好的性能和更高的預(yù)測質(zhì)量。

4.5 零樣本泛化基準(zhǔn)測試

作者針對立體視覺領(lǐng)域的零樣本泛化問題，在NS-PSMNet模型的基礎(chǔ)上進(jìn)行了實(shí)驗(yàn)評估并與其它先進(jìn)方法進(jìn)行了比較。針對不同論文中關(guān)于Middlebury數(shù)據(jù)集評估協(xié)議的不一致性問題，本文重新評估了相關(guān)方法并建立了一個(gè)公共評估協(xié)議。通過對比實(shí)驗(yàn)結(jié)果，本文發(fā)現(xiàn)組合使用泛化能力較強(qiáng)的RAFT-Stereo和NS的方法可以在Middlebury數(shù)據(jù)集上獲得最佳結(jié)果。同時(shí)，在使用全部數(shù)據(jù)集作為評估標(biāo)準(zhǔn)時(shí)，NS-PSMNet模型的表現(xiàn)優(yōu)于除了PSMNet的其他先進(jìn)方法。

5 總結(jié)

NeRF-Supervised Deep Stereo提出了一種新的學(xué)習(xí)框架，可以輕松地訓(xùn)練立體匹配網(wǎng)絡(luò)，而不需要任何ground-truth數(shù)據(jù)，該論文還提出了一種NeRF-Supervised訓(xùn)練協(xié)議，該協(xié)議結(jié)合了渲染圖像三元組和深度圖，以解決遮擋問題并增強(qiáng)細(xì)節(jié)，實(shí)驗(yàn)結(jié)果表明，該模型在挑戰(zhàn)性的立體數(shù)據(jù)集上取得了最先進(jìn)的零樣本泛化結(jié)果。

本文提出了一種利用NeRF訓(xùn)練深度立體網(wǎng)絡(luò)的創(chuàng)新流程，通過單個(gè)低成本手持相機(jī)捕捉圖像進(jìn)行訓(xùn)練，產(chǎn)生了最先進(jìn)的零樣本泛化，超越了自我監(jiān)督和監(jiān)督方法。雖然局限于小規(guī)模、靜態(tài)的場景，而且仍無法處理具有挑戰(zhàn)性的條件，但是作者的工作是數(shù)據(jù)民主化的顯著進(jìn)步，將成功的關(guān)鍵置于用戶手中。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴