0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

低速自動化感知系統(tǒng)的重建、識別、重組和重新定位的研究

3D視覺工坊 ? 來源:自動駕駛之心 ? 作者:汽車人 ? 2022-11-21 10:07 ? 次閱讀

Camera是自動駕駛系統(tǒng)中的主要傳感器,它們提供高信息密度,最適合檢測為人類視覺而設(shè)置的道路基礎(chǔ)設(shè)施。全景相機系統(tǒng)通常包括四個魚眼攝像頭,190°+視野覆蓋車輛周圍的整個360°,聚焦于近場感知。它們是低速、高精度和近距離傳感應(yīng)用的主要傳感器,如自動泊車、交通堵塞輔助和低速緊急制動。在這項工作中,論文對此類視覺系統(tǒng)進(jìn)行了詳細(xì)的調(diào)查,并在可分解為四個模塊組件(即識別、重建、重新定位和重組)的架構(gòu)背景下進(jìn)行了調(diào)查,共同稱之為4R架構(gòu)。論文討論了每個組件如何完成一個特定方面,并提供了一個位置論證(即它們可以協(xié)同作用),形成一個完整的低速自動化感知系統(tǒng)。

本文的工作部分受到了Malik等人在[5]中的工作的啟發(fā)。這項工作的作者提出,計算機視覺的核心問題是重建、識別和重組,他們稱之為計算機視覺的3R。在此,論文建議將計算機視覺的3R擴展并專門化為自動駕駛計算機視覺的4R:重建、識別、重組和重新定位。

重建意味著從視頻序列推斷場景幾何體,包括車輛在場景中的位置。這一點的重要性應(yīng)該是顯而易見的,因為它對于場景繪制、障礙物避免、機動和車輛控制等問題至關(guān)重要。Malik等人將此擴展到幾何推斷之外,以包括反射和照明等特性。然而,這些附加屬性(至少目前)在自動駕駛計算機視覺環(huán)境中并不重要,因此論文將重建定義為更傳統(tǒng)意義上的三維幾何恢復(fù)。

識別是一個術(shù)語,用于將語義標(biāo)簽附加到視頻圖像或場景的各個方面,識別中包括層次結(jié)構(gòu)。例如,自行車手有一個空間層次結(jié)構(gòu),因為它可以分為自行車和騎手的子集,而車輛類別可以有汽車、卡車、自行車等分類子類別。只要對自動駕駛系統(tǒng)有用,這種情況就可以繼續(xù)下去。燈可以按類型(車燈、路燈、剎車燈等)、顏色(紅、黃、綠)以及它們對自動駕駛車輛的重要性(需要響應(yīng),可以忽略)進(jìn)行分類,從而完成系統(tǒng)的高級推理。

重新定位是指車輛相對于其周圍環(huán)境的位置識別和度量定位。可以針對宿主車輛中預(yù)先記錄的軌跡進(jìn)行,例如,經(jīng)過訓(xùn)練的停車場,也可以針對從基礎(chǔ)設(shè)施傳輸?shù)牡貓D進(jìn)行,例如HD Maps。它與SLAM中的環(huán)路閉合高度相關(guān),盡管不只是考慮環(huán)路閉合問題,而是考慮根據(jù)一個或多個預(yù)定義地圖定位車輛的更廣泛問題。

重組是將計算機視覺前三個組成部分的信息組合成統(tǒng)一表示的方法。在本文中,使用這個術(shù)語來等同于“后期融合”,這是自動駕駛的重要步驟,因為車輛控制需要傳感器輸出的統(tǒng)一表示,這也允許在后期融合多個攝像頭的輸出。

f5c0d296-6928-11ed-8abf-dac502259ad0.png

近域感知系統(tǒng)介紹

自動停車系統(tǒng)

自動停車系統(tǒng)是短距離傳感的主要用例之一,圖4描述了一些典型的停車用例。早期商業(yè)半自動泊車系統(tǒng)采用超聲波傳感器或radar,然而,最近,全景攝像頭正成為自動停車的主要傳感器之一。超聲波和毫米波雷達(dá)傳感器用于自動停車的一個主要限制是,只能根據(jù)存在的其他障礙物來識別停車位(圖5)。此外,環(huán)視相機系統(tǒng)允許在存在可視停車標(biāo)記(如涂漆線標(biāo)記)的情況下停車,同時也被視為實現(xiàn)代客泊車系統(tǒng)的關(guān)鍵技術(shù)。

f5da492e-6928-11ed-8abf-dac502259ad0.png

交通擁堵輔助系統(tǒng)

由于大部分事故都是低速追尾碰撞,交通擁堵情況被認(rèn)為是短期內(nèi)可以帶來好處的駕駛領(lǐng)域之一,盡管目前的系統(tǒng)可能缺乏魯棒性。在自動交通擁堵輔助系統(tǒng)中,車輛在交通擁堵情況下控制縱向和橫向位置(圖6)。此功能通常用于低速環(huán)境,最高速度為~60kph,但建議更低的最高速度為40kph。雖然交通擁堵援助通??紤]高速公路場景,但已經(jīng)對城市交通擁堵救援系統(tǒng)進(jìn)行了調(diào)查。鑒于此應(yīng)用的低速特性,全景攝像頭是理想的傳感器,尤其是在城市環(huán)境中,例如,行人可以嘗試從傳統(tǒng)前向攝像頭或radar系統(tǒng)視野之外的區(qū)域穿過。圖7顯示了使用全景相機進(jìn)行交通堵塞輔助的示例。除了檢測其他道路使用者和標(biāo)記外,深度估計和SLAM等特征對于推斷到物體的距離和控制車輛位置也很重要。

f5eb8ac2-6928-11ed-8abf-dac502259ad0.png

低速制動

一項研究表明,自動后向制動顯著降低了碰撞索賠率,配備后攝像頭、駐車輔助和自動制動的車輛報告碰撞減少了78%。全景相機系統(tǒng)對于低速制動非常有用,因為深度估計和目標(biāo)檢測的組合是實現(xiàn)此功能的基礎(chǔ)。

魚眼相機

魚眼相機為自動駕駛應(yīng)用提供了明顯的優(yōu)勢,由于視野極廣,可以用最少的傳感器觀察車輛的整個周圍。通常,360°范圍只需要四個攝像頭覆蓋。然而,考慮到更為復(fù)雜的投影幾何體,這一優(yōu)勢帶來了成本。過去的幾篇論文綜述了如何建模魚眼幾何形狀,例如[34]。論文不打算在此重復(fù)這一點,而是關(guān)注魚眼相機技術(shù)的使用給自動駕駛視覺帶來的問題。

在標(biāo)準(zhǔn)視場相機中,直線投影和透視的原理非常接近,具有常見的透視特性,即現(xiàn)實世界中的直線在圖像平面上投影為直線。平行的直線組被投影為一組直線,這些直線在圖像平面上的一個消失點上會聚。通過光學(xué)畸變的偏離很容易糾正。許多汽車數(shù)據(jù)集提供的圖像數(shù)據(jù)消除了光學(xué)畸變,具有簡單的校正方法,或幾乎不可察覺的光學(xué)畸變。因此,大多數(shù)汽車視覺研究都隱含了直線投影的假設(shè),魚眼透視圖與直線透視圖有很大不同。相機場景中的一條直線被投影為魚眼圖像平面上的一條曲線,平行線集被投影為一組在兩個消失點處會聚的曲線[38]。然而,失真并不是唯一的影響,圖8顯示了環(huán)視系統(tǒng)中安裝在鏡子上的典型攝像頭的圖像。在魚眼相機中,物體圖像中的方向取決于它們在圖像中的位置。在本例中,左側(cè)的車輛旋轉(zhuǎn)了近90? 與右側(cè)車輛相比,這對目標(biāo)檢測卷積方法中假定的平移不變性有影響。在標(biāo)準(zhǔn)相機中,平移不變性是可以接受的假設(shè)。然而,如圖8所示,魚眼圖像并非如此,在任何計算機視覺算法設(shè)計中,必須仔細(xì)考慮如何處理這一點。

f62451c2-6928-11ed-8abf-dac502259ad0.png

解決這些問題的自然方法是以某種方式糾正圖像。可以立即放棄對單個平面圖像的校正,因為首先,過多的視野必然會丟失,從而抵消魚眼圖像的優(yōu)勢,其次,插值和透視偽影將很快占據(jù)校正輸出的主導(dǎo)地位。一種常見的方法是使用多平面校正,即魚眼圖像的不同部分被扭曲成不同的平面圖像。例如可以定義一個立方體,并將圖像扭曲到立方體的曲面上。圖9顯示了兩個此類表面上的翹曲。即使在這里,插值和透視效果也是可見的,必須處理曲面過渡的復(fù)雜性。

f64980dc-6928-11ed-8abf-dac502259ad0.png

另一種校正方法是考慮圓柱表面的warping ,如圖10所示,在這種warping 中,圓柱軸線的配置使其垂直于地面。觀察結(jié)果表明,汽車場景中的大多數(shù)感興趣對象都位于近似水平的平面上,即路面上。因此希望保留水平視野,同時允許犧牲一些垂直視野,這帶來了有趣的幾何組合。

f657339e-6928-11ed-8abf-dac502259ad0.png

垂直是通過線性透視投影,因此場景中的垂直線在圖像中投影為垂直線。圖像中較遠(yuǎn)或較小的對象在視覺上類似于透視相機,甚至有人建議,通過這種變形,可以使用標(biāo)準(zhǔn)透視相機訓(xùn)練網(wǎng)絡(luò),并在魚眼圖像上直接使用它們,而無需訓(xùn)練[39]。然而,在水平方向上,新圖像中存在失真,大型近景物體表現(xiàn)出強烈的失真,有時甚至比原始魚眼圖像中的失真還要大。

如圖11所示,當(dāng)我們處理透視相機時,當(dāng)物體與相機以恒定的Z距離移動時,就會產(chǎn)生平移,也就是說,在與圖像平面平行的平面上。然而,在圓柱形圖像中,水平面上的距離必須保持不變,才能進(jìn)行圖像平移(對象必須繞圓柱體軸旋轉(zhuǎn))。相比之下,在原始魚眼圖像中,不清楚什么對象運動會導(dǎo)致圖像平移。

f66230c8-6928-11ed-8abf-dac502259ad0.png

WoodScape dataset

WoodScape全景數(shù)據(jù)集在兩個不同的地理位置采集的:美國和歐洲。雖然大多數(shù)數(shù)據(jù)是從轎車中獲得的,但運動型多用途車中有很大一部分?jǐn)?shù)據(jù)可確保傳感器機械配置的強大組合,駕駛場景分為高速公路、城市駕駛和停車用例。數(shù)據(jù)集中為所有傳感器以及時間戳文件提供內(nèi)部和外部校準(zhǔn),以實現(xiàn)數(shù)據(jù)同步,包括相關(guān)車輛的機械數(shù)據(jù)(例如,車輪周長、軸距)。為該數(shù)據(jù)集記錄的傳感器如下所示:

1)4x 1MPx RGB魚眼攝像頭(190? 水平視野)

2)1x激光雷達(dá),20Hz旋轉(zhuǎn)(Velodyne HDL-64E)

3)1x全球?qū)Ш叫l(wèi)星系統(tǒng)/慣性測量裝置(NovAtel Propak6和SPAN-IGM-A1)

4)1x帶SPS的GNSS定位(Garmin 18x)

5)來自車輛總線的里程表信號

f670ddee-6928-11ed-8abf-dac502259ad0.png

系統(tǒng)架構(gòu)注意事項

在自動駕駛計算機視覺設(shè)計中,尤其是pipelines設(shè)計中,一個重要的考慮因素是嵌入式系統(tǒng)的約束,其中多個攝像頭和多個計算機視覺算法必須并行運行。由于計算機視覺算法是計算密集型的,汽車SoC有許多專用硬件加速器用于圖像信號處理、鏡頭畸變校正、密集光流、立體視差等。在計算機視覺中,深度學(xué)習(xí)在各種識別任務(wù)中發(fā)揮著主導(dǎo)作用,并逐漸用于幾何任務(wù),如深度和運動估計。

f68e5ab8-6928-11ed-8abf-dac502259ad0.png

為了最大限度地提高處理硬件的性能,最好從處理階段的角度考慮嵌入式視覺,并在每個處理階段考慮共享處理,pipelines如圖12所示。

1) 預(yù)處理:pipelines的預(yù)處理階段可以看作是為計算機視覺準(zhǔn)備數(shù)據(jù)的處理。這包括圖像信號處理(ISP)步驟,如白平衡、去噪、顏色校正和顏色空間轉(zhuǎn)換。關(guān)于ISP和ISP在汽車環(huán)境中用于計算機視覺任務(wù)的調(diào)整的詳細(xì)討論,請參考[52]。ISP通常由硬件引擎完成,例如作為主要SoC的一部分。很少在軟件中完成,因為需要完成大量像素級處理。正在提出一些方法來自動將ISP管道的超參數(shù)調(diào)整為優(yōu)化計算機視覺算法的性能[52]、[53]。值得注意的是,目前正在提出簡化ISP視覺感知pipelines的方法,可以參考[54]。

2) 像素處理階段:像素處理可以被視為計算機視覺體系結(jié)構(gòu)中直接接觸圖像的部分。在經(jīng)典的計算機視覺中,這些算法包括邊緣檢測、特征檢測、描述符、形態(tài)運算、圖像配準(zhǔn)、立體視差等。在神經(jīng)網(wǎng)絡(luò)中,這等同于CNN編碼器的早期層。這一階段的處理主要由相對簡單的算法控制,這些算法必須每秒多次在數(shù)百萬像素上運行。也就是說,計算成本與這些算法每秒可能運行數(shù)百萬次的事實有關(guān),而不是與算法本身的復(fù)雜性有關(guān)。這一階段的處理硬件通常由硬件加速器和GPU主導(dǎo),盡管有些元素可能適合DSP

3) 中間處理階段:顧名思義,中間處理階段是從像素到對象檢測階段之間的橋梁。在這里,要處理的數(shù)據(jù)量仍然很高,但大大低于像素處理階段。這可能包括通過視覺里程表估計車輛運動、視差圖的立體三角測量和場景的一般特征重建等步驟,在pipelines的這個階段包括CNN解碼器。這個階段的處理硬件通常是數(shù)字信號處理器。

4) 目標(biāo)處理階段:對象處理階段是整合更高層次推理的階段,在這里可以聚類點云來創(chuàng)建目標(biāo),對對象進(jìn)行分類,并且通過上述推理,可以應(yīng)用算法來抑制移動目標(biāo)的重縮放。此階段的處理主要由更復(fù)雜的算法控制,但操作的數(shù)據(jù)點較少。就硬件而言,通常適合在ARM等通用處理單元上運行這些處理器,盡管通常也會使用數(shù)字信號處理器。

5) 后處理:最后后處理階段,也可以稱為全局處理階段。在時間和空間上持久化數(shù)據(jù)。由于可以擁有長時間持久性和大空間地圖,因此前幾個階段的總體目標(biāo)是最小化到達(dá)此階段的數(shù)據(jù)量,同時維護最終用于車輛控制的所有相關(guān)信息。在此階段,將包括 bundle adjustment、地圖構(gòu)建、高級目標(biāo)跟蹤和預(yù)測以及各種計算機視覺輸入的融合等步驟。由于處理的是系統(tǒng)中最高級別的推理,并且理想情況下處理的是最少的數(shù)據(jù)點,因此這里通常需要通用處理單元。

4R部件介紹

識別

識別任務(wù)通過模式識別識別場景的語義。在汽車領(lǐng)域,第一個成功的應(yīng)用是行人檢測,它結(jié)合了手工設(shè)計的特征,如定向梯度直方圖和機器學(xué)習(xí)分類器,如支持向量機。最近CNN在目標(biāo)識別應(yīng)用程序中的各種計算機視覺任務(wù)中表現(xiàn)出顯著的性能飛躍,然而,這是有代價的。首先,汽車場景非常多樣化,預(yù)計該系統(tǒng)將在不同國家以及不同的天氣和照明條件下工作,因此,主要挑戰(zhàn)之一是建立一個涵蓋不同方面的有效數(shù)據(jù)集。其次,CNN是計算密集型的,通常需要專用硬件加速器或GPU(與在通用計算核心上可行的經(jīng)典機器學(xué)習(xí)方法相比)。因此,有效的設(shè)計技術(shù)對于任何設(shè)計都至關(guān)重要,最后,雖然對正常圖像的CNN進(jìn)行了很好的研究,但如前所述,魚眼圖像的平移不變性假設(shè)被打破,這帶來了額外的挑戰(zhàn)。

本文的識別pipelines中,提出了一種基于外觀模式識別對象的多任務(wù)深度學(xué)習(xí)網(wǎng)絡(luò)。它包括三個任務(wù),即目標(biāo)檢測(行人、車輛和騎車人)、語義分割(道路、路緣和道路標(biāo)記)和透鏡污染檢測(不透明、半透明、透明、透明)。目標(biāo)檢測和語義分割是標(biāo)準(zhǔn)任務(wù),有關(guān)更多實現(xiàn)細(xì)節(jié),請參閱FisheyeMultiNet論文。其中一個挑戰(zhàn)是在訓(xùn)練階段平衡三個任務(wù)的權(quán)重,因為一個任務(wù)可能比其他任務(wù)收斂得更快。

魚眼攝像頭安裝在車輛上相對較低的位置(~地面以上0.5至1.2米),容易因其它車輛的道路噴霧或道路水而導(dǎo)致透鏡臟污。因此,檢測攝像頭上的污物至關(guān)重要 鏡頭提醒駕駛員清潔攝像頭或觸發(fā)清潔系統(tǒng)。SoilingNet中詳細(xì)討論了污垢檢測任務(wù)及其在清潔和算法降級中的使用,與此密切相關(guān)的一項任務(wù)是通過修補修復(fù)受污染區(qū)域的去污,但這些去污技術(shù)目前仍屬于可視化改進(jìn)領(lǐng)域,而不是用于感知。這是一個定義不清的問題,因為不可能預(yù)測遮擋的背后(盡管這可以通過利用時間信息來改善)。由于低功耗汽車ECU的CNN處理能力有限,本文使用多任務(wù)架構(gòu),其中大部分計算在編碼器中共享,如圖13所示。

f699f1b6-6928-11ed-8abf-dac502259ad0.png

重建

如前所述,重建意味著從視頻序列推斷場景幾何體。例如,這通常意味著估算場景的點云或體素化表示。靜態(tài)對象的重建,傳統(tǒng)上是使用諸如運動立體[56]或多視圖幾何中的三角剖分[73]等方法來完成的。在設(shè)計深度估計算法的背景下,[74]中簡要概述了人類如何推斷深度,并提供了有用的進(jìn)一步參考。推斷深度有四種基本方法:單目視覺線索、運動視差、立體視覺和focus深度。每種方法在計算機視覺方面都有其等效性,根據(jù)Marr&Poggio早期的理論工作[75],Grimson在20世紀(jì)80年代早期提供了立體視覺的計算實現(xiàn)[76],自那時以來立體視覺方面的工作一直在繼續(xù)。然而,立體視覺系統(tǒng)并沒有普遍在車輛上實現(xiàn)部署,因此,單目運動視差方法在汽車研究中仍然很流行。從計算上看,運動視差的深度傳統(tǒng)上是通過特征三角剖分完成的[78],但運動立體也被證明很流行[79]。

考慮魚眼圖像會增加重建任務(wù)的復(fù)雜性,多視圖幾何、立體視覺和深度估計中的大多數(shù)工作通常假設(shè)場景的平面透視圖像。傳統(tǒng)的立體方法進(jìn)一步限制了圖像中的極線必須是水平的,然而,真實相機很少出現(xiàn)這種情況,因為存在鏡頭畸變,從而破壞了平面投影模型。它通常通過圖像的校準(zhǔn)和校正來解決。然而,對于鏡頭畸變非常嚴(yán)重的魚眼圖像,在校正過程中保持寬視場是不可行的。領(lǐng)域已經(jīng)提出了幾種魚眼立體深度估計方法,常見的方法是多平面校正,其中魚眼圖像映射到多個透視平面[82]。然而,如前所述,任何平面校正(即使有多個平面)都會遭受嚴(yán)重的重采樣失真。要最小化此重采樣提出了對非平面圖像進(jìn)行畸變、校正的方法,有些方法會扭曲不同的圖像幾何形狀,以保持極線筆直和水平的立體要求[83]。還有一些方法繞過了極線水平的要求,例如,最近將平面掃描法[84]、[85]應(yīng)用于魚眼[86]。魚眼圖像重采樣的一個相關(guān)問題是,噪聲函數(shù)被重采樣過程扭曲,這對于任何試圖最小化重投影誤差的方法來說都是一個問題。Kukelova等人[73]使用標(biāo)準(zhǔn)視場相機的迭代技術(shù)解決了這一問題,該技術(shù)在避免失真的同時最小化了重投影誤差。然而,這種方法取決于特定的相機型號,因此不直接適用于魚眼相機。

重建的第二個方面是從視頻序列中提取運動對象(運動分割)。由于三角剖分假設(shè)被打破,動態(tài)對象的三維重建會導(dǎo)致全局意義上的位置不精確。重建運動物體幾何結(jié)構(gòu)的典型嘗試需要圖像運動分割、相對基本矩陣估計和重建(具有比例/投影模糊性)。例如,使用Multi-X[88],前兩步基本上可以結(jié)合起來,因為分割可以基于基本矩陣估計進(jìn)行。然而,對于嵌入式自動駕駛應(yīng)用來說,這種方法要么計算成本太高,要么不夠健壯。此外,這種重建必須解決比例問題,可變形物體(如行人)可以針對身體的不同部位使用不同的基本矩陣。因此,動態(tài)目標(biāo)檢測的任務(wù)通常只是簡單的運動分割。

Klappstein等人[89]描述了汽車背景下運動分割的幾何方法,Mariotti和Hughes[90]將這項工作擴展到了環(huán)視攝像頭外殼。然而,在這兩種情況下,幾何圖形都無法完全區(qū)分所有類型的移動特征。也就是說,有一類對象運動使關(guān)聯(lián)特征與靜態(tài)特征無法區(qū)分,因此,必須采取全局或半全局辦法。在傳統(tǒng)方法中,這是通過將具有與被歸類為運動中的光流矢量相似特性的光流向量分組來實現(xiàn)的。

通常,運動分割的關(guān)鍵輸入是攝像機運動的知識。也就是說,必須知道相機的基本矩陣(或未校準(zhǔn)情況下的基本矩陣)。[89]和[90]中假設(shè)了這一點,可以通過兩種方式實現(xiàn)。首先,可以直接使用車輛網(wǎng)絡(luò)上的信號,例如轉(zhuǎn)向角和車輪速度,來估計車輛的運動,從而估計攝像機的運動?;蛘?,可以使用視覺方法直接從圖像序列估計運動。除了明確估計相機的運動外,另一種方法是在圖像中建模背景運動。有人建議使用背景運動的仿射模型,然而,這假設(shè)背景是遙遠(yuǎn)或近似的平面,徑向變形不存在或可忽略不計。圖14顯示了不同重建階段的示例,包括密集運動立體、3D點云和靜態(tài)障礙物集群,以及基于密集光流的運動分割。雖然魚眼圖像的使用肯定會影響設(shè)計決策,從理論角度來看,這是一個尚未完全解決的問題。

f6a7da2e-6928-11ed-8abf-dac502259ad0.png

重定位

視覺同步定位與映射(VSLAM)是機器人技術(shù)和自動駕駛領(lǐng)域的一個研究熱點。主要有三種方法,即(1)基于特征的方法,(2)直接SLAM方法和(3)CNN方法?;谔卣鞯姆椒ɡ妹枋鲂詧D像特征進(jìn)行跟蹤和深度估計,從而生成稀疏的地圖。MonoSLAM、Parallel Tracking and Mapping(PTAM)和ORBSLAM是這類算法中的開創(chuàng)性算法。直接SLAM方法適用于整個圖像,而不是稀疏特征,以幫助構(gòu)建密集的地圖。密集跟蹤和映射(DTAM)和大規(guī)模半密集SLAM(LSD-SLAM)是基于光度誤差最小化的常用直接方法。對于Visual SLAM問題,基于CNN的方法相對不太成熟,在[101]中對此進(jìn)行了詳細(xì)討論。

mapping是自動駕駛的關(guān)鍵支柱之一,許多首次成功的自動駕駛演示(如谷歌)主要依賴于對預(yù)先繪制區(qū)域的定位。TomTom RoadDNA等高清地圖為大多數(shù)歐洲城市提供了高度密集的語義3D點云地圖和定位服務(wù),典型的定位精度為10 cm。當(dāng)有準(zhǔn)確的定位時,高清地圖可以被視為主要線索,因為已經(jīng)有了強大的先驗語義分割,并且可以通過在線分割算法進(jìn)行細(xì)化。然而,這項服務(wù)很昂貴,因為它需要世界各地的定期維護和升級。

在自動駕駛視覺環(huán)境中,視覺SLAM(VSLAM)包括繪制車輛周圍環(huán)境的地圖,同時在地圖中估計車輛的當(dāng)前姿態(tài)。VSLAM的關(guān)鍵任務(wù)之一是根據(jù)之前記錄的車輛定位軌跡。圖15顯示了一個經(jīng)典的基于特征的重定位pipelines。在基于特征的SLAM中,第一步是提取顯著特征。圖像中的一個顯著特征可能是像素區(qū)域,其中強度以特定方式變化,例如邊緣、角落或斑點。要估計世界上的地標(biāo),需要執(zhí)行跟蹤,其中可以匹配相同特征的兩個或多個視圖。一旦車輛移動足夠遠(yuǎn),VSLAM會拍攝另一張圖像并提取特征。重建相應(yīng)的特征,以獲得它們在真實世界中的坐標(biāo)和姿態(tài)。然后,這些檢測到的、描述的和定位的地標(biāo)被存儲在永久存儲器中,以描述車輛軌跡的相對位置。如果車輛返回相同的一般位置,實時特征檢測將與存儲的地標(biāo)匹配,以恢復(fù)車輛相對于存儲軌跡的姿態(tài)。

f6bd936e-6928-11ed-8abf-dac502259ad0.png

重組

重組執(zhí)行三個功能:1)融合識別和重建,2)通過相機在世界坐標(biāo)系統(tǒng)中繪制目標(biāo)地圖,3)時空物體跟蹤。雖然識別和重組模塊可以直接輸入到環(huán)境圖中,但我們認(rèn)為在視覺層實現(xiàn)某些融合有明顯的優(yōu)勢。先用一個例子來考慮這一點,如圖16所示,假設(shè)有一個具有單目深度估計、運動分割和車輛檢測的系統(tǒng)。融合這些信息的經(jīng)典方法是將所有數(shù)據(jù)轉(zhuǎn)換為世界坐標(biāo)系,然后關(guān)聯(lián)和融合數(shù)據(jù),這種方法具有優(yōu)勢。一些汽車傳感器,如激光雷達(dá),提供本地歐幾里德數(shù)據(jù),基于這種歐幾里得地圖的融合系統(tǒng)使得包含這些附加傳感器變得容易。然而,在轉(zhuǎn)換為歐氏圖時,基于相機的檢測精度將始終受到影響。眾所周知,從圖像域到世界域的投影容易出錯,因為它們會受到校準(zhǔn)不良、平地假設(shè)、檢測變化、像素密度和不完美相機模型的影響。如果目標(biāo)在感興趣的點上沒有實際接觸地面,那么對于投影到世界坐標(biāo)系的平地假設(shè)將存在重大錯誤。

f6cff5ae-6928-11ed-8abf-dac502259ad0.png

然而,在向世界投影之前,圖像域中的檢測不受此類錯誤的影響,因此,圖像域不同視覺算法的檢測關(guān)聯(lián)更為穩(wěn)健,事實上,簡單的檢測重疊措施通常證明是穩(wěn)健的。圖18顯示了基于CNN的車輛檢測和基于光流的運動分割的基于圖像的融合的實現(xiàn),盡管運動分割存在顯著誤差,但融合成功地將檢測到的目標(biāo)分為車輛和動態(tài)兩類。除此之外,還必須考慮失真校正如何影響測量噪聲,許多常用的融合和跟蹤算法,如卡爾曼濾波或粒子濾波,都是從平均零假設(shè)開始的(高斯噪聲)。對于計算機視覺中的感興趣點測量(例如,圖像特征或邊界框足跡估計),通常認(rèn)為這是一個有效的假設(shè)。然而,魚眼畸變和地平面投影過程扭曲了該噪聲模型(圖19)。此外,由于測量噪聲的失真取決于圖像中感興趣點的位置以及相機相對于路面的位置,因此解決這一問題變得更加復(fù)雜。

f6e89dfc-6928-11ed-8abf-dac502259ad0.png

系統(tǒng)同步協(xié)同

本節(jié)將討論系統(tǒng)協(xié)同效應(yīng),主要研究重定位、重建和識別任務(wù)如何相互支持,并描述雙檢測源在安全關(guān)鍵應(yīng)用中提供冗余的重要性。

識別和重建

如前所述,深度估計在幾何感知應(yīng)用中非常重要。除了前面已經(jīng)討論過的內(nèi)容外,目前最先進(jìn)的是基于神經(jīng)網(wǎng)絡(luò)的方法[115]、[116],可以通過重投影損失以自我監(jiān)督的方式學(xué)習(xí)[117]。研究表明,單目深度估計的最新單幀嘗試通常會引發(fā)識別任務(wù),然后使用圖像中的垂直位置等線索推斷深度,運動目標(biāo)檢測似乎也嚴(yán)重依賴于識別。事實證明,[48]和[58]都對通常移動的靜態(tài)物體(例如行人,見圖20)顯示出誤報,但這并沒有降低這種嘗試的重要性。相反,它指出了識別和重建之間的一種非常深刻的聯(lián)系,從一種聯(lián)系中,可以推斷出另一種。

f7092374-6928-11ed-8abf-dac502259ad0.png

當(dāng)行人檢測處于最先進(jìn)水平時,在語義和實例分割之前,大多數(shù)汽車行人檢測研究人員都會考慮根據(jù)邊界框的高度或行人在圖像中的垂直位置編碼深度。[81]對此進(jìn)行了詳細(xì)討論。然而,基于深度神經(jīng)網(wǎng)絡(luò)的識別可以產(chǎn)生物體深度,這是有點直觀的,特別是當(dāng)神經(jīng)網(wǎng)絡(luò)的精度提高時。最近的工作證明了聯(lián)合學(xué)習(xí)語義標(biāo)簽和深度的有效性[119]。例如,在[120]中顯示,對于單目深度估計,在每個距離解碼器層中添加語義指導(dǎo)(如圖21所示)可以提高對象邊緣的性能,甚至可以為動態(tài)目標(biāo)返回合理的距離估計。

f715c142-6928-11ed-8abf-dac502259ad0.png

f73b0bbe-6928-11ed-8abf-dac502259ad0.png

重定位和識別

重定位是車輛識別先前學(xué)習(xí)的位置或路徑的過程,如前所述。然而,在現(xiàn)實的自動駕駛視覺中,很多事情都會干擾這一點。例如,場景可能會因可移動對象而改變,例如,停放的車輛可能會在場景學(xué)習(xí)時間和請求重定位時間之間移動。在這種情況下,語義分割方法可用于識別可能移動的對象(車輛、自行車、行人),并刪除與此類對象相關(guān)的映射特征。如[101]中詳細(xì)描述的,利用深度學(xué)習(xí)技術(shù)支持傳統(tǒng)的Visual SLAM pipelines還有更多的機會(圖22)。

f7478e48-6928-11ed-8abf-dac502259ad0.png

Visual SLAM中的地點識別有幾個應(yīng)用程序。首先,它允許循環(huán)閉合以糾正累積漂移,其次,它允許從同一場景的多個過程中創(chuàng)建和維護地圖。使用單詞袋的經(jīng)典方法(如[128])被證明是相當(dāng)成功的,盡管可能缺乏穩(wěn)健性?;贑NN的方法被證明更為穩(wěn)健,外觀不變的方法顯示出有希望的初步結(jié)果[129]。當(dāng)重要的時間過去時,對地點的識別是一個重要的話題。表III顯示了Visual SLAM pipelines的一小組結(jié)果,并表明隨著訓(xùn)練和重定位之間的六個月時間差的增加,錯誤顯著增加。最后,可以考慮視圖不變的定位。當(dāng)重定位的camera視點與訓(xùn)練時的camera視角顯著不同時,這一點很重要,例如,由于以大角度接近訓(xùn)練軌跡而導(dǎo)致車輛旋轉(zhuǎn),基于特征描述符的傳統(tǒng)Visual SLAM方法失敗了。研究表明,將語義標(biāo)簽附加到場景地標(biāo)(通過bounding box分類)可以顯著提高視點不變性的性能。

f75256ca-6928-11ed-8abf-dac502259ad0.png

重定位和重建

重定位和視覺SLAM通常可以被視為場景重建(即構(gòu)建地圖)的存儲,以及通過bundle adjustment調(diào)整對所述地圖的迭代細(xì)化(見圖15)。這樣,重建和視覺里程表就成為傳統(tǒng)Visual SLAM方法的種子。有一些直接的方法可以繞過這種seed方法,例如LSD-SLAM(及其全向相機擴展[100]),其中光度誤差相對于重投影誤差被最小化。然而,如果考慮bundle adjustment調(diào)整地圖的時間切片,也可以看出,Visual SLAM可用于優(yōu)化重建(場景結(jié)構(gòu)和視覺里程計)。此外,移動目標(biāo)會導(dǎo)致任何Visual SLAM管道的性能顯著下降。因此,動態(tài)對象檢測(例如[90]、[48]、[58])可以用作Visual SLAM pipelines的輸入,以抑制所述移動目標(biāo)引起的異常值。

討論下冗余

還有另一個首要的協(xié)同考慮:冗余。在自動化車輛中,冗余對應(yīng)用程序的安全性起著重要作用。當(dāng)系統(tǒng)部件發(fā)生故障時,必須提供另一個部件,以確保車輛保持安全狀態(tài)。例如,F(xiàn)useModNet展示了提供密集信息的相機與在弱光下表現(xiàn)良好的激光雷達(dá)的協(xié)同融合。在傳感方面,這通常是通過使用多種傳感器類型來實現(xiàn)的,例如計算機視覺系統(tǒng)、radar和激光雷達(dá)。對于近場傳感,超聲波傳感器陣列是一種成熟的低成本傳感器,可在車輛周圍提供強大的安全性。

f762fe9e-6928-11ed-8abf-dac502259ad0.png

論文認(rèn)為,通過并行使用不同的計算機視覺算法類型,可以實現(xiàn)更高的安全性。也就是說,可以配置計算機視覺系統(tǒng)架構(gòu)以最大限度地提高冗余度。這一點尤其正確,因為數(shù)據(jù)源是完全不同的處理類型。例如,識別pipelines的統(tǒng)計處理和重建管道的幾何pipelines。此外,這種處理通常會在SoC內(nèi)的不同硅組件上運行。然而,必須意識到,如果你最大限度地發(fā)揮其他協(xié)同作用,冗余的可能性就會降低。例如,如果使用基于CNN的深度作為Visual SLAM算法的種子,則不能將CNN聲明為Visual SLAM的冗余,因為Visual SLAM現(xiàn)在依賴于CNN處理。還必須注意,這兩個處理元件可能使用相同的視頻饋送,因此相機本身和相關(guān)硬件/軟件的安全性也可能是一個限制因素。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2546

    文章

    50498

    瀏覽量

    751202
  • 計算機
    +關(guān)注

    關(guān)注

    19

    文章

    7383

    瀏覽量

    87643
  • 自動駕駛
    +關(guān)注

    關(guān)注

    782

    文章

    13633

    瀏覽量

    165992

原文標(biāo)題:一文盡覽 | 全景/魚眼相機低速自動駕駛的近距離感知(識別+重建+定位+工程化)

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    江森自控推出EasyIO Neo Series樓宇自動化系統(tǒng)

    Series。此舉不僅彰顯了江森自控“中國為中國”的本地戰(zhàn)略,更預(yù)示著該系統(tǒng)未來有望面向全球市場推出,成為重新定義樓宇自動化行業(yè)標(biāo)準(zhǔn)的里程碑式產(chǎn)品。
    的頭像 發(fā)表于 11-01 11:13 ?275次閱讀

    康耐視AI視覺系統(tǒng)助力自動化精準(zhǔn)檢測

    憑借高精度圖像分析、物體表面識別檢測、精準(zhǔn)定位等功能,視覺系統(tǒng)自動化流程的高效運行提供了關(guān)鍵技術(shù)支持。
    的頭像 發(fā)表于 10-25 10:32 ?130次閱讀

    比斯特自動化引領(lǐng)未來:高效智能的鋰離子電池自動點焊機

    在現(xiàn)代化工業(yè)生產(chǎn)的浪潮中,高效、精準(zhǔn)與自動化已成為推動產(chǎn)業(yè)升級的關(guān)鍵力量。比斯特自動化作為行業(yè)內(nèi)的佼佼者,其推出的鋰離子電池高速自動點焊機,正是這一趨勢下的杰出代表,不僅重新定義了電池
    的頭像 發(fā)表于 08-19 11:48 ?374次閱讀
    比斯特<b class='flag-5'>自動化</b>引領(lǐng)未來:高效智能的鋰離子電池<b class='flag-5'>自動</b>點焊機

    機械自動化和電氣自動化區(qū)別是什么

    機械自動化和電氣自動化是現(xiàn)代工業(yè)生產(chǎn)中兩個重要的領(lǐng)域,它們在許多方面有著密切的聯(lián)系,但也存在一些明顯的區(qū)別。 一、基本概念 機械自動化 機械自動化是指利用機械設(shè)備、傳感器、控制
    的頭像 發(fā)表于 07-01 09:33 ?3533次閱讀

    機械自動化自動化的一種嗎

    引言 自動化技術(shù)是指利用控制裝置對生產(chǎn)過程進(jìn)行控制,以實現(xiàn)生產(chǎn)過程的自動化。機械自動化自動化技術(shù)的一種,它主要涉及到使用機械設(shè)備和控制系統(tǒng)
    的頭像 發(fā)表于 07-01 09:32 ?1498次閱讀

    機械制造與自動化自動化類嗎

    機械制造與自動化自動化領(lǐng)域的一個重要分支,它涉及到機械設(shè)計、制造、檢測、控制等多個方面,是現(xiàn)代制造業(yè)的核心組成部分。 機械制造與自動化是指利用計算機、機器人、傳感器等自動化設(shè)備和技術(shù)
    的頭像 發(fā)表于 06-11 11:18 ?1398次閱讀

    工業(yè)自動化自動化區(qū)別是什么

    工業(yè)自動化自動化是兩個密切相關(guān)但又有所區(qū)別的概念。在這篇文章中,我們將詳細(xì)探討它們之間的區(qū)別,以及它們在現(xiàn)代工業(yè)生產(chǎn)中的應(yīng)用。 一、自動化的定義 自動化是指通過使用機器、計算機和其他
    的頭像 發(fā)表于 06-11 11:13 ?1494次閱讀

    工業(yè)自動化控制系統(tǒng)有哪些

    工業(yè)自動化控制系統(tǒng)是現(xiàn)代工業(yè)生產(chǎn)中不可或缺的重要組成部分。它們通過自動化技術(shù),實現(xiàn)了生產(chǎn)過程的自動化、智能和信息
    的頭像 發(fā)表于 06-11 10:55 ?1267次閱讀

    視覺控制器在工業(yè)自動化的應(yīng)用

      在工業(yè)自動化的浪潮中,視覺控制器以其獨特的優(yōu)勢,逐漸成為提高生產(chǎn)效率、保證產(chǎn)品質(zhì)量的關(guān)鍵技術(shù)之一。視覺控制器基于計算機視覺技術(shù),通過圖像處理、模式識別等技術(shù)手段,實現(xiàn)對目標(biāo)物體的識別定位
    的頭像 發(fā)表于 06-06 14:06 ?690次閱讀

    自動化智能運維系統(tǒng)在高鐵牽引變電所的研究與應(yīng)用

    自動化智能運維系統(tǒng)在高鐵牽引變電所的研究與應(yīng)用 張穎姣 安科瑞電氣股份有限公司 上海嘉定 201801 摘要: 目前,高鐵牽引變電所綜合自動化系統(tǒng)
    的頭像 發(fā)表于 04-16 16:21 ?491次閱讀
    <b class='flag-5'>自動化</b>智能運維<b class='flag-5'>系統(tǒng)</b>在高鐵牽引變電所的<b class='flag-5'>研究</b>與應(yīng)用

    工業(yè)自動化系統(tǒng)設(shè)計

    工業(yè)自動化系統(tǒng)設(shè)計是一項涉及多個領(lǐng)域和技術(shù)的綜合性任務(wù)。它旨在通過自動化設(shè)備和系統(tǒng)的集成,提高生產(chǎn)效率、降低能耗、確保產(chǎn)品質(zhì)量和增強企業(yè)競爭力。 一、工業(yè)
    的頭像 發(fā)表于 02-02 17:00 ?677次閱讀
    工業(yè)<b class='flag-5'>自動化</b><b class='flag-5'>系統(tǒng)</b>設(shè)計

    自動化仿真系統(tǒng)搭建實踐

    今天我們分享TIAV17+PLCSIM+PS+SIMIT:自動化仿真系統(tǒng)搭建實踐。
    的頭像 發(fā)表于 01-04 11:28 ?1877次閱讀
    <b class='flag-5'>自動化</b>仿真<b class='flag-5'>系統(tǒng)</b>搭建實踐

    電源測試怎么自動化?電源模塊自動化測試系統(tǒng)如何實現(xiàn)?

    納米軟件在電測行業(yè)深耕十余年,在行業(yè)的大背景下,為了進(jìn)一步完善自動化測試,開發(fā)出了新的智能的電源模塊自動化測試系統(tǒng)ATECLOUD-POWER,實現(xiàn)
    的頭像 發(fā)表于 12-15 14:40 ?798次閱讀
    電源測試怎么<b class='flag-5'>自動化</b>?電源模塊<b class='flag-5'>自動化</b>測試<b class='flag-5'>系統(tǒng)</b>如何實現(xiàn)?

    自動化儀表和自動化控制系統(tǒng)的應(yīng)用

    在企業(yè)生產(chǎn)過程中,要想使其達(dá)到最佳的生產(chǎn)效率,就需要對自動化儀表和自動化控制技術(shù)進(jìn)行合理的應(yīng)用。在自動化控制系統(tǒng)的應(yīng)用中,要對其進(jìn)行合理的設(shè)計和配置,使其能夠發(fā)揮出最大的作用。首先,要
    的頭像 發(fā)表于 12-08 10:11 ?928次閱讀

    淺析中國工業(yè)自動化與智能應(yīng)用

    自動化驅(qū)動產(chǎn)品與智能操控系統(tǒng)主要用于工業(yè)自動化中的設(shè)備自動化領(lǐng)域,其中自動化驅(qū)動產(chǎn)品是實現(xiàn)設(shè)備單機自動化
    發(fā)表于 12-01 10:11 ?941次閱讀
    淺析中國工業(yè)<b class='flag-5'>自動化</b>與智能<b class='flag-5'>化</b>應(yīng)用