本文整理了多傳感器數(shù)據(jù)融合(Multi-Sensor Data Fusion,MSDF)的要點(diǎn)和基本方法。介紹了Harmonize、Reconcile、Integrate、Synthesize之間的區(qū)別和對(duì)應(yīng)的解決方案。文章主要圍繞什么是MSDF;為什么要MSDF和如何進(jìn)行MSDF展開(kāi),希望給對(duì)自動(dòng)駕駛感興趣的小伙伴,提供一些參考。
許多人工智能系統(tǒng)的一個(gè)關(guān)鍵要素是具有多傳感器數(shù)據(jù)融合(Multi-Sensor Data Fusion,MSDF)的能力。在人工智能系統(tǒng)處于一個(gè)特定的環(huán)境時(shí),MSDF需要對(duì)周圍環(huán)境數(shù)據(jù)進(jìn)行Harmonize;Reconcile;Integrate;Synthesize。簡(jiǎn)單來(lái)說(shuō),傳感器相當(dāng)于眼睛耳朵等輸入感官,而人工智能系統(tǒng)需要以某種方式解釋這些輸入感官收集回來(lái)的信息,使其成為在現(xiàn)實(shí)世界可以被解釋且有價(jià)值的信息。在駕駛汽車時(shí),多目標(biāo)跟蹤(Multi-Target Tracking,MTT)也是非常重要的課題——設(shè)想在市中心開(kāi)車,周圍都是行人和車輛,人類駕駛員要準(zhǔn)確的識(shí)別并躲避他們,自動(dòng)駕駛汽車也是。所以,這要求傳感器融合具備一個(gè)必須的性質(zhì)——實(shí)時(shí)性,就像人類每時(shí)每刻都在大腦中進(jìn)行傳感器融合一樣。盡管人類不會(huì)公開(kāi)地明確地將想法付諸于行動(dòng),但是這些“傳感器融合”過(guò)程都是自然發(fā)生的。
自動(dòng)駕駛的MSDF
首先,需要明確一個(gè)老生常談的概念——SAE對(duì)于自動(dòng)駕駛等級(jí)的劃分。SAE給自動(dòng)駕駛汽車劃分為5個(gè)等級(jí),對(duì)于L5以下的自動(dòng)駕駛汽車,要求必須有一個(gè)人類駕駛員(安全員)在場(chǎng)。目前,人工智能和人類駕駛員共同承擔(dān)駕駛?cè)蝿?wù),而人類駕駛員被認(rèn)定為汽車行為的責(zé)任人。
回到MSDF的話題,下圖展示了人工智能自動(dòng)駕駛汽車如何進(jìn)行MSDF的一些關(guān)鍵要素。
上圖指出了MSDF面臨的主要挑戰(zhàn)是如何將收集來(lái)的大量數(shù)據(jù)集中在一起,并做出正確決策。因?yàn)槿绻鸐SDF出錯(cuò),意味著下游階段要么沒(méi)有必要的信息,要是使用了錯(cuò)誤的信息做出了錯(cuò)誤的決策??梢钥吹?,一般來(lái)說(shuō),自動(dòng)駕駛汽車會(huì)通過(guò)安裝在車身周圍的攝像頭收集視覺(jué)數(shù)據(jù),也會(huì)通過(guò)雷達(dá)(激光雷達(dá)、毫米波雷達(dá)等)來(lái)收集諸如周圍物體運(yùn)動(dòng)速度的數(shù)據(jù),但是這些數(shù)據(jù)是從不同角度來(lái)描述現(xiàn)實(shí)世界的同一樣或不同樣的物體。所以,使用什么類型的傳感器,怎么融合傳感器收集回來(lái)的數(shù)據(jù),使用多少傳感器才能實(shí)現(xiàn)基于數(shù)據(jù)的對(duì)客觀世界的描述呢?通常來(lái)說(shuō),使用越多的傳感器,對(duì)計(jì)算能力的要求就越高,這意味著自動(dòng)駕駛汽車必須搭載更多的計(jì)算機(jī)處理器和內(nèi)存,這也會(huì)增加汽車的重量,需要更多的功率,還會(huì)產(chǎn)生更多的熱量。諸如此類的缺點(diǎn)還有很多。
多傳感器融合(MSDF)的四個(gè)關(guān)鍵方法
圖 Harmonize;Reconcile;Integrate;Synthesize的區(qū)別
Harmonize:
假設(shè)有兩種不同的傳感器,稱它們?yōu)閭鞲衅鱔和傳感器Z。它們都能夠感知自動(dòng)駕駛汽車的外部世界。在現(xiàn)實(shí)世界中存在一個(gè)物體,這個(gè)物體可能是人,也可能是車,甚至是一條狗,傳感器X和傳感器Z都能夠檢測(cè)到這個(gè)物體。這就意味著傳感器對(duì)這個(gè)物體進(jìn)行了雙重檢測(cè),這種雙重檢測(cè)意味著兩種不同類型的傳感器都有關(guān)于該物體的數(shù)據(jù)報(bào)告,對(duì)于該物體有兩個(gè)維度不同地認(rèn)知。假設(shè),傳感器X表示該物體高6英尺,寬2英尺;傳感器Z表示該物體以每秒3英尺的速度正朝著自動(dòng)駕駛車輛方向移動(dòng)。結(jié)合兩個(gè)傳感器采集到的數(shù)據(jù),就可以得出一條相對(duì)準(zhǔn)確的信息:有一個(gè)高約6英尺,寬2英尺的物體正在以每秒鐘3英尺的速度移動(dòng)。假設(shè)這兩自動(dòng)駕駛汽車上只安裝了X傳感器,那么就無(wú)法得知該物體的大??;若Z傳感器壞了,那么就只有物體的大小信息,無(wú)法檢測(cè)該物體的運(yùn)動(dòng)狀態(tài)。這也就是最近業(yè)內(nèi)廣泛討論的“在自動(dòng)駕駛汽車上應(yīng)該安裝哪些傳感器”的問(wèn)題。
此前,特斯拉埃隆·馬斯克(Elon Musk)旗幟鮮明地聲稱,特斯拉不會(huì)安裝激光雷達(dá)。盡管馬斯克自己也認(rèn)為,L5自動(dòng)駕駛不會(huì)通過(guò)激光雷達(dá)來(lái)實(shí)現(xiàn)這個(gè)想法最終可能被驗(yàn)證為錯(cuò)誤的,這依舊沒(méi)有改變馬斯克的決定。一些反對(duì)的聲音稱,不配備激光雷達(dá)的特斯拉,無(wú)法通過(guò)其他的傳感器獲取如同激光雷達(dá)效果相同的感官輸入,也無(wú)法提供補(bǔ)償和三角測(cè)量。但是另一些支持者認(rèn)為,激光雷達(dá)不值得話費(fèi)如此高昂的費(fèi)用成本,不值得為其增大計(jì)算能力,也不值得為其增加認(rèn)知時(shí)間。
Reconcile:
在同一個(gè)視場(chǎng)(Field of View,F(xiàn)OV)內(nèi),假設(shè)傳感器X探測(cè)到一個(gè)物體,而傳感器Z沒(méi)有探測(cè)到。注意,這與物體完全在傳感器Z的FOV之外的情況有很大的不。一方面,系統(tǒng)會(huì)認(rèn)為傳感器X是正確的,Z是錯(cuò)誤的,可能是因?yàn)閆有故障,或者有模糊探測(cè),或者是其他的一些什么原因。另一個(gè)方面,也許傳感器X是錯(cuò)誤的,X可能是報(bào)告了一個(gè)“幽靈”(實(shí)際上并不存在的東西),而傳感器Z報(bào)告那里沒(méi)有東西是正確的。
Integrate:
假設(shè)我們有兩個(gè)物體a和b,分別在傳感器X和傳感器Z的視場(chǎng)FOV內(nèi)(a在X視場(chǎng)內(nèi),b在Z視場(chǎng)內(nèi))。也就是說(shuō),Z無(wú)法直接檢測(cè)到a,X也無(wú)法直接檢測(cè)到b。目前,想要實(shí)現(xiàn)的效果是,能否將X和Z的報(bào)告整合在一起,讓它們?cè)诟髯缘囊晥?chǎng)內(nèi)探測(cè)物體同時(shí),判斷是否為X視場(chǎng)中的物體正在向Z視場(chǎng)移動(dòng),預(yù)先提醒Z將有物體進(jìn)入探測(cè)區(qū)域。
Synthesize:
第四種方法Synthesize是將感知數(shù)據(jù)融合在一起,你可能會(huì)遇到這樣的情況,傳感器X和傳感器Z都沒(méi)有在各自的視場(chǎng)內(nèi)探測(cè)到物體。在這種情況下,沒(méi)有傳感器知道這個(gè)物體的存在,但是可以通過(guò)一些其他的感觀數(shù)據(jù),比如聲音,間接地弄清楚在視場(chǎng)之外的物體情況。自動(dòng)駕駛汽車是時(shí)刻運(yùn)動(dòng)的,所以要求這種預(yù)判是瞬間發(fā)生的,像上文提到的一樣,是實(shí)時(shí)的。
基于以上四種方法的解釋,當(dāng)各種不同傳感器收集回來(lái)的數(shù)據(jù)結(jié)合在一起時(shí),使用什么方法來(lái)處理這些數(shù)據(jù)呢?
絕對(duì)排序法:在這種方法中,需要事先決定一個(gè)傳感器的排序。比如,攝像投的級(jí)別高于雷達(dá),或者雷達(dá)的級(jí)別高于攝像頭等等。在傳感器融合過(guò)程中,子系統(tǒng)使用預(yù)先確定的排序。比如,在Reconcile情況中,在交叉的視場(chǎng)FOV中,X檢測(cè)到了物體,但是Z沒(méi)有檢測(cè)到,而攝像頭傳感器X的級(jí)別高于雷達(dá)傳感器Z,那么Z的檢測(cè)結(jié)果不納入考慮范圍內(nèi)也是允許的。這個(gè)方法簡(jiǎn)單、快速、易實(shí)現(xiàn),但是綜合考慮,這種方法并不嚴(yán)謹(jǐn)。
情況排序法:這種方法與絕對(duì)排名法相似,但不同之處在于,根據(jù)所處的環(huán)境,排名是可變的。例如,我們可能已經(jīng)設(shè)置好,如果有下雨的天氣,攝像頭容易受到雨水干擾,進(jìn)而攝像頭優(yōu)先級(jí)降低,雷達(dá)擁有最高優(yōu)先級(jí)。這種方法相對(duì)簡(jiǎn)單、快速、易于實(shí)現(xiàn)。然而,從全局角度看,它依然有所不足。
平等投票(協(xié)商一致)法:在這種方法中,允許每個(gè)傳感器進(jìn)行投票且投票能力都是平等的。然后使用一個(gè)計(jì)數(shù)算法,該算法與投票結(jié)果相匹配。如果傳感器的某個(gè)閾值都同意某個(gè)物體,而某些閾值不同意,那么就允許這個(gè)閾值決定人工智能系統(tǒng)做出判斷。同樣,這種方法綜合看起來(lái)依然有所不足。
加權(quán)投票法:有點(diǎn)類似于平等投票的方法,這種方法增加了一個(gè)權(quán)重,并選擇假設(shè)一些傳感器比另一些傳感器更重要。比如,系統(tǒng)可能傾向于認(rèn)為攝像頭比雷達(dá)更可靠,所以給攝像頭一個(gè)更高的加權(quán)系數(shù)等。
概率投票法:還可以引入概率概念。傳感器有自己的控制子系統(tǒng),可以確定傳感器是否得到了真實(shí)的數(shù)據(jù),然后將概率使用到多個(gè)傳感器的投票方法中。
爭(zhēng)論方法:還有一種新的方法是讓每個(gè)傳感器“辯論”為什么他們的報(bào)告是合適的。這是一個(gè)比較有趣的概念。相關(guān)研究和實(shí)驗(yàn)正在進(jìn)行中。
優(yōu)先到達(dá)法:即優(yōu)先報(bào)告結(jié)果的傳感器獲勝。出于計(jì)時(shí)的目的,系統(tǒng)不會(huì)等待其他傳感器報(bào)告,從而加快傳感器的融合工作。但是從另一個(gè)角度講,無(wú)法預(yù)測(cè)下一秒鐘其他傳感器是否會(huì)報(bào)告相反的判斷,這存在一定的安全隱患。
最可靠法:在這種方法中,需要跟蹤自動(dòng)駕駛汽車上無(wú)數(shù)傳感器的可靠性。當(dāng)存在各個(gè)傳感器之間的數(shù)據(jù)爭(zhēng)議時(shí),最可靠的傳感器將“獲勝”。
在設(shè)計(jì)自動(dòng)駕駛汽車時(shí),可以在傳感器融合子系統(tǒng)中使用以上的幾種方法。當(dāng)子系統(tǒng)確定一種方法可能優(yōu)于另一種方法時(shí),它們就可以各自發(fā)揮作用。當(dāng)然,MSDF也可以通過(guò)很多其它的本文未提及的方法進(jìn)行。
多個(gè)傳感器之間的差異非常重要
人類的聽(tīng)覺(jué)和視覺(jué)是不一樣的。當(dāng)人類聽(tīng)到警報(bào)聲時(shí),使用耳朵這種感官。耳朵不像眼睛,眼睛不能聽(tīng)聲音。這個(gè)例子可以生動(dòng)地說(shuō)明,在自動(dòng)駕駛領(lǐng)域,一定有許多不同類型的傳感器,多傳感器融合MSDF的首要任務(wù)是,要利用不同種傳感器的優(yōu)勢(shì),同時(shí)最小化或弱化每種傳感器的弱點(diǎn)。
上圖中,每一種傳感器的一個(gè)重要特征都是它能夠探測(cè)到目標(biāo)的距離。傳感器能夠探測(cè)到的距離越遠(yuǎn),人工智能駕駛?cè)蝿?wù)的提前時(shí)間和優(yōu)勢(shì)就越大。但是,一些研究結(jié)果標(biāo)明,較遠(yuǎn)端的數(shù)據(jù)可能缺乏特征或者缺乏可信度。隨著技術(shù)的日新月異,需要根據(jù)所涉及的距離確定傳感器融合的優(yōu)缺點(diǎn)。以下是一些常用傳感器的探測(cè)數(shù)據(jù)(隨著技術(shù)的進(jìn)步,以下數(shù)據(jù)可能隨時(shí)更新):
Main Forward Camera: 150 m (about 492 feet) typically, condition dependent
Wide Forward Camera: 60 m (about 197 feet) typically, condition dependent
Narrow Forward Camera: 250 m (about 820 feet) typically, conditions dependent
Forward Looking Side Camera: 80 m (about 262 feet) typically, condition dependent
Rear View Camera: 50 m (about 164 feet) typically, condition dependent
Rearward Looking Side Camera: 100 m (about 328 feet) typically, condition dependent
Radar: 160 m (about 524 feet) typically, conditions dependent
Ultrasonic: 8 m (about 26 feet) typically, condition dependent
LIDAR: 200 m (about 656 feet) typically, condition dependent
有專家稱,在比較各種類型的傳感器時(shí),業(yè)內(nèi)有許多圖表試圖描述這些傳感器的優(yōu)點(diǎn)和缺點(diǎn)。專家建議不要盲目相信的這些對(duì)比圖表。因?yàn)橛糜诒容^傳感器的標(biāo)準(zhǔn)非常多,但是一些常見(jiàn)圖表僅僅提取幾個(gè)典型特征進(jìn)行對(duì)比,缺乏可信度。如下圖(僅供參考):
筆者觀點(diǎn):在自動(dòng)駕駛領(lǐng)域,傳感器是一個(gè)非常博眼球的字眼。但是,一旦涉及具體技術(shù)和魯棒性,目前并沒(méi)有太多的企業(yè)或技術(shù)型公司給出一份值得信服的答卷。業(yè)內(nèi)普遍認(rèn)為,自動(dòng)駕駛汽車的未來(lái)是保障人的安全,而保障人的安全都依賴于多傳感器融合MSDF。人類每時(shí)每刻都在做著“多傳感器融合”的工作,想要將自動(dòng)駕駛汽車的多傳感器融合做到像人類一樣盡善盡美,還有很多復(fù)雜的工作要做。
評(píng)論
查看更多