在MIT - AVT研究中,最先進(jìn)的嵌入式系統(tǒng)編程、軟件工程、數(shù)據(jù)處理、分布式計(jì)算、計(jì)算機(jī)視覺和深度學(xué)習(xí)技術(shù)被應(yīng)用于大規(guī)模自然駕駛數(shù)據(jù)的收集和分析,旨在為深入了解快速變化的交通系統(tǒng)中人類和自動(dòng)駕駛車輛是如何進(jìn)行相互作用的,從而開辟新的領(lǐng)域。這項(xiàng)研究提出了MIT-AVT研究背后的方法論,旨在定義和啟發(fā)下一代自動(dòng)駕駛研究。
MIT - AVT 研究者認(rèn)為,當(dāng)前現(xiàn)實(shí)世界的挑戰(zhàn)是人類作為自動(dòng)駕駛系統(tǒng)各個(gè)方面的組成部分。這一挑戰(zhàn)之所以特別困難,是因?yàn)轳{駛?cè)蝿?wù)具有巨大變異性,原因如下:
人類行為的潛在不確定性,表現(xiàn)為車輛、行人和騎自行車者之間的各種社會(huì)互動(dòng)和沖突解決。
駕駛員風(fēng)格、經(jīng)驗(yàn)和其他有助于理解、信任和使用自動(dòng)化的特性之間的可變性。
場(chǎng)景感知和理解問題的復(fù)雜性和邊緣情況。
從駕駛員與方向盤的互動(dòng)到輪胎與路面的接觸,汽車中的每一個(gè)人在與機(jī)械系統(tǒng)的交互中,控制問題的欠驅(qū)動(dòng)性質(zhì)。
傳感器中預(yù)期的和未預(yù)料到的限制和缺陷。
對(duì)軟件的依賴帶來了基于軟件系統(tǒng)固有的挑戰(zhàn):bug、漏洞,以及小版本和大版本更新中不斷變化的特性集。
當(dāng)系統(tǒng)故障需要人工控制車輛以解決潛在的危險(xiǎn)情況時(shí),人類駕駛員需要識(shí)別、確認(rèn)并做好控制和適應(yīng)的準(zhǔn)備。
環(huán)境條件(即天氣,光照條件)對(duì)低級(jí)感知和控制任務(wù)以及參與交互的人員之間的高級(jí)互動(dòng)動(dòng)態(tài)產(chǎn)生重大影響。
社會(huì)和個(gè)人對(duì)人為和機(jī)器錯(cuò)誤的容忍度。
作為人類,我們自然認(rèn)為,從機(jī)器人學(xué)的角度來看,成功獲得足夠的態(tài)勢(shì)感知和理解,需要多少智力,才能在一個(gè)充斥著不可預(yù)測(cè)的非理性人類的世界中航行。道路上的大多數(shù)汽車可能需要幾十年才能實(shí)現(xiàn)完全自動(dòng)駕駛。在此期間,無論是作為司機(jī)還是作為駕駛人工智能系統(tǒng)的主管,人類可能仍然是關(guān)鍵的決策者,。
在這種背景下,以人為中心的人工智能( HCAI )是計(jì)算機(jī)科學(xué)、機(jī)器人學(xué)和體驗(yàn)設(shè)計(jì)的一個(gè)領(lǐng)域,旨在實(shí)現(xiàn)人類和人工智能之間的更深層次整合。很可能HCAI將在技術(shù)(算法、傳感器、接口和交互范例)的形成中發(fā)揮關(guān)鍵作用,這些技術(shù)支持駕駛員在監(jiān)控AI系統(tǒng)中的角色,因?yàn)樗谌魏蔚胤蕉紙?zhí)行基本駕駛和高階物體和事件檢測(cè)任務(wù)。
麻省理工學(xué)院的自動(dòng)駕駛車輛技術(shù)( MIT - AVT )研究旨在收集和分析大規(guī)模半自主駕駛的自然數(shù)據(jù),以便更好地描述當(dāng)前技術(shù)使用的狀態(tài),了解自動(dòng)化技術(shù)如何影響各種環(huán)境中的人機(jī)交互,并了解我們?nèi)绾卧O(shè)計(jì)共享自主系統(tǒng),在未來幾十年里,當(dāng)我們從手動(dòng)控制過渡到完全自動(dòng)駕駛時(shí),這些系統(tǒng)可以挽救生命。這項(xiàng)努力的動(dòng)機(jī)是需要更好地描述和理解駕駛員如何使用先進(jìn)的車輛技術(shù)[ 9 ]。目標(biāo)是提出、設(shè)計(jì)和構(gòu)建基于這種理解的系統(tǒng),這樣人類和車輛AI之間的共享自主不會(huì)導(dǎo)致一系列意想不到的后果[ 10 ]。
“自然駕駛”是指不受嚴(yán)格實(shí)驗(yàn)設(shè)計(jì)限制的駕駛,而“自然駕駛研究”( NDS )通常是一種系統(tǒng)收集視頻、音頻、車輛遙測(cè)數(shù)據(jù)和其他傳感器數(shù)據(jù)的研究,這些數(shù)據(jù)可以長時(shí)間捕捉駕駛的各個(gè)方面,從幾天到幾個(gè)月甚至幾年不等。在這些研究中,數(shù)據(jù)是在與駕駛員通?!霸谝巴狻瘪{駛的自然條件緊密一致的條件下獲取的?!巴ǔG闆r下,司機(jī)自己的車輛裝有儀表(盡可能不引人注目),每個(gè)司機(jī)都被要求像平時(shí)一樣繼續(xù)使用他們的車輛,數(shù)據(jù)就在車輛整個(gè)使用期間收集了。此外,使用不受任何結(jié)構(gòu)化實(shí)驗(yàn)設(shè)計(jì)的限制。目的是提供盡可能不受測(cè)量過程影響的自然行為記錄。這與在類似儀表化車輛中進(jìn)行的道路試驗(yàn)形成對(duì)比,但是試驗(yàn)者在車輛中,并要求駕駛員在特定時(shí)間使用車輛中的特定技術(shù)系統(tǒng)在特定道路上執(zhí)行特定任務(wù)。
MIT- AVT研究的是新一代的NDS,旨在發(fā)現(xiàn)人類駕駛員和自動(dòng)駕駛技術(shù)之間真實(shí)互動(dòng)的情況。目標(biāo)是從通過該項(xiàng)目收集的大規(guī)模自然數(shù)據(jù)中獲得洞察力,以幫助設(shè)計(jì)、開發(fā)和交付新的車輛系統(tǒng),告知保險(xiǎn)提供商不斷變化的安全市場(chǎng),并教育政府和其他非政府利益相關(guān)者如何在野外使用自動(dòng)化。
圖1 :整個(gè)MIT - AVT研究和研究中各個(gè)車輛的數(shù)據(jù)集統(tǒng)計(jì)。
圖1顯示了MIT - AVT研究整體以及研究中各個(gè)車輛的關(guān)鍵統(tǒng)計(jì)數(shù)據(jù)。數(shù)據(jù)的關(guān)鍵措施及其解釋如下:
迄今研究月數(shù): 21
(這項(xiàng)研究在道路上與車輛一起積極運(yùn)行的月數(shù)。)
參與日: 7146
(研究中所有車輛上活動(dòng)數(shù)據(jù)記錄器記錄的天數(shù)。)
司機(jī): 78人
(本研究中所有車輛上同意駕駛的司機(jī)人數(shù)。)
車輛:25
(研究中的車輛數(shù)量。)
行駛里程:275589
(行駛里程)
視頻幀數(shù):35億
(研究中所有攝像頭和車輛記錄和處理的視頻幀數(shù)。)
A.自然駕駛研究
MIT- AVT研究的重點(diǎn)是收集自然駕駛數(shù)據(jù),并借鑒先前NDS研究的工作和經(jīng)驗(yàn)教訓(xùn),這些先前的研究旨在了解以突然減速為標(biāo)志的碰撞和近碰撞時(shí)刻前后的人類行為。第二個(gè)戰(zhàn)略性公路研究計(jì)劃( SHR p2 )是這些研究中最廣為人知和規(guī)模最大的[ 14 ]。與SHRP - 2和其他第一代NDS努力不同,MIT - AVT研究旨在成為下一代NDS項(xiàng)目的標(biāo)準(zhǔn),該項(xiàng)目的重點(diǎn)是基于大規(guī)模計(jì)算機(jī)視覺的人類行為分析。正如先前的研究所做的那樣,手動(dòng)標(biāo)注特定的駕駛時(shí)代已經(jīng)不足以理解自主車輛技術(shù)背景下人類行為的復(fù)雜性(即駕駛員掃視或駕駛儀使用數(shù)千英里的身體位置)。
例如,對(duì)理解駕駛員行為很重要的許多度量之一是[18] (見Xi - C )的掃視區(qū)域[17]的瞬間檢測(cè)。為了在不使用計(jì)算機(jī)視覺的情況下從11億幀面部視頻中準(zhǔn)確提取這一指標(biāo),需要投資183.3萬美元的人工注釋[ 19 ]。這個(gè)數(shù)字假設(shè)有一個(gè)高效的標(biāo)注工具,專門為手動(dòng)瀏覽區(qū)域標(biāo)注任務(wù)設(shè)計(jì),可以利用標(biāo)注任務(wù)的分布式、在線、眾包。這種工具的開發(fā)是一項(xiàng)技術(shù)挑戰(zhàn),可能需要幾年的持續(xù)研究和開發(fā)[ 20 ],這可能會(huì)超過人類注釋時(shí)間的成本。另一個(gè)例子是驅(qū)動(dòng)場(chǎng)景分割,對(duì)于11億幀來說,這將需要165億美元的不可思議的投資,[ 21],[ 19 ]。因此,從原始視頻中自動(dòng)或半自動(dòng)提取信息至關(guān)重要,是MIT - AVT的動(dòng)機(jī)、設(shè)計(jì)、研究和運(yùn)營的核心。
MIT對(duì)待NDS方法的基本信念是,只有通過查看全部數(shù)據(jù)(具有揭示人類行為和情況特征的算法),我們才能開始學(xué)習(xí)“放大”哪些部分:哪些觸發(fā)器和標(biāo)記將導(dǎo)致分析這些分析代表數(shù)據(jù)中的系統(tǒng)性能和人類行為。此外,從數(shù)據(jù)中提取的每一個(gè)新見解都可能會(huì)完全改變我們對(duì)數(shù)據(jù)中應(yīng)該查找的位置的理解。出于這個(gè)原因,我們相信理解人類和自主交通工具是如何相互作用的,需要比特定事件周圍幾秒甚至幾分鐘的時(shí)間窗口大得多。
它需要查看整個(gè)行程和人類參與自動(dòng)化的策略:何時(shí)、何地、多長時(shí)間打開,何時(shí)、何地關(guān)閉,何時(shí)交換控制,以及許多其他問題。處理如此龐大的數(shù)據(jù)量需要一種完全不同的數(shù)據(jù)分析方法。我們通過使用基于深度學(xué)習(xí)的計(jì)算機(jī)視覺方法來實(shí)現(xiàn)知識(shí)提取過程的自動(dòng)化方面,這些方法用于駕駛員狀態(tài)檢測(cè)、駕駛員身體姿態(tài)估計(jì)、駕駛場(chǎng)景分割和來自儀表組視頻的車輛狀態(tài)檢測(cè),如圖2所示,并在xIV中討論。使用基于深度學(xué)習(xí)的自動(dòng)注釋的結(jié)果是,MIT - AVT可以分析共享自主環(huán)境下駕駛的長尾,這反過來又允許將復(fù)雜的觀察到的交互與人類對(duì)其體驗(yàn)的感知相結(jié)合。這種對(duì)NDS數(shù)據(jù)集進(jìn)行整體分析的創(chuàng)新跨學(xué)科方法提供了一個(gè)獨(dú)特的機(jī)會(huì)來評(píng)估在自動(dòng)駕駛環(huán)境下對(duì)人機(jī)交互的情況理解。
圖2 :來自MIT - AVT攝像機(jī)的視頻幀和為每個(gè)攝像機(jī)執(zhí)行的計(jì)算機(jī)視覺任務(wù)的可視化(a)(b)(c)(d):
( a )駕駛員狀態(tài)下的面部攝像頭。
( b )用于駕駛員身體位置的駕駛室攝像機(jī)。
( c )用于駕駛場(chǎng)景感知的前向攝像機(jī)。
( d )用于車輛狀態(tài)組合儀表攝像機(jī)。
B.深度學(xué)習(xí)應(yīng)用的數(shù)據(jù)集
深度學(xué)習(xí)[27]可以通過兩種方式定義:(1)機(jī)器學(xué)習(xí)的一個(gè)分支,它使用具有許多層的神經(jīng)網(wǎng)絡(luò);或(2)機(jī)器學(xué)習(xí)的一個(gè)分支,旨在形成數(shù)據(jù)表示的層次結(jié)構(gòu),而最小的輸入來自人類對(duì)層次結(jié)構(gòu)的實(shí)際構(gòu)成。后一個(gè)定義揭示了深度學(xué)習(xí)的關(guān)鍵特征,這對(duì)我們的工作非常重要,能夠使用大規(guī)模數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)的任何野外應(yīng)用中出現(xiàn)的真實(shí)世界邊緣情況進(jìn)行有力的概括:遮擋、光照、視角、尺度、類間變化、類內(nèi)變化等[28]。
為了利用深度學(xué)習(xí)的力量從原始視頻中提取人類行為,需要大規(guī)模注釋數(shù)據(jù)集。然后,在這些數(shù)據(jù)集上訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)可以用于它們的學(xué)習(xí)表示,從而可針對(duì)駕駛環(huán)境中的特定應(yīng)用進(jìn)行微調(diào)。ImageNet [ 29 ]是基于WordNet [ 30 ]的圖像數(shù)據(jù)集,其中100,000個(gè)同義詞集各自定義了一個(gè)獨(dú)特的概念。ImageNet的目標(biāo)是為100,000個(gè)合集中的每一個(gè)都提供1000個(gè)帶注釋的圖像。目前,它有21,841個(gè)帶有圖像的合集,總共有14,197,122個(gè)圖像。這個(gè)數(shù)據(jù)集通常用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),用于圖像分類和物體檢測(cè)任務(wù)[ 31 ]。作為年度ImageNet大規(guī)模視覺識(shí)別競賽( ILSVRC ) [32]的一部分,最佳表現(xiàn)的網(wǎng)絡(luò)被突出顯示。在這項(xiàng)工作中,術(shù)語“機(jī)器學(xué)習(xí)”、“深度學(xué)習(xí)”、“神經(jīng)網(wǎng)絡(luò)”和“計(jì)算機(jī)視覺”經(jīng)?;Q使用。這是因?yàn)榇蠖鄶?shù)自動(dòng)化知識(shí)提取任務(wù)的當(dāng)前技術(shù)水平主要是基于學(xué)習(xí)的方法,這些方法依賴于深層神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的許多變體之一。在開發(fā)用于大規(guī)模分析我們數(shù)據(jù)集中駕駛員行為的算法時(shí)使用的其他流行數(shù)據(jù)集的例子包括:
COCO [ 33 ] :Microsoft Common object in Context ( COCO )數(shù)據(jù)集是一個(gè)大規(guī)模數(shù)據(jù)集,從兩個(gè)角度解決場(chǎng)景理解中的對(duì)象檢測(cè)任務(wù):檢測(cè)對(duì)象的非圖標(biāo)視圖和對(duì)象的精確2D定位。第一項(xiàng)任務(wù)通常是指對(duì)象定位,它使用邊界框來表示對(duì)象的存在。第二項(xiàng)任務(wù)涉及實(shí)例分割,為此也需要對(duì)象的精確遮罩。整個(gè)數(shù)據(jù)集包含80個(gè)對(duì)象類別中標(biāo)記的200,000多幅圖像。成功的方法[ 31]、[ 34、[ 35 ]將兩項(xiàng)任務(wù)聯(lián)合建模,同時(shí)輸出對(duì)象的邊界框和遮罩。
KITTI:KITTI駕駛數(shù)據(jù)集開發(fā)了立體視覺、光流、視覺里程計(jì)/ SLAM和3D物體檢測(cè)的挑戰(zhàn)性基準(zhǔn),這些基準(zhǔn)是在德國中等城市卡爾斯魯厄的農(nóng)村地區(qū)和高速公路上駕駛時(shí)捕獲的??偟膩碚f,使用各種傳感器模式,如高分辨率彩色和灰度立體相機(jī)、Velodyne 3D激光掃描儀和高精度GPS / IMU慣性導(dǎo)航系統(tǒng),在10 - 100 Hz下記錄了6小時(shí)的交通場(chǎng)景。此外,[ 38 ]還通過從原始數(shù)據(jù)集中收集400個(gè)高度動(dòng)態(tài)的場(chǎng)景,并用半密集的場(chǎng)景流地面真實(shí)來增強(qiáng)這些場(chǎng)景,為3D場(chǎng)景流估計(jì)提出地面真實(shí)。
Cityscapes:Cityscapes數(shù)據(jù)集側(cè)重于對(duì)城市街景的語義理解。它提供了大量不同的立體視頻序列,這些視頻序列記錄在來自50個(gè)不同城市的街道上,具有像素級(jí)和實(shí)例級(jí)語義標(biāo)簽。有5,000個(gè)帶有像素級(jí)注釋的完全分割圖像和另外20,000個(gè)具有粗略注釋的部分分割圖像。它的兩個(gè)基準(zhǔn)挑戰(zhàn)導(dǎo)致了許多成功的語義分割方法的發(fā)展[40],[41]和實(shí)例分割[34],[42]。
CamVid:劍橋駕駛標(biāo)簽視頻數(shù)據(jù)庫(CamVid)是第一個(gè)在駕駛汽車視角下拍攝的視頻中具有逐幀語義標(biāo)簽的數(shù)據(jù)集。數(shù)據(jù)集提供地面實(shí)況標(biāo)簽,將每個(gè)像素與32個(gè)語義類之一相關(guān)聯(lián)。超過700個(gè)圖像的手動(dòng)指定的每像素語義分割使得能夠研究諸如行人檢測(cè)[44]和標(biāo)簽傳播[45]之類的主題。
C.深度學(xué)習(xí)的汽車應(yīng)用
駕駛領(lǐng)域中的感知和控制系統(tǒng)的設(shè)計(jì)已經(jīng)從利用大規(guī)模數(shù)據(jù)收集和注釋的基于學(xué)習(xí)的方法中獲益,以便構(gòu)建概括于現(xiàn)實(shí)世界操作的邊緣情況的模型。利用發(fā)布的大規(guī)模注釋駕駛數(shù)據(jù)集[36],[39],汽車深度學(xué)習(xí)研究旨在解決檢測(cè)、估計(jì)、預(yù)測(cè)、標(biāo)記、生成、控制和計(jì)劃任務(wù)。如圖2所示,具體任務(wù)有已經(jīng)定義了諸如細(xì)粒度人臉識(shí)別,身體姿勢(shì)估計(jì),語義場(chǎng)景感知和駕駛狀態(tài)預(yù)測(cè)。目前的努力簡要總結(jié)如下:
精細(xì)人臉識(shí)別:除了經(jīng)典人臉識(shí)別研究之外,精細(xì)人臉識(shí)別側(cè)重于理解人類對(duì)人臉感知的行為,如面部表情識(shí)別[46]、[47]、眼睛注視檢測(cè)[48]、[49]。在駕駛環(huán)境中,[50],[51]探索司機(jī)眼神的預(yù)測(cè)能力。[ 52 ],[ 53 ]用面部表情來檢測(cè)駕駛安全和駕駛體驗(yàn)的情緒壓力。
人體姿勢(shì)估計(jì):人體姿勢(shì)的研究擴(kuò)展了機(jī)器人和動(dòng)作識(shí)別中許多現(xiàn)實(shí)世界應(yīng)用的性能、能力和經(jīng)驗(yàn)。成功的方法不同于使用深度圖像( [54],通過深度神經(jīng)網(wǎng)絡(luò)[55],或者卷積網(wǎng)絡(luò)和圖形模型[56]。特別是對(duì)于駕駛,[ 57 ]使用駕駛員姿勢(shì)來模擬人類駕駛行為,該姿勢(shì)由骨骼數(shù)據(jù)表示,包括手腕、肘部和肩關(guān)節(jié)的位置。[ 58 ]對(duì)眼睛狀態(tài)和頭部姿勢(shì)進(jìn)行視覺分析,以監(jiān)控駕駛員的警覺性。
語義場(chǎng)景感知:從2D圖像中理解場(chǎng)景一直是計(jì)算機(jī)視覺中一項(xiàng)具有挑戰(zhàn)性的任務(wù),通常指的是語義圖像分割。通過利用大規(guī)模數(shù)據(jù)集,如[59]、[39]、[40]、[ 41]等,利用強(qiáng)大的深度學(xué)習(xí)技術(shù)獲得了最新的結(jié)果。因此,學(xué)術(shù)界和工業(yè)界都在積極研究自動(dòng)駕駛汽車的精確駕駛場(chǎng)景感知[60]、[61]。
駕駛狀態(tài)預(yù)測(cè):車輛狀態(tài)通常被認(rèn)為是人類駕駛決策的直接例證,這也是自主駕駛的目標(biāo)。就機(jī)器學(xué)習(xí)而言,從不同角度來看,它是各種任務(wù)的基本真理,如駕駛行為[ 57 ]和轉(zhuǎn)向指令[ 60]、[ 61]。
隨著用于這些任務(wù)的代表性數(shù)據(jù)集被發(fā)布給廣泛的研究團(tuán)體,駕駛員輔助、駕駛員體驗(yàn)和車輛性能的許多方面正越來越多地通過基于學(xué)習(xí)的方法實(shí)現(xiàn)自動(dòng)化。MIT-AVT研究旨在成為許多此類數(shù)據(jù)集的來源,這些數(shù)據(jù)集有助于訓(xùn)練神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),為半自主和完全自主駕駛的許多模塊化和集成子任務(wù)提供當(dāng)前和未來的穩(wěn)健解決方案。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1685瀏覽量
45811 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
781文章
13449瀏覽量
165254 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5422瀏覽量
120587
原文標(biāo)題:MIT自動(dòng)駕駛汽車技術(shù)研究:基于大規(guī)模深度學(xué)習(xí)的駕駛員行為分析及與自動(dòng)化的互動(dòng)(一)
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論