數(shù)據(jù)集是機(jī)器學(xué)習(xí)算法的命脈——從某種意義上講,數(shù)據(jù)集對(duì)于自動(dòng)駕駛等人工智能應(yīng)用領(lǐng)域,最重要的是它們的質(zhì)量最高。同時(shí),數(shù)據(jù)集也衍生出自動(dòng)駕駛行業(yè)新的商業(yè)模式。
nuTonomy今天發(fā)布了一個(gè)名為nuScenes的自動(dòng)駕駛數(shù)據(jù)集,它聲稱其規(guī)模和精確度超過(guò)了KITTI、百度的ApolloScape和Udacity自動(dòng)駕駛汽車數(shù)據(jù)集等公共數(shù)據(jù)集。
數(shù)據(jù)集下載鏈接:
https://d3u7q4379vrm7e.cloudfront.net/download
Scale為nuScenes提供了數(shù)據(jù)注釋,公司首席執(zhí)行官表示,這是有史以來(lái)發(fā)布的最健壯的開(kāi)放源碼,基于多傳感器自動(dòng)駕駛數(shù)據(jù)集。
NuTonomy編輯了1000多個(gè)場(chǎng)景,其中包含140萬(wàn)幅圖像、40萬(wàn)次激光雷達(dá)掃描(判斷物體之間距離)和110萬(wàn)個(gè)三維邊界框(用RGB相機(jī)、雷達(dá)和激光雷達(dá)組合檢測(cè)的物體)。
它們已經(jīng)通過(guò)Scale的傳感器融合注釋API進(jìn)行了細(xì)致的標(biāo)簽,該API利用人工智能和人類團(tuán)隊(duì)進(jìn)行數(shù)據(jù)注釋,并且從本周開(kāi)始面向行業(yè)開(kāi)源。
近年來(lái),越來(lái)越多的公司在加入這個(gè)行列。比如,早些時(shí)候全球紅外系統(tǒng)供應(yīng)商Flir發(fā)布了基于熱成像儀拍攝的1萬(wàn)多張帶標(biāo)注圖片。Mapillary公司發(fā)布了25000張街道級(jí)別的圖像,以及加州大學(xué)伯克利分校上傳了10萬(wàn)張基于RGB相機(jī)拍攝的視頻序列。
之所以被稱之為比之前其他公司和機(jī)構(gòu)發(fā)布的數(shù)據(jù)集更為全面,是因?yàn)榇舜螖?shù)據(jù)搜集使用了6個(gè)攝像頭、1個(gè)激光雷達(dá)、 5個(gè)毫米波雷達(dá)、GPS及慣導(dǎo)系統(tǒng),包括對(duì)于自動(dòng)駕駛系統(tǒng)有挑戰(zhàn)性的復(fù)雜道路、天氣條件等。
車輛傳感器設(shè)置
使用兩輛具有相同傳感器布局的雷諾Zoe汽車在波士頓和新加坡開(kāi)車,收集數(shù)據(jù)。有關(guān)傳感器的位置,請(qǐng)參閱上圖。傳感器發(fā)布數(shù)據(jù)如下:
1x旋轉(zhuǎn)激光雷達(dá):
5倍長(zhǎng)距離雷達(dá)傳感器:
相機(jī)方向和重疊請(qǐng)參閱下圖:
20Hz捕獲頻率
32個(gè)頻道
360°水平視場(chǎng),+ 10°至-30°垂直視場(chǎng)
80m-100m范圍,可用返回70米,精度±2厘米
每秒高達(dá)~139百萬(wàn)點(diǎn)
用于77GHz
13Hz捕獲頻率
使用調(diào)頻連續(xù)波在一個(gè)周期內(nèi)獨(dú)立測(cè)量距離和速度
距離最遠(yuǎn)250米
速度精度為±0.1 km / h
sa'n6x相機(jī):
12Hz捕獲頻率
1 / 1.8英寸CMOS傳感器,1600x1200分辨率
Bayer8格式,每像素1字節(jié)編碼
1600x900 ROI從原始分辨率中裁剪,以減少處理和傳輸帶寬
曝光時(shí)間限制為最大20 ms的自動(dòng)曝光
圖像被解壓縮為BGR格式并壓縮為JPEG
傳感器校準(zhǔn)
要獲得高質(zhì)量的多傳感器數(shù)據(jù)集,必須校準(zhǔn)每個(gè)傳感器的外在和內(nèi)在因素。根據(jù)表示相對(duì)于自我框架的外部坐標(biāo),即后車軸的中點(diǎn)。最相關(guān)的步驟如下所述:
LIDAR外在因素:
使用激光襯墊來(lái)精確測(cè)量激光雷達(dá)與自我框架的相對(duì)位置。
相機(jī)外在因素:
在相機(jī)和LIDAR傳感器前面放置一個(gè)立方體形狀的校準(zhǔn)目標(biāo)。校準(zhǔn)目標(biāo)由具有已知圖案的三個(gè)正交平面組成。在檢測(cè)到圖案后,我們通過(guò)對(duì)齊校準(zhǔn)目標(biāo)的平面來(lái)計(jì)算從相機(jī)到LIDAR的變換矩陣。給定上面計(jì)算的LIDAR到自我?guī)儞Q,然后可以計(jì)算相機(jī)到自我?guī)儞Q和所得到的外部參數(shù)。
雷達(dá)外在因素:
將雷達(dá)安裝在水平位置。然后通過(guò)在城市環(huán)境中駕駛來(lái)收集雷達(dá)測(cè)量值。在過(guò)濾移動(dòng)物體的雷達(dá)返回后,校準(zhǔn)偏航角,以最小化靜態(tài)物體的補(bǔ)償范圍速率。
相機(jī)內(nèi)在校準(zhǔn):
使用具有一組已知模式的校準(zhǔn)目標(biāo)板來(lái)推斷相機(jī)的固有和失真參數(shù)。
傳感器同步
為了在激光雷達(dá)和攝像機(jī)之間實(shí)現(xiàn)良好的交叉模態(tài)數(shù)據(jù)對(duì)準(zhǔn),當(dāng)頂部激光雷達(dá)掃過(guò)攝像機(jī)FOV的中心時(shí),會(huì)觸發(fā)攝像機(jī)的曝光。圖像的時(shí)間戳是曝光觸發(fā)時(shí)間;并且LIDAR掃描的時(shí)間戳是實(shí)現(xiàn)當(dāng)前LIDAR幀的完全旋轉(zhuǎn)的時(shí)間。鑒于相機(jī)的曝光時(shí)間幾乎是瞬時(shí)的,這種方法通??梢援a(chǎn)生良好的數(shù)據(jù)對(duì)齊。請(qǐng)注意,攝像機(jī)以12Hz運(yùn)行,而激光雷達(dá)以20Hz運(yùn)行。12個(gè)相機(jī)曝光在20個(gè)LIDAR掃描中盡可能均勻地展開(kāi),因此并非所有LIDAR掃描都具有相應(yīng)的相機(jī)幀。將攝像機(jī)的幀速率降低到12Hz有助于降低感知系統(tǒng)的計(jì)算,帶寬和存儲(chǔ)要求。
參與此次數(shù)據(jù)標(biāo)注的Scale公司,自2016年成立以來(lái),已經(jīng)為包括Lyft、Voyage、通用汽車、Zoox和Embark在內(nèi)的客戶標(biāo)出了超過(guò)20億英里的行駛里程。
今年8月,Scale宣布了一輪1800萬(wàn)美元融資,迄今該公司已籌集到2270萬(wàn)美元,報(bào)告稱去年公司收入增長(zhǎng)了15倍。
數(shù)據(jù)標(biāo)注的對(duì)象通常有圖像、語(yǔ)音、文本、視頻、雷達(dá)等。圖像類主要針對(duì)視覺(jué)識(shí)別類公司,所要標(biāo)注的圖像內(nèi)容包括人像、建筑物、植物、道路、交通標(biāo)志、車輛等,每項(xiàng)內(nèi)容下面,又會(huì)根據(jù)不同的特征進(jìn)行不同標(biāo)簽的標(biāo)注。
業(yè)內(nèi)人士表示,一般而言,客戶會(huì)有自己的需求,公司依規(guī)而行。目前在國(guó)內(nèi),阿里巴巴、騰訊、百度等大型互聯(lián)網(wǎng)公司,擁有海量的數(shù)據(jù)標(biāo)注需求,單個(gè)訂單量都是以億元為單位。如此大的訂單,基本都是分包給不同的數(shù)據(jù)標(biāo)注公司進(jìn)行處理,國(guó)內(nèi)外還沒(méi)有一家公司能夠處理這樣大的訂單。
另外還有自動(dòng)駕駛公司,以及視覺(jué)圖像處理的公司,也有著數(shù)據(jù)標(biāo)注的強(qiáng)烈的需求,他們需要用標(biāo)注后的數(shù)據(jù)來(lái)訓(xùn)練人工智能,而人工智能的日趨成熟,是永無(wú)止境的。
業(yè)內(nèi)人士透露,數(shù)據(jù)標(biāo)注是一個(gè)簡(jiǎn)單又困難的事情。簡(jiǎn)單之處在于,確定了篩選規(guī)則以后,操作人員只需依規(guī)操作即可,沒(méi)有執(zhí)行上的難度,而困難之處在于,數(shù)據(jù)標(biāo)注本質(zhì)上是要獲得更準(zhǔn)確,更精細(xì)化的數(shù)據(jù)結(jié)果,高質(zhì)量的數(shù)據(jù)是業(yè)內(nèi)急需的。
“在數(shù)據(jù)采集上,由原來(lái)的普通行車記錄儀的數(shù)據(jù)采集,到現(xiàn)在已有諸多公司開(kāi)始使用特殊采集設(shè)備采集行車數(shù)據(jù)。在數(shù)據(jù)標(biāo)注上,原來(lái)的2D標(biāo)注到3D標(biāo)注,再到語(yǔ)義分割,3D點(diǎn)云的標(biāo)注需求,對(duì)數(shù)據(jù)的要求越來(lái)越專業(yè)”,龍貓數(shù)據(jù)CEO昝智表示,“我們也正不斷開(kāi)發(fā)新的標(biāo)注工具,適配自動(dòng)駕駛行業(yè)的發(fā)展?!?/p>
昝智表示,未來(lái)至少10年內(nèi),各領(lǐng)域?qū)?a href="http://ttokpm.com/tags/ai/" target="_blank">AI數(shù)據(jù)的獲取需求只增不減。在發(fā)展的不同階段,龍貓數(shù)據(jù)也將不斷關(guān)注技術(shù)更新,適配新的需求。
而在在行業(yè)內(nèi)特斯拉是第一家規(guī)?;杉瘮?shù)據(jù)的汽車制造商,他們很早就用自己的車輛來(lái)收集數(shù)據(jù),為無(wú)人駕駛技術(shù)研發(fā)提供基礎(chǔ)數(shù)據(jù)。
由于沒(méi)有獲取車輛數(shù)據(jù)源的通道,目前有很多汽車廠商都在模仿特斯拉的做法,通過(guò)在自己公司生產(chǎn)的車輛上安裝采集設(shè)備,獲取車輛數(shù)據(jù)并回傳到平臺(tái),這是一種最直接的方式,也是相對(duì)比較明智的做法。
目前,全球主流的自動(dòng)駕駛測(cè)試數(shù)據(jù)集包括Cityscapes、Imagenet(ILSVRC)、COCO、PASCAL VOC、CIFAR、MNIST、KITTI、LFW等。
Cityscapes
Cityscapes是由奔馳與2015年推出的,提供無(wú)人駕駛環(huán)境下的圖像分割數(shù)據(jù)集。用于評(píng)估視覺(jué)算法在城區(qū)場(chǎng)景語(yǔ)義理解方面的性能。
Cityscapes包含50個(gè)城市不同場(chǎng)景、不同背景、不同季節(jié)的街景,提供5000張精細(xì)標(biāo)注的圖像、20000張粗略標(biāo)注的圖像、30類標(biāo)注物體。用PASCAL VOC標(biāo)準(zhǔn)的 intersection-over-union(IoU)得分來(lái)對(duì)算法性能進(jìn)行評(píng)價(jià)。
Cityscapes是目前公認(rèn)的自動(dòng)駕駛領(lǐng)域內(nèi)最具權(quán)威性和專業(yè)性的圖像語(yǔ)義分割評(píng)測(cè)集之一,其關(guān)注真實(shí)場(chǎng)景下的城區(qū)道路環(huán)境理解,任務(wù)難度更高且更貼近于自動(dòng)駕駛等熱門需求。
KITTI
KITTI是由德國(guó)卡爾斯魯厄理工學(xué)院和豐田芝加哥技術(shù)研究院于2012年聯(lián)合創(chuàng)辦,是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集。
KITTI用于評(píng)測(cè)3D目標(biāo)(機(jī)動(dòng)車、非機(jī)動(dòng)車、行人等)檢測(cè)、3D 目標(biāo)跟蹤、道路分割等計(jì)算機(jī)視覺(jué)技術(shù)在車載環(huán)境下的性能。
KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù),每張圖像中多達(dá)15輛車和30個(gè)行人,還有各種程度的遮擋。
ILSVRC
ILSVRC也就是通常所說(shuō)的Imagenet數(shù)據(jù)集,是美國(guó)斯坦福的計(jì)算機(jī)科學(xué)家李飛飛模擬人類的識(shí)別系統(tǒng)建立的。
它是目前深度學(xué)習(xí)圖像領(lǐng)域應(yīng)用較多的一個(gè)數(shù)據(jù)集,關(guān)于圖像分類、定位、檢測(cè)等研究工作大多基于此數(shù)據(jù)集展開(kāi)。Imagenet數(shù)據(jù)集有1400多萬(wàn)幅圖片,涵蓋2萬(wàn)多個(gè)類別;其中有超過(guò)百萬(wàn)的圖片有明確的類別標(biāo)注和圖像中物體位置的標(biāo)注。
COCO
COCO(common objects Dataset)數(shù)據(jù)集,它由微軟贊助,除了基本的圖像的標(biāo)注信息外,還有對(duì)圖像的語(yǔ)義文本描述,COCO數(shù)據(jù)集的特點(diǎn)是開(kāi)源,這使得它在近三來(lái)在圖像分割語(yǔ)義理解領(lǐng)域取得了巨大的進(jìn)展,Google的開(kāi)源show and tell生成模型就是在此數(shù)據(jù)集上測(cè)試的。
PASCAL VOC
PASCAL VOC是視覺(jué)對(duì)象的分類識(shí)別和檢測(cè)的一個(gè)基準(zhǔn)測(cè)試,提供了檢測(cè)算法和學(xué)習(xí)性能的標(biāo)準(zhǔn)圖像注釋數(shù)據(jù)集和標(biāo)準(zhǔn)的評(píng)估系統(tǒng)。
雖然它在2012年后便不再舉辦,但其數(shù)據(jù)集圖像質(zhì)量好,標(biāo)注完備,非常適合用來(lái)測(cè)試算法性能。
CIFAR
CIFAR(Canada Institude For Advanced Research)包括CIFAR 10和CIFAR 100兩個(gè)數(shù)據(jù)集,它們被標(biāo)記為8000萬(wàn)個(gè)微型圖像數(shù)據(jù)集的子集。
這些數(shù)據(jù)集是由Vinod Nair、Alex Krizhevsky和Geoffrey Hinton收集的。CIFAR對(duì)于圖像分類算法測(cè)試來(lái)說(shuō)是一個(gè)非常不錯(cuò)的中小規(guī)模數(shù)據(jù)集。
MNIST
MNIST(THE MNIST DATABASE of handwritten digits)號(hào)稱深度學(xué)習(xí)領(lǐng)域的“Hello World!”,是一個(gè)手寫的 數(shù)字?jǐn)?shù)據(jù)集。當(dāng)前主流深度學(xué)習(xí)框架幾乎無(wú)一例外將MNIST數(shù)據(jù)集的處理作為介紹及入門第一教程。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24619 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
782文章
13621瀏覽量
165938
原文標(biāo)題:又多了一種數(shù)據(jù)集!nuTonomy發(fā)布自動(dòng)駕駛數(shù)據(jù)集nuScenes
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論