全球數(shù)億人的日常通勤都依靠公共交通工具,其中超過(guò)半數(shù)在出行時(shí)會(huì)選擇乘坐公交車。隨著全球城市的不斷發(fā)展,通勤一族希望了解公共交通工具尤其是公交車可能出現(xiàn)的延誤時(shí)間,以便提前安排出行計(jì)劃。因?yàn)楣卉囃鶗?huì)遇到交通擁堵。Google 地圖的公交路線實(shí)時(shí)數(shù)據(jù)由眾多公共交通運(yùn)營(yíng)機(jī)構(gòu)提供,但因技術(shù)和資源限制,仍有許多公共交通運(yùn)營(yíng)機(jī)構(gòu)無(wú)法提供這些信息。
近日,Google 地圖為全球數(shù)百個(gè)城市(包括亞特蘭大、薩格勒布、伊斯坦布爾、馬尼拉等),推出了基于機(jī)器學(xué)習(xí)的實(shí)時(shí)公交延誤預(yù)測(cè)服務(wù)。如此一來(lái),六千多萬(wàn)人便能更準(zhǔn)確地把握出行時(shí)間。這套系統(tǒng)于三周前率先在印度發(fā)布,系統(tǒng)采用機(jī)器學(xué)習(xí)模型,整合了實(shí)時(shí)汽車交通預(yù)測(cè)與公交路線和站臺(tái)數(shù)據(jù),以便更準(zhǔn)確地預(yù)測(cè)公交出行的時(shí)間。
模型初探
許多城市的公共交通運(yùn)營(yíng)機(jī)構(gòu)并不提供實(shí)時(shí)預(yù)測(cè)數(shù)據(jù),在對(duì)這類城市的用戶進(jìn)行調(diào)查后,我們發(fā)現(xiàn),他們借助一種巧妙方法來(lái)粗略估計(jì)公交車的延誤時(shí)間:使用 Google 地圖的駕駛路線功能。然而,公交車并非只是大型汽車。公交車在站臺(tái)???,加速、減速和轉(zhuǎn)彎都需要更長(zhǎng)時(shí)間,有時(shí)甚至擁有專屬道路特權(quán)(如公交專用車道)。
舉個(gè)例子,我們于周三下午在悉尼測(cè)試了一次公交車之旅。相較于公交時(shí)刻表(黑點(diǎn)),公交車的實(shí)際行駛時(shí)間(藍(lán)點(diǎn))會(huì)晚幾分鐘。汽車行駛速度(紅點(diǎn))確實(shí)會(huì)對(duì)公交車造成影響,例如行駛至 2000 米處的減速情形。但與汽車相比,公交車在 800 米標(biāo)記處的長(zhǎng)時(shí)間??恳矔?huì)大大減慢自身的速度。
為了開(kāi)發(fā)模型,我們從公共交通運(yùn)營(yíng)機(jī)構(gòu)的實(shí)時(shí)反饋中獲得了公交車位置序列,從中提取訓(xùn)練數(shù)據(jù),并將其與汽車在公交行駛路線上的行駛速度進(jìn)行調(diào)整。我們將該模型劃分為時(shí)間線單元(表示在街區(qū)和站臺(tái)??浚?,每個(gè)單元對(duì)應(yīng)一段公交車的時(shí)間線,并預(yù)測(cè)持續(xù)時(shí)間。由于報(bào)告頻率低、再加上公交車行駛速度較快、街區(qū)和站臺(tái)??繒r(shí)間較短,相鄰的觀測(cè)數(shù)據(jù)可能會(huì)跨越多個(gè)單元。
此結(jié)構(gòu)非常適合于神經(jīng)序列模型,如近期在語(yǔ)音處理和機(jī)器翻譯等領(lǐng)域成功實(shí)現(xiàn)應(yīng)用的模型。而我們的模型更加簡(jiǎn)單。每個(gè)單元會(huì)獨(dú)立預(yù)測(cè)其持續(xù)時(shí)間,最終的輸出結(jié)果為每單元預(yù)測(cè)時(shí)間的總和。
與許多序列模型不同,我們的模型并不需要學(xué)習(xí)組合單元輸出,也無(wú)需通過(guò)單元序列傳遞狀態(tài)。相反,序列結(jié)構(gòu)讓我們能夠共同:(1) 訓(xùn)練一個(gè)單元持續(xù)時(shí)間的模型,(2) 優(yōu)化“線性系統(tǒng)”,其中每條觀測(cè)到的軌跡會(huì)將總持續(xù)時(shí)間分配給其跨越的所有單元。
為模擬從藍(lán)色站臺(tái)開(kāi)始的公交車行程 (a),模型 (b) 將藍(lán)色站臺(tái)、三個(gè)路段和白色站臺(tái)等各處的時(shí)間線單元延誤預(yù)測(cè)進(jìn)行相加
構(gòu)建“地點(diǎn)”模型
除了因交通擁堵導(dǎo)致的延誤之外,我們?cè)谟?xùn)練模型時(shí)還詳細(xì)考慮了公交車路線,以及行程中各地點(diǎn)與時(shí)段的交通信號(hào)燈。
即便是在小區(qū)內(nèi),該模型也需根據(jù)各個(gè)街道的路況,以不同方式將汽車速度預(yù)測(cè)轉(zhuǎn)化為公交車速度。如下方左圖所示,模型預(yù)測(cè)了公交車行程中汽車與公交車速度之比,我們用不同顏色對(duì)其進(jìn)行標(biāo)記。
紅色(表示車速較慢)的部分符合公交車在站臺(tái)附近減速的實(shí)況。針對(duì)突出顯示的綠色路段(表示車速較快),我們查看了相關(guān)街景,了解到該模型發(fā)現(xiàn)了一條公交車專用的轉(zhuǎn)彎車道。順便一提,這條路線位于澳大利亞,該國(guó)右轉(zhuǎn)車速低于左轉(zhuǎn)車速,而這也是不考慮地點(diǎn)特殊性的模型會(huì)忽略的另一方面。
為獲取特定街道、街區(qū)和城市的獨(dú)特屬性,我們讓該模型學(xué)習(xí)不同大小區(qū)域的表示層次結(jié)構(gòu),通過(guò)地區(qū)位置的總嵌入,在模型中按不同比例表示時(shí)間線單元的地理位置(即道路或站臺(tái)的精確定位)。
我們首先訓(xùn)練模型,對(duì)特殊情況下的細(xì)粒度位置進(jìn)行逐漸加重的處罰,并使用結(jié)果進(jìn)行特征選擇。這樣就可以確保考慮到百米影響公交行為的復(fù)雜區(qū)域中的細(xì)粒度特征,而不像開(kāi)放的鄉(xiāng)村那樣細(xì)致的特征很少。
訓(xùn)練期間,我們還模擬了訓(xùn)練數(shù)據(jù)以外地區(qū)可能的后續(xù)查詢。在每個(gè)訓(xùn)練批次中,我們會(huì)隨機(jī)抽取一些示例,隨機(jī)選取某一比例并丟棄地理特征。某些示例擁有準(zhǔn)確的公交路線和街道信息,某些僅包含街區(qū)或城市位置,還有一些則沒(méi)有任何地理環(huán)境信息。如此一來(lái),模型便能做好充足準(zhǔn)備,從而在后續(xù)查詢訓(xùn)練數(shù)據(jù)不足的地區(qū)。我們通過(guò)匿名用戶的公交行程,并使用與 Google 地圖在商業(yè)繁忙、停車難度及其他特征的相同數(shù)據(jù)集,來(lái)擴(kuò)展我們的培訓(xùn)語(yǔ)料庫(kù)覆蓋范圍。然而,即使是這類數(shù)據(jù)也無(wú)法涵蓋全球大部分公交路線,因此我們必須大幅提升模型的泛化能力,使其適應(yīng)更多新地區(qū)。
學(xué)習(xí)地方性節(jié)奏
不同城市和街區(qū)的運(yùn)轉(zhuǎn)節(jié)奏各有差異,因此我們讓模型將其位置表示與時(shí)間信號(hào)進(jìn)行結(jié)合。
公交車對(duì)時(shí)間的依賴包含不同情形:周二下午 6:30 至 6:45,一些街區(qū)的下班高峰可能已逐漸淡去,另一些街區(qū)可能在忙于用餐,而冷清的小鎮(zhèn)可能已是萬(wàn)籟俱寂。我們的模型學(xué)習(xí)嵌入了局部地區(qū)的當(dāng)日時(shí)間與星期信號(hào),當(dāng)此類信號(hào)與地點(diǎn)表示相結(jié)合時(shí),模型便可獲取顯著的局部地區(qū)變化(如上下班高峰期在公交站臺(tái)等候的人群),而我們無(wú)法通過(guò)交通情況觀測(cè)這類變化。
這種嵌入會(huì)向一天的時(shí)間分配四維向量。與大多數(shù)神經(jīng)網(wǎng)絡(luò)內(nèi)部架構(gòu)不同,四維空間幾乎無(wú)法實(shí)現(xiàn)可視化。因此,讓我們以如下所示的藝術(shù)渲染圖為例,向您展示此模型如何在其中的三個(gè)維度內(nèi)安排一天的時(shí)間。此模型確實(shí)知道時(shí)間具有周期性,因而會(huì)將其放在“循環(huán)”內(nèi)。但此循環(huán)并非只是時(shí)鐘表面的平面圓環(huán)。
此模型學(xué)習(xí)了大量彎曲 (wide bends),讓其他神經(jīng)元組成簡(jiǎn)單的規(guī)則,以輕松區(qū)分“午夜”或“傍午”等概念。而在此類概念中,公交車的行駛狀態(tài)不會(huì)產(chǎn)生太大變化。另一方面,不同街區(qū)和城市的夜間通勤模式差異甚大。針對(duì)下午 4 點(diǎn)至晚上 9 點(diǎn)之間的時(shí)段,模型似乎創(chuàng)建了更復(fù)雜的“折皺”模式,從而能對(duì)每個(gè)城市的高峰時(shí)間進(jìn)行更復(fù)雜的推理。
效果圖作者:Will Cassella,所用貼圖來(lái)源:textures.com,所用 HERI 來(lái)源:hdrihaven。模型的時(shí)間表示(四維空間中的三個(gè)維度)形成循環(huán),在此處您可以將其重新想象成手表的表盤。越依賴位置的時(shí)間窗口(如下午 4 點(diǎn)至 9 點(diǎn),上午 7 點(diǎn)至 9 點(diǎn))會(huì)獲得更復(fù)雜的“折皺”,而沒(méi)有特征的大窗口(如凌晨 2 點(diǎn)至 5點(diǎn))則會(huì)發(fā)生平面彎曲,進(jìn)而生成更簡(jiǎn)單的規(guī)則。
借助此時(shí)間表示與其他信號(hào),我們可在車速恒定的情況下預(yù)測(cè)復(fù)雜模式。例如,在乘坐公交車完成新澤西州的 10 公里行程時(shí),我們的模型能夠了解午餐時(shí)間的人群狀況以及工作日的高峰時(shí)段:
全面整合
在對(duì)模型進(jìn)行充分訓(xùn)練后,讓我們看看它對(duì)上例中悉尼公交車之旅的了解程度。
如果基于當(dāng)日的車輛交通數(shù)據(jù)運(yùn)行模型,我們會(huì)得到如下所示的綠色預(yù)測(cè)點(diǎn)(該模型無(wú)法獲取所有信息,例如,模型檢測(cè)到公交車在 800 米僅??苛?10 秒,而實(shí)際的??繒r(shí)間為 31 秒多)。與公交時(shí)刻表和汽車行駛時(shí)間相比,我們的預(yù)測(cè)與公交車實(shí)際運(yùn)行時(shí)間的差異相對(duì)較小,為 1.5 分鐘。
未來(lái)行程
目前,我們的模型尚缺一類數(shù)據(jù),即公交時(shí)刻表。截止目前,經(jīng)試驗(yàn)證明,官方機(jī)構(gòu)提供的公交車時(shí)刻表尚無(wú)法對(duì)我們的預(yù)測(cè)做出顯著改進(jìn)。在某些城市,變化無(wú)常的交通狀況可能會(huì)打亂出行計(jì)劃。而在其他城市,公交車時(shí)刻表則非常精準(zhǔn),這或許是因?yàn)楫?dāng)?shù)毓步煌ㄟ\(yùn)營(yíng)機(jī)構(gòu)仔細(xì)考慮了本地的交通狀況。而我們可以從數(shù)據(jù)中推斷出這些。
我們將繼續(xù)進(jìn)行實(shí)驗(yàn),更好地考慮行程限制和其他影響因素,從而推動(dòng)更精確的預(yù)測(cè),為用戶的出行計(jì)劃提供便利。此外,我們希望能為您的出行計(jì)劃提供幫助。祝您旅途愉快!
-
Google
+關(guān)注
關(guān)注
5文章
1754瀏覽量
57380 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132315
原文標(biāo)題:使用機(jī)器學(xué)習(xí)預(yù)測(cè)公交車延誤
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論