0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

基于強化學習的自動駕駛預測控制技術

ml8z_IV_Technol ? 來源:未知 ? 作者:胡薇 ? 2018-10-08 08:48 ? 次閱讀

1介紹

如今,道路上車輛越來越多,道路運輸系統(tǒng)變得越來越繁忙。為了使交通和移動更加智能化和高效,自動駕駛汽車被認為是有前途的解決方案。隨著外部傳感、運動規(guī)劃和車輛控制等方面取得顯著的成果,自動駕駛汽車的自主創(chuàng)新能夠很好地幫助車輛在預先設定的場景下獨立運行。

通常,自動駕駛車輛中的系統(tǒng)架構由三個主要處理模塊組成,參見圖1作為圖示[2]。傳感器和數(shù)字地圖提供的數(shù)據(jù)在感知和定位模塊中進行,以呈現(xiàn)駕駛情況的代表性特征;運動規(guī)劃模塊旨在根據(jù)給定的傳感器和地圖信息生成適當?shù)臎Q策策略并得出最佳軌跡;軌跡控制器模塊的目的是計算處理加速和轉(zhuǎn)向的具體控制動作,以維持現(xiàn)有的軌跡[ 3 ]。

圖1.通用自動駕駛汽車的系統(tǒng)架構[2]

決策和路徑規(guī)劃是自動駕駛汽車的關鍵技術。為了討論軌跡生成步驟,目前已經(jīng)提出了幾種技術。例如,提出了一種名為“逐個學習”的數(shù)據(jù)驅(qū)動控制框架,用于從歷史駕駛數(shù)據(jù)中訓練控制器以將車輛作為人類駕駛員來操作。具體來說,人工神經(jīng)網(wǎng)絡( ANN ) [ 4 ]和逆最優(yōu)控制[ 5 ]已經(jīng)被用于再現(xiàn)自動駕駛車輛中的人類駕駛行為。然而,當歷史數(shù)據(jù)集中沒有當前駕駛情況時,車輛無法平穩(wěn)運行。作為替代方案,模型預測控制(MPC)[6]用于預測駕駛員行為并在成本函數(shù)中實施多個約束,駕駛狀態(tài)預測的精度決定了MPC方法的控制性能[7]。自動駕駛和人類駕駛員之間的最大區(qū)別是能否確保乘客的安全和舒適。如何創(chuàng)建可行、安全和舒適的參考軌跡仍然是一個嚴峻的挑戰(zhàn)。

在這項工作中,為自動駕駛混合動力電動汽車(HEV)開發(fā)了基于強化學習的預測控制框架。提出的方法是雙層的,高層是一個類似人類的駕駛模型,它可以生成約束。底層是基于強化學習( RL )的控制器,能夠提高自動駕駛混合動力汽車的能效。所提出的框架被驗證用于汽車跟隨模型中的縱向控制。結果表明,該方法能夠重現(xiàn)人類駕駛員的駕駛風格,提高燃油經(jīng)濟性。

這項工作的貢獻包含兩個方面。首先是適應訓練數(shù)據(jù)集中不存在的當前駕駛情況。提出誘導矩陣范數(shù)(IMN)來比較當前和歷史駕駛數(shù)據(jù)之間的差異并擴展訓練數(shù)據(jù)集;其次是將軌跡生成步驟與自動駕駛HEV的能量效率改進相結合?;趶母邔荧@得的參考軌跡,基于RL的控制器在成本函數(shù)中實施電池和燃料消耗約束以促進燃料經(jīng)濟性。

本文的其余部分組織如下,第Ⅱ節(jié)介紹了更高級別的驅(qū)動程序建模方法,第III節(jié)描述了混合動力汽車動力總成的低級RL控制器,第Ⅳ節(jié)給出了模擬結果,第V節(jié)總結了論文。

2.高層:駕駛員建模

本節(jié)展示了高層類人駕駛模型。首先,定義汽車跟隨模型中的參數(shù);然后,介紹了駕駛員模型的訓練方法;最后,描述了未來加速度的預測過程。

A.汽車跟隨模型

在汽車跟隨模型中,自動駕駛HEV被命名為目標車輛,前方自動駕駛HEV被稱為前方車輛。定義δt= [dt,vt]是時刻t的目標車輛的狀態(tài),其中dt和vt分別是縱向位置和速度,類似地,δft= [dft,vft]是在時刻t的前方車輛的狀態(tài),時刻t的行駛狀況由特征ωt= [drt,vrt,vt]表示,其中drt= dft-d是相對距離,vrt= vft-v是相對速度。

在高層上,駕駛員模型旨在生成一個加速度序列At= [ At,…,At + N - 1],以指導目標車輛的運行,N = T /△T表示總時間步長,T是預測的時間間隔,而△T是駕駛員模型的采樣時間。基于該加速序列,基于RL的控制器用于導出底層的自動駕駛HEV的功率分配控制策略。

B.駕駛員模型訓練

基于歷史駕駛數(shù)據(jù)ω1 : t= [ω1,…,ωt),駕駛員模型的目標是預測接近人類駕駛員實際操作的加速度序列。對于真實的駕駛數(shù)據(jù),人類駕駛員的控制策略被建模為隱馬爾科夫鏈( HMC ),其中mt∈{ 1,…M }是用于復制人類駕駛員演示的加速度命令。在時刻t的隱模式,ot= [ωt,at]是時刻t的觀察向量,包括駕駛情況和加速度。

對于HMC,隱藏模式通過概率分布與觀測相關,如下所示

其中假設轉(zhuǎn)移概率P(ωk,ak| mk)符合高斯分布。特別地,HMC模型的參數(shù)包括初始分布P ( m1)、總隱藏模式M、轉(zhuǎn)移概率πij意味著從第I模式到第j模式的轉(zhuǎn)移,以及高斯分布的協(xié)方差和平均矩陣。期望最大化算法和貝葉斯信息準則被用來從歷史駕駛數(shù)據(jù)[ 8 ]中學習這些參數(shù)。

C.當前加速度的計算

高斯混合回歸用于計算當前加速度,給出行駛情況序列ω1 : t,如下[ 3 ]

其中

αk,t表示混合系數(shù),并且被計算為處于模式mt= k的概率[3]

D.預測未來加速度

當前的行駛狀況ωt= [drt,vrt,vt],當前的加速度at和離散時間△t是先前已知的,可以通過假設前方車輛的速度恒定來計算未來的行駛狀況。

簡單來說,Eq.(4)可以重新表述為狀態(tài)空間方程

最后,可以通過迭代以下表達式來導出預測范圍T上的未來加速序列

3.底層:RL控制器

本節(jié)介紹了基于RL的節(jié)油控制器。首先,計算加速度序列的轉(zhuǎn)移概率矩陣(TPM);然后,提出誘導矩陣范數(shù)(IMN)來評估歷史和當前加速度數(shù)據(jù)之間的差異;此外,制定了自主HEV的能效改進問題的成本函數(shù);最后,構造了RL方法框架,利用Q學習算法搜索最優(yōu)控制策略。

A.加速序列的TPM

加速序列被視為有限馬爾可夫鏈(MC),其轉(zhuǎn)移概率通過統(tǒng)計方法計算為

其中Nik,j是從車輛速度vk發(fā)生從ai到aj的轉(zhuǎn)換的次數(shù),Nik是從車速vk的ai開始的總轉(zhuǎn)換計數(shù),k是離散時間步長,N是離散加速指數(shù)。加速序列的TPM P填充有元素pik,j。歷史和當前加速序列的TPM分別表示為P1和P2。

B.誘導矩陣范數(shù)

當歷史駕駛數(shù)據(jù)集不包含當前駕駛情況時,高層的駕駛員模型不能生成有效的加速命令來指導自主HEV的操作。因此,引入誘導矩陣范數(shù)(IMN)來量化歷史和當前加速度序列的TPM差異

其中sup描繪了標量的上確界,x是N×1維非零矢量。方程式中的二階范數(shù)。為了方便計算,可以將(8)重新表述為以下表達式

其中PT表示矩陣P的轉(zhuǎn)置,并且λi(P)表示對于i = 1,...,N的矩陣P的特征值。注意,IMN越接近零,TPM P1與P2越相似。

C.能源效率的成本函數(shù)

自動駕駛HEV的能效改進的目標是在部件的約束下搜索最優(yōu)控制,以提高燃料經(jīng)濟性,同時保持有限預測范圍內(nèi)的電荷維持約束為

其中mf是燃料消耗率,SOC是電池的充電狀態(tài),θ是限制SOC終端值的大的正加權因子,而SOCref是滿足電荷維持約束的預定因子[9]。表1列出了自動駕駛HEV的主要部件參數(shù)。

D.RL方法

預測加速度序列和車輛參數(shù)的TPM是用于最優(yōu)控制計算的RL方法的輸入。在RL構造中,學習代理與隨機環(huán)境交互。交互被建模為五元組(S,A,P,R,β),其中S和A是狀態(tài)變量和控制動作集,P代表功率請求的TPM,R代表獎勵集合,β∈(0,1)表示折扣因子。

控制策略ψ是控制命令a的分布。有限預期折現(xiàn)和累積獎勵總結為最優(yōu)值函數(shù)

為了在每個時刻推導出最佳控制動作,Eq.(11)遞歸地重新表述為

其中psa,s'表示使用動作a從狀態(tài)s到狀態(tài)s'的轉(zhuǎn)換概率。基于方程式中的最優(yōu)值函數(shù)確定最優(yōu)控制策略。(12)

此外,動作值函數(shù)及其相應的最優(yōu)度量描述如下[10]

最后,Q學習算法中的動作值函數(shù)的更新標準由表示

4.模擬結果與討論

本節(jié)將對所提出的基于學習的預測控制框架進行評估。首先,討論了加速序列預測的驅(qū)動模型的性能。此外,說明了基于RL的燃料節(jié)省策略的控制有效性。

A.驗證駕駛員模型

第II節(jié)中描述的駕駛員模型用于預測不同駕駛情況下的加速序列。均方誤差(MSE)用于量化預測加速序列和實際加速序列之間的差異。圖2和圖3示出了兩個實際加速序列及其對于兩個駕駛情況A和B的預測值。對于圖2,假設自主HEV的當前駕駛風格存在于歷史駕駛數(shù)據(jù)集中。相反,圖3中的當前駕駛風格在訓練數(shù)據(jù)中不存在。

圖2.情況A的預測和實際加速度序列。

很明顯,加速度序列的預測值非常接近圖2中駕駛情況A的實際值。這表明,當歷史駕駛數(shù)據(jù)集預先遍歷當前駕駛情況A時,駕駛員模型可以達到極好的精度。然而,當當前駕駛狀況B在訓練數(shù)據(jù)中缺失時,駕駛員模型不能為自動駕駛HEV操作提供準確的指導,參見圖3作為說明。圖2中的MSE等于1.57,這在預測可用性方面優(yōu)于圖3中的MSE = 4.43。

圖3.情況b的預測和實際加速度序列

B.RL控制器的驗證

基于歷史和當前加速度序列,第III - A節(jié)中描述的TPM的計算過程被用于計算駕駛情況A和b中的加速度TPM。IMN被用于量化這兩個序列之間的差異。因為IMN值超過預定閾值,這意味著當前駕駛情況不同于歷史駕駛數(shù)據(jù),因此預測加速度不精確。相反,較小的IMN值意味著從歷史數(shù)據(jù)中學習的預測加速度序列可能是準確的。

圖4和圖5示出了分別對應于圖2和圖3中的兩種駕駛情況的不同車速水平下的IMN值。這兩個數(shù)字表明,IMN值超過預定義閾值的時間不同。為了處理歷史駕駛數(shù)據(jù)中不存在當前駕駛情況B的情況,當IMN值超過閾值時,該駕駛數(shù)據(jù)將被添加到訓練數(shù)據(jù)集中。通過這樣做,歷史駕駛數(shù)據(jù)集能夠準確預測人類駕駛員在相同駕駛情況下的行為。

圖4.駕駛情況a的不同速度水平下的IMN值

圖5.駕駛情況b的不同速度水平下的IMN值

未來加速序列的精確TPM被進一步用于使用RL技術導出燃料節(jié)省控制。圖6描繪了沒有預測加速度信息的公共RL和具有該信息的預測RL的SOC軌跡。注意到在這兩種駕駛情況下,SOC軌跡有很大的不同。這是由未來加速序列的TPM決定的自適應控制造成的。對于駕駛情況B,由于基于IMN值的駕駛數(shù)據(jù)的擴展過程,預測RL也優(yōu)于普通RL。

圖6.兩種情況下的共同SOC和預測RL的SOC軌跡

此外,圖7示出了在多個燃料節(jié)省控制中發(fā)動機的工作區(qū)域。與普通RL控制相比,所提出的預測RL控制下的發(fā)動機工作區(qū)域更頻繁地位于較低燃料消耗區(qū)域。這意味著與普通RL技術相比,預測RL方法可以實現(xiàn)更高的燃料經(jīng)濟性。

圖7.兩種情況下發(fā)動機工作點的共性和預測性RL。

表III描述了在這兩種用于駕駛情況A和b的方法中SOC校正后的燃料消耗。顯然,預測RL控制下的燃料消耗低于普通RL控制下的燃料消耗。預測的加速序列使得基于RL的控制更加適應未來的駕駛情況,這有助于提高燃油經(jīng)濟性。

5.結論

在本文中,我們通過提出一個基于雙層學習的預測控制框架來尋求自動駕駛混合動力汽車(HEV)能效的提高。高層通過使用隱馬爾可夫鏈和高斯分布來模擬人類駕駛員的行為;底層是基于強化學習的控制器,旨在提高自動駕駛混合動力汽車的能效,所提出的框架被驗證用于汽車跟隨模型中的縱向控制。模擬結果表明,所提出的駕駛員模型能夠利用誘導矩陣范數(shù)準確預測未來的加速度序列。試驗還證明,基于未來加速序列TPM的預測RL控制與普通RL控制相比,可以實現(xiàn)更高的燃油經(jīng)濟性。未來的工作包括將提議的控制框架應用到實時應用中,并使用RL方法制定駕駛員模型來處理換道決策。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動駕駛
    +關注

    關注

    781

    文章

    13449

    瀏覽量

    165254
  • 強化學習
    +關注

    關注

    4

    文章

    263

    瀏覽量

    11157

原文標題:基于強化學習的自動駕駛汽車預測控制

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一個使用傳統(tǒng)DAS和深度強化學習融合的自動駕駛框架

    本文提出了一個使用傳統(tǒng)DAS和深度強化學習融合的自動駕駛框架。該框架在DAS功能(例如車道變換,巡航控制和車道保持等)下,以最大限度地提高平均速度和最少車道變化為規(guī)則,來確定超車次數(shù)。可行駛空間
    的頭像 發(fā)表于 06-14 09:41 ?8743次閱讀

    FPGA在自動駕駛領域有哪些應用?

    控制。在視覺算法方面,F(xiàn)PGA利用自身并行處理和高速存儲器的特點,極大地加快了算法的執(zhí)行速度,提高了運算效率。 五、未來發(fā)展趨勢隨著自動駕駛技術的不斷發(fā)展,F(xiàn)PGA在自動駕駛領域的應用
    發(fā)表于 07-29 17:09

    汽車自動駕駛技術

    請問各位老鳥我是新手汽車自動駕駛技術是怎么回事,是用什么板子開發(fā)的需要應用哪些技術和知識。提問題提得不是很好請各位見諒
    發(fā)表于 04-14 20:44

    自動駕駛真的會來嗎?

    自動駕駛面臨的主要挑戰(zhàn)是基于圖像的機器學習能力?! ±碚撋?,基于圖像的機器學習可以讓汽車實現(xiàn)自動駕駛,但在實際技術發(fā)展方面,仍有很多問題無法
    發(fā)表于 07-21 09:00

    自動駕駛的到來

      傳統(tǒng)汽車廠商更趨向于通過技術的不斷積累,場景的不斷豐富,逐步從輔助駕駛過渡到半自動駕駛,進而在將來最終實現(xiàn)無人駕駛;某些高科技公司則希望通過各種外部傳感器實時采集海量數(shù)據(jù),處理器經(jīng)
    發(fā)表于 06-08 15:25

    AI/自動駕駛領域的巔峰會議—國際AI自動駕駛高峰論壇

    已經(jīng)滲透到了社會生活的方方面面。人工智能在自動駕駛領域?qū)φ麄€汽車出行領域產(chǎn)生顛覆性變革。汽車的人工智能技術和數(shù)據(jù)后端的最新突破使自動駕駛成為可能。深度學習、高級數(shù)字助理和動態(tài)電子視野
    發(fā)表于 09-13 13:59

    如何讓自動駕駛更加安全?

    最近,國內(nèi)多個城市開始發(fā)放自動駕駛的開放道路測試牌照,意味著自動駕駛的汽車可以在公共道路上進行測試。不過,駕駛安全性仍是社會關注的焦點,美國優(yōu)步公司進行自動駕駛
    發(fā)表于 05-13 00:26

    自動駕駛汽車的處理能力怎么樣?

    對環(huán)境和擁堵產(chǎn)生積極影響。市場調(diào)研公司ABI Research預測:到2030年,道路上四分之一的汽車將會是自動駕駛汽車。行業(yè)專家已經(jīng)為自動駕駛的發(fā)展定義了五個級別。 每個級別分別描述了汽車從
    發(fā)表于 08-07 07:13

    深度強化學習實戰(zhàn)

    一:深度學習DeepLearning實戰(zhàn)時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰(zhàn)時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    自動駕駛技術的實現(xiàn)

    的帶寬有了更高的要求。從而使用以太網(wǎng)技術及中央域控制(Domain)和區(qū)域控制(Zonal)架構是下一代車載網(wǎng)絡的發(fā)展方向。然而對于自動駕駛技術
    發(fā)表于 09-03 08:31

    深度學習技術的開發(fā)與應用

    /A2C6.DDPG7.PPO8.SAC1.深度強化學習訓練場-OpenAI Gym 安裝與使用2.Pytorch安裝與使用3.自動駕駛賽車任務4.月球飛船降落任務實操解析與訓練一實驗:倒立擺和冰壺控制實踐1.環(huán)境編寫
    發(fā)表于 04-21 14:57

    基于強化學習的飛行自動駕駛儀設計

    針對強化學習在連續(xù)狀態(tài)連續(xù)動作空間中的維度災難問題,利用BP神經(jīng)網(wǎng)絡算法作為值函數(shù)逼近策略,設計了自動駕駛儀。并引入動作池機制,有效避免飛行仿真中危險動作的發(fā)生。首先
    發(fā)表于 06-25 16:27 ?27次下載
    基于<b class='flag-5'>強化學習</b>的飛行<b class='flag-5'>自動駕駛</b>儀設計

    強化學習自動駕駛的應用

    自動駕駛汽車首先是人工智能問題,而強化學習是機器學習的一個重要分支,是多學科多領域交叉的一個產(chǎn)物。今天人工智能頭條給大家介紹強化學習自動駕駛
    的頭像 發(fā)表于 07-10 09:00 ?4880次閱讀
    <b class='flag-5'>強化學習</b>在<b class='flag-5'>自動駕駛</b>的應用

    探討深度學習自動駕駛中的應用

    深度強化學習的理論、自動駕駛技術的現(xiàn)狀以及問題、深度強化學習自動駕駛技術當中的應用及基于深度
    的頭像 發(fā)表于 08-18 10:19 ?5045次閱讀

    深度學習技術自動駕駛設計的結合

    在過去的十年里,自動駕駛汽車技術取得了越來越快的進步,主要得益于深度學習和人工智能領域的進步。作者就自動駕駛中使用的深度學習
    發(fā)表于 10-28 16:07 ?1955次閱讀
    深度<b class='flag-5'>學習</b><b class='flag-5'>技術</b>與<b class='flag-5'>自動駕駛</b>設計的結合