0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于模型的元強化學習算法用于提高快速適應性

nlfO_thejiangme ? 來源:lq ? 2019-05-10 09:47 ? 次閱讀

人類具有適應環(huán)境變化的強大能力:我們可以迅速地學會住著拐杖走路、也可以在撿起位置物品時迅速地調整自己的力量輸出,甚至小朋友在不同地面上行走都能輕松自如地切換自己的步態(tài)和行走模式。這樣的適應能力對于在復雜多變的環(huán)境中生存活動十分重要。但這些看似是人類與生俱來的能力,機器人拼盡全力也未必能實現。

絕大部分的機器人都被部署在固定環(huán)境中重復執(zhí)行固定的動作,但面對未知的全新情況機器人就會失效,甚至是運行環(huán)境的些許變化,比如一陣風來了、負載質量改變或意外的擾動都會給機器人帶來難以處理的困難。為了縮小機器人與人類對于環(huán)境適應能力間的差距,研究人員認為機器人預測狀態(tài)與實際觀測狀態(tài)間如果存在較大的誤差,那么這個誤差應該要引導機器人更新自身模型,以更好地描述當前狀態(tài),也就是快速的環(huán)境適應性。

有一個形象的例子來解釋這種適應性,很多小伙伴在開車時,特別在北方的冬天都遇到過車輛側滑的情況,駕駛員發(fā)現預測車的行駛狀況與實際不符,本來該直走的車怎么橫著開了!這時駕駛員就根據這個誤差迅速調整自身操作來糾正車輛行駛狀態(tài)。這個過程就是我們期望機器人能夠學會的快速適應能力。

對于一個要面對錯綜復雜真實世界的機器人來說,從先前經驗中迅速、靈活地調整自身狀態(tài)和行為適應環(huán)境是十分重要的。為了實現這個目標,研究人員開發(fā)了一種基于模型的元強化學習算法用于提高快速適應性。先前的工作主要基于試錯的方法和無模型的元強化學習方法來處理這一問題,而在本文的研究人員將這一問題拓展到了極端情況,機器人在面對新情況時需要實時在線、在幾個時間周期內迅速完成適應,所以實現這一目標的難度可想而知?;谀P偷脑獙W習方法不像先前方法基于目標的獎勵來優(yōu)化,而是利用每一時刻預測與觀測間的誤差作為數據輸入來處理模型。這種基于模型的方法使機器人在使用少量數據的情況下實現對環(huán)境的實時更新。

這一方法利用了最近的觀測數據來對模型進行更新,但真正的挑戰(zhàn)在于如何基于少量的數據對復雜、非線性、大容量的模型(例如神經網絡)進行自適應控制。簡單的隨機梯度下降方法對于需要快速適應的方法效率很低,神經網絡需要大量的數據來訓練模型才能實現有效的更新。所以為了實現快速的自適應調整,研究人員提出了新的方法。首先利用自適應目標對進行(元)訓練,而后在使用時利用少量的數據進行精細訓練以實現快速適應性調整。在不同情況下訓練出的元模型將學會如何去適應,機器人就可以利用元模型在每一個時間步長上進行適應性更新以處理當前所面對的環(huán)境,以實現快速在線適應的目標。

元訓練

機器人的運動離不開對狀態(tài)的估計。在任意時刻下我們都可以對當前狀態(tài)St,施加一定的行為at,從而得到下一時刻的狀態(tài)St+1,這一狀態(tài)的變化主要由狀態(tài)轉移函數決定。在真實世界中,我們無法精確建立狀態(tài)轉移動力學過程,但可以利用學習到的動力學模型進行近似,這樣就可以基于觀測數據進行預測。上圖中的規(guī)劃器就可以利用這一估計的動力學模型來進行行為調整。在訓練時模型會選取最近的(M+K)連續(xù)的數據點序列,首先利用M個數據來更新模型的權重,隨后利用身下的K個點來優(yōu)化跟新后的模型對于新狀態(tài)的預測能力。模型的損失函數可以表達為在先前K個點上進行適應后,在未來K個點上的預測誤差。這意味著訓練模型可以利用鄰近的數據點迅速調整權重使自身可以進行較好的動力學預測。

為了測試這種方法對于環(huán)境突變的適應能力,研究人員首先在仿真機器人系統中進行了實驗。研究人員在相同擾動下的環(huán)境中多所有主體進行了元訓練,而在主體從未見過的環(huán)境及變化中進行測試。下面的獵豹模型在隨機浮動的擾動上進行訓練,隨后在水上浮動的情況下進行了測試,機器人展現了快速適應環(huán)境變化的能力。右圖顯示了在斷腿的情況下機器人的適應性:

機器人面對環(huán)境變化后的適應能力,圖中展示了基于模型的方法和基于在線自適應的方法

對于多足機器人來說,在不同腿配置的情況下進行了訓練,而在不同腿部損傷情況下進行了測試。這種基于模型的元強化學習方法使得機器人具有快速適應能力,更多的比較測試詳見文末論文。

硬件實驗

為了更好地驗證算法在真實世界中的有效性,研究人員使用了具有高度隨機性和動力學特性微型6足機器人。

快速制造技術和多種定制化的設計,使得每一個機器人的動力學特性都獨一無二。它的零部件性能會隨著使用逐漸退化,同時也能在不同地面上快速移動。這使機器人控制算法面臨著會隨時變化的環(huán)境狀況,十分適合用于驗證算法。研究人員首先在不同的地面狀況下對機器人進行元訓練,隨后測試了機器在新情況下的在線適應能力。在斷腿、新地表、斜坡路況、負載變化、錯誤標定擾動等情況下都表現良好。可以看到不同情況下最右邊的在線適應方法更為穩(wěn)定,適應不同情況的能力更強。腿斷了也能盡力走直線了:

加上負載也不會走的歪歪扭扭:

位姿錯誤標定也能及時更新糾正:

在和標準基于模型的方法(MB)、動力學評測的方法(MB+DE)比較中都顯示了這種方法的優(yōu)勢。在各個指標上都取得了遠超傳統方法的結果。

在未來研究人員計劃對模型進行改進,使它的能力隨著時間逐漸增長而不是每次都需要從預訓練模型進行精調。并能夠記住在學習過程中學到的技能,將在線適應的學習到的新能力作為未來遇到新情況時的先驗技能提高模型表現。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    210

    文章

    27839

    瀏覽量

    204596
  • 算法
    +關注

    關注

    23

    文章

    4552

    瀏覽量

    92023
  • 強化學習
    +關注

    關注

    4

    文章

    263

    瀏覽量

    11158

原文標題:伯克利提出高效在線適應算法,讓機器人擁有快速適應環(huán)境變化的新能力

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于MPEG心理聲學模型II的自適應音頻水印算法

    音頻水印作為保護音頻作品的版權和秘密通信的可行方法,成為近年數字水印研究領域中的個熱點。針對目前音頻水印算法研究中自適應性能沒有得到重視的問題,提出一種基于心理聲學
    發(fā)表于 03-04 22:13

    反向強化學習的思路

    強化學習的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強化學習實戰(zhàn)

    內容2:課程: TensoRFlow入門到熟練:課程二:圖像分類:課程三:物體檢測:課程四:人臉識別:課程五:算法實現:1、卷積神經網絡CNN2、循環(huán)神經網絡RNN3、強化學習DRL4、對抗性生成
    發(fā)表于 01-10 13:42

    一種用于室內復雜環(huán)境的高精度、環(huán)境自適應性強的定位算法

    摘要對于室內復雜環(huán)境來說, 適用于室外定位的 GPS 系統和蜂窩移動網絡在室內中的定位精度明顯惡化, 無法滿足室內用戶精確定位的需求。因此, 研究一種用于室內復雜環(huán)境的高精度、環(huán)境自適應性
    發(fā)表于 08-18 08:12

    一種新的具適應性的程序結構

    TRAP/J結構可以將可適應性透明地加入已有的應用程序中,不用修改應用程序源代碼和虛擬機。該文提出一種新的具適應性的結構,采用包裝類和AspectJ獲得對原類的封裝和替代,使用
    發(fā)表于 04-09 09:25 ?11次下載

    一種新的快速適應車牌定位方法

    針對現存車牌定位方法自適應性差和魯棒不強的情況,本文提出了一種新的快速適應車牌定位算法.此
    發(fā)表于 08-26 08:19 ?27次下載

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉到多個智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    如何構建強化學習模型來訓練無人車算法

    本文作者通過簡單的方式構建了強化學習模型來訓練無人車算法,可以為初學者提供快速入門的經驗。
    的頭像 發(fā)表于 11-12 14:47 ?4774次閱讀

    如何測試強化學習智能體適應性

    強化學習(RL)能通過獎勵或懲罰使智能體實現目標,并將它們學習到的經驗轉移到新環(huán)境中。
    的頭像 發(fā)表于 12-24 09:29 ?3148次閱讀

    深度強化學習到底是什么?它的工作原理是怎么樣的

    深度學習DL是機器學習一種基于對數據進行表征學習的方法。深度學習DL有監(jiān)督和非監(jiān)督之分,都已經得到廣泛的研究和應用。
    的頭像 發(fā)表于 06-13 11:39 ?5876次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    強化學習( Reinforcement learning,RL)作為機器學習領域中與監(jiān)督學習、無監(jiān)督學習并列的第三
    發(fā)表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學習</b>中的無<b class='flag-5'>模型</b><b class='flag-5'>強化學習</b><b class='flag-5'>算法</b>及研究綜述

    模型化深度強化學習應用研究綜述

    強化學習。無模型強仳學習方法的訓練過程需要大量樣本,當采樣預算不足,無法收集大量樣本時,很難達到預期效果。然而,模型強化學習可以充分利用環(huán)
    發(fā)表于 04-12 11:01 ?9次下載
    <b class='flag-5'>模型</b>化深度<b class='flag-5'>強化學習</b>應用研究綜述

    基于深度強化學習仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質量,釆用深度強化學習的方法進行拉深過程旳壓邊力優(yōu)化控制。提岀一種基于深度強化學習與有限仿真集成的壓邊力控制模型
    發(fā)表于 05-27 10:32 ?0次下載

    一種新型的多智能體深度強化學習算法

    一種新型的多智能體深度強化學習算法
    發(fā)表于 06-23 10:42 ?36次下載

    7個流行的強化學習算法及代碼實現

    已被用于在游戲、機器人和決策制定等各種應用中,并且這些流行的算法還在不斷發(fā)展和改進,本文我們將對其做個簡單的介紹。 1、Q-learning Q-learning:Q-learning 是
    的頭像 發(fā)表于 02-03 20:15 ?1000次閱讀