0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種針對(duì)深度強(qiáng)化學(xué)習(xí)運(yùn)動(dòng)任務(wù)的自動(dòng)環(huán)境

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-02 14:24 ? 次閱讀

編者按:通常我們看到的深度強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)都是在模擬環(huán)境中,例如OpenAI的Gym。但這次,迪士尼研究院的科學(xué)家們將DL應(yīng)用到了模塊化機(jī)器人上,并創(chuàng)建了一個(gè)自動(dòng)學(xué)習(xí)環(huán)境,可以直接將控制策略應(yīng)用到實(shí)體機(jī)器人上。論智將原論文編譯如下。

在這篇論文中,迪士尼研究院的研究者們提出了一種自動(dòng)學(xué)習(xí)環(huán)境,直接在硬件(模塊化有腿機(jī)器人)上建立控制策略。這一環(huán)境通過(guò)計(jì)算獎(jiǎng)勵(lì)促進(jìn)了強(qiáng)化學(xué)習(xí)過(guò)程,計(jì)算過(guò)程是利用基于視覺(jué)的追蹤系統(tǒng)和將機(jī)器人從新放回原位的重置系統(tǒng)進(jìn)行的。我們應(yīng)用了兩種先進(jìn)的深度學(xué)習(xí)算法——Trust Region Policy Optimization(TRPO)和Deep Deterministic Policy Gradient(DDPG),這兩種算法可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)做簡(jiǎn)單的前進(jìn)或者爬行動(dòng)作。利用搭建好的環(huán)境,我們展示了上述兩種算法都能在高度隨機(jī)的硬件和環(huán)境條件下有效學(xué)習(xí)簡(jiǎn)單的運(yùn)動(dòng)策略。之后我們將這種學(xué)習(xí)遷移到了多腿機(jī)器人上。

問(wèn)題概述

自然界中,很多生物都能根據(jù)環(huán)境做出適應(yīng)性動(dòng)作。在最近一項(xiàng)對(duì)盲蜘蛛(也稱(chēng)長(zhǎng)腳蜘蛛)的研究發(fā)現(xiàn),當(dāng)它們遇到敵人時(shí),會(huì)自動(dòng)伸出腳,過(guò)一段時(shí)間后又會(huì)恢復(fù)行走速度和轉(zhuǎn)向控制。即使不會(huì)自動(dòng)變化,很多生物也會(huì)在改變身體結(jié)構(gòu)之后調(diào)整動(dòng)作姿態(tài),這都是長(zhǎng)期學(xué)習(xí)適應(yīng)的結(jié)果。那么我們能否從借鑒生物將這種學(xué)習(xí)運(yùn)動(dòng)的技巧應(yīng)用到機(jī)器人身上呢?

之前有科學(xué)家依賴(lài)先驗(yàn)知識(shí)手動(dòng)為機(jī)器人設(shè)計(jì)合適的步態(tài),雖然經(jīng)驗(yàn)豐富的工程師能讓機(jī)器人隨意移動(dòng),但在可以組裝的機(jī)器人身上這種方法就不切實(shí)際了。

最近,研究者又表示可以用深度強(qiáng)化學(xué)習(xí)技術(shù)提高采樣策略,從而在虛擬環(huán)境中完成很多任務(wù),例如游泳、跳躍、行走或跑步。但是對(duì)于真實(shí)的有腿機(jī)器人來(lái)說(shuō),深度強(qiáng)化學(xué)習(xí)技術(shù)卻很少應(yīng)用,因?yàn)樵谖覀兊慕?jīng)驗(yàn)中,即使一個(gè)簡(jiǎn)單的爬行動(dòng)作對(duì)真實(shí)硬件來(lái)說(shuō)也是很困難的,因?yàn)樯婕暗蕉嘧兊奈唇?jīng)模式化的動(dòng)作。

在這篇論文中,迪士尼研究院的科學(xué)家們提出了一種針對(duì)深度強(qiáng)化學(xué)習(xí)運(yùn)動(dòng)任務(wù)的自動(dòng)環(huán)境,其中包括一個(gè)視覺(jué)追蹤器和一個(gè)重置機(jī)制。在這一環(huán)境之上,科學(xué)家們?cè)诳山M裝的有腿機(jī)器人上應(yīng)用了兩種學(xué)習(xí)算法——TRPO和DDPG。之后訓(xùn)練神經(jīng)網(wǎng)絡(luò)策略在單腿機(jī)器人和多腿機(jī)器人上的運(yùn)動(dòng),結(jié)果證明算法能在硬件上有效地學(xué)習(xí)控制策略。

實(shí)驗(yàn)裝置說(shuō)明

實(shí)驗(yàn)所用機(jī)器人如圖所示:

這類(lèi)似蜘蛛的機(jī)器人是可以靈活拆卸的,中間的本體是一個(gè)六邊形的形狀,每一面都可以利用磁鐵吸附上一條“機(jī)械腿”,不過(guò)在實(shí)驗(yàn)中研究人員最多只用了三條腿。除此之外,這三條腿也各不相同,分別可以實(shí)現(xiàn)不同的前進(jìn)方向。

實(shí)驗(yàn)的環(huán)境布局如下圖所示:

環(huán)境主要由兩部分組成:視覺(jué)追蹤系統(tǒng)和讓機(jī)器人復(fù)位的重置裝置。視覺(jué)系統(tǒng)是用消費(fèi)級(jí)攝像頭實(shí)現(xiàn)的,距離平面約90cm,它追蹤的是機(jī)器人身上的綠色和紅色兩個(gè)點(diǎn),從而重現(xiàn)全局的位置并為機(jī)器人導(dǎo)航。

重置裝置是全自動(dòng)學(xué)習(xí)環(huán)境中的重要組成部分。我們用只有一個(gè)自由度的杠桿結(jié)構(gòu)即可將機(jī)器人拉回到初始位置。該裝置距離機(jī)器人25cm,兩個(gè)1.5m長(zhǎng)的線分別連接機(jī)器人本體上的兩點(diǎn)。

設(shè)置完畢后,研究人員將控制問(wèn)題用部分可觀察馬爾科夫決策過(guò)程(POMDP)表示,它可以用無(wú)法觀察到的狀態(tài)變量來(lái)解釋決策問(wèn)題。具體的數(shù)學(xué)公式可參考原論文。

學(xué)習(xí)算法

模型的策略用一個(gè)神經(jīng)網(wǎng)絡(luò)表示,該網(wǎng)絡(luò)由兩個(gè)完全連接的隱藏層組成,每層有16個(gè)tanh活動(dòng)神經(jīng)元。當(dāng)在單腿機(jī)器人上訓(xùn)練好策略,我們也許能將所學(xué)到的知識(shí)轉(zhuǎn)移到多腿機(jī)器人上。假設(shè)所有的腿都有同樣的接頭形狀,我們可以通過(guò)復(fù)制輸出神經(jīng)元和對(duì)應(yīng)的鏈接進(jìn)行多腿運(yùn)動(dòng)。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中,研究人員主要研究了兩個(gè)問(wèn)題:

目前最先進(jìn)的深度強(qiáng)化學(xué)習(xí)算法能否直接在硬件上訓(xùn)練策略?

我們能否通過(guò)遷移策略將學(xué)習(xí)轉(zhuǎn)化到復(fù)雜場(chǎng)景中?

科學(xué)家們首先訓(xùn)練了一條腿的機(jī)器人,最終動(dòng)作類(lèi)似于爬行。A、B、C三種腿型的結(jié)果如圖:

可以看到,TRPO和DDPG兩種算法都能成功地在硬件上進(jìn)行訓(xùn)練,同時(shí)表現(xiàn)得要比其他手動(dòng)設(shè)計(jì)的步態(tài)優(yōu)秀。

接下來(lái)科學(xué)家測(cè)試了學(xué)習(xí)框架在多腿運(yùn)動(dòng)上的表現(xiàn)。首先是用兩個(gè)Type B的腿進(jìn)行爬行動(dòng)作。下圖是兩種算法在遷移學(xué)習(xí)和無(wú)遷移下的表現(xiàn):

結(jié)果符合預(yù)期,遷移學(xué)習(xí)能作為一個(gè)很好地初始解決政策。接著研究人員又測(cè)試了三條腿前進(jìn)的表現(xiàn),結(jié)果顯示中間的那條腿作用并不大。

結(jié)語(yǔ)

由于傳感器能力有限,研究者在這項(xiàng)實(shí)驗(yàn)中僅對(duì)簡(jiǎn)單的開(kāi)環(huán)爬行運(yùn)動(dòng)進(jìn)行了實(shí)驗(yàn)。如果有更復(fù)雜的控制器和獎(jiǎng)勵(lì)的話,也許會(huì)得到更復(fù)雜的行為。例如,可以用基于IMU的反饋控制器訓(xùn)練機(jī)器人走路或跑步?;蛘呖梢允褂蒙疃认鄼C(jī)收集機(jī)器人的高度,當(dāng)它們從爬行轉(zhuǎn)變成走路時(shí)給予獎(jiǎng)勵(lì)。

除此之外,雖然研究者展示了遷移學(xué)習(xí)在初始策略上的重要作用,但都是應(yīng)用在相同種類(lèi)的腿上,動(dòng)作也都類(lèi)似。未來(lái),他們計(jì)劃將動(dòng)作分解成不同難度水平的,應(yīng)用于不同任務(wù)上。

自動(dòng)學(xué)習(xí)過(guò)程有時(shí)會(huì)生成意想不到的行為。例如,在做空翻動(dòng)作時(shí),追蹤系統(tǒng)會(huì)出現(xiàn)bug,因?yàn)闄C(jī)器人會(huì)擋住標(biāo)記從而對(duì)其位置進(jìn)行誤判。雖然這不會(huì)對(duì)這次實(shí)驗(yàn)中的機(jī)器人造成損壞,但是對(duì)于體型龐大的機(jī)器人卻是致命的。所以,想在硬件系統(tǒng)上進(jìn)行直接學(xué)習(xí)可能也需要傳統(tǒng)算法的幫助,保證機(jī)器人的安全,而不是一位追求采樣的高效。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:迪士尼創(chuàng)建新框架,將深度學(xué)習(xí)直接應(yīng)用到實(shí)體機(jī)器人上

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類(lèi)擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題,從低級(jí)的運(yùn)動(dòng)控制(如:步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?1388次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)

    深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日—
    發(fā)表于 01-09 17:01

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日—
    發(fā)表于 01-10 13:42

    深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái), 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    強(qiáng)化學(xué)習(xí)環(huán)境研究,智能體玩游戲?yàn)槭裁磪柡?/a>

    強(qiáng)化學(xué)習(xí)作為一種常用的訓(xùn)練智能體的方法,能夠完成很多復(fù)雜的任務(wù)。在強(qiáng)化學(xué)習(xí)中,智能體的策略是通過(guò)將獎(jiǎng)勵(lì)函數(shù)最大化訓(xùn)練的。獎(jiǎng)勵(lì)在智能體之外,各個(gè)環(huán)境
    的頭像 發(fā)表于 08-18 11:38 ?3579次閱讀

    如何使用深度強(qiáng)化學(xué)習(xí)進(jìn)行機(jī)械臂視覺(jué)抓取控制的優(yōu)化方法概述

    針對(duì)提高視覺(jué)圖像特征與優(yōu)化控制之間契合度的問(wèn)題,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂視覺(jué)抓取控制優(yōu)化方法,可以自主地從與環(huán)境交互產(chǎn)生的視覺(jué)圖
    發(fā)表于 12-19 15:23 ?22次下載
    如何使用<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>進(jìn)行機(jī)械臂視覺(jué)抓取控制的優(yōu)化方法概述

    深度強(qiáng)化學(xué)習(xí)的概念和工作原理的詳細(xì)資料說(shuō)明

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度
    的頭像 發(fā)表于 05-16 09:20 ?3433次閱讀

    深度強(qiáng)化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度
    的頭像 發(fā)表于 06-13 11:39 ?5981次閱讀

    強(qiáng)化學(xué)習(xí)在智能對(duì)話上的應(yīng)用介紹

    本文主要介紹深度強(qiáng)化學(xué)習(xí)任務(wù)型對(duì)話上的應(yīng)用,兩者的結(jié)合點(diǎn)主要是將深度強(qiáng)化學(xué)習(xí)應(yīng)用于任務(wù)型對(duì)話的
    的頭像 發(fā)表于 12-10 19:02 ?1005次閱讀

    一種基于多智能體協(xié)同強(qiáng)化學(xué)習(xí)的多目標(biāo)追蹤方法

    針對(duì)現(xiàn)有多目標(biāo)追蹤方法通常存在學(xué)習(xí)速度慢、追蹤效率低及協(xié)同追蹤策略設(shè)計(jì)困難等問(wèn)題,提岀一種改進(jìn)的多目標(biāo)追蹤方法?;谧粉欀悄荏w和目標(biāo)智能體數(shù)量及其環(huán)境信息建立
    發(fā)表于 03-17 11:08 ?20次下載
    <b class='flag-5'>一種</b>基于多智能體協(xié)同<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的多目標(biāo)追蹤方法

    基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質(zhì)量,釆用深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過(guò)程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)化學(xué)習(xí)與有限元仿真集成的壓邊力控制模
    發(fā)表于 05-27 10:32 ?0次下載

    一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

    一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法
    發(fā)表于 06-23 10:42 ?36次下載

    自動(dòng)化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

    多Agent 深度強(qiáng)化學(xué)習(xí)綜述 來(lái)源:《自動(dòng)化學(xué)報(bào)》,作者梁星星等 摘 要?近年來(lái),深度強(qiáng)化學(xué)習(xí)(Deep reinforcement le
    發(fā)表于 01-18 10:08 ?1551次閱讀
    《<b class='flag-5'>自動(dòng)化學(xué)</b>報(bào)》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>綜述

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。
    的頭像 發(fā)表于 11-05 17:34 ?203次閱讀