久久久久久精品免费自在自线,又大又粗又黑又硬免费视频

編者按：通常我們看到的深度強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)都是在模擬環(huán)境中，例如OpenAI的Gym。但這次，迪士尼研究院的科學(xué)家們將DL應(yīng)用到了模塊化機(jī)器人上，并創(chuàng)建了一個(gè)自動(dòng)學(xué)習(xí)環(huán)境，可以直接將控制策略應(yīng)用到實(shí)體機(jī)器人上。論智將原論文編譯如下。

在這篇論文中，迪士尼研究院的研究者們提出了一種自動(dòng)學(xué)習(xí)環(huán)境，直接在硬件（模塊化有腿機(jī)器人）上建立控制策略。這一環(huán)境通過(guò)計(jì)算獎(jiǎng)勵(lì)促進(jìn)了強(qiáng)化學(xué)習(xí)過(guò)程，計(jì)算過(guò)程是利用基于視覺(jué)的追蹤系統(tǒng)和將機(jī)器人從新放回原位的重置系統(tǒng)進(jìn)行的。我們應(yīng)用了兩種先進(jìn)的深度學(xué)習(xí)算法——Trust Region Policy Optimization（TRPO）和Deep Deterministic Policy Gradient（DDPG），這兩種算法可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)做簡(jiǎn)單的前進(jìn)或者爬行動(dòng)作。利用搭建好的環(huán)境，我們展示了上述兩種算法都能在高度隨機(jī)的硬件和環(huán)境條件下有效學(xué)習(xí)簡(jiǎn)單的運(yùn)動(dòng)策略。之后我們將這種學(xué)習(xí)遷移到了多腿機(jī)器人上。

問(wèn)題概述

自然界中，很多生物都能根據(jù)環(huán)境做出適應(yīng)性動(dòng)作。在最近一項(xiàng)對(duì)盲蜘蛛（也稱(chēng)長(zhǎng)腳蜘蛛）的研究發(fā)現(xiàn)，當(dāng)它們遇到敵人時(shí)，會(huì)自動(dòng)伸出腳，過(guò)一段時(shí)間后又會(huì)恢復(fù)行走速度和轉(zhuǎn)向控制。即使不會(huì)自動(dòng)變化，很多生物也會(huì)在改變身體結(jié)構(gòu)之后調(diào)整動(dòng)作姿態(tài)，這都是長(zhǎng)期學(xué)習(xí)適應(yīng)的結(jié)果。那么我們能否從借鑒生物將這種學(xué)習(xí)運(yùn)動(dòng)的技巧應(yīng)用到機(jī)器人身上呢？

之前有科學(xué)家依賴(lài)先驗(yàn)知識(shí)手動(dòng)為機(jī)器人設(shè)計(jì)合適的步態(tài)，雖然經(jīng)驗(yàn)豐富的工程師能讓機(jī)器人隨意移動(dòng)，但在可以組裝的機(jī)器人身上這種方法就不切實(shí)際了。

最近，研究者又表示可以用深度強(qiáng)化學(xué)習(xí)技術(shù)提高采樣策略，從而在虛擬環(huán)境中完成很多任務(wù)，例如游泳、跳躍、行走或跑步。但是對(duì)于真實(shí)的有腿機(jī)器人來(lái)說(shuō)，深度強(qiáng)化學(xué)習(xí)技術(shù)卻很少應(yīng)用，因?yàn)樵谖覀兊慕?jīng)驗(yàn)中，即使一個(gè)簡(jiǎn)單的爬行動(dòng)作對(duì)真實(shí)硬件來(lái)說(shuō)也是很困難的，因?yàn)樯婕暗蕉嘧兊奈唇?jīng)模式化的動(dòng)作。

在這篇論文中，迪士尼研究院的科學(xué)家們提出了一種針對(duì)深度強(qiáng)化學(xué)習(xí)運(yùn)動(dòng)任務(wù)的自動(dòng)環(huán)境，其中包括一個(gè)視覺(jué)追蹤器和一個(gè)重置機(jī)制。在這一環(huán)境之上，科學(xué)家們?cè)诳山M裝的有腿機(jī)器人上應(yīng)用了兩種學(xué)習(xí)算法——TRPO和DDPG。之后訓(xùn)練神經(jīng)網(wǎng)絡(luò)策略在單腿機(jī)器人和多腿機(jī)器人上的運(yùn)動(dòng)，結(jié)果證明算法能在硬件上有效地學(xué)習(xí)控制策略。

實(shí)驗(yàn)裝置說(shuō)明

實(shí)驗(yàn)所用機(jī)器人如圖所示：

這類(lèi)似蜘蛛的機(jī)器人是可以靈活拆卸的，中間的本體是一個(gè)六邊形的形狀，每一面都可以利用磁鐵吸附上一條“機(jī)械腿”，不過(guò)在實(shí)驗(yàn)中研究人員最多只用了三條腿。除此之外，這三條腿也各不相同，分別可以實(shí)現(xiàn)不同的前進(jìn)方向。

實(shí)驗(yàn)的環(huán)境布局如下圖所示：

環(huán)境主要由兩部分組成：視覺(jué)追蹤系統(tǒng)和讓機(jī)器人復(fù)位的重置裝置。視覺(jué)系統(tǒng)是用消費(fèi)級(jí)攝像頭實(shí)現(xiàn)的，距離平面約90cm，它追蹤的是機(jī)器人身上的綠色和紅色兩個(gè)點(diǎn)，從而重現(xiàn)全局的位置并為機(jī)器人導(dǎo)航。

重置裝置是全自動(dòng)學(xué)習(xí)環(huán)境中的重要組成部分。我們用只有一個(gè)自由度的杠桿結(jié)構(gòu)即可將機(jī)器人拉回到初始位置。該裝置距離機(jī)器人25cm，兩個(gè)1.5m長(zhǎng)的線分別連接機(jī)器人本體上的兩點(diǎn)。

設(shè)置完畢后，研究人員將控制問(wèn)題用部分可觀察馬爾科夫決策過(guò)程（POMDP）表示，它可以用無(wú)法觀察到的狀態(tài)變量來(lái)解釋決策問(wèn)題。具體的數(shù)學(xué)公式可參考原論文。

學(xué)習(xí)算法

模型的策略用一個(gè)神經(jīng)網(wǎng)絡(luò)表示，該網(wǎng)絡(luò)由兩個(gè)完全連接的隱藏層組成，每層有16個(gè)tanh活動(dòng)神經(jīng)元。當(dāng)在單腿機(jī)器人上訓(xùn)練好策略，我們也許能將所學(xué)到的知識(shí)轉(zhuǎn)移到多腿機(jī)器人上。假設(shè)所有的腿都有同樣的接頭形狀，我們可以通過(guò)復(fù)制輸出神經(jīng)元和對(duì)應(yīng)的鏈接進(jìn)行多腿運(yùn)動(dòng)。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中，研究人員主要研究了兩個(gè)問(wèn)題：

目前最先進(jìn)的深度強(qiáng)化學(xué)習(xí)算法能否直接在硬件上訓(xùn)練策略？

我們能否通過(guò)遷移策略將學(xué)習(xí)轉(zhuǎn)化到復(fù)雜場(chǎng)景中？

科學(xué)家們首先訓(xùn)練了一條腿的機(jī)器人，最終動(dòng)作類(lèi)似于爬行。A、B、C三種腿型的結(jié)果如圖：

可以看到，TRPO和DDPG兩種算法都能成功地在硬件上進(jìn)行訓(xùn)練，同時(shí)表現(xiàn)得要比其他手動(dòng)設(shè)計(jì)的步態(tài)優(yōu)秀。

接下來(lái)科學(xué)家測(cè)試了學(xué)習(xí)框架在多腿運(yùn)動(dòng)上的表現(xiàn)。首先是用兩個(gè)Type B的腿進(jìn)行爬行動(dòng)作。下圖是兩種算法在遷移學(xué)習(xí)和無(wú)遷移下的表現(xiàn)：

結(jié)果符合預(yù)期，遷移學(xué)習(xí)能作為一個(gè)很好地初始解決政策。接著研究人員又測(cè)試了三條腿前進(jìn)的表現(xiàn)，結(jié)果顯示中間的那條腿作用并不大。

結(jié)語(yǔ)

由于傳感器能力有限，研究者在這項(xiàng)實(shí)驗(yàn)中僅對(duì)簡(jiǎn)單的開(kāi)環(huán)爬行運(yùn)動(dòng)進(jìn)行了實(shí)驗(yàn)。如果有更復(fù)雜的控制器和獎(jiǎng)勵(lì)的話，也許會(huì)得到更復(fù)雜的行為。例如，可以用基于IMU的反饋控制器訓(xùn)練機(jī)器人走路或跑步?；蛘呖梢允褂蒙疃认鄼C(jī)收集機(jī)器人的高度，當(dāng)它們從爬行轉(zhuǎn)變成走路時(shí)給予獎(jiǎng)勵(lì)。

除此之外，雖然研究者展示了遷移學(xué)習(xí)在初始策略上的重要作用，但都是應(yīng)用在相同種類(lèi)的腿上，動(dòng)作也都類(lèi)似。未來(lái)，他們計(jì)劃將動(dòng)作分解成不同難度水平的，應(yīng)用于不同任務(wù)上。

自動(dòng)學(xué)習(xí)過(guò)程有時(shí)會(huì)生成意想不到的行為。例如，在做空翻動(dòng)作時(shí)，追蹤系統(tǒng)會(huì)出現(xiàn)bug，因?yàn)闄C(jī)器人會(huì)擋住標(biāo)記從而對(duì)其位置進(jìn)行誤判。雖然這不會(huì)對(duì)這次實(shí)驗(yàn)中的機(jī)器人造成損壞，但是對(duì)于體型龐大的機(jī)器人卻是致命的。所以，想在硬件系統(tǒng)上進(jìn)行直接學(xué)習(xí)可能也需要傳統(tǒng)算法的幫助，保證機(jī)器人的安全，而不是一位追求采樣的高效。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
28132

瀏覽量
205921
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4749

瀏覽量
100442
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5472

瀏覽量
120909

原文標(biāo)題：迪士尼創(chuàng)建新框架，將深度學(xué)習(xí)直接應(yīng)用到實(shí)體機(jī)器人上

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知，人類(lèi)擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題，從低級(jí)的運(yùn)動(dòng)控制(如：步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。

發(fā)表于 07-01 10:29 ?1388次閱讀

什么是<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

反向強(qiáng)化學(xué)習(xí)的思路

強(qiáng)化學(xué)習(xí)的另一種策略（二）

發(fā)表于 04-03 12:10

深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)

一：深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn)：1 月 15日— 1 月18 日二：深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn)： 1 月 27 日—

發(fā)表于 01-09 17:01

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

發(fā)表于 01-10 13:42

將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái)，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo，將深

發(fā)表于 06-29 18:36 ?2.8w次閱讀

強(qiáng)化學(xué)習(xí)環(huán)境研究，智能體玩游戲?yàn)槭裁磪柡?/a>

強(qiáng)化學(xué)習(xí)作為一種常用的訓(xùn)練智能體的方法，能夠完成很多復(fù)雜的任務(wù)。在強(qiáng)化學(xué)習(xí)中，智能體的策略是通過(guò)將獎(jiǎng)勵(lì)函數(shù)最大化訓(xùn)練的。獎(jiǎng)勵(lì)在智能體之外，各個(gè)環(huán)境
發(fā)表于 08-18 11:38 ?3579次閱讀

如何使用深度強(qiáng)化學(xué)習(xí)進(jìn)行機(jī)械臂視覺(jué)抓取控制的優(yōu)化方法概述

針對(duì)提高視覺(jué)圖像特征與優(yōu)化控制之間契合度的問(wèn)題，本文提出一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂視覺(jué)抓取控制優(yōu)化方法，可以自主地從與環(huán)境交互產(chǎn)生的視覺(jué)圖

發(fā)表于 12-19 15:23 ?22次下載

深度強(qiáng)化學(xué)習(xí)的概念和工作原理的詳細(xì)資料說(shuō)明

深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度

發(fā)表于 05-16 09:20 ?3433次閱讀

深度強(qiáng)化學(xué)習(xí)到底是什么？它的工作原理是怎么樣的

深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度

發(fā)表于 06-13 11:39 ?5981次閱讀

強(qiáng)化學(xué)習(xí)在智能對(duì)話上的應(yīng)用介紹

本文主要介紹深度強(qiáng)化學(xué)習(xí)在任務(wù)型對(duì)話上的應(yīng)用，兩者的結(jié)合點(diǎn)主要是將深度強(qiáng)化學(xué)習(xí)應(yīng)用于任務(wù)型對(duì)話的

發(fā)表于 12-10 19:02 ?1005次閱讀

一種基于多智能體協(xié)同強(qiáng)化學(xué)習(xí)的多目標(biāo)追蹤方法

針對(duì)現(xiàn)有多目標(biāo)追蹤方法通常存在學(xué)習(xí)速度慢、追蹤效率低及協(xié)同追蹤策略設(shè)計(jì)困難等問(wèn)題，提岀一種改進(jìn)的多目標(biāo)追蹤方法?；谧粉欀悄荏w和目標(biāo)智能體數(shù)量及其環(huán)境信息建立

發(fā)表于 03-17 11:08 ?20次下載

基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

壓邊為改善板料拉深制造的成品質(zhì)量，釆用深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過(guò)程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)化學(xué)習(xí)與有限元仿真集成的壓邊力控制模

發(fā)表于 05-27 10:32 ?0次下載

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

發(fā)表于 06-23 10:42 ?36次下載

《自動(dòng)化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

多Agent 深度強(qiáng)化學(xué)習(xí)綜述來(lái)源：《自動(dòng)化學(xué)報(bào)》，作者梁星星等摘要?近年來(lái),深度強(qiáng)化學(xué)習(xí)(Deep reinforcement le

發(fā)表于 01-18 10:08 ?1551次閱讀

如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）是一種機(jī)器學(xué)習(xí)方法，它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策，以最大化累積獎(jiǎng)勵(lì)。

發(fā)表于 11-05 17:34 ?203次閱讀