国产农村无码迅雷下载,伊人色综合久久久天天蜜桃,新国产精品视频福利免费

試想一下我們希望從伯克利大學(xué)騎車到金門大橋，雖然僅僅只有二十公里之遙，但如果卻面臨一個(gè)天大的問題：你從來沒有騎過自行車！而且雪上加霜的是，你剛剛來到灣區(qū)對(duì)于路況很陌生，手頭僅僅只有一張市區(qū)的地圖。那我們?cè)撊绾悟T車去看心心念念的金門大橋呢？這個(gè)看似十分復(fù)雜的任務(wù)卻是機(jī)器人利用強(qiáng)化學(xué)習(xí)需要解決的問題。

讓我們先來看看如何學(xué)會(huì)騎自行車。一種方法是先盡可能多的學(xué)習(xí)知識(shí)并一步步的規(guī)劃自己的行為來實(shí)現(xiàn)騎車這一目標(biāo)：通過讀如何騎自行車的書、學(xué)習(xí)相關(guān)的物理知識(shí)、規(guī)劃騎車時(shí)每一塊肌肉的運(yùn)動(dòng)...這種一板一眼的方式在研究中還可行，但是要是用來學(xué)習(xí)自行車那永遠(yuǎn)也到不了金門大橋了。學(xué)習(xí)自行車正確的姿勢(shì)是不斷地嘗試不斷地試錯(cuò)和練習(xí)。像學(xué)習(xí)騎自行車這樣太復(fù)雜的問題是不能通過實(shí)現(xiàn)規(guī)劃實(shí)現(xiàn)的。

當(dāng)你學(xué)會(huì)騎車之后，下一步便是如果從伯克利到金門大橋了。你可以繼續(xù)利用試錯(cuò)的策略嘗試各種路徑看看終點(diǎn)是不是在金門大橋。但這種方式顯而易見的缺點(diǎn)是我們可能需要十分十分久的時(shí)間才能到達(dá)。那么對(duì)于這樣簡單的問題，基于已有的信息規(guī)劃便是一種十分有效的策略了，無需太多真實(shí)世界的經(jīng)驗(yàn)和試錯(cuò)便能完成。在強(qiáng)化學(xué)習(xí)中意味著更加高效采樣的學(xué)習(xí)過程。

對(duì)于一些技能來說試錯(cuò)學(xué)習(xí)十分有效，而對(duì)于另一些規(guī)劃卻來得更好

上面的例子雖然簡單但卻反映了人類智慧的重要特征，對(duì)于某些任務(wù)我們選擇利用試錯(cuò)的方式，而某些任務(wù)則基于規(guī)劃來實(shí)現(xiàn)。同樣在強(qiáng)化學(xué)習(xí)中不同的方法也適用于不同的任務(wù)。

然而在上面的例子中兩種方法卻不是完全獨(dú)立的，事實(shí)上如果用試錯(cuò)的方法來概括自行車的學(xué)習(xí)過程就太過于簡單了。當(dāng)我們利用試錯(cuò)的方法來學(xué)習(xí)自行車時(shí)，我們也利用了一點(diǎn)點(diǎn)規(guī)劃的方法?？赡茉谝婚_始的時(shí)候你的計(jì)劃是不要摔倒，而后變?yōu)榱瞬灰さ沟仳T兩米。最后當(dāng)你的技術(shù)不斷提高后，你的目標(biāo)會(huì)變成更為抽象的概念比如要騎到道路的盡頭哦，這時(shí)候需要更多關(guān)注的是如何規(guī)劃這一目標(biāo)而不是騎車的細(xì)節(jié)了?？梢钥吹竭@是一個(gè)逐漸從無模型轉(zhuǎn)換為基于模型策略的過程。如果能將這種策略移植到強(qiáng)化學(xué)習(xí)算法中，那么我們就能得到既能表現(xiàn)良好（最初階段的試錯(cuò)方法）又具有高效采樣特性（在后期轉(zhuǎn)化為利用規(guī)劃實(shí)現(xiàn)更為抽象的目標(biāo)）的優(yōu)秀算法了。

這篇文章中主要介紹了時(shí)域差分模型，這是一種能夠平滑銜接無模型和基于模型策略的強(qiáng)化學(xué)習(xí)算法。接下來首先要介紹基于模型的算法是如何工作的。

基于模型的強(qiáng)化學(xué)習(xí)算法

在強(qiáng)化學(xué)習(xí)中通過動(dòng)力學(xué)模型，在行為at的作用下狀態(tài)將從st轉(zhuǎn)化到st+1，學(xué)習(xí)的目標(biāo)是最大化獎(jiǎng)勵(lì)函數(shù)r(st,a,st+1)的和?；谀Ｐ偷膹?qiáng)化學(xué)習(xí)算法假設(shè)事先給定了一個(gè)動(dòng)力學(xué)模型，那么我們假設(shè)模型的學(xué)習(xí)目標(biāo)是最大化一系列狀態(tài)的獎(jiǎng)勵(lì)函數(shù)：

這一目標(biāo)函數(shù)意味著在保證目標(biāo)可行的狀態(tài)下選取一系列狀態(tài)和行為并最大化獎(jiǎng)勵(lì)?？尚幸馕吨恳粋€(gè)狀態(tài)轉(zhuǎn)移是有效的。例如下圖中只有st+1是可行的狀態(tài)。即便其他狀態(tài)有更高的獎(jiǎng)勵(lì)函數(shù)但是不可行的轉(zhuǎn)移也是無效的。

在我們的騎行問題中，優(yōu)化問題需要規(guī)劃一條從伯克利到金門大橋的路線：

上圖中現(xiàn)實(shí)的概念很好但是卻不現(xiàn)實(shí)?；谀Ｐ偷姆椒ɡ媚Ｐ蚮(s,a)來預(yù)測(cè)下一步的狀態(tài)。在機(jī)器人中每一步十分的時(shí)間十分短暫，更實(shí)際的規(guī)劃將會(huì)是像下圖一樣更為密集的狀態(tài)轉(zhuǎn)移：

回想我們每天騎自行車的過程我們的規(guī)劃其實(shí)是十分抽象的過程，我們通常都會(huì)規(guī)劃長期的目標(biāo)而不是每一步具體的位置。而且我們僅僅在最開始的時(shí)候進(jìn)行一次抽象的規(guī)劃。就像剛剛討論的那樣，我們需要一個(gè)起點(diǎn)來進(jìn)行試錯(cuò)的學(xué)習(xí)，并需要提供一種機(jī)制來逐漸增加計(jì)劃的抽象性。于是我們引入了時(shí)域差分模型。

時(shí)域差分模型

時(shí)域差分模型一般形式為Q(s,a,sg,τ),給定當(dāng)前狀態(tài)、行為以及目標(biāo)狀態(tài)后，預(yù)測(cè)τ時(shí)間步長時(shí)主體與目標(biāo)相隔的距離。直觀上TDM回答了這樣的問題：“如果我騎車去市中心，30分鐘后我將會(huì)距離市中心多近呢？”對(duì)于機(jī)器人來說測(cè)量距離主要使用歐式距離來度量。

上圖中的灰線代表了TMD算法計(jì)算出距離目標(biāo)的距離。那么在強(qiáng)化學(xué)習(xí)中，我們可以將TMD視為在有限馬爾科夫決策過程中的條件Q函數(shù)。TMD是Q函數(shù)的一種，我們可以利用無模型的方法來進(jìn)行訓(xùn)練。一般地人們會(huì)使用深度置信策略梯度來訓(xùn)練TDM并對(duì)目標(biāo)和時(shí)間進(jìn)行回溯標(biāo)記以提高算法的采樣效率。理論上Q學(xué)習(xí)算法都可以用于訓(xùn)練TDM，但研究人員發(fā)現(xiàn)目前的算法更為有效。更多細(xì)節(jié)請(qǐng)參看論文。

利用TDM進(jìn)行規(guī)劃

當(dāng)訓(xùn)練結(jié)束后我們可以利用下面的目標(biāo)函數(shù)進(jìn)行規(guī)劃：

這里與基于模型策略不同的地方在于每K步進(jìn)行一次規(guī)劃，而不是每一步。等式右端的零保證了每一次狀態(tài)轉(zhuǎn)移軌跡的有效性：

規(guī)劃就從上面的細(xì)碎的步驟變成了下圖整體的，更為抽象和長期的策略：

當(dāng)我們?cè)黾覭時(shí)，就能獲得更為長期和抽象的規(guī)劃。在K步之間利用無模型的方法來選擇行為，使用無模型的策略來抽象達(dá)成這些目標(biāo)的過程，最后在K足夠大的情況下實(shí)現(xiàn)了下圖的規(guī)劃情況，基于模型的方法用于選擇抽象目標(biāo)而無模型的方法則用于達(dá)到這些目標(biāo)：

需要注意的是這種方法只能在K步的地方進(jìn)行優(yōu)化，而現(xiàn)實(shí)情況下卻只關(guān)心某些特殊的狀態(tài)（如最終狀態(tài)）。

實(shí)驗(yàn)

研究人員們利用TMD算法進(jìn)行了兩個(gè)實(shí)驗(yàn)，首先是利用模擬的機(jī)械臂將圓柱推到目標(biāo)位置：

可以發(fā)現(xiàn)TMD算法比無模型的DDPG算法和基于模型的算法都下降的快，其快速學(xué)習(xí)能力來自于之前提到的基于模型的高效采樣。

另一個(gè)實(shí)驗(yàn)是利用機(jī)器人進(jìn)行定位的任務(wù)，下圖是實(shí)驗(yàn)的示意圖和學(xué)習(xí)曲線：

上圖現(xiàn)實(shí)基于模型的方法在訓(xùn)練到一定次數(shù)后就停滯了，而基于DDPG的無模型方法則下降緩慢，但最終效果強(qiáng)于基于模型的方法。而TMD方法則即快速有優(yōu)異，結(jié)合了上述兩者的優(yōu)點(diǎn)。

未來方向

時(shí)域差分模型為無模型和基于模型的方法提供了有效的數(shù)學(xué)描述和實(shí)現(xiàn)方法，但還有一系列工作需要完善。首先理論中假設(shè)環(huán)境和策略是確定的，而實(shí)際中卻存在一定的隨機(jī)性。這方面的研究將促進(jìn)TMD對(duì)于真實(shí)環(huán)境的適應(yīng)性。此外TMD可以和可選擇的基于模型的規(guī)劃方法結(jié)合優(yōu)化。最后還希望未來將TMD用于真實(shí)機(jī)器人的定位、操作任務(wù)，甚至騎車到金門大橋去。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
27839

瀏覽量
204599
模型

模型

+關(guān)注

關(guān)注
1

文章
3032

瀏覽量
48363
學(xué)習(xí)算法

學(xué)習(xí)算法

+關(guān)注

關(guān)注
0

文章
15

瀏覽量
7455

原文標(biāo)題：UC Berkeley提出新的時(shí)域差分模型策略：從無模型到基于模型的深度強(qiáng)化學(xué)習(xí)

文章出處：【微信號(hào)：thejiangmen，微信公眾號(hào)：將門創(chuàng)投】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

反向強(qiáng)化學(xué)習(xí)的思路

強(qiáng)化學(xué)習(xí)的另一種策略（二）

發(fā)表于 04-03 12:10

隨機(jī)塊模型學(xué)習(xí)算法

主要挑戰(zhàn)．提出一種精細(xì)隨機(jī)塊模型及其快速學(xué)習(xí)算法，該學(xué)習(xí)方法基于提出的模型與最小消息長度推導(dǎo)出

發(fā)表于 01-09 18:20 ?1次下載

簡單隨機(jī)搜索：無模型強(qiáng)化學(xué)習(xí)的高效途徑

讓我們?cè)?b class='flag-5'>強(qiáng)化學(xué)習(xí)社區(qū)感興趣的問題上應(yīng)用隨機(jī)搜索。深度強(qiáng)化學(xué)習(xí)領(lǐng)域一直把大量時(shí)間和精力用于由OpenAI維護(hù)的、基于MuJoCo模擬器的一套基準(zhǔn)測(cè)試中。這里，最優(yōu)控制問題指的是讓

發(fā)表于 04-01 09:35 ?4330次閱讀

簡單隨機(jī)搜索：<b class='flag-5'>無</b><b class='flag-5'>模型</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的高效途徑

斯坦福提出基于目標(biāo)的策略強(qiáng)化學(xué)習(xí)方法——SOORL

為了達(dá)到人類學(xué)習(xí)的速率，斯坦福的研究人員們提出了一種基于目標(biāo)的策略強(qiáng)化學(xué)習(xí)方法——SOORL，把重點(diǎn)放在對(duì)策略的探索和

發(fā)表于 06-06 11:18 ?5276次閱讀

斯坦福提出基于目標(biāo)的<b class='flag-5'>策略</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>方法——SOORL

如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法

本文作者通過簡單的方式構(gòu)建了強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法，可以為初學(xué)者提供快速入門的經(jīng)驗(yàn)。

發(fā)表于 11-12 14:47 ?4774次閱讀

深度強(qiáng)化學(xué)習(xí)到底是什么？它的工作原理是怎么樣的

深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分，都已經(jīng)得到廣泛的研究和應(yīng)用。

發(fā)表于 06-13 11:39 ?5876次閱讀

美國陸軍研發(fā)了一種高效的地面機(jī)器人學(xué)習(xí)模型

美國陸軍面向未來多域作戰(zhàn)概念研發(fā)了一種高效的地面機(jī)器人學(xué)習(xí)模型，該模型提出基于強(qiáng)化學(xué)習(xí)的策略，可

發(fā)表于 01-06 09:20 ?1621次閱讀

機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

強(qiáng)化學(xué)習(xí)（ Reinforcement learning，RL）作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三

發(fā)表于 04-08 11:41 ?11次下載

機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>無</b><b class='flag-5'>模型</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>算法</b>及研究綜述

模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

深度強(qiáng)化學(xué)習(xí)（DRL）作為機(jī)器學(xué)習(xí)的重要分攴，在 Alphago擊敗人類后受到了廣泛關(guān)注。DRL以種試錯(cuò)機(jī)制與環(huán)境進(jìn)行交互，并通過最大化累積獎(jiǎng)賞最終得到最優(yōu)策略。

發(fā)表于 04-12 11:01 ?9次下載

<b class='flag-5'>模型</b>化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

壓邊力控制策略的學(xué)習(xí)優(yōu)化?；谏疃?b class='flag-5'>強(qiáng)化學(xué)習(xí)的壓邊力優(yōu)化算法，利用深度神經(jīng)網(wǎng)絡(luò)處理巨大的狀態(tài)空間，避免了系統(tǒng)動(dòng)力學(xué)的擬合，并且使用一種新的網(wǎng)絡(luò)

發(fā)表于 05-27 10:32 ?0次下載

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

發(fā)表于 06-23 10:42 ?36次下載

強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

來源：DeepHub IMBA 強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和概念簡介（無模型、在線學(xué)習(xí)、離線強(qiáng)化學(xué)習(xí)等）機(jī)器學(xué)

發(fā)表于 12-20 14:00 ?1024次閱讀

7個(gè)流行的強(qiáng)化學(xué)習(xí)算法及代碼實(shí)現(xiàn)

已被用于在游戲、機(jī)器人和決策制定等各種應(yīng)用中，并且這些流行的算法還在不斷發(fā)展和改進(jìn)，本文我們將對(duì)其做一個(gè)簡單的介紹。 1、Q-learning Q-learning：Q-learning 是一種

發(fā)表于 02-03 20:15 ?1000次閱讀

強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

來源：DeepHubIMBA強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和概念簡介（無模型、在線學(xué)習(xí)、離線強(qiáng)化學(xué)習(xí)等）機(jī)器學(xué)習(xí)

發(fā)表于 01-05 14:54 ?811次閱讀

通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中，我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí)

發(fā)表于 06-05 08:27 ?224次閱讀

搜索歷史

一種能夠平滑銜接無模型和基于模型策略的強(qiáng)化學(xué)習(xí)算法

評(píng)論

反向強(qiáng)化學(xué)習(xí)的思路

隨機(jī)塊模型學(xué)習(xí)算法

簡單隨機(jī)搜索：無模型強(qiáng)化學(xué)習(xí)的高效途徑

斯坦福提出基于目標(biāo)的策略強(qiáng)化學(xué)習(xí)方法——SOORL

如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法

深度強(qiáng)化學(xué)習(xí)到底是什么？它的工作原理是怎么樣的

美國陸軍研發(fā)了一種高效的地面機(jī)器人學(xué)習(xí)模型

機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

7個(gè)流行的強(qiáng)化學(xué)習(xí)算法及代碼實(shí)現(xiàn)

強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇