0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

斯坦福提出基于目標(biāo)的策略強(qiáng)化學(xué)習(xí)方法——SOORL

zhKF_jqr_AI ? 來源:未知 ? 作者:胡薇 ? 2018-06-06 11:18 ? 次閱讀

人類的學(xué)習(xí)能力一直是人工智能追求的目標(biāo),但就目前而言,算法的學(xué)習(xí)速度還遠(yuǎn)遠(yuǎn)不如人類。為了達(dá)到人類學(xué)習(xí)的速率,斯坦福的研究人員們提出了一種基于目標(biāo)的策略強(qiáng)化學(xué)習(xí)方法——SOORL,把重點(diǎn)放在對策略的探索和模型選擇上。以下是論智帶來的編譯。

假設(shè)讓一個(gè)十二歲的孩子玩一下午雅達(dá)利游戲,就算他之前從沒玩過,晚飯前也足以掌握游戲規(guī)則。Pitfall!是是雅達(dá)利2600上銷量最高的游戲之一,它的難度很高,玩家控制著一個(gè)名為“哈里”的角色,他要在20分鐘內(nèi)穿過叢林,找到32個(gè)寶藏。一路上共有255個(gè)場景(rooms),其中會(huì)碰到許多危險(xiǎn),例如陷阱、流沙、滾動(dòng)的枕木、火焰、蛇以及蝎子等。最近的獎(jiǎng)勵(lì)也要在起始點(diǎn)7個(gè)場景之外,所以獎(jiǎng)勵(lì)分布非常稀疏,即使對人類來說,沒有經(jīng)驗(yàn)也很難操控。

深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)這對cp在模仿人類打游戲方面可謂是取得了不小的進(jìn)步。但是這些智能體往往需要數(shù)百萬個(gè)步驟進(jìn)行訓(xùn)練,但是人類在學(xué)習(xí)新事物時(shí)效率可要高多了。我們是如何快速學(xué)習(xí)高效的獎(jiǎng)勵(lì)的,又是怎樣讓智能體做到同樣水平的?

有人認(rèn)為,人們學(xué)習(xí)并利用能解釋世界如何運(yùn)行的結(jié)構(gòu)化模型,以及能用目標(biāo)而不是像素表示世界的模型,從而智能體也能靠同樣的方法從中獲得經(jīng)驗(yàn)。

具體來說,我們假設(shè)同時(shí)具備三個(gè)要素即可:運(yùn)用抽象的目標(biāo)水平的表示、學(xué)習(xí)能快速學(xué)習(xí)世界動(dòng)態(tài)并支持快速計(jì)劃的模型、利用前瞻計(jì)劃進(jìn)行基于模型的策略探索。

在這一思想的啟發(fā)下,我們提出了策略目標(biāo)強(qiáng)化學(xué)習(xí)(SOORL)算法,據(jù)我們所知,這是第一個(gè)能在雅達(dá)利游戲Pitfall!中能到積極獎(jiǎng)勵(lì)的算法。重要的是,該算法在這一過程中不需要人類的示范,可以闖過50關(guān)。SOORL算法利用強(qiáng)大的先驗(yàn)知識而非傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法,對環(huán)境中的目標(biāo)和潛在的動(dòng)態(tài)模型有了了解。但是相比于需要人類示范的方法來說,SOORL算法所掌握的信息就少了很多。

SOORL在兩方面超過了之前以目標(biāo)為導(dǎo)向的強(qiáng)化學(xué)習(xí)方法:

智能體在積極嘗試選擇一種簡單模式,該模式解釋了世界是如何運(yùn)作的從而看起來是決定性的。

智能體用一種基于模型的積極計(jì)劃方法,在做決定時(shí)假設(shè)智能體不會(huì)計(jì)算出一個(gè)完美的計(jì)劃來應(yīng)對即使知道世界怎樣運(yùn)作后會(huì)有何反應(yīng)。

這兩種方法都是從人類遇到的困難中受到的啟發(fā)——先前經(jīng)驗(yàn)很少,同時(shí)算力有限,人類必須快速學(xué)習(xí)做出正確的決定。為了達(dá)到這一目標(biāo),我們第一條方法發(fā)現(xiàn),與復(fù)雜的、需要大量數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)模型不同,如果玩家按下的某一按鍵需要很少經(jīng)驗(yàn)來估計(jì),那么簡單的決定性模型可以減少計(jì)劃所需的計(jì)算力,盡管會(huì)經(jīng)常出錯(cuò),但對達(dá)到良好的效果已經(jīng)足夠了。第二,在獎(jiǎng)勵(lì)分散、復(fù)雜的電子游戲中,玩一場游戲可能需要成百上千個(gè)步驟,對于任何一個(gè)計(jì)算力有限的智能體來說,想在每個(gè)步驟都作出合適的計(jì)劃是非常困難的,就算是12歲的小孩也是如此。我們用一種常用并且強(qiáng)大的方法做前瞻計(jì)劃,即蒙特卡洛樹搜索,將其與目標(biāo)導(dǎo)向的方法結(jié)合,用作最優(yōu)策略的探索,同時(shí)指導(dǎo)智能體學(xué)習(xí)它不了解的世界的環(huán)境。

Pitfall!也許是智能體最后一個(gè)尚未攻破的雅達(dá)利游戲。如文章開頭所說,Pitfall!中的第一個(gè)積極獎(jiǎng)勵(lì)出現(xiàn)多個(gè)場景之后,玩家需要非常小心地操作才能得到,這就需要智能體在闖關(guān)時(shí)具備策劃能力和對未來的預(yù)見能力。

我們的SOORL智能體在50回中的平均可以解鎖17個(gè)場景,而之前的用像素作為輸入、同時(shí)又沒有策略探索的DDQN標(biāo)準(zhǔn)在2000回之后的平均只能解鎖6個(gè)場景。

SOORL最多解鎖了25個(gè)場景

下面的直方圖顯示出在不同的隨機(jī)種子下,SOORL算法在訓(xùn)練時(shí)的100次游戲中最佳的表現(xiàn)分布。

可以看到,SOORL在大多數(shù)情況下并不比之前所有深度強(qiáng)化學(xué)習(xí)的方法好,之前的方法得到最佳的獎(jiǎng)勵(lì)為0(雖然這種方法都是在500甚至5000次游戲之后才得到的,而我們的方法只要50次就可以得到最佳獎(jiǎng)勵(lì))。在這種情況下,SOORL經(jīng)??梢员绕渌椒ń怄i更多房間,但是并沒有達(dá)到更高的最佳成績。但是,在幾次游戲中,SOORL得到了2000分甚至4000分的獎(jiǎng)勵(lì),這是沒有人類示范的情況下獲得的最好分?jǐn)?shù)。在有人示范的情況下目前最好的分?jǐn)?shù)是60000分,盡管分?jǐn)?shù)很高,但是這種方法仍需要大量的先驗(yàn)知識,并且還需要一個(gè)可靠的模型減少探索過程中遇到的挑戰(zhàn)。

下面是SOORL智能體掌握的幾種有趣的小技巧:

飛渡深坑

鱷魚口脫險(xiǎn)

躲避沙坑

SOORL仍然還有很多限制。也許其中最重要的缺點(diǎn)就是它需要一種合理的潛在動(dòng)態(tài)模型進(jìn)行具體化,使得SOORL可以在這個(gè)子集上進(jìn)行模型選擇。另外在蒙特卡洛樹搜索期間,它沒有學(xué)習(xí)并利用價(jià)值函數(shù),這在早期的AlphaGo版本上是很重要的一部分。我們希望加入一個(gè)價(jià)值函數(shù)能大大改善其性能。

但是除了這些弱點(diǎn),這些結(jié)果還是非常令人激動(dòng)的。因?yàn)檫@個(gè)基于模型的強(qiáng)化學(xué)習(xí)智能體能在類似Pitfall!這樣獎(jiǎng)勵(lì)非常稀疏的電子游戲中快速地學(xué)習(xí),通過各種策略學(xué)習(xí)如何在簡單模式下做出正確決策。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:斯坦福提出無需人類示范的強(qiáng)化學(xué)習(xí)算法SOORL

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    斯坦福開發(fā)過熱自動(dòng)斷電電池

    上升時(shí),薄膜會(huì)膨脹,溫度升到70攝氏度時(shí)突起部分彼此將不再連接在一起,電路斷路,電池關(guān)閉。斷電可以防止電池過熱,隨后電池會(huì)變冷,鎳突起又會(huì)連接在一起,繼續(xù)讓電池通過?! ?b class='flag-5'>斯坦福研究團(tuán)隊(duì)成員之一、化學(xué)工程教授鮑
    發(fā)表于 01-12 11:57

    關(guān)于斯坦福的CNTFET的問題

    之前下載了斯坦福2015年的CNTFET VS model,是.va的文件,不知道怎么用啊,該怎么通過cadence的pspice進(jìn)行仿真啊,求指點(diǎn)
    發(fā)表于 01-26 13:47

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    斯坦福cs231n編程作業(yè)之k近鄰算法

    深度學(xué)習(xí)斯坦福cs231n編程作業(yè)#1 --- k近鄰算法(k-NN)
    發(fā)表于 05-07 12:03

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    回收新舊 斯坦福SRS DG645 延遲發(fā)生器

    回收新舊 斯坦福SRS DG645 延遲發(fā)生器 歐陽R:*** QQ:1226365851溫馨提示:如果您找不到聯(lián)系方式,請?jiān)跒g覽器上搜索一下,旺貿(mào)通儀器儀回收工廠或個(gè)人、庫存閑置、二手儀器及附件
    發(fā)表于 07-14 10:34

    DG645 斯坦福 SRS DG645 延遲發(fā)生器 現(xiàn)金回收

    DG645 斯坦福 SRS DG645 延遲發(fā)生器 現(xiàn)金回收 歐陽R:*** QQ:1226365851溫馨提示:如果您找不到聯(lián)系方式,請?jiān)跒g覽器上搜索一下,旺貿(mào)通儀器儀回收工廠或個(gè)人、庫存閑置
    發(fā)表于 01-11 10:08

    深度學(xué)習(xí)技術(shù)的開發(fā)與應(yīng)用

    :自動(dòng)駕駛賽車任務(wù)1.連續(xù)控制任務(wù)2.策略梯度方法DDPG/PPO高頻問題:1.適用于高維輸入的連續(xù)控制任務(wù)的深度強(qiáng)化學(xué)習(xí)方法關(guān)鍵點(diǎn):1.掌握DDPG和PPO具體編程實(shí)現(xiàn) 2.根據(jù)實(shí)際需求,選用合理的深度
    發(fā)表于 04-21 14:57

    基于LCS和LS-SVM的多機(jī)器人強(qiáng)化學(xué)習(xí)

    本文提出了一種LCS和LS-SVM相結(jié)合的多機(jī)器人強(qiáng)化學(xué)習(xí)方法,LS-SVM獲得的最優(yōu)學(xué)習(xí)策略作為LCS的初始規(guī)則集。LCS通過與環(huán)境的交互,能更快發(fā)現(xiàn)指導(dǎo)多機(jī)器人
    發(fā)表于 01-09 14:43 ?0次下載

    解析圖像分類器結(jié)構(gòu)搜索的正則化異步進(jìn)化方法 并和強(qiáng)化學(xué)習(xí)方法進(jìn)行對比

    在本篇論文中,研究人員使用流行的異步進(jìn)化算法(asynchronous evolutionary algorithm)的正則化版本,并將其與非正則化的形式以及強(qiáng)化學(xué)習(xí)方法進(jìn)行比較。
    的頭像 發(fā)表于 02-09 14:47 ?3695次閱讀
    解析圖像分類器結(jié)構(gòu)搜索的正則化異步進(jìn)化<b class='flag-5'>方法</b> 并和<b class='flag-5'>強(qiáng)化學(xué)習(xí)方法</b>進(jìn)行對比

    斯坦福“以人為本人工智能研究院”——Stanford HAI正式上線!

    斯坦福大學(xué)有著深厚的多學(xué)科研究傳統(tǒng),斯坦福HAI正是在這一傳統(tǒng)的基礎(chǔ)上發(fā)展起來的。我們正在匯集多個(gè)領(lǐng)域的領(lǐng)先思想家,以便我們能夠更好地為未來的領(lǐng)導(dǎo)者做好準(zhǔn)備,讓他們學(xué)習(xí)、構(gòu)建、發(fā)明并擴(kuò)展目標(biāo)
    的頭像 發(fā)表于 03-15 09:03 ?4200次閱讀

    谷歌和DeepMind研究人員合作提出新的強(qiáng)化學(xué)習(xí)方法Dreamer 可利用世界模型實(shí)現(xiàn)高效的行為學(xué)習(xí)

    近年來隨著強(qiáng)化學(xué)習(xí)的發(fā)展,使得智能體選擇恰當(dāng)行為以實(shí)現(xiàn)目標(biāo)的能力得到迅速地提升。目前研究領(lǐng)域主要使用兩種方法:一種是無模型(model-free)的強(qiáng)化學(xué)習(xí)方法,通過試錯(cuò)的方式來
    發(fā)表于 03-26 11:41 ?1942次閱讀

    基于強(qiáng)化學(xué)習(xí)的壯語詞標(biāo)注方法

    目前壯語智能信息處理研究處于起步階段,缺乏自動(dòng)詞性標(biāo)注方法。針對壯語標(biāo)注語料匱乏、人工標(biāo)注費(fèi)時(shí)費(fèi)力而機(jī)器標(biāo)注性能較差的現(xiàn)狀,提出一種基于強(qiáng)化學(xué)習(xí)的壯語詞性標(biāo)注方法。依據(jù)壯語的文法特點(diǎn)和
    發(fā)表于 05-14 11:29 ?14次下載

    基于強(qiáng)化學(xué)習(xí)目標(biāo)檢測算法案例

    摘要:基于強(qiáng)化學(xué)習(xí)目標(biāo)檢測算法在檢測過程中通常采用預(yù)定義搜索行為,其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一,導(dǎo)致目標(biāo)檢測精確度較低。為此,在基于深度強(qiáng)化學(xué)習(xí)的視覺
    發(fā)表于 07-19 14:35 ?0次下載

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開源機(jī)器學(xué)習(xí)庫,
    的頭像 發(fā)表于 11-05 17:34 ?194次閱讀