0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

強(qiáng)化學(xué)習(xí)“好奇心”模型:訓(xùn)練無需外部獎(jiǎng)勵(lì),全靠自己

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-20 08:55 ? 次閱讀

強(qiáng)化學(xué)習(xí)模型往往依賴對(duì)外部獎(jiǎng)勵(lì)機(jī)制的精心設(shè)計(jì),在模型訓(xùn)練成本控制和可擴(kuò)展性上都存在局限。OpenAI的研究人員提出一種新的強(qiáng)化學(xué)習(xí)模型訓(xùn)練方式,以agent的“好奇心”作為內(nèi)在獎(jiǎng)勵(lì)函數(shù),在訓(xùn)練中無需外部獎(jiǎng)勵(lì),泛化性好,經(jīng)過54種環(huán)境測(cè)試,效果拔群。

強(qiáng)化學(xué)習(xí)模型在很大程度上依賴于對(duì)agent的外在環(huán)境獎(jiǎng)勵(lì)的精心設(shè)計(jì)。然而,用手工設(shè)計(jì)的密集獎(jiǎng)勵(lì)來對(duì)每個(gè)環(huán)境進(jìn)行標(biāo)記的方式是不可擴(kuò)展的,這就需要開發(fā)agent所固有的獎(jiǎng)勵(lì)函數(shù)。好奇心就是一種內(nèi)在的獎(jiǎng)勵(lì)函數(shù),它使用預(yù)測(cè)誤差作為獎(jiǎng)勵(lì)信號(hào)。

在本文中,我們首次在54個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試環(huán)境(包括一系列Atari游戲)中進(jìn)行了純粹基于好奇心驅(qū)動(dòng)學(xué)習(xí)的大規(guī)模研究,不設(shè)置任何外在獎(jiǎng)勵(lì)。得到的結(jié)果令人驚喜,而且表明內(nèi)在的好奇心目標(biāo)獎(jiǎng)勵(lì)與許多游戲環(huán)境中手工設(shè)計(jì)的外在獎(jiǎng)勵(lì)機(jī)制之間存在高度的一致性。

強(qiáng)化學(xué)習(xí)“好奇心”模型:訓(xùn)練無需外部獎(jiǎng)勵(lì),全靠自己

我們研究了使用不同的特征空間來計(jì)算預(yù)測(cè)誤差的效果,并表明,隨機(jī)特征對(duì)于許多流行的強(qiáng)化學(xué)習(xí)游戲的基準(zhǔn)測(cè)試來說已經(jīng)足夠,但是已學(xué)習(xí)過的特征看起來似乎具備更高的泛化性。(比如可以遷移至《超級(jí)馬里奧兄弟》的新關(guān)卡中)。

我們對(duì)agent進(jìn)行了大規(guī)模的實(shí)證研究,這些agent純粹通過各種模擬環(huán)境中的內(nèi)在獎(jiǎng)勵(lì)來驅(qū)動(dòng),這還是業(yè)界首次。特別是,我們選擇基于動(dòng)力學(xué)的內(nèi)在獎(jiǎng)勵(lì)的好奇心模型。因?yàn)樵撃P途哂泻軓?qiáng)的可擴(kuò)展性和可并行性,因此非常適合大規(guī)模實(shí)驗(yàn)使用。

圖1:本文研究中使用的54種環(huán)境的快照截圖集合。我們的研究表明,agent能夠只憑借好奇心,在沒有外部獎(jiǎng)勵(lì)或結(jié)束信號(hào)的情況下取得進(jìn)步。

相關(guān)視頻、結(jié)果、代碼和模型,見https://pathak22.github.io/large-scale-curiosity

我們的思路是,將內(nèi)在獎(jiǎng)勵(lì)表示為預(yù)測(cè)agent在當(dāng)前狀態(tài)下的行為后果時(shí)出現(xiàn)的錯(cuò)誤,即agent學(xué)習(xí)的前向動(dòng)態(tài)的預(yù)測(cè)誤差。我們徹底調(diào)查了54種環(huán)境中基于動(dòng)力學(xué)的好奇心:這些場(chǎng)景包括視頻游戲、物理引擎模擬和虛擬3D導(dǎo)航任務(wù)等,如圖1所示。

為了更好地理解好奇心驅(qū)動(dòng)的學(xué)習(xí),我們進(jìn)一步研究了決定其表現(xiàn)的關(guān)鍵因素。對(duì)高維原始觀察空間(如圖像)中的未來狀態(tài)進(jìn)行預(yù)測(cè)是一個(gè)極具挑戰(zhàn)性的問題,對(duì)輔助特征空間中的動(dòng)態(tài)進(jìn)行學(xué)習(xí)可以改善結(jié)果。

但是,如何選擇這樣一個(gè)嵌入空間是一個(gè)關(guān)鍵、未解決的研究問題。通過對(duì)系統(tǒng)的簡(jiǎn)化,我們研究了用不同的方法對(duì)agent觀察到的信息進(jìn)行編碼的作用,使得agent可以完全靠自身的好奇心機(jī)制做出良好的表現(xiàn)。

上圖是8種選定的Atari游戲和《超級(jí)馬里奧兄弟》的特征學(xué)習(xí)方法的比較。圖中的評(píng)估曲線顯示agent純粹通過好奇心訓(xùn)練,在沒有外部獎(jiǎng)勵(lì)和關(guān)卡結(jié)束信號(hào)的情況下,獲得的平均獎(jiǎng)勵(lì)分?jǐn)?shù)(包括標(biāo)準(zhǔn)誤差)。

我們看到,純粹以好奇心驅(qū)動(dòng)的agent能夠在這些環(huán)境中收集獎(jiǎng)勵(lì),而無需在訓(xùn)練中使用任何外部獎(jiǎng)勵(lì)。

圖3:左:采用不同批規(guī)模的RF訓(xùn)練方法的比較,訓(xùn)練沒有使用外在獎(jiǎng)勵(lì)。中:Juggling(Roboschool)環(huán)境中的球彈跳次數(shù)。 右:多人游戲Pong環(huán)境下的平均關(guān)卡長(zhǎng)度

為了確保動(dòng)態(tài)的穩(wěn)定在線訓(xùn)練,我們認(rèn)為所需的嵌入空間應(yīng)該:(1)在維度方面緊湊,(2)能夠保存觀測(cè)到的足夠信息,(3)是基于觀測(cè)信息的固定函數(shù)。

圖4:《超級(jí)馬里奧兄弟》游戲環(huán)境下的泛化實(shí)驗(yàn)。 左圖所示為1-1關(guān)到1-2關(guān)的遷移結(jié)果,右圖為1-1關(guān)到1-3關(guān)的遷移結(jié)果。下方為源環(huán)境到目標(biāo)環(huán)境的映射。 所有agent都的訓(xùn)練過程中都沒有外在獎(jiǎng)勵(lì)。

圖5:在使用終端外部獎(jiǎng)勵(lì)+好奇心獎(jiǎng)勵(lì)進(jìn)行組合訓(xùn)練時(shí),Unity環(huán)境下的平均外在獎(jiǎng)勵(lì)。 注意,只通過外部獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練的曲線值始終為零(表現(xiàn)為圖中最底部的直線)

我們的研究表明,通過隨機(jī)網(wǎng)絡(luò)對(duì)觀察結(jié)果進(jìn)行編碼是一種簡(jiǎn)單有效的技術(shù),可以用于在許多流行的強(qiáng)化學(xué)習(xí)基準(zhǔn)測(cè)試中建立好奇心模型。這可能表明,許多流行的強(qiáng)化學(xué)習(xí)視頻游戲測(cè)試并不像通常認(rèn)為的那樣,在視覺上有那么高的復(fù)雜度。

有趣的是,雖然隨機(jī)特征對(duì)于許多流行的強(qiáng)化學(xué)習(xí)游戲的基準(zhǔn)測(cè)試來說已經(jīng)足夠了,但是已學(xué)習(xí)過的特征看起來似乎具備更高的可推廣性(比如推廣至《超級(jí)馬里奧兄弟》的新關(guān)卡中)。

上圖給出了所有Atari游戲環(huán)境下的表現(xiàn)結(jié)果。我們發(fā)現(xiàn),用像素訓(xùn)練的好奇心模型在任何環(huán)境中都表現(xiàn)不好,并且VAE特征的表現(xiàn)也不比隨機(jī)特征及逆動(dòng)力學(xué)特征更好,甚至有時(shí)還更差。

此外,在55%的Atari游戲中,逆動(dòng)態(tài)訓(xùn)練特征比隨機(jī)特征的表現(xiàn)更好。分析表明,對(duì)好奇心進(jìn)行建模的隨機(jī)特征是一個(gè)簡(jiǎn)單而強(qiáng)大的基線標(biāo)準(zhǔn),并且可能在一半的Atari游戲場(chǎng)景中表現(xiàn)良好。

小結(jié)

(1)我們對(duì)各種環(huán)境下的好奇心驅(qū)動(dòng)模型進(jìn)行了大規(guī)模的研究,這些場(chǎng)景包括:Atari游戲集、《超級(jí)馬里奧兄弟》游戲、Unity中的虛擬3D導(dǎo)航、Roboschool 環(huán)境等。

(2)我們廣泛研究了用于學(xué)習(xí)基于動(dòng)力學(xué)的好奇心的不同特征空間,包括隨機(jī)特征,像素,反向動(dòng)力學(xué)和變分自動(dòng)編碼器,并評(píng)估這些空間在不可視環(huán)境下的可推廣性。

(3)局限性:我們觀察到,如果agent本身就是環(huán)境中隨機(jī)性的來源,它可以在未取得任何實(shí)際進(jìn)展的情況下進(jìn)行自我獎(jiǎng)勵(lì)。我們?cè)?D導(dǎo)航任務(wù)中憑經(jīng)驗(yàn)證明了這一局限性,在這類任務(wù)中,agent能夠控制環(huán)境的各個(gè)不同部分。

未來方向

我們提出了一種簡(jiǎn)單且可擴(kuò)展的方法,可以在不同的環(huán)境中學(xué)習(xí)非平凡的行為,而無需任何獎(jiǎng)勵(lì)函數(shù)或結(jié)束信號(hào)。本文的一個(gè)令人驚訝的發(fā)現(xiàn)是隨機(jī)特征表現(xiàn)不錯(cuò),但已學(xué)習(xí)的特征似乎在可泛化性上更勝一籌。我們認(rèn)為一旦環(huán)境足夠復(fù)雜,對(duì)特征的學(xué)習(xí)將變得更加重要,不過我們決定將這個(gè)問題留給未來。

我們更高的目標(biāo)是,能夠利用許多未標(biāo)記的(即沒有事先設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù))環(huán)境來改善面向感興趣的任務(wù)的性能。有鑒于此,在具備通用獎(jiǎng)勵(lì)函數(shù)的環(huán)境中展示出很好的表現(xiàn)只是我們研究的第一步,未來的成果可能包括實(shí)現(xiàn)從未標(biāo)記環(huán)境到標(biāo)記環(huán)境的遷移。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Agent
    +關(guān)注

    關(guān)注

    0

    文章

    103

    瀏覽量

    26664
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    265

    瀏覽量

    11197

原文標(biāo)題:強(qiáng)化學(xué)習(xí)下一步:OpenAI伯克利讓AI純憑“好奇心”學(xué)習(xí)!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Microchip Technology的好奇心板的新設(shè)計(jì)

    ,制造商以及尋求功能豐富的快速原型開發(fā)板的用戶。它包括一個(gè)集成的編程器/調(diào)試器,無需額外的硬件即可開始使用。好奇心HPC是評(píng)估Microchip現(xiàn)代8位PIC單片機(jī)的絕佳工具。開箱即用,開發(fā)板提供多種用戶
    發(fā)表于 10-31 11:55

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    深度強(qiáng)化學(xué)習(xí)是什么?有什么優(yōu)點(diǎn)?

    與監(jiān)督機(jī)器學(xué)習(xí)不同,在強(qiáng)化學(xué)習(xí)中,研究人員通過讓一個(gè)代理與環(huán)境交互來訓(xùn)練模型。當(dāng)代理的行為產(chǎn)生期望的結(jié)果時(shí),它得到正反饋。例如,代理人獲得一個(gè)點(diǎn)數(shù)或贏得一場(chǎng)比賽的
    發(fā)表于 07-13 09:33 ?2.5w次閱讀
    深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>是什么?有什么優(yōu)點(diǎn)?

    如何構(gòu)建強(qiáng)化學(xué)習(xí)模型訓(xùn)練無人車算法

    本文作者通過簡(jiǎn)單的方式構(gòu)建了強(qiáng)化學(xué)習(xí)模型訓(xùn)練無人車算法,可以為初學(xué)者提供快速入門的經(jīng)驗(yàn)。
    的頭像 發(fā)表于 11-12 14:47 ?4833次閱讀

    機(jī)器人擁有好奇心會(huì)讓機(jī)器人變得更加聰明

    擁有人類探索世界的好奇心,是讓機(jī)器人變得更加聰明的關(guān)鍵因素之一。德國(guó)波鴻大學(xué)的人工好奇心專家瓦倫康培拉指出,好奇的系統(tǒng)“不滿足于只學(xué)習(xí)一種任務(wù),而是希望同時(shí)
    發(fā)表于 06-11 09:24 ?3130次閱讀

    好奇心對(duì)于學(xué)習(xí)人工智能有幫助嗎

    好奇心或進(jìn)化驅(qū)動(dòng)的人工智能體可應(yīng)用于學(xué)習(xí)的早期階段,也更適合缺乏大量數(shù)據(jù)的零散環(huán)境。
    發(fā)表于 07-01 15:30 ?443次閱讀

    機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    模型強(qiáng)化學(xué)習(xí)(Mode- based reinforcement Lear-ning)和無模型強(qiáng)化學(xué)習(xí)( Model- ree reirη forcement Learning)。
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無<b class='flag-5'>模型</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法及研究綜述

    模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

    強(qiáng)化學(xué)習(xí)。無模型強(qiáng)仳學(xué)習(xí)方法的訓(xùn)練過程需要大量樣本,當(dāng)采樣預(yù)算不足,無法收集大量樣本時(shí),很難達(dá)到預(yù)期效果。然而,模型
    發(fā)表于 04-12 11:01 ?9次下載
    <b class='flag-5'>模型</b>化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

    基于強(qiáng)化學(xué)習(xí)的虛擬場(chǎng)景角色乒乓球訓(xùn)練

    基于強(qiáng)化學(xué)習(xí)的虛擬場(chǎng)景角色乒乓球訓(xùn)練
    發(fā)表于 06-27 11:34 ?62次下載

    強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

    定標(biāo)記訓(xùn)練數(shù)據(jù)的情況下獲得正確的輸出 無監(jiān)督學(xué)習(xí)(UL):關(guān)注在沒有預(yù)先存在的標(biāo)簽的情況下發(fā)現(xiàn)數(shù)據(jù)中的模式 強(qiáng)化學(xué)習(xí)(RL) : 關(guān)注智能體在環(huán)境中如何采取行動(dòng)以最大化累積獎(jiǎng)勵(lì) 通俗地
    的頭像 發(fā)表于 12-20 14:00 ?1080次閱讀

    徹底改變算法交易:強(qiáng)化學(xué)習(xí)的力量

    強(qiáng)化學(xué)習(xí)(RL)是人工智能的一個(gè)子領(lǐng)域,專注于決策過程。與其他形式的機(jī)器學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)模型通過與環(huán)境交互并以獎(jiǎng)勵(lì)或懲罰的形式接收反饋來
    發(fā)表于 06-09 09:23 ?499次閱讀

    ICLR 2023 Spotlight|節(jié)省95%訓(xùn)練開銷,清華黃隆波團(tuán)隊(duì)提出強(qiáng)化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

    模型時(shí)代,模型壓縮和加速顯得尤為重要。傳統(tǒng)監(jiān)督學(xué)習(xí)可通過稀疏神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)模型壓縮和加速,那么同樣需要大量計(jì)算開銷的強(qiáng)化學(xué)習(xí)任務(wù)可以基于稀疏
    的頭像 發(fā)表于 06-11 21:40 ?637次閱讀
    ICLR 2023 Spotlight|節(jié)省95%<b class='flag-5'>訓(xùn)練</b>開銷,清華黃隆波團(tuán)隊(duì)提出<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>專用稀疏<b class='flag-5'>訓(xùn)練</b>框架RLx2

    強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

    來源:DeepHubIMBA強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和概念簡(jiǎn)介(無模型、在線學(xué)習(xí)、離線強(qiáng)化學(xué)習(xí)等)機(jī)器學(xué)習(xí)(ML)分為三個(gè)分支:監(jiān)督
    的頭像 發(fā)表于 01-05 14:54 ?884次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的基礎(chǔ)知識(shí)和6種基本算法解釋

    石墨烯之父——安德烈·海姆,好奇心驅(qū)使下的幽默大師和創(chuàng)新者

    安德烈·海姆教授是卓越科學(xué)家,被譽(yù)為“石墨烯之父”,獲諾貝爾物理學(xué)獎(jiǎng),對(duì)石墨烯材料有重大貢獻(xiàn)。他重視好奇心,鼓勵(lì)將好奇心集中在研究領(lǐng)域。他認(rèn)為石墨烯是一種非常年輕的材料,未來有著無限的可能性,可以應(yīng)用于電池、光照材料、冷卻LED等方面。保持
    的頭像 發(fā)表于 10-31 21:36 ?841次閱讀
    石墨烯之父——安德烈·海姆,<b class='flag-5'>好奇心</b>驅(qū)使下的幽默大師和創(chuàng)新者

    Victor Labián Carro:以好奇心成就 RISC-V 職業(yè)成功之路

    自己對(duì)于邏輯、數(shù)學(xué)和工程的好奇心變成了他喜歡的技術(shù)職業(yè)。最近,他通過獲得RVFA(RISC-VFoundationalAssociate)認(rèn)證展示了他的熱情,這是他
    的頭像 發(fā)表于 09-10 08:08 ?220次閱讀
    Victor Labián Carro:以<b class='flag-5'>好奇心</b>成就 RISC-V 職業(yè)成功之路