久久日产一线二线三线品牌,丝袜一区av在线无码国产在线,国产在线拍偷自揄拍精品

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究技術(shù)之一，如果智能體做了正確的行為就能得到積極的獎(jiǎng)勵(lì)，反之則會(huì)得到負(fù)獎(jiǎng)勵(lì)。這種方法簡(jiǎn)單通用，DeepMind用這種方法教會(huì)DQN算法玩雅達(dá)利游戲以及讓AlphaGoZero下圍棋，甚至還讓OpenAI訓(xùn)練算法來打Dota。但是，盡管強(qiáng)化學(xué)習(xí)很成功，想要高效地使用它仍然有很多挑戰(zhàn)。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法常常因?yàn)榄h(huán)境對(duì)智能體稀疏的反饋而遇到重重困難，但這樣的環(huán)境在現(xiàn)實(shí)中是很常見的。例如，你想在大型超市中找到最喜歡的那種奶酪，找了半天也沒找到奶酪區(qū)。如果在這一過程中，你并沒有收到任何反饋，那么就完全沒有頭緒該往哪走。在這種情況下，只有好奇心會(huì)驅(qū)使你試著走向別處。

現(xiàn)在，谷歌大腦團(tuán)隊(duì)、DeepMind和蘇黎世聯(lián)邦理工學(xué)院合作提出了一種新型的基于情景記憶的模型，能夠讓智能體用“好奇心”探索環(huán)境。研究人員不僅僅想讓智能體了解環(huán)境，而且還想讓它們解決最初的任務(wù)，他們?cè)谠枷∈枞蝿?wù)獎(jiǎng)勵(lì)中添加了一些反饋獎(jiǎng)勵(lì)，讓標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法從中學(xué)習(xí)。所以這樣加入了好奇心的方法能讓強(qiáng)化學(xué)習(xí)智能體解決的問題更多。

以下是論智對(duì)這一方法的介紹：

這種方法的核心思想是將智能體所觀察到的環(huán)境存儲(chǔ)在情景記憶中，并且如果智能體獲取了存儲(chǔ)中沒有的觀察，也會(huì)對(duì)其進(jìn)行獎(jiǎng)勵(lì)。我們的方法創(chuàng)新之處就在于，如何找到這種“沒有被存儲(chǔ)的”場(chǎng)景，這就是讓智能體找到不熟悉的場(chǎng)景。這一目標(biāo)就會(huì)讓智能體走到一個(gè)新位置，直到找到目標(biāo)。我們的方式不會(huì)讓智能體做出無用的行為，通俗地講，這些行為有點(diǎn)像“拖延癥行為”。

此前的好奇心方法

在此之前，已經(jīng)有多個(gè)有關(guān)好奇心的研究了，在這篇文章中，我們會(huì)重點(diǎn)關(guān)注一個(gè)很常見的方法：在預(yù)測(cè)過程中感到驚喜而產(chǎn)生的好奇心（通常稱為ICM方法），這在最近的論文Curiosity-driven Exploration by Self-supervised Prediction中有過研究。為了解釋好奇心是如何引起驚奇的，我們還會(huì)到上文中提到的在超市中找奶酪的例子。

當(dāng)你在超市中搜索時(shí)，心里可能會(huì)想：現(xiàn)在我在肉類區(qū)域，所以接下來可能到水產(chǎn)品區(qū)。這些都應(yīng)該是相近的。如果你預(yù)測(cè)錯(cuò)了，可能會(huì)驚訝：誒？怎么是蔬菜區(qū)？從而得到獎(jiǎng)勵(lì)。這就會(huì)激勵(lì)你進(jìn)一步尋找，直到找到目標(biāo)。

同樣的，ICM方法會(huì)針對(duì)環(huán)境變化搭建一個(gè)預(yù)測(cè)模型，如果模型沒有做出好的預(yù)測(cè)，就會(huì)給智能體反饋，這也就是我們得到的“驚訝”。注意，探索一個(gè)陌生環(huán)境并不是ICM好奇心模塊的直接組成部分，對(duì)ICM方法來說，觀察不同的位置，就是為了獲得更多“驚奇”之情，從而讓總體獎(jiǎng)勵(lì)最大化。結(jié)果變成，在某些環(huán)境下，可能有其他的造成驚訝之情的路線，導(dǎo)致看到陌生的場(chǎng)景。

智能體遇到電視就被困住了

“拖延”的危險(xiǎn)

在Large-Scale Study of Curiosity-Driven Learning一文中，ICM方法的作者和OpenAI的研究人員提出，當(dāng)驚訝最大化后，會(huì)有隱藏的危險(xiǎn)：智能體可以學(xué)習(xí)做一些無用的拖延動(dòng)作，而不去為了完成任務(wù)而做些有用的事。作者舉了一個(gè)“noisy TV problem”的例子，智能體被安排在一個(gè)迷宮里，它的任務(wù)是找到最高獎(jiǎng)勵(lì)的對(duì)象（和在超市里找奶酪的道理一樣）。迷宮中有一臺(tái)電視，而智能體有它的遙控器。但是電視只有幾個(gè)臺(tái)（每個(gè)臺(tái)放的節(jié)目不一樣），每按一下遙控器，電視就會(huì)隨機(jī)切換頻道。在這種情況下，智能體應(yīng)該怎么做呢？

對(duì)于基于驚訝的好奇心方程來說，調(diào)換頻道會(huì)導(dǎo)致較大的獎(jiǎng)勵(lì)，因?yàn)槊看螕Q臺(tái)都是無法預(yù)測(cè)的，充滿驚喜。重要的是，當(dāng)所有頻道輪換一遍之后，隨機(jī)選擇仍會(huì)讓智能體感到驚奇，智能體仍然可能會(huì)預(yù)測(cè)錯(cuò)誤。所以，智能體為了獲得不斷的驚喜、得到獎(jiǎng)勵(lì)，就會(huì)一直站在電視機(jī)前不走。所以為了避免這種情況，該如何重新定義好奇心呢？

情景式好奇心

在我們的論文中，我們研究了一個(gè)基于情景記憶的好奇心模型，結(jié)果發(fā)現(xiàn)模型并不容易讓自己依賴即時(shí)滿足。為什么會(huì)這樣？利用上文電視機(jī)的例子，智能體換了一會(huì)兒臺(tái)之后，所有的節(jié)目都已經(jīng)被存儲(chǔ)了。于是，電視機(jī)不再有吸引力了，即使電視機(jī)上的頻道是隨機(jī)出現(xiàn)的、無法預(yù)測(cè)的。這就和剛剛依靠驚奇的好奇心模型有了區(qū)別：我們的方法不對(duì)未來做判斷，而是智能體檢查自己此前是否觀察到相似情景。所以，我們的智能體不會(huì)在這臺(tái)電視機(jī)上浪費(fèi)太多時(shí)間，它會(huì)繼續(xù)尋找更多獎(jiǎng)勵(lì)。

但是我們?nèi)绾未_定智能體看到了和記憶里相同的事物呢？檢查二者的匹配程度顯然是不現(xiàn)實(shí)的，因?yàn)楝F(xiàn)實(shí)生活中，智能體很少能兩次都看到相同的事物。例如，即使智能體回到了同一個(gè)房間，它看房間的視角也會(huì)和之前不同。

所以，我們?cè)谶@里使用神經(jīng)網(wǎng)絡(luò)來確定，該網(wǎng)絡(luò)在訓(xùn)練時(shí)會(huì)評(píng)估兩次經(jīng)歷有幾分相似。為了訓(xùn)練這一網(wǎng)絡(luò)，我們讓它判斷兩次觀察的時(shí)間是否接近。時(shí)間接近性是判斷兩段經(jīng)歷是否是同一個(gè)場(chǎng)景的有效方法。這一訓(xùn)練就對(duì)“新鮮”進(jìn)行了通用定義。

實(shí)驗(yàn)結(jié)果

為了比較研究好奇心的不同方法，我們?cè)趦蓚€(gè)3D場(chǎng)景中對(duì)其進(jìn)行了測(cè)試，分別是ViZDoom和DMLab。在這些環(huán)境中，智能體要完成多種任務(wù)，例如在迷宮中找目標(biāo)或者收集好的目標(biāo)，避開壞的物體。DMLab環(huán)境給智能體配置了類似激光的發(fā)射器，智能體可以選擇性地使用。有趣的是，和上面的電視機(jī)實(shí)驗(yàn)類似，基于驚訝的ICM方法在很多不必要的情況下也使用了激光！當(dāng)進(jìn)行“迷宮尋寶”任務(wù)時(shí)，智能體一直對(duì)著墻做標(biāo)記，因?yàn)檫@樣會(huì)獲得更高的獎(jiǎng)勵(lì)。理論上來說，通過標(biāo)記墻壁預(yù)測(cè)結(jié)果是可行的，但實(shí)際上操作難度比較大，因?yàn)樗枰苌畹奈锢韺W(xué)知識(shí)，對(duì)智能體來說還做不到。

而我們的方法在同樣的條件下學(xué)習(xí)了可行的探索行為。這是因?yàn)樗挥妙A(yù)測(cè)行為之后的結(jié)果，而是尋找存儲(chǔ)以外的情景觀察。換句話說，智能體追求的目標(biāo)需要花費(fèi)比記憶中已有的更多努力，而不僅僅是做標(biāo)記。

有趣的是，我們的方法在發(fā)現(xiàn)智能體原地繞圈后，會(huì)進(jìn)行獎(jiǎng)勵(lì)懲罰，這是由于轉(zhuǎn)了第一圈之后，智能體沒有再遇到新情景了，所以沒有獎(jiǎng)勵(lì)：

紅色表示負(fù)獎(jiǎng)勵(lì)，綠色表示正獎(jiǎng)勵(lì)

與此同時(shí)，我們的方法還會(huì)對(duì)探索行為給予獎(jiǎng)勵(lì)：

希望我們的研究對(duì)探索方法有所幫助。具體細(xì)節(jié)，請(qǐng)看論文。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6080

瀏覽量
104384
智能體

智能體

+關(guān)注

關(guān)注
1

文章
119

瀏覽量
10538
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
263

瀏覽量
11158

原文標(biāo)題：促使強(qiáng)化學(xué)習(xí)智能體持續(xù)探索環(huán)境的新方法：利用情景記憶激發(fā)好奇心

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

好奇心HPC和PIC18F26K83不能通過USB連接器程序的設(shè)備

大家好，我有一個(gè)好奇心的HPC和一個(gè)PIC18F26K83.MPLAB X 4.10和XC8版本1.45。我不能通過USB連接器程序的設(shè)備，因?yàn)槲业玫搅隋e(cuò)誤：程序員不能啟動(dòng)：無法連接到工具硬件

發(fā)表于 10-30 15:18

Microchip Technology的好奇心板的新設(shè)計(jì)

即使在這個(gè)低成本的32位微控制器時(shí)代，8位微控制器仍然具有相關(guān)性，并將繼續(xù)用于新設(shè)計(jì)。 Microchip Technology的好奇心板是一款經(jīng)濟(jì)高效，完全集成的8位開發(fā)平臺(tái)，面向首次使用者

發(fā)表于 10-31 11:55

智能機(jī)器人的視覺傳感器技術(shù)和應(yīng)用

一種新型的工業(yè)機(jī)器人已經(jīng)走到行業(yè)的前沿，他們的主要特點(diǎn)是能夠安全地協(xié)助人類工作。在網(wǎng)上有很多人談?wù)撍鼈?，但你認(rèn)真了解過它嗎？在2008年，很多人愛它們只是處于好奇心。在2012年，機(jī)

發(fā)表于 08-17 06:00

一種新型動(dòng)態(tài)X參數(shù)功放建模方法

為了更準(zhǔn)確地描述帶有記憶效應(yīng)的射頻（RF）功放特性，基于傳統(tǒng)的動(dòng)態(tài)X參數(shù)模型，結(jié)合功放長(zhǎng)期記憶效應(yīng)以及短期記憶效應(yīng)機(jī)理，提出一種

發(fā)表于 11-29 15:51 ?1次下載

<b class='flag-5'>一種</b><b class='flag-5'>新型</b>動(dòng)態(tài)X參數(shù)功放建模方法

強(qiáng)化學(xué)習(xí)“好奇心”模型：訓(xùn)練無需外部獎(jiǎng)勵(lì)，全靠自己

我們的思路是，將內(nèi)在獎(jiǎng)勵(lì)表示為預(yù)測(cè)agent在當(dāng)前狀態(tài)下的行為后果時(shí)出現(xiàn)的錯(cuò)誤，即agent學(xué)習(xí)的前向動(dòng)態(tài)的預(yù)測(cè)誤差。我們徹底調(diào)查了54種環(huán)境中基于動(dòng)力學(xué)的好奇心：這些場(chǎng)景包括視頻游戲、物理引擎模擬和虛擬3D導(dǎo)航任務(wù)等，如圖1所

發(fā)表于 08-20 08:55 ?1.2w次閱讀

人工智能研究人員正在探索如何給算法賦予好奇心

團(tuán)隊(duì)用于人工好奇心的定義相對(duì)簡(jiǎn)單：該算法將嘗試預(yù)測(cè)其環(huán)境在未來一瞬看起來會(huì)是什么樣子。當(dāng)下一幀發(fā)生時(shí)，算法會(huì)因預(yù)測(cè)錯(cuò)誤而得到獎(jiǎng)勵(lì)。這一想法是

發(fā)表于 08-29 15:19 ?2908次閱讀

Deepmind“好奇心學(xué)習(xí)”新機(jī)制：讓智能體不再偷懶

盡管在過去有許多嘗試來形成好奇心，但本文關(guān)注的是一種自然且非常流行的方法：基于“意外”的好奇心機(jī)制。最近一篇題為“Curiosity-driven Exploration

發(fā)表于 10-26 10:02 ?2878次閱讀

人工智能要想更快更好好奇心必不可少

這個(gè)問題可能有些寬泛，無法給出一個(gè)確切的答案。但如果你想要把接新任務(wù)，升級(jí)或者再玩一把等一系列概括起來，最簡(jiǎn)單的解釋就是“好奇心”——只是想看看接下來會(huì)發(fā)生什么。事實(shí)證明，在指導(dǎo)人工

發(fā)表于 11-07 09:51 ?667次閱讀

機(jī)器人擁有好奇心會(huì)讓機(jī)器人變得更加聰明

擁有人類探索世界的好奇心，是讓機(jī)器人變得更加聰明的關(guān)鍵因素之一。德國波鴻大學(xué)的人工好奇心專家瓦倫康培拉指出，

發(fā)表于 06-11 09:24 ?3098次閱讀

好奇心對(duì)于學(xué)習(xí)人工智能有幫助嗎

由好奇心或進(jìn)化驅(qū)動(dòng)的人工智能體可應(yīng)用于學(xué)習(xí)的早期階段，也更適合缺乏大量數(shù)據(jù)的零散環(huán)境。

發(fā)表于 07-01 15:30 ?426次閱讀

“扎針機(jī)器人”何以點(diǎn)燃大眾的好奇心？

同濟(jì)大學(xué)科研團(tuán)隊(duì)自主研發(fā)的全自動(dòng)靜脈采血機(jī)器人，點(diǎn)燃了大眾的好奇心。這一項(xiàng)目由同濟(jì)大學(xué)醫(yī)學(xué)、計(jì)算機(jī)、軟件、控制、機(jī)械、交互設(shè)計(jì)等多學(xué)科團(tuán)隊(duì)研發(fā)。讓記者印象深刻的，是這個(gè)醫(yī)工交叉研發(fā)團(tuán)隊(duì)的一

發(fā)表于 03-03 17:46 ?1802次閱讀

可同步目標(biāo)導(dǎo)向行為和記憶空間結(jié)構(gòu)的視覺導(dǎo)航方法

框架，同時(shí)添加碰撞預(yù)測(cè)作為模型輔助仼務(wù);然后，在智能體學(xué)刁導(dǎo)航過程中，利用時(shí)間相關(guān)性網(wǎng)絡(luò)祛除冗余觀測(cè)及尋找導(dǎo)航節(jié)點(diǎn)，實(shí)現(xiàn)通過情景記憶遞増描述環(huán)境結(jié)構(gòu);最后，將空間拓?fù)涞貓D作為路徑規(guī)劃模

發(fā)表于 03-24 14:36 ?11次下載

Apple Watch Series 9智能手表能夠吸引你的好奇心嗎？S9配56億個(gè)晶體管

比 Series 8 多出 60%，而且 GPU 性能快 30%。 Apple Watch Series 9 智能手表能夠吸引你的好奇心嗎？ S9 SIP 配備神經(jīng)引擎，機(jī)器學(xué)習(xí)的速度是前代的兩倍

發(fā)表于 09-13 01:35 ?1804次閱讀

石墨烯之父——安德烈·海姆，好奇心驅(qū)使下的幽默大師和創(chuàng)新者

安德烈·海姆教授是卓越科學(xué)家，被譽(yù)為“石墨烯之父”，獲諾貝爾物理學(xué)獎(jiǎng)，對(duì)石墨烯材料有重大貢獻(xiàn)。他重視好奇心，鼓勵(lì)將好奇心集中在研究領(lǐng)域。他認(rèn)為石墨烯是一種非常年輕的材料，未來有著無限的可能性，可以應(yīng)用于電池、光照材料、冷卻LED

發(fā)表于 10-31 21:36 ?685次閱讀

Victor Labián Carro：以好奇心成就 RISC-V 職業(yè)成功之路

將對(duì)邏輯的熱情融入RISC-V職業(yè)生涯IT職業(yè)的成功之路通常是由好奇心、奉獻(xiàn)精神和不斷發(fā)展的意愿鋪蓋而成的。VictorLabiánCarro,RVFA，現(xiàn)職為AxeleraAI的客戶工程師，他把

發(fā)表于 09-10 08:08 ?128次閱讀