日本成熟妇人高潮A片激情,人人妻人人狠人人爽s,国偷自产视频一区二区久

在上一篇文章里，我們提到了棋盤游戲的比喻和純強(qiáng)化學(xué)習(xí)技術(shù)的缺陷（斯坦福學(xué)者冷思考：強(qiáng)化學(xué)習(xí)存在基礎(chǔ)性缺陷）。在這一部分中，我們會(huì)列舉一些添加先驗(yàn)知識(shí)的方法，同時(shí)會(huì)對(duì)深度學(xué)習(xí)進(jìn)行介紹，并且展示對(duì)最近的成果進(jìn)行調(diào)查。

那么，為什么不跳出純強(qiáng)化學(xué)習(xí)的圈子呢？

你可能會(huì)想：

我們不能越過(guò)純強(qiáng)化學(xué)習(xí)來(lái)模仿人類的學(xué)習(xí)——純強(qiáng)化學(xué)習(xí)是嚴(yán)格制定的方法，我們用來(lái)訓(xùn)練AI 智能體的算法是基于此的。盡管從零開(kāi)始學(xué)習(xí)不如多提供些信息，但是我們沒(méi)有那樣做。

的確，加入先驗(yàn)知識(shí)或任務(wù)指導(dǎo)會(huì)比嚴(yán)格意義上的純強(qiáng)化學(xué)習(xí)更復(fù)雜，但是事實(shí)上，我們有一種方法既能保證從零開(kāi)始學(xué)習(xí)，又能更接近人類學(xué)習(xí)的方法。

首先，我們先明確地解釋，人類學(xué)習(xí)和純強(qiáng)化學(xué)習(xí)有什么區(qū)別。當(dāng)開(kāi)始學(xué)習(xí)一種新技能，我們主要做兩件事：猜想大概的操作方法是什么，或者度說(shuō)明書。一開(kāi)始，我們就了解了這一技能要達(dá)到的目標(biāo)和大致使用方法，并且從未從低端的獎(jiǎng)勵(lì)信號(hào)開(kāi)始反向生成這些東西。

UC Berkeley的研究者最近發(fā)現(xiàn)，人類的學(xué)習(xí)速度比純強(qiáng)化學(xué)習(xí)在某些時(shí)候更快，因?yàn)槿祟愑昧讼闰?yàn)知識(shí)

使用先驗(yàn)知識(shí)和說(shuō)明書

這種想法在AI研究中有類似的成果：

解決“學(xué)習(xí)如何學(xué)習(xí)”的元學(xué)習(xí)方法：讓強(qiáng)化學(xué)習(xí)智能體更快速地學(xué)會(huì)一種新技術(shù)已經(jīng)有類似的技巧了，而學(xué)習(xí)如何學(xué)習(xí)正是我們需要利用先驗(yàn)知識(shí)超越純強(qiáng)化學(xué)習(xí)的方法。

MAML是先進(jìn)的元學(xué)習(xí)算法。智能體可以在元學(xué)習(xí)少次迭代后學(xué)會(huì)向前和向后跑動(dòng)

遷移學(xué)習(xí)：顧名思義，就是將在一種問(wèn)題上學(xué)到的方法應(yīng)用到另一種潛在問(wèn)題上。關(guān)于遷移學(xué)習(xí)，DeepMind的CEO是這樣說(shuō)的。

我認(rèn)為（遷移學(xué)習(xí)）是強(qiáng)人工智能的關(guān)鍵，而人類可以熟練地使用這種技能。例如，我現(xiàn)在已經(jīng)玩過(guò)很多棋盤類游戲了，如果有人再教我另一種棋類游戲，我可能不會(huì)那么陌生，我會(huì)把在其他游戲上學(xué)到的啟發(fā)性方法用到這一游戲上，但是現(xiàn)在機(jī)器還做不到……所以我想這是強(qiáng)人工智能所面臨的重大挑戰(zhàn)。

零次學(xué)習(xí)（Zero-shot learning）：它的目的也是掌握新技能，但是卻不用新技能進(jìn)行任何嘗試，智能體只需從新任務(wù)接收“指令”，即使沒(méi)有執(zhí)行過(guò)新的任務(wù)也能一次性表現(xiàn)的很好。

一次學(xué)習(xí)（one-shot learning）和少次學(xué)習(xí)（few-shot learning）：這兩類是研究的熱門區(qū)域，他們和零次學(xué)習(xí)不同，因?yàn)樗鼈儠?huì)用到即將學(xué)習(xí)的技巧做示范，或者只需要少量迭代。

終身學(xué)習(xí)（life long learning）和自監(jiān)督學(xué)習(xí)（self supervised learning）：也就是長(zhǎng)時(shí)間不在人類的指導(dǎo)下學(xué)習(xí)。

這些都是除了從零學(xué)習(xí)之外的強(qiáng)化學(xué)習(xí)方法。特別是元學(xué)習(xí)和零次學(xué)習(xí)體現(xiàn)了人在學(xué)習(xí)一種新技能時(shí)更有可能的做法，與純強(qiáng)化學(xué)習(xí)有差別。一個(gè)元學(xué)習(xí)智能體會(huì)利用先驗(yàn)知識(shí)快速學(xué)習(xí)棋類游戲，盡管它不明白游戲規(guī)則。另一方面，一個(gè)零次學(xué)習(xí)智能體會(huì)詢問(wèn)游戲規(guī)則，但是不會(huì)做任何學(xué)習(xí)上的嘗試。一次學(xué)習(xí)和少次學(xué)習(xí)方法相似，但是只知道如何運(yùn)用技能，也就是說(shuō)智能體會(huì)觀察其他人如何玩游戲，但不會(huì)要求解釋游戲規(guī)則。

最近一種混合了一次學(xué)習(xí)和元學(xué)習(xí)的方法。來(lái)自O(shè)ne-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

元學(xué)習(xí)和零次學(xué)習(xí)（或少次學(xué)習(xí)）的一般概念正是棋類游戲中合理的部分，然而更好的是，將零次學(xué)習(xí)（或少次學(xué)習(xí)）和元學(xué)習(xí)結(jié)合起來(lái)就更接近人類學(xué)習(xí)的方法了。它們利用先驗(yàn)經(jīng)驗(yàn)、說(shuō)明指導(dǎo)和試錯(cuò)形成最初對(duì)技能的假設(shè)。之后，智能體親自嘗試了這一技巧并且依靠獎(jiǎng)勵(lì)信號(hào)進(jìn)行測(cè)試和微調(diào)，從而做出比最初假設(shè)更優(yōu)秀的技能。

這也解釋了為什么純強(qiáng)化學(xué)習(xí)方法目前仍是主流，針對(duì)元學(xué)習(xí)和零次學(xué)習(xí)的研究不太受關(guān)注。有一部分原因可能是因?yàn)閺?qiáng)化學(xué)習(xí)的基礎(chǔ)概念并未經(jīng)受過(guò)多質(zhì)疑，元學(xué)習(xí)和零次學(xué)習(xí)的概念也并沒(méi)有大規(guī)模應(yīng)用到基礎(chǔ)原理的實(shí)現(xiàn)中。在所有運(yùn)用了強(qiáng)化學(xué)習(xí)的代替方法的研究中，也許最符合我們希望的就是DeepMind于2015年提出的Universal Value Function Approximators，其中Richard Sutton提出了“通用價(jià)值函數(shù)（general value function）”。這篇論文的摘要是這樣寫的：

價(jià)值函數(shù)是強(qiáng)化學(xué)習(xí)系統(tǒng)中的核心要素。主要思想就是建立一個(gè)單一函數(shù)近似器V(s;θ)，通過(guò)參數(shù)θ來(lái)估計(jì)任意狀態(tài)s的長(zhǎng)期獎(jiǎng)勵(lì)。在這篇論文中，我們提出了通用價(jià)值函數(shù)近似器（UVFAs）V(s, g;θ)，不僅能生成狀態(tài)s的獎(jiǎng)勵(lì)值，還能生成目標(biāo)g的獎(jiǎng)勵(lì)值。

將UVFA應(yīng)用到實(shí)際中

這種嚴(yán)格的數(shù)學(xué)方法將目標(biāo)看作是基礎(chǔ)的、必須的輸入。智能體被告知應(yīng)該做什么，就像在零次學(xué)習(xí)和人類學(xué)習(xí)中一樣。

現(xiàn)在距論文發(fā)表已經(jīng)三年，但只有極少數(shù)人對(duì)論文的結(jié)果表示欣喜（作者統(tǒng)計(jì)了下只有72人）。據(jù)谷歌學(xué)術(shù)的數(shù)據(jù)，DeepMind同年發(fā)表的Human-level control through deep RL一文已經(jīng)有了2906次引用；2016年發(fā)表的Mastering the game of Go with deep neural networks and tree search已經(jīng)獲得了2882次引用。

所以，的確有研究者朝著結(jié)合元學(xué)習(xí)和零次學(xué)習(xí)的方向努力，但是根據(jù)引用次數(shù)，這一方向仍然不清楚。關(guān)鍵問(wèn)題是：為什么人們不把這種結(jié)合的方法看作是默認(rèn)方法呢？

答案很明顯，因?yàn)樘y了。AI研究?jī)A向于解決獨(dú)立的、定義明確的問(wèn)題，以更好地做出進(jìn)步，所以除了純強(qiáng)化學(xué)習(xí)以及從零學(xué)習(xí)之外，很少有研究能做到，因?yàn)樗鼈冸y以定義。但是，這一答案似乎還不夠令人滿意：深度學(xué)習(xí)讓研究人員創(chuàng)造了混合方法，例如包含NLP和CV兩種任務(wù)的模型，或者原始AlphaGo加入了深度學(xué)習(xí)等等。事實(shí)上，DeepMind最近的論文Relational inductive biases, deep learning, and graph networks也提到了這一點(diǎn)：

我們認(rèn)為，通向強(qiáng)人工智能的關(guān)鍵方法就是將結(jié)合生成作為第一要義，我們支持運(yùn)用多種方法達(dá)到目標(biāo)。生物學(xué)也并不是單純的自然和后期培養(yǎng)相對(duì)立，它是將二者結(jié)合，創(chuàng)造了更有效的結(jié)果。我們也認(rèn)為，架構(gòu)和靈活性之間并非對(duì)立的，而是互補(bǔ)的。通過(guò)最近的一些基于結(jié)構(gòu)的方法和深度學(xué)習(xí)混合的案例，我們看到了結(jié)合技術(shù)的巨大前景。

最近元學(xué)習(xí)（或零次學(xué)習(xí)）的成果

現(xiàn)在我們可以得出結(jié)論：

受上篇棋盤游戲比喻的激勵(lì)，以及DeepMind通用價(jià)值函數(shù)的提出，我們應(yīng)該重新考慮強(qiáng)化學(xué)習(xí)的基礎(chǔ)，或者至少更加關(guān)注這一領(lǐng)域。

雖然現(xiàn)有成果并未流行，但我們?nèi)阅馨l(fā)現(xiàn)一些令人激動(dòng)的成果：

Hindsight Experience Replay

Zero-shot Task Generalization with Multi-Task Deep Reinforcement Learning

Representation Learning for Grounded Spatial Reasoning

Deep Transfer in Reinforcement Learning by Language Grounding

Cross-Domain Perceptual Reward Functions

Learning Goal-Directed Behaviour

上述論文都是結(jié)合了各種方法、或者以目標(biāo)為導(dǎo)向的方法。而更令人激動(dòng)的是最近有一些作品研究了本能激勵(lì)和好奇心驅(qū)使的學(xué)習(xí)方法：

Kickstarting Deep Reinforcement Learning

Surprise-Based Intrinsic Motivation for Deep Reinforcement Learning

Meta-Reinforcement Learning of Structured Exploration Strategies

Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

Curiosity-driven Exploration by Self-supervised Prediction

Learning by Playing - Solving Sparse Reward Tasks from Scratch

Learning to Play with Intrinsically-Motivated Self-Aware Agents

Unsupervised Predictive Memory in a Goal-Directed Agent

World Models

接著，我們還可以從人類的學(xué)習(xí)中獲得靈感，也就是直接學(xué)習(xí)。事實(shí)上，過(guò)去和現(xiàn)在的神經(jīng)科學(xué)研究直接表明，人類和動(dòng)物的學(xué)習(xí)可以用強(qiáng)化學(xué)習(xí)和元學(xué)習(xí)共同表示。

Meta-Learning in Reinforcement Learning

Prefrontal cortex as a meta-reinforcement learning system

最后一篇論文的結(jié)果和我們的結(jié)論相同，論智此前曾報(bào)道過(guò)這篇：DeepMind論文：多巴胺不只負(fù)責(zé)快樂(lè)，還能幫助強(qiáng)化學(xué)習(xí)。從根本上講，人們可以認(rèn)為，人類的智慧正是強(qiáng)化學(xué)習(xí)和元學(xué)習(xí)的結(jié)合——元強(qiáng)化學(xué)習(xí)的成果。如果真的是這種情況，我們是否也該對(duì)AI做同樣的事呢？

結(jié)語(yǔ)

強(qiáng)化學(xué)習(xí)的經(jīng)典基礎(chǔ)性缺陷可能限制它解決很多復(fù)雜問(wèn)題，像本文提到的很多論文中都提到，不采用從零學(xué)習(xí)的方法也不是必須有手工編寫或者嚴(yán)格的規(guī)則。元強(qiáng)化學(xué)習(xí)讓智能體通過(guò)高水平的指導(dǎo)、經(jīng)驗(yàn)、案例更好地學(xué)習(xí)。

目前的時(shí)機(jī)已經(jīng)成熟到可以展開(kāi)上述工作，將注意力從純強(qiáng)化學(xué)習(xí)的身上移開(kāi)，多多關(guān)注從人類身上學(xué)到的學(xué)習(xí)方法。但是針對(duì)純強(qiáng)化學(xué)習(xí)的工作不應(yīng)該立即停止，而是應(yīng)該作為其他工作的補(bǔ)充。基于元學(xué)習(xí)、零次學(xué)習(xí)、少次學(xué)習(xí)、遷移學(xué)習(xí)及它們的結(jié)合的方法應(yīng)該成為默認(rèn)方法，我很愿意為此貢獻(xiàn)自己的力量。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

智能體

智能體

+關(guān)注

關(guān)注
1

文章
119

瀏覽量
10537
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120587
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
263

瀏覽量
11157

原文標(biāo)題：面對(duì)強(qiáng)化學(xué)習(xí)的基礎(chǔ)性缺陷，研究重點(diǎn)也許要轉(zhuǎn)變

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知，人類擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題，從低級(jí)的運(yùn)動(dòng)控制(如：步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。

發(fā)表于 07-01 10:29 ?1331次閱讀

什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

反向強(qiáng)化學(xué)習(xí)的思路

強(qiáng)化學(xué)習(xí)的另一種策略（二）

發(fā)表于 04-03 12:10

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

一：深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn)：1 月 15日— 1 月18 日二：深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn)： 1 月 27 日— 1 月30 日(第一天報(bào)到授課三天；提前環(huán)境部署電腦

發(fā)表于 01-10 13:42

將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái)，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo，將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度，成為人工智能歷史上一個(gè)新的里程碑。因此，深

發(fā)表于 06-29 18:36 ?2.8w次閱讀

如何深度強(qiáng)化學(xué)習(xí) 人工智能和深度學(xué)習(xí)的進(jìn)階

傳統(tǒng)上，強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域占據(jù)著一個(gè)合適的地位。但強(qiáng)化學(xué)習(xí)在過(guò)去幾年已開(kāi)始在很多人工智能計(jì)劃中發(fā)揮更大的作用。

發(fā)表于 03-03 14:16 ?4106次閱讀

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使獎(jiǎng)勵(lì)信號(hào)（強(qiáng)化信號(hào)）函數(shù)值最大，強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督

發(fā)表于 05-30 06:53 ?1358次閱讀

什么是強(qiáng)化學(xué)習(xí)？純強(qiáng)化學(xué)習(xí)有意義嗎？強(qiáng)化學(xué)習(xí)有什么的致命缺陷？

強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一，在強(qiáng)化學(xué)習(xí)的框架中，智能體通過(guò)與環(huán)境互動(dòng)，來(lái)學(xué)習(xí)采取何種動(dòng)作能使其在給定環(huán)境中的長(zhǎng)期獎(jiǎng)勵(lì)最大化，就像在上述的棋盤游戲寓言中，你通過(guò)與棋盤的互動(dòng)來(lái)學(xué)習(xí)

發(fā)表于 07-15 10:56 ?1.7w次閱讀

什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>？純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎？<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命<b class='flag-5'>缺陷</b>？

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法，但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)智能體之間的交互。

發(fā)表于 11-02 16:18 ?2.2w次閱讀

深度強(qiáng)化學(xué)習(xí)到底是什么？它的工作原理是怎么樣的

深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分，都已經(jīng)得到廣泛的研究和應(yīng)用。強(qiáng)化學(xué)習(xí)RL是通過(guò)對(duì)未

發(fā)表于 06-13 11:39 ?5875次閱讀

復(fù)雜應(yīng)用中運(yùn)用人工智能核心強(qiáng)化學(xué)習(xí)

近期，有不少報(bào)道強(qiáng)化學(xué)習(xí)算法在 GO、Dota 2 和 Starcraft 2 等一系列游戲中打敗了專業(yè)玩家的新聞。強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)類型，能夠在電子游戲、機(jī)器人、自動(dòng)駕駛等復(fù)雜應(yīng)

發(fā)表于 07-27 08:50 ?808次閱讀

一文詳談機(jī)器學(xué)習(xí)的強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集，它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前，相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。

發(fā)表于 11-06 15:33 ?1676次閱讀

83篇文獻(xiàn)、萬(wàn)字總結(jié)強(qiáng)化學(xué)習(xí)之路

深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的產(chǎn)物，它集成了深度學(xué)習(xí)在視覺(jué)等感知問(wèn)題上強(qiáng)大的理解能力，以及強(qiáng)化

發(fā)表于 12-10 18:32 ?501次閱讀

DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫(kù)RLax

RLax（發(fā)音為“ relax”）是建立在JAX之上的庫(kù)，它公開(kāi)了用于實(shí)施強(qiáng)化學(xué)習(xí)智能體的有用構(gòu)建塊。。報(bào)道：深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作者：DeepRL ...

發(fā)表于 12-10 18:43 ?638次閱讀

《自動(dòng)化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

多Agent 深度強(qiáng)化學(xué)習(xí)綜述來(lái)源：《自動(dòng)化學(xué)報(bào)》，作者梁星星等摘要?近年來(lái),深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL) 在諸多復(fù)雜序貫決策問(wèn)

發(fā)表于 01-18 10:08 ?1468次閱讀

什么是強(qiáng)化學(xué)習(xí)

的AlphaStar，他們都是強(qiáng)化學(xué)習(xí)模型。諸如此類的模型還有 AlphaGo Zero 等。 強(qiáng)化學(xué)習(xí)的原理非常簡(jiǎn)單，它非常像心理學(xué)中新行為主義派的斯金納發(fā)現(xiàn)的操作性條件反射。操作

發(fā)表于 10-30 11:36 ?3460次閱讀

搜索歷史

強(qiáng)化學(xué)習(xí)的經(jīng)典基礎(chǔ)性缺陷可能限制它解決很多復(fù)雜問(wèn)題