0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind 綜述深度強(qiáng)化學(xué)習(xí):智能體和人類相似度竟然如此高!

jmiy_worldofai ? 來源:YXQ ? 2019-06-03 14:36 ? 次閱讀

近年來,深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning)方法在人工智能方面取得了矚目的成就,從 Atari 游戲、到圍棋、再到無限制撲克等領(lǐng)域,AI 的表現(xiàn)都大大超越了專業(yè)選手,這一進(jìn)展引起了眾多認(rèn)知科學(xué)家的關(guān)注。不過 Deep RL 需要大量的訓(xùn)練數(shù)據(jù),人們開始質(zhì)疑深度強(qiáng)化學(xué)習(xí)過于依賴樣本,導(dǎo)致效率低下,無法與人類學(xué)習(xí)的合理模型相匹配。

但在本文中,DeepMind 研究人員將利用最近開發(fā)的技術(shù)來駁回這些質(zhì)疑聲,這些技術(shù)不僅允許深度強(qiáng)化學(xué)習(xí)更靈活地運(yùn)行,而且還使其更高效地解決問題。

第一代 Deep RL:強(qiáng)大但緩慢

在過去的幾年里,人工智能研究取得了革命性的進(jìn)展。神經(jīng)網(wǎng)絡(luò)和「深度學(xué)習(xí)」的復(fù)興推動(dòng)了圖像識(shí)別、自然語言處理等許多領(lǐng)域的突破。這些發(fā)展引起了越來越多心理學(xué)家、心理語言學(xué)家和神經(jīng)學(xué)家的興趣,他們對(duì) AI 發(fā)展是否意味著關(guān)于人類認(rèn)知和腦功能的新假設(shè)展現(xiàn)出了充分的好奇心。

從這個(gè)角度來講,AI 中最具吸引力的領(lǐng)域就是深度強(qiáng)化學(xué)習(xí)。因?yàn)樗鼘⑸窠?jīng)網(wǎng)絡(luò)建模與強(qiáng)化學(xué)習(xí)充分的結(jié)合起來,形成了一套從獎(jiǎng)懲中學(xué)習(xí)而非從準(zhǔn)確教學(xué)中學(xué)習(xí)的方法。數(shù)幾十年來,深度強(qiáng)化學(xué)習(xí)更多的是理論層面的研究,直到近五年來,在電子游戲、撲克、多人游戲以及一些復(fù)雜的棋盤游戲中,表現(xiàn)出超人類的技術(shù)水平,一躍成為人工智能研究最激烈的領(lǐng)域之一。

圖1 深層強(qiáng)化學(xué)習(xí)的代表性例子

除 AI 領(lǐng)域外,深度強(qiáng)化學(xué)習(xí)似乎和心理學(xué)與神經(jīng)科學(xué)也有著緊密的聯(lián)系。其驅(qū)動(dòng)學(xué)習(xí)的機(jī)制最初是受動(dòng)物調(diào)節(jié)作用的啟發(fā),并且被認(rèn)為和基于獎(jiǎng)勵(lì)學(xué)習(xí)(以多巴胺為中心)的神經(jīng)機(jī)制密切相關(guān)。同時(shí),深度強(qiáng)化學(xué)習(xí)利用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)支持泛化和遷移的強(qiáng)大表征,這正和生物大腦的核心相契合。

而正是這些關(guān)聯(lián),使那些對(duì)人類和動(dòng)物的行為與神經(jīng)科學(xué)學(xué)習(xí)感興趣的研究人員,產(chǎn)生了豐富的聯(lián)想與假設(shè),從而開始將目光轉(zhuǎn)向了深度強(qiáng)化學(xué)習(xí)。這樣的結(jié)果,也對(duì)那些關(guān)于一代 Deep RL 發(fā)負(fù)面評(píng)論發(fā)出了警告。

看似深度強(qiáng)化學(xué)習(xí)和人類的學(xué)習(xí)方式完全不同:有人認(rèn)為,這種差異在于二者的樣本效率(學(xué)習(xí)系統(tǒng)達(dá)到任何選定目標(biāo)性能水平所需的數(shù)據(jù)量)?;谶@一標(biāo)準(zhǔn),一代 Deep RL 確實(shí)與人類學(xué)習(xí)者有著極大的不同。為了在 Atari 游戲或國際象棋等任務(wù)中獲得專業(yè)人士級(jí)表現(xiàn),深度強(qiáng)化學(xué)習(xí)系統(tǒng)需要比人類多幾個(gè)數(shù)量級(jí)的訓(xùn)練數(shù)據(jù)。

這樣的評(píng)論確實(shí)適用于自2013年開始見于報(bào)道的一代 Deep RL 。然而,在那之后的短時(shí)間內(nèi),Deep RL 的研究發(fā)生了重要的創(chuàng)新,其樣本效率得到顯著提升。這些方法大大降低了深度強(qiáng)化學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)量的要求,也就相當(dāng)于讓深度強(qiáng)化學(xué)習(xí)變得快多了。這些計(jì)算技術(shù)的出現(xiàn)使 Deep RL 成為人類學(xué)習(xí)建模的候選模型,也是心理學(xué)和神經(jīng)科學(xué)相關(guān)觀點(diǎn)的重要啟蒙。

以當(dāng)下的視角,DeepMind 研究人員在這篇綜述中探究了兩種關(guān)鍵的 Deep RL 方法來解決樣本效率問題:Episodic Deep RL和 Meta-RL 。他們檢驗(yàn)這些技術(shù)如何加快 Deep RL 的效率,同時(shí)也探索了 Deep RL 對(duì)心理學(xué)和神經(jīng)科學(xué)的潛在影響。

Deep RL緩慢的原因

理解能夠加速 Deep RL 的技術(shù)突破的關(guān)鍵點(diǎn)就是找到 Deep RL 在實(shí)際運(yùn)行中緩慢的原因,DeepMind 描述了樣本效率低下的兩個(gè)主要原因。

第一個(gè)原因是增量式的參數(shù)更新。

一代 Deep RL 方法采用梯度下降來映射從輸入環(huán)境到輸出動(dòng)作之間的關(guān)聯(lián)性。正如人工智能和心理學(xué)的廣泛討論所得,在該形式下的學(xué)習(xí)過程,所做的調(diào)整必須很小,才能最大限度地泛化并避免覆蓋早期的學(xué)習(xí)成果(這種影響有時(shí)會(huì)被引用『災(zāi)難性干擾』)。

第二個(gè)原因是弱歸納偏倚。

任何學(xué)習(xí)過程都必然需要在偏倚和多樣性之間作出取舍。學(xué)習(xí)過程對(duì)學(xué)習(xí)模式的初始假設(shè)越強(qiáng)(即學(xué)習(xí)過程的初始?xì)w納偏倚越強(qiáng)),學(xué)習(xí)完成所需的數(shù)據(jù)就越少(假設(shè)初始?xì)w納偏差與數(shù)據(jù)中的相符)。而具有弱歸納偏差的學(xué)習(xí)過程雖然能夠習(xí)得更廣泛的模式(即更佳的多樣性),但代價(jià)是降低樣本效率。

所以,強(qiáng)歸納偏倚可以實(shí)現(xiàn)快速學(xué)習(xí),在選取輸入數(shù)據(jù)時(shí)僅考慮范圍窄的假設(shè)學(xué)習(xí)系統(tǒng),可以比弱歸納偏倚的系統(tǒng)更快地得到正確的假設(shè)(假設(shè)落入該狹窄的初始范圍內(nèi))。更重要的是,通用神經(jīng)網(wǎng)絡(luò)是極低偏倚的學(xué)習(xí)系統(tǒng),它們有許多參數(shù)(連接權(quán)重),并且可以用來適應(yīng)各種數(shù)據(jù)。

這兩個(gè)原因共同解釋了一代 Deep RL緩慢的原因。而隨后的研究表明,這兩個(gè)原因都可以優(yōu)化從而允許Deep RL以樣本效率更高的方式進(jìn)行。

Episodic deep RL:通過情景記憶進(jìn)行快速學(xué)習(xí)

如果增量式的參數(shù)更新是深度強(qiáng)化學(xué)習(xí)緩慢的一個(gè)原因,那么減少增量更新則可以使其變快。

但單純?cè)黾訉W(xué)習(xí)率來控制梯度下降優(yōu)化,則會(huì)導(dǎo)致災(zāi)難性干擾的問題。所以,最近研究表明可以利用另一種方法實(shí)現(xiàn)目標(biāo):保留過去事件的明確記錄,并直接將此記錄用作制定新決策的參考點(diǎn)。這個(gè)被稱為Episodic RL 的觀點(diǎn)與機(jī)器學(xué)習(xí)中的「非參數(shù)」方法相似,類似于心理學(xué)理論中的「基于實(shí)例」或「基于樣本」。

當(dāng)遇到新情景并且必須決定采取何種行動(dòng)時(shí),系統(tǒng)會(huì)將當(dāng)前情景的內(nèi)部表示與過去情景的存儲(chǔ)表示進(jìn)行對(duì)比,根據(jù)與當(dāng)前最相似的過去情況,然后選擇與最高值相關(guān)聯(lián)的動(dòng)作。當(dāng)內(nèi)部狀態(tài)表示由多層神經(jīng)網(wǎng)絡(luò)計(jì)算時(shí),我們將得到的算法稱為 Episodic deep RL 。

圖2 一種情節(jié)強(qiáng)化學(xué)習(xí)算法的例子

Episodic deep RL 使用 Episodicmemory 來估計(jì)動(dòng)作和狀態(tài)的值。該方法的成功取決于狀態(tài)表示相似性的計(jì)算。在后續(xù)研究中,Pritzel等人表明,通過使用梯度下降學(xué)習(xí)逐步形成這些狀態(tài)表示可以改善 deep RL 的性能。

與標(biāo)準(zhǔn)增量法不同,Episodic deep RL 可以及時(shí)利用之前情景事件所獲得的信息來指導(dǎo)行為。雖然 Episodic deep RL 學(xué)習(xí)更快速,但歸根結(jié)底,它仍然依賴于緩慢的增量學(xué)習(xí)。這些狀態(tài)表示本身是通過增量學(xué)習(xí)而得,使用了相同類型的增量參數(shù)更新,才形成了標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)的主干網(wǎng)絡(luò)。最終,通過這種較慢的學(xué)習(xí)形式實(shí)現(xiàn)了快速的 Episodic deep RL ,這表示快速學(xué)習(xí)的基礎(chǔ)正源于緩慢學(xué)習(xí)?!缚焖賹W(xué)習(xí)的基礎(chǔ)是緩慢學(xué)習(xí)」并不是僅僅在強(qiáng)化學(xué)習(xí)里有效的巧合。實(shí)際上在下文中,DeepMind 進(jìn)一步說明了這是在心理學(xué)和神經(jīng)科學(xué)領(lǐng)域也廣泛有效的基礎(chǔ)法則。

Meta-RL:通過學(xué)習(xí)如何學(xué)習(xí)來加速 Deep RL

如前所述,一代 Deep RL 緩慢的第二個(gè)關(guān)鍵原因是弱歸納偏倚。

正如在偏倚和多樣性的取舍概念中所形式化的,快速學(xué)習(xí)要求學(xué)習(xí)者使用一組合理大小的假設(shè)(關(guān)于它將面臨的模式結(jié)構(gòu)),假設(shè)設(shè)置越窄,學(xué)習(xí)速度就越快。然而一個(gè)狹義的假設(shè)集只在它包含正確的假設(shè)的情況下,才會(huì)提高學(xué)習(xí)速率。因此,新的問題就是:學(xué)習(xí)者如何獲得應(yīng)該采用的歸納偏倚?

顯而易見的答案就是:借鑒過去的經(jīng)驗(yàn),這也是人類在日常生活中會(huì)采用的方法。例如,有一個(gè)學(xué)習(xí)使用新智能手機(jī)的任務(wù),在這種情況下,通常我們會(huì)將過去使用智能機(jī)和其他相關(guān)設(shè)備的經(jīng)驗(yàn),用來幫助我們學(xué)習(xí)。

利用過去的經(jīng)驗(yàn)加速新學(xué)習(xí)的方式,在機(jī)器學(xué)習(xí)中被稱為元學(xué)習(xí)。這個(gè)想法源于心理學(xué),它也被稱為「學(xué)習(xí)如何學(xué)習(xí)」。在第一篇使用「元學(xué)習(xí)」的論文中,Harlow 提出了一個(gè)實(shí)驗(yàn),可以巧妙地捕捉它的原理。

實(shí)驗(yàn)中,猴子被提供了兩個(gè)不熟悉的物體,允許抓住其中一個(gè),并在下面放置食物獎(jiǎng)勵(lì)或空井。然后將物體再次放置在動(dòng)物之前,可能左右顛倒,并且重復(fù)該過程總共六輪;然后換兩個(gè)新的、不熟悉的物體,又進(jìn)行了六次試驗(yàn);接著是另一對(duì)物體,依此類推……

在眾多物體對(duì)中,猴子會(huì)發(fā)現(xiàn)一個(gè)簡(jiǎn)單的規(guī)則總是存在:無論物品左右位置如何,只有一個(gè)能產(chǎn)生食物,而另一個(gè)物體不能。當(dāng)呈現(xiàn)一對(duì)新的物體時(shí),猴子能夠一次性學(xué)習(xí),這就是一個(gè)簡(jiǎn)單卻形象的「學(xué)習(xí)如何學(xué)習(xí)」的例子。

圖3 Harlow 的實(shí)驗(yàn)

而 AI 通過利用元學(xué)習(xí)來加速深度學(xué)習(xí),這個(gè)總體思路已經(jīng)以各種方式實(shí)現(xiàn)。其中,Wang 和 Duan 等研究者提出了一種與神經(jīng)科學(xué)和心理學(xué)尤為相關(guān)的方法。在這方法中,循環(huán)神經(jīng)網(wǎng)絡(luò)可以在一系列相互關(guān)聯(lián)的強(qiáng)化學(xué)習(xí)任務(wù)上進(jìn)行訓(xùn)練。因?yàn)榫W(wǎng)絡(luò)中的權(quán)重調(diào)整非常緩慢,所以它們可以得到不同任務(wù)中通用內(nèi)容,但不能快速更改以支持任何單個(gè)任務(wù)的解決方案。

在這種情況下,循環(huán)神經(jīng)網(wǎng)絡(luò)的活動(dòng)動(dòng)態(tài)則可以實(shí)現(xiàn)他們獨(dú)立的強(qiáng)化學(xué)習(xí)算法,該算法基于過去任務(wù)產(chǎn)生的知識(shí)「負(fù)責(zé)」快速解決每個(gè)新任務(wù)。實(shí)際上,一個(gè)強(qiáng)化學(xué)習(xí)算法產(chǎn)生另一個(gè)強(qiáng)化學(xué)習(xí)算法,因此稱為「元強(qiáng)化學(xué)習(xí)算法 meta-RL」。

圖4 元強(qiáng)化學(xué)習(xí)的示意圖

與 Episodic deep RL 一樣,Meta-RL 再次涉及快速和慢速學(xué)習(xí)之間的密切聯(lián)系。循環(huán)神經(jīng)網(wǎng)絡(luò)的連接在各個(gè)任務(wù)之間緩慢學(xué)習(xí)與更新,讓跨任務(wù)的一般原則能「內(nèi)置」到循環(huán)網(wǎng)絡(luò)的動(dòng)態(tài)中,由此產(chǎn)生的網(wǎng)絡(luò)動(dòng)態(tài)實(shí)現(xiàn)了一種新的學(xué)習(xí)算法,則可以實(shí)現(xiàn)快速解決新問題。這一方法被慢速學(xué)習(xí)賦予了有用的歸納偏倚,再一次證明,快速學(xué)習(xí)源于慢學(xué)習(xí)并且通過慢學(xué)習(xí)實(shí)現(xiàn)。

Episodic Meta-RL

值得注意的是,以上兩種技術(shù)并不相互排斥。近期的相關(guān)研究探索了一種整合 Episodic deep RL 和 Meta-RL 的方法,使它們實(shí)現(xiàn)效益互補(bǔ),從而得到了 Episodic meta-RL。其中,元學(xué)習(xí)發(fā)生在循環(huán)神經(jīng)網(wǎng)絡(luò)中,而 Episodic memory 系統(tǒng)則疊加在這之上,其作用是復(fù)原該循環(huán)神經(jīng)網(wǎng)絡(luò)中的活動(dòng)模式。

與 Episodic deep RL 一樣,Episodic memory 系統(tǒng)對(duì)一組過去事件進(jìn)行整合,使其可根據(jù)當(dāng)前情景來查詢這些事件。但是,Episodic meta-RL 不是將情景和估值直接連接起來,而是將情景與來自循環(huán)神經(jīng)網(wǎng)絡(luò)內(nèi)部或隱藏單元的存儲(chǔ)活動(dòng)模式連接起來。這些模式很重要,因?yàn)樗鼈兺ㄟ^ Meta-RL 總結(jié)得到智能體與各個(gè)任務(wù)交互中學(xué)到的東西。

在 Episodic meta-RL 中,當(dāng)智能體處于類似于過去遇到的情況時(shí),它會(huì)先恢復(fù)之前的隱藏活動(dòng),允許先前學(xué)到的信息立直接作用于當(dāng)前策略。實(shí)際上,Episodic memory 允許系統(tǒng)識(shí)別先前遇到的任務(wù),然后檢索已存儲(chǔ)的解決方案。

通過老虎機(jī)選擇任務(wù)和導(dǎo)航任務(wù)的模擬工作,Ritter 等研究者證實(shí)了 Episodic Meta-RL 和原始 Meta-RL 一樣,通過學(xué)習(xí)強(qiáng)大的歸納偏置,實(shí)現(xiàn)快速解決新任務(wù)。核心關(guān)鍵是,當(dāng)處理之前發(fā)生過的任務(wù)時(shí),Episodic Meta-RL 會(huì)立即檢索并復(fù)原之前已有的解決方案,省去重新檢索過程;而在首次處理新任務(wù)時(shí),系統(tǒng)則充分利用 Meta-RL 的快速性;第二次和之后的處理中,它則受益于 Episodic control 所賦予的一次性學(xué)習(xí)功能。

對(duì)神經(jīng)科學(xué)和心理學(xué)的啟示

正如在一開始所討論到,樣本效率低下被作為質(zhì)疑深度強(qiáng)化學(xué)習(xí)與人類和其他動(dòng)物學(xué)習(xí)的相關(guān)性的理由。從心理學(xué)和神經(jīng)科學(xué)的角度來看,Episodic deep RL 和 Meta-RL 的一個(gè)重要含義正是證實(shí)了 Deep RL 也可以實(shí)現(xiàn)快速處理,從而駁回了這一質(zhì)疑。這樣的結(jié)果證實(shí)了深度強(qiáng)化學(xué)習(xí)作為人類和動(dòng)物學(xué)習(xí)的潛在模型是可行的。除此之外,Episodic deep RL 和 Meta-RL 的細(xì)節(jié)也引出了心理學(xué)和神經(jīng)科學(xué)中有趣的新假設(shè)。

從 Episodic deep RL 中,我們會(huì)發(fā)現(xiàn)它與經(jīng)典人類記憶模型之間的有趣聯(lián)系。它為基于實(shí)例的處理如何來促進(jìn)獎(jiǎng)勵(lì)驅(qū)動(dòng)學(xué)習(xí)提供了合理解釋。有趣的是,近期關(guān)于動(dòng)物和人類強(qiáng)化學(xué)習(xí)的研究越來越多強(qiáng)調(diào)了 Episodic memory 的潛在貢獻(xiàn),越來越多的證據(jù)表明,狀態(tài)和行為價(jià)值的估計(jì)是基于對(duì)過去特定行動(dòng)觀察的記憶檢索。Episodic deep RL 提供了一個(gè)新的思維角度,用于探究這個(gè)一般原則如何擴(kuò)展到多樣的、高維的順序?qū)W習(xí)問題上;更讓人驚訝的是,它突出了表征學(xué)習(xí)和度量學(xué)習(xí)在基于 Episodic deep RL 之上,可能發(fā)揮的重要作用。這表明對(duì)于人和動(dòng)物中快速片段強(qiáng)化學(xué)習(xí)與較慢學(xué)習(xí)過程的相互作用及緊密聯(lián)系的研究是有成效的。

再談到 Meta-RL,該算法對(duì)心理學(xué)和神經(jīng)科學(xué)也有潛在的影響。實(shí)際上,Wang 等研究者提出了元強(qiáng)化學(xué)習(xí)的元素到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的直接映射。具體來說,他們提出多巴胺驅(qū)動(dòng)的突觸緩慢變化可用于調(diào)節(jié)前額葉回路的活動(dòng),使后者實(shí)現(xiàn)獨(dú)立的學(xué)習(xí)過程。通過一系列的計(jì)算機(jī)模擬,Wang 等研究者以 Meta-RL 方式去證明了行為和神經(jīng)生理學(xué)文獻(xiàn)中的各種實(shí)證研究結(jié)果。

Wang 等研究者提出,Meta-RL 可以模擬生物大腦進(jìn)行學(xué)習(xí)。他們認(rèn)為以前額皮層(PFC)為中心的復(fù)位神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了學(xué)習(xí)的內(nèi)循環(huán),并且這種內(nèi)循環(huán)算法由多巴胺驅(qū)動(dòng)的突觸可塑的外環(huán)慢慢形成。

在內(nèi)循環(huán)中,前額皮層是快速學(xué)習(xí)的核心,其中的神經(jīng)元用于支持這種學(xué)習(xí)的變量。例如,Tsutsui 等研究者從覓食任務(wù)期間的靈長類動(dòng)物背外側(cè)前額皮層(dlPFC)記錄,當(dāng)環(huán)境變量不斷變化時(shí),他們發(fā)現(xiàn)個(gè)體神經(jīng)元不僅編碼當(dāng)前選項(xiàng)的值,而且還編碼先前采取的行動(dòng),先前的獎(jiǎng)勵(lì)以及先前行動(dòng)與先前獎(jiǎng)勵(lì)的相互作用。這些是在此任務(wù)中實(shí)施有效學(xué)習(xí)政策的關(guān)鍵變量。

而在外循環(huán)中。中腦多巴胺神經(jīng)元被認(rèn)為攜帶時(shí)間差異的獎(jiǎng)賞預(yù)測(cè)誤差(RPE)信號(hào)。在這個(gè)標(biāo)準(zhǔn)理論中,多巴胺驅(qū)動(dòng)對(duì)皮層 - 紋狀體突觸的增量調(diào)整,這些調(diào)整使動(dòng)物更容易重復(fù)強(qiáng)化行為。這種無模型學(xué)習(xí)系統(tǒng)通常被視為生活在大多數(shù)不同腦區(qū)的基于模型的系統(tǒng)的補(bǔ)充。

同樣將 Episodic meta-RL 與心理學(xué)和神經(jīng)科學(xué)聯(lián)系起來。該算法涉及的復(fù)位機(jī)制直接受神經(jīng)科學(xué)數(shù)據(jù)的啟發(fā),表明 Episodic memory 可用于復(fù)位大腦皮層的激活模式,包括支持工作記憶的區(qū)域。Ritter 等研究者展示了如何通過強(qiáng)化學(xué)習(xí)的優(yōu)化配置,從而系統(tǒng)復(fù)位先前遇到的任務(wù)信息狀態(tài)。除了從神經(jīng)科學(xué)中汲取的最初靈感外,這項(xiàng)工作還通過為人類學(xué)習(xí)中最近報(bào)道的情節(jié)控制和基于模型的控制之間的相互作用提供簡(jiǎn)約解釋而與生物學(xué)相關(guān)聯(lián)。在更廣泛的層面上,Ritter 等研究者報(bào)道的工作舉例說明了元學(xué)習(xí)如何在多個(gè)記憶系統(tǒng)上運(yùn)行,緩慢調(diào)整他們的交互,以便他們共同快速學(xué)習(xí)。

快速和慢速 RL:更深遠(yuǎn)的意義

在討論 Episodic RL 和 Meta-RL 時(shí),我們強(qiáng)調(diào)了「慢」學(xué)習(xí)在實(shí)現(xiàn)快速、樣本有效學(xué)習(xí)方面的作用。在 Meta-RL 中,緩慢的、基于權(quán)重的學(xué)習(xí),用于建立歸納偏倚來指導(dǎo)推理,從而快速去適應(yīng)新任務(wù)。而在 Episodic RL 中,算法則依賴于對(duì)情景或狀態(tài)之間相似性的判斷。緩慢的學(xué)習(xí)形成了內(nèi)部表示的方式,從而建立了一系列有關(guān)于狀態(tài)之間聯(lián)系的歸納偏倚。

進(jìn)一步觀察 Episodic RL ,我們可以發(fā)現(xiàn)學(xué)習(xí)架構(gòu)中本身就存在歸納偏倚。Episodic RL 獨(dú)特之處則是:假設(shè)一種簡(jiǎn)單原則,類似的狀態(tài)通常產(chǎn)生類似的動(dòng)作。這種歸納偏差不是用于學(xué)習(xí),而是連接到定義 Episodic RL 的學(xué)習(xí)系統(tǒng)結(jié)構(gòu)中。在當(dāng)前的 AI 中,這是「架構(gòu)」或「算法偏倚」,與「學(xué)習(xí)偏倚」有明顯的區(qū)別。

目前人工智能研究主要集中在尋找有用的歸納偏倚以加速學(xué)習(xí),通過學(xué)習(xí)、手工設(shè)計(jì)架構(gòu)或算法偏倚來實(shí)現(xiàn),而最后一種方法則是當(dāng)下人工智能神經(jīng)網(wǎng)絡(luò)興起的主要原因。其中,卷積神經(jīng)網(wǎng)絡(luò)提供了強(qiáng)有力的支持,它構(gòu)建了一種與圖像識(shí)別中的平移不變性相關(guān)的特殊結(jié)構(gòu)偏倚。

從高層次來看,這些發(fā)展與心理學(xué)中一些長期存在的問題相似。如你所見,歸納偏倚可能通過學(xué)習(xí)獲得的想法最初源于心理學(xué),并且一直是心理學(xué)研究的間歇性話題。而神經(jīng)網(wǎng)絡(luò)中的元學(xué)習(xí)為學(xué)習(xí)如何學(xué)習(xí)的機(jī)制和動(dòng)態(tài)提供了新的條件,尤其是在 RL 中。

在心理學(xué)方面,尤其是發(fā)展心理學(xué),也長期以來一直在探索某些歸納偏倚「內(nèi)置」的可能性,即內(nèi)在特性。然而,結(jié)構(gòu)偏差以及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法中的內(nèi)置偏倚的原理概念被考慮得較少,當(dāng)前的深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的方法則為其提供了一個(gè)工具,有助于進(jìn)一步探索。

值得關(guān)注的是,雖然人工智能工作在通過學(xué)習(xí)獲得的歸納偏倚和手工「連接」的偏見之間產(chǎn)生了明顯的區(qū)別,但從生物學(xué)來講,可以獲得更普遍、更統(tǒng)一的觀點(diǎn)。具體而言,人們可以將架構(gòu)和算法偏倚視為由進(jìn)化驅(qū)動(dòng)的不同學(xué)習(xí)過程產(chǎn)生的。這里的進(jìn)化,是一種「緩慢」的學(xué)習(xí)過程,逐漸形成架構(gòu)和算法偏倚,從而加快終身學(xué)習(xí)速度。

因此,元學(xué)習(xí)不僅在一個(gè)生命周期內(nèi)發(fā)揮作用,而且在進(jìn)化過程也發(fā)揮作用。有趣的是,這種觀點(diǎn)意味著進(jìn)化不會(huì)選擇真正的「通用」學(xué)習(xí)算法,而是選擇大腦在特定環(huán)境下的進(jìn)化規(guī)律作為算法。在這樣的情況下,AI 的最新發(fā)展再次證明其對(duì)于神經(jīng)科學(xué)和心理學(xué)的探索具有實(shí)際意義。無論是專注于手工工程還是進(jìn)化,AI 在構(gòu)架和算法偏倚方面的工作為我們提供了一個(gè)新的思路——用于對(duì)進(jìn)化是如何形成神經(jīng)系統(tǒng)從而支持有效學(xué)習(xí)做進(jìn)一步研究。人工智能研究提出的可能性包括對(duì)神經(jīng)網(wǎng)絡(luò)連接初始模式的限制;突觸學(xué)習(xí)規(guī)則;和鼓勵(lì)出現(xiàn)解離或組合表征的因素和內(nèi)部預(yù)測(cè)模型。

從心理學(xué),神經(jīng)科學(xué),進(jìn)化和發(fā)展研究的角度來看,這些研究也繪制出了這樣的藍(lán)圖:學(xué)習(xí)在許多時(shí)間尺度上同時(shí)運(yùn)行,從幾千毫秒到幾毫秒之間,隨著較慢的時(shí)間尺度得到偏差,使其在這之上實(shí)現(xiàn)更快的學(xué)習(xí),并且所有這些都在進(jìn)化、發(fā)展并且遵循著受環(huán)境結(jié)構(gòu)強(qiáng)烈影響的軌跡。從這看來,進(jìn)化形成了嵌入歸納偏倚的架構(gòu)和算法;然后這些形成終身學(xué)習(xí),它本身就會(huì)根據(jù)經(jīng)驗(yàn)發(fā)展出進(jìn)一步的歸納偏倚。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46060

    瀏覽量

    234951
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120587

原文標(biāo)題:DeepMind 綜述深度強(qiáng)化學(xué)習(xí):智能體和人類相似度竟然如此高!

文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深度學(xué)習(xí)中的時(shí)間序列分類方法

    的發(fā)展,基于深度學(xué)習(xí)的TSC方法逐漸展現(xiàn)出其強(qiáng)大的自動(dòng)特征提取和分類能力。本文將從多個(gè)角度對(duì)深度學(xué)習(xí)在時(shí)間序列分類中的應(yīng)用進(jìn)行綜述,探討常用
    的頭像 發(fā)表于 07-09 15:54 ?370次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無監(jiān)督學(xué)習(xí)深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的
    的頭像 發(fā)表于 07-09 10:50 ?216次閱讀

    深度學(xué)習(xí)在視覺檢測(cè)中的應(yīng)用

    能力,還使得機(jī)器能夠模仿人類的某些智能行為,如識(shí)別文字、圖像和聲音等。深度學(xué)習(xí)的引入,極大地推動(dòng)了人工智能技術(shù)的發(fā)展,特別是在圖像識(shí)別、自然
    的頭像 發(fā)表于 07-08 10:27 ?336次閱讀

    人工智能、機(jī)器學(xué)習(xí)深度學(xué)習(xí)是什么

    在科技日新月異的今天,人工智能(Artificial Intelligence, AI)、機(jī)器學(xué)習(xí)(Machine Learning, ML)和深度學(xué)習(xí)(Deep Learning,
    的頭像 發(fā)表于 07-03 18:22 ?670次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)作為人工智能的一個(gè)重要分支,通過模擬人類大腦中的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。Python作為一種流行的編程語言,憑借其簡(jiǎn)潔的語法和豐富的庫支持,成為了深度
    的頭像 發(fā)表于 07-03 16:04 ?380次閱讀

    WAVE SUMMIT深度學(xué)習(xí)開發(fā)者大會(huì),文心大模型4.0 Turbo震撼發(fā)布

    6月28日,科技界的目光聚焦在了百WAVE SUMMIT深度學(xué)習(xí)開發(fā)者大會(huì)上,這場(chǎng)盛會(huì)不僅是技術(shù)交流的盛宴,更是百展示其在人工智能領(lǐng)域最
    的頭像 發(fā)表于 06-28 16:30 ?381次閱讀

    通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí),尤其是馬爾可夫決策
    的頭像 發(fā)表于 06-05 08:27 ?224次閱讀
    通過<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇

    谷歌DeepMind推出SIMI通用AI智能

    近日,谷歌的DeepMind團(tuán)隊(duì)發(fā)布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),這是一個(gè)通用人工智能智能,能夠在多種
    的頭像 發(fā)表于 03-18 11:39 ?749次閱讀

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,已成為人工智能領(lǐng)域的一項(xiàng)變革性技術(shù),在從計(jì)算機(jī)視覺、自然語言處理到自動(dòng)駕駛汽車等廣泛的應(yīng)用中取得了顯著的成功。深度
    的頭像 發(fā)表于 03-09 08:26 ?502次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?

    AI算法的本質(zhì)是模擬人類智能,讓機(jī)器實(shí)現(xiàn)智能

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)AI算法是人工智能領(lǐng)域中使用的算法,用于模擬、延伸和擴(kuò)展人的智能。這些算法可以通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)
    的頭像 發(fā)表于 02-07 00:07 ?5103次閱讀

    【技術(shù)科普】主流的深度學(xué)習(xí)模型有哪些?AI開發(fā)工程師必備!

    接近于人工智能。它通過學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,對(duì)文字、圖像和聲音等數(shù)據(jù)進(jìn)行解釋。深度學(xué)習(xí)的目標(biāo)是讓機(jī)器像人一樣具有分析學(xué)習(xí)能力,能
    的頭像 發(fā)表于 01-30 15:26 ?505次閱讀
    【技術(shù)科普】主流的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>模型有哪些?AI開發(fā)工程師必備!

    深度學(xué)習(xí)在人工智能中的 8 種常見應(yīng)用

    深度學(xué)習(xí)簡(jiǎn)介深度學(xué)習(xí)是人工智能(AI)的一個(gè)分支,它教神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和推理。近年來,它解決復(fù)雜問題
    的頭像 發(fā)表于 12-01 08:27 ?2953次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>在人工<b class='flag-5'>智能</b>中的 8 種常見應(yīng)用

    基于深度學(xué)習(xí)的情感語音識(shí)別模型優(yōu)化策略

    情感語音識(shí)別技術(shù)是一種將人類語音轉(zhuǎn)化為情感信息的技術(shù),其應(yīng)用范圍涵蓋了人機(jī)交互、智能客服、心理健康監(jiān)測(cè)等多個(gè)領(lǐng)域。隨著人工智能技術(shù)的不斷發(fā)展,深度學(xué)
    的頭像 發(fā)表于 11-09 16:34 ?495次閱讀

    什么是強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一,它與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列,是三種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。 在圍棋上擊敗世界第一李世石的 AlphaGo、在《
    的頭像 發(fā)表于 10-30 11:36 ?3460次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>

    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問題

    擴(kuò)散模型(diffusion model)在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強(qiáng)化學(xué)習(xí)(RL)中來解決序列決策問題
    的頭像 發(fā)表于 10-02 10:45 ?656次閱讀
    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>問題