在线看片毛片无码永久免费,亚洲日本成年在线看

讓兒童（和成年人）整理東西已經(jīng)是件難事了，但是想讓AI像人一樣整理東西是個(gè)不小的挑戰(zhàn)。一些視覺(jué)運(yùn)動(dòng)的核心技能是取得成功的關(guān)鍵：接近一個(gè)物體，抓住并且提起它，然后打開(kāi)一個(gè)盒子，將其放入盒中。要完成更復(fù)雜的動(dòng)作，必須按照正確順序應(yīng)用這些技能。

控制任務(wù)，比如整理桌子或堆疊物體，都需要智能體決定如何、何時(shí)并且在哪里協(xié)調(diào)機(jī)械臂和手指的六個(gè)關(guān)節(jié)以移動(dòng)并實(shí)現(xiàn)目標(biāo)。在某一特定時(shí)刻，可能的動(dòng)作會(huì)有多種組合，并且要想把它們按順序組合好，就產(chǎn)生了嚴(yán)重的問(wèn)題——這也使得強(qiáng)化學(xué)習(xí)成為一個(gè)有趣的領(lǐng)域。

類似獎(jiǎng)勵(lì)塑造（reward shaping）、學(xué)徒式學(xué)習(xí)（apprenticeship learning）或從展示中學(xué)習(xí)有助于解決上述問(wèn)題。但是，這些方法需要對(duì)任務(wù)有足夠的了解——利用很少的先驗(yàn)知識(shí)學(xué)習(xí)復(fù)雜的控制任務(wù)仍然是未解決的挑戰(zhàn)。

昨天，DeepMind提出了一種新的學(xué)習(xí)模式，名為“計(jì)劃輔助控制（SAC-X）”以解決上述問(wèn)題。SAC-X的工作原理是，為了從零開(kāi)始掌握復(fù)雜任務(wù)，智能體必須先學(xué)習(xí)探索一系列基礎(chǔ)技能，并掌握他們。正如嬰兒在學(xué)會(huì)爬行和走路前必須學(xué)會(huì)保持平衡一樣，讓智能體學(xué)習(xí)簡(jiǎn)單技能以增強(qiáng)內(nèi)部協(xié)調(diào)性，有助于它們理解并執(zhí)行復(fù)雜任務(wù)。

研究人員在一些模擬環(huán)境和真實(shí)機(jī)器人上試驗(yàn)了SAC-X方法，其中包括堆疊不同目標(biāo)物體和整理桌子（其中需要移動(dòng)對(duì)象）。他們所指的輔助任務(wù)的通用原則是：鼓勵(lì)智能體探索它的感應(yīng)空間。例如，激活手指的觸覺(jué)感應(yīng)器、在腕部的感應(yīng)器感受力度的大小、將本體感應(yīng)器的關(guān)節(jié)角度最大化或強(qiáng)制物體在其視覺(jué)相機(jī)傳感器中移動(dòng)。如果達(dá)到目標(biāo)，每個(gè)任務(wù)都會(huì)得到一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)，否則沒(méi)有獎(jiǎng)勵(lì)。

模擬智能體最終掌握了“堆疊”這一復(fù)雜任務(wù)

智能體最后能自己決定它現(xiàn)在的“目的”，即下一步要完成什么目標(biāo)，這有可能是一項(xiàng)輔助任務(wù)，或是外部決定的目標(biāo)任務(wù)。重要的是，通過(guò)廣泛使用off-policy學(xué)習(xí)，智能體可以檢測(cè)到獎(jiǎng)勵(lì)信號(hào)并從中學(xué)習(xí)。比如，在撿起或移動(dòng)目標(biāo)物體時(shí)，智能體可能會(huì)不經(jīng)意間完成堆疊動(dòng)作，這樣會(huì)使獎(jiǎng)勵(lì)觀察到這一動(dòng)作。由于一系列簡(jiǎn)單任務(wù)能導(dǎo)致稀有的外部獎(jiǎng)勵(lì)，所以對(duì)目標(biāo)進(jìn)行規(guī)劃是十分重要的。它可以根據(jù)收集的相關(guān)知識(shí)創(chuàng)建個(gè)性化的學(xué)習(xí)課程。事實(shí)證明這是在如此寬廣的領(lǐng)域開(kāi)發(fā)知識(shí)的有效方式，并且當(dāng)只有少量外部獎(jiǎng)勵(lì)信號(hào)可用時(shí)，這種方法更加有用。我們的智能體通過(guò)調(diào)度模塊決定下一個(gè)目標(biāo)。調(diào)度器在訓(xùn)練過(guò)程中通過(guò)元學(xué)習(xí)算法得到改進(jìn)，該算法試圖讓主任務(wù)的進(jìn)度實(shí)現(xiàn)最大化，顯著提高數(shù)據(jù)效率。

探索了一些內(nèi)部輔助任務(wù)后，智能體學(xué)會(huì)了如何堆疊及清理物品

對(duì)SAC-X的評(píng)估表示，使用相同的底層輔助任務(wù)，SAC-X能從零開(kāi)始解決問(wèn)題。令人興奮的是，在實(shí)驗(yàn)室里，SAC-X能在真實(shí)的機(jī)械臂上從零學(xué)習(xí)拾取和放置任務(wù)。這在過(guò)去是很有難度的，因?yàn)樵谡鎸?shí)的機(jī)械臂上學(xué)習(xí)需要數(shù)據(jù)效率。所以人們通常會(huì)訓(xùn)練一個(gè)模擬智能體，然后再轉(zhuǎn)移到真正的機(jī)械臂上。

DeepMind的研究人員認(rèn)為SAC-X的誕生是從零學(xué)習(xí)控制任務(wù)的重要一步（只需要確定任務(wù)的最終目標(biāo)）。SAC-X允許你設(shè)定任意的輔助任務(wù)：它可以是一般的任務(wù)（如激活傳感器），也可以是研究人員需要的任何任務(wù)。也就是說(shuō)在這方面，SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法，除了用于控制任務(wù)和機(jī)器人任務(wù)之外，能廣泛適用于一般的稀疏強(qiáng)化學(xué)習(xí)環(huán)境。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
129

瀏覽量
10813

原文標(biāo)題：DeepMind提出SAC-X學(xué)習(xí)范式，無(wú)需先驗(yàn)知識(shí)就能解決稀疏獎(jiǎng)勵(lì)任務(wù)

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于稀疏編碼的遷移學(xué)習(xí)及其在行人檢測(cè)中的應(yīng)用

一定進(jìn)展,但大都需要大量的訓(xùn)練數(shù)據(jù).針對(duì)這一問(wèn)題,提出了一種基于遷移學(xué)習(xí)的半監(jiān)督行人分類方法:首先基于稀疏編碼,從任意的未標(biāo)記樣本中,學(xué)習(xí)到一個(gè)緊湊、有效的特征表示;然后通過(guò)遷移

發(fā)表于 04-24 09:48

電腦硬件知識(shí)大全大小問(wèn)題自己就能解決 DOC文檔

電腦硬件知識(shí)大全大小問(wèn)題自己就能解決DOC文檔下載附件:

發(fā)表于 02-18 15:29

稀疏表示和字典學(xué)習(xí)是什么

稀疏表示和字典學(xué)習(xí)的簡(jiǎn)單理解

發(fā)表于 08-27 14:44

未來(lái)的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

學(xué)習(xí)從非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)來(lái)編寫(xiě)分析報(bào)告或執(zhí)行無(wú)人監(jiān)督的任務(wù)。所有這些發(fā)展都為不同的公司發(fā)揮作用并證明他們的價(jià)值奠定了基礎(chǔ)。因此，很多像DeepMind這樣的公司成立了，來(lái)繼續(xù)發(fā)展這一領(lǐng)

發(fā)表于 08-26 12:04

一種融合節(jié)點(diǎn)先驗(yàn)信息的圖表示學(xué)習(xí)方法

基于深度學(xué)習(xí)提出了融合節(jié)點(diǎn)先驗(yàn)信息的圖表示學(xué)習(xí)方法，該方法將節(jié)點(diǎn)特征作為先驗(yàn)知識(shí)。要求

發(fā)表于 12-18 16:53 ?0次下載

一種融合節(jié)點(diǎn)<b class='flag-5'>先驗(yàn)</b>信息的圖表示<b class='flag-5'>學(xué)習(xí)</b>方法

先驗(yàn)置信傳播的圖像修復(fù)算法

先驗(yàn)置信傳播（ priority-BP）算法很難在實(shí)際中達(dá)到實(shí)時(shí)處理的要求，計(jì)算效率也有很大的提升空間。針對(duì)先驗(yàn)BP算法在圖像修復(fù)上的應(yīng)用，改進(jìn)算法主要在信息傳遞以及標(biāo)簽搜索方面提出改進(jìn)措施。在信息

發(fā)表于 12-21 09:26 ?0次下載

<b class='flag-5'>先驗(yàn)</b>置信傳播的圖像修復(fù)算法

DeepMind通過(guò)SAC-X推新算法教AI從零學(xué)起

SAC-X 是基于從頭開(kāi)始學(xué)習(xí)復(fù)雜的任務(wù)這種想法，即一個(gè)智能體首先應(yīng)該學(xué)習(xí)并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協(xié)調(diào)能力和平衡能力，為智能體提供與簡(jiǎn)單技能相對(duì)應(yīng)的內(nèi)在目標(biāo)（

發(fā)表于 03-09 12:51 ?1287次閱讀

DeepMind提出強(qiáng)化學(xué)習(xí)新算法，教智能體從零學(xué)控制

3月2日，DeepMind發(fā)表博客文章，提出一種稱為SAC-X（計(jì)劃輔助控制）的新學(xué)習(xí)范式，旨在解決讓AI以最少的

發(fā)表于 03-17 09:12 ?3778次閱讀

【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式，自主機(jī)器人可學(xué)會(huì)任何任務(wù)

SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法，未來(lái)可以應(yīng)用于機(jī)器人以外的更廣泛領(lǐng)域

發(fā)表于 03-19 14:45 ?1873次閱讀

DeepMind開(kāi)發(fā)了PopArt，解決了不同游戲獎(jiǎng)勵(lì)機(jī)制規(guī)范化的問(wèn)題

我們將PopArt應(yīng)用于Importance-weighted Actor-Learner Architecture (IMPALA)，這是DeepMind最流行的深度強(qiáng)化學(xué)習(xí)智能體之一。在實(shí)驗(yàn)中

發(fā)表于 09-16 10:04 ?3139次閱讀

谷歌、DeepMind重磅推出PlaNet 強(qiáng)化學(xué)習(xí)新突破

Google AI 與 DeepMind 合作推出深度規(guī)劃網(wǎng)絡(luò) (PlaNet)，這是一個(gè)純粹基于模型的智能體，能從圖像輸入中學(xué)習(xí)世界模型，完成多項(xiàng)規(guī)劃任務(wù)，數(shù)據(jù)效率平均提升50倍，強(qiáng)化學(xué)習(xí)

發(fā)表于 02-17 09:30 ?3302次閱讀

無(wú)需數(shù)學(xué)就能寫(xiě)AI，MIT提出AI專用編程語(yǔ)言Gen

無(wú)需數(shù)學(xué)就能寫(xiě)AI，MIT提出AI專用編程語(yǔ)言Gen，為使AI算法開(kāi)發(fā)初學(xué)者更容易進(jìn)行編程設(shè)計(jì)，MIT的研究人員開(kāi)發(fā)出一種名為“Gen.”的新型概率編程系統(tǒng)，無(wú)需處理方程式或手動(dòng)編寫(xiě)高

發(fā)表于 07-01 09:58 ?1425次閱讀

DeepMind的最新AI無(wú)需知曉規(guī)則就能掌握游戲

2016年，Alphabet的DeepMind與AlphaGo一起問(wèn)世，該AI一直領(lǐng)先于人類最佳Go players。一年后，該子公司繼續(xù)完善其工作，創(chuàng)建了AlphaGo Zero。在

發(fā)表于 01-05 09:19 ?1473次閱讀

ICLR 2023 Spotlight｜節(jié)省95%訓(xùn)練開(kāi)銷，清華黃隆波團(tuán)隊(duì)提出強(qiáng)化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

大模型時(shí)代，模型壓縮和加速顯得尤為重要。傳統(tǒng)監(jiān)督學(xué)習(xí)可通過(guò)稀疏神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)模型壓縮和加速，那么同樣需要大量計(jì)算開(kāi)銷的強(qiáng)化學(xué)習(xí)任務(wù)可以基于稀疏

發(fā)表于 06-11 21:40 ?642次閱讀

語(yǔ)言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

的發(fā)展，從最早的 AlphaGo、AlphaZero 到后來(lái)的多模態(tài)、多任務(wù)、多具身 AI 智能體 Gato，智能體的訓(xùn)練方法和能力都在不斷演進(jìn)。從中不難發(fā)現(xiàn)，隨著大模型越來(lái)越成為人工智能發(fā)展的主流趨勢(shì)，DeepMind 在智能體的開(kāi)發(fā)中不斷嘗試將強(qiáng)化

發(fā)表于 07-24 16:55 ?504次閱讀

搜索歷史

DeepMind提出SAC-X學(xué)習(xí)范式，無(wú)需先驗(yàn)知識(shí)就能解決稀疏獎(jiǎng)勵(lì)任務(wù)

評(píng)論

基于稀疏編碼的遷移學(xué)習(xí)及其在行人檢測(cè)中的應(yīng)用

電腦硬件知識(shí)大全大小問(wèn)題自己就能解決 DOC文檔

稀疏表示和字典學(xué)習(xí)是什么

未來(lái)的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

一種融合節(jié)點(diǎn)先驗(yàn)信息的圖表示學(xué)習(xí)方法

先驗(yàn)置信傳播的圖像修復(fù)算法

DeepMind通過(guò)SAC-X推新算法教AI從零學(xué)起

DeepMind提出強(qiáng)化學(xué)習(xí)新算法，教智能體從零學(xué)控制

【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式，自主機(jī)器人可學(xué)會(huì)任何任務(wù)

DeepMind開(kāi)發(fā)了PopArt，解決了不同游戲獎(jiǎng)勵(lì)機(jī)制規(guī)范化的問(wèn)題

谷歌、DeepMind重磅推出PlaNet 強(qiáng)化學(xué)習(xí)新突破

無(wú)需數(shù)學(xué)就能寫(xiě)AI，MIT提出AI專用編程語(yǔ)言Gen

DeepMind的最新AI無(wú)需知曉規(guī)則就能掌握游戲

ICLR 2023 Spotlight｜節(jié)省95%訓(xùn)練開(kāi)銷，清華黃隆波團(tuán)隊(duì)提出強(qiáng)化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

語(yǔ)言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

搜索歷史

DeepMind提出SAC-X學(xué)習(xí)范式，無(wú)需先驗(yàn)知識(shí)就能解決稀疏獎(jiǎng)勵(lì)任務(wù)

評(píng)論

DeepMind提出SAC-X學(xué)習(xí)范式，無(wú)需先驗(yàn)知識(shí)就能解決稀疏獎(jiǎng)勵(lì)任務(wù)