來自英特爾AI實(shí)驗(yàn)室和俄勒岡州立大學(xué)工程學(xué)院協(xié)作機(jī)器人和智能系統(tǒng)研究所的研究人員結(jié)合了多種方法,制作了性能更好的強(qiáng)化學(xué)習(xí)系統(tǒng),可應(yīng)用于機(jī)器人控制,控制自主車輛功能的系統(tǒng)和其他復(fù)雜系統(tǒng)。
協(xié)同進(jìn)化強(qiáng)化學(xué)習(xí)(CERL)可以在類人、Hopper、Swimmer、HalfCheetah和Walker2D等基準(zhǔn)測(cè)試中獲得更好的性能。使用CERL方法,研究人員能夠基于OpenAI的Humanoid基準(zhǔn)測(cè)試使3D人形機(jī)器人直立行走。
這些成果在一定程度上是通過訓(xùn)練系統(tǒng)實(shí)現(xiàn)的,該系統(tǒng)探索了更多的強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境,以尋求獎(jiǎng)勵(lì)并完成特定的任務(wù)。
環(huán)境探索對(duì)于確保記錄各種經(jīng)驗(yàn)并考慮行動(dòng)方案非常重要。研究人員在一篇解釋CERL工作原理的論文中說,與環(huán)境探索相關(guān)的問題已經(jīng)出現(xiàn),特別是在使用深度強(qiáng)化學(xué)習(xí)來完成具有挑戰(zhàn)性的現(xiàn)實(shí)任務(wù)越來越普及的情況下。該論文寫道,“神經(jīng)進(jìn)化將整個(gè)過程結(jié)合在一起,產(chǎn)生了一個(gè)超越任何個(gè)體學(xué)習(xí)者能力的學(xué)習(xí)者。”
CERL將基于策略梯度的強(qiáng)化學(xué)習(xí)和進(jìn)化算法相結(jié)合,然后在每批或每一代訓(xùn)練系統(tǒng)中選擇表現(xiàn)最佳的神經(jīng)網(wǎng)絡(luò)。這樣,研究人員可以就可以使用最強(qiáng)大的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建新一代的系統(tǒng),并且可以將計(jì)算資源分配給實(shí)現(xiàn)最佳性能的算法。
CERL還結(jié)合了重放緩沖區(qū),用于存儲(chǔ)學(xué)習(xí)者在環(huán)境中的體驗(yàn),以便創(chuàng)建單個(gè)重放緩沖區(qū)并在系統(tǒng)之間共享體驗(yàn),從而實(shí)現(xiàn)比以前方法更高的樣本效率。
當(dāng)前,人工智能正在從多個(gè)方面賦予機(jī)器人越來越多的能力,相信隨著相關(guān)技術(shù)的不斷增強(qiáng),人形機(jī)器人的應(yīng)用場(chǎng)景也將會(huì)大大拓展。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28109瀏覽量
205861
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論