美國陸軍面向未來多域作戰(zhàn)概念研發(fā)了一種高效的地面機(jī)器人學(xué)習(xí)模型,該模型提出基于強(qiáng)化學(xué)習(xí)的策略,可有效減少當(dāng)前訓(xùn)練強(qiáng)化學(xué)習(xí)策略的不可預(yù)測性,使自主智能體能夠推理并適應(yīng)不斷變化的戰(zhàn)場條件。
強(qiáng)化學(xué)習(xí)是智能體(Agent)以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互獲得的獎(jiǎng)賞指導(dǎo)行為,目標(biāo)是使智能體獲得最大的獎(jiǎng)賞。強(qiáng)化學(xué)習(xí)技術(shù)具備解決復(fù)雜問題的能力,近年來在如圍棋、象棋和電子游戲等領(lǐng)域有較為長足的發(fā)展。美國陸軍將這種強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用在地面機(jī)器人面臨著兩個(gè)巨大挑戰(zhàn)。首先是算法的限制。在強(qiáng)化學(xué)習(xí)中,策略梯度方法(Policy Gradient Methods)是連續(xù)空間可伸縮算法的基礎(chǔ),但是現(xiàn)有技術(shù)無法支持更廣泛的決策目標(biāo),例如風(fēng)險(xiǎn)敏感性、安全約束、對先驗(yàn)知識的探索和發(fā)散。其次就是數(shù)據(jù)量的問題。強(qiáng)化學(xué)習(xí)需要大量的樣本復(fù)雜性,而美國陸軍多域作戰(zhàn)概念和下一代戰(zhàn)斗車輛(NGCV)項(xiàng)目目前數(shù)據(jù)匱乏并不支持現(xiàn)有訓(xùn)練機(jī)制。
在陸軍多域作戰(zhàn)概念和NGCV項(xiàng)目中應(yīng)用強(qiáng)化學(xué)習(xí),訓(xùn)練機(jī)制必須提高連續(xù)空間中的樣本效率和可靠性,ARL通過將現(xiàn)有的策略搜索方案推廣到通用工具,取得了重要突破。研究人員為通用程序開發(fā)了新的策略搜索方案,并且還確定了其樣本復(fù)雜度。由此產(chǎn)生的策略搜索方案減少了獎(jiǎng)勵(lì)積累的波動性,形成了對未知領(lǐng)域的有效探索和先驗(yàn)的機(jī)制。值得注意的是,地面機(jī)器人獲取數(shù)據(jù)的成本很高。減少獎(jiǎng)勵(lì)積累的波動性,確保以有效的方式探索未知領(lǐng)域,或者吸收以前的經(jīng)驗(yàn),都將有助于打破強(qiáng)化學(xué)習(xí)中現(xiàn)行實(shí)踐的樣本效率壁壘。通過減少隨機(jī)抽樣的數(shù)量,可以實(shí)現(xiàn)策略優(yōu)化。
這項(xiàng)研究為強(qiáng)化學(xué)習(xí)中的經(jīng)典策略梯度定理做出了貢獻(xiàn)。裝備有強(qiáng)化學(xué)習(xí)功能的自主機(jī)器人將能夠協(xié)助戰(zhàn)士在未來戰(zhàn)場上進(jìn)行偵察探索和風(fēng)險(xiǎn)評估。研究人員下一步計(jì)劃在強(qiáng)化學(xué)習(xí)中將更廣泛的決策目標(biāo)納入多主體設(shè)置,并研究強(qiáng)化學(xué)習(xí)主體之間的交互設(shè)置如何在團(tuán)隊(duì)之間產(chǎn)生協(xié)同和對抗性推理。
責(zé)任編輯:YYX
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
27839瀏覽量
204600
發(fā)布評論請先 登錄
相關(guān)推薦
評論