(文章來(lái)源:教育新聞網(wǎng))
Facebook AI研究人員的一個(gè)團(tuán)隊(duì)最近開發(fā)了一種算法,即“其他游戲(OP)”,該算法構(gòu)建的策略可以使未經(jīng)其他代理商訓(xùn)練的代理商獲得高回報(bào)(零鏡頭協(xié)調(diào)的一種形式)。如果要求不高,這項(xiàng)工作可以大大提高自動(dòng)駕駛汽車的性能,自動(dòng)駕駛汽車?yán)昧銚魠f(xié)調(diào)在道路上的障礙物和駕駛員周圍導(dǎo)航。
研究人員研究了馬爾可夫游戲,即僅依賴于以一種或另一種方式總結(jié)游戲歷史的變量的游戲。(例如,變量可以是重復(fù)游戲中的當(dāng)前游戲,也可以是最近游戲序列的任何解釋。)游戲是部分可觀察的,并且其玩家(由AI驅(qū)動(dòng)的特工)共享以聯(lián)合獎(jiǎng)勵(lì)為條件的獎(jiǎng)勵(lì)他們采取的行動(dòng)和游戲狀態(tài)。因此,目標(biāo)是使期望收益最大化。
在實(shí)驗(yàn)中,該團(tuán)隊(duì)將OP(它使用問(wèn)題描述來(lái)協(xié)調(diào)代理人而不是動(dòng)作標(biāo)簽)應(yīng)用于一種杠桿游戲,其中要求代理人從10個(gè)杠桿中選擇一個(gè)來(lái)與未知的陌生人進(jìn)行協(xié)調(diào)。他們說(shuō),在訓(xùn)練階段和測(cè)試時(shí)間,OP代理與其他OP代理配對(duì)時(shí)都執(zhí)行零擊協(xié)調(diào)。相比之下,互相競(jìng)爭(zhēng)以發(fā)現(xiàn)策略的自我扮演代理在訓(xùn)練階段獲得了較高的回報(bào),但未能與其他獨(dú)立訓(xùn)練的自我扮演代理進(jìn)行協(xié)調(diào)。
接下來(lái),研究人員將OP應(yīng)用于合作式紙牌游戲Hanabi。在哈納比(Hanabi),從總共有五張牌的一手牌中發(fā)給玩家。每回合,他們必須(1)在另一位玩家的手上露出紙牌的花色或號(hào)碼,(2)丟棄紙牌,或(3)玩一張尚未打過(guò)的花色為“ 1”的紙牌或下一順序號(hào)的西裝是已被播放。我們的目標(biāo)是通過(guò)每套打出的最高張牌的價(jià)值來(lái)獲得最高分-這項(xiàng)任務(wù)比聽起來(lái)要更具挑戰(zhàn)性。公開有關(guān)卡的信息消耗了八個(gè)可用信息令牌之一,只能通過(guò)丟棄或成功打出“ 5”的任何西裝來(lái)補(bǔ)充。同時(shí),打牌失敗會(huì)消耗三種可用之一融合令牌。
根據(jù)研究人員的說(shuō)法,OP改善了交叉游戲,從而消除了自游戲中出現(xiàn)的“不人道”慣例,這對(duì)于人類來(lái)說(shuō)通常是很難(或不可能)理解的。(例如,在沒(méi)有OP的情況下,自打特工可能會(huì)提示某種顏色,以表示它丟棄了一張牌,而其伙伴則將此解釋為在玩另一張牌。)
(責(zé)任編輯:fqj)
-
AI
+關(guān)注
關(guān)注
87文章
29824瀏覽量
268112 -
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54610
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論