DeepMind 公司因?yàn)檠兄瞥鰰?huì)下棋的人工智能AlphaGo和AlphaZero而聲名鵲起,如今他們將注意力轉(zhuǎn)向了另一種棋盤游戲:強(qiáng)權(quán)外交(Diplomacy),也被稱為外交或者外交風(fēng)云,是經(jīng)典的桌面游戲之一。該游戲與圍棋不同,它是七人游戲,需要游戲玩家既競(jìng)爭(zhēng)又合作,并且每回合玩家都會(huì)同時(shí)進(jìn)行移動(dòng),因此,每個(gè)玩家都必須推理其他玩家的想法,非常復(fù)雜。
研制一個(gè)能玩外交游戲的人工智能軟件,DeepMind公司的計(jì)算機(jī)專家Andrea Tacchetti表示:“與游戲Go或國(guó)際象棋相比,這是一個(gè)本質(zhì)上不同的問題。” 去年12月,Tacchetti和合作者在NeurIPS會(huì)議上就其系統(tǒng)發(fā)表了一篇論文,該論文介紹了能玩外交游戲的AI系統(tǒng)策略。
“外交”是一種策略游戲,在歐洲地圖上劃分為75個(gè)省。玩家建立并動(dòng)員軍隊(duì)占領(lǐng)各省,直到控制了大部分補(bǔ)給中心的玩家獲勝。玩家每回合寫下自己的行動(dòng),然后執(zhí)行。他們可以攻擊或防御對(duì)方玩家,或者支援對(duì)方玩家的進(jìn)攻和防御,建立聯(lián)盟。在完整版中,玩家可以協(xié)商,為了方便人工智能研究,DeepMind公司使用了簡(jiǎn)單版的“No Press”策略,不需要人工智能軟件發(fā)布策略與其他玩家進(jìn)行溝通。
從歷史上看,人工智能使用人工制定的策略來發(fā)揮決策作用。2019年,蒙特利爾研究所的Mila通過使用深度學(xué)習(xí)系統(tǒng)取得了勝利。他們基于150000個(gè)人類游戲的數(shù)據(jù)集,訓(xùn)練了一個(gè)稱為DipNet的神經(jīng)網(wǎng)絡(luò)來模仿人類。DeepMind從DipNet版本開始,使用強(qiáng)化學(xué)習(xí)(一種反復(fù)試驗(yàn))來完善它。但是,僅通過反復(fù)試驗(yàn)來探索可能性會(huì)帶來問題。因此,他們調(diào)整了強(qiáng)化學(xué)習(xí)算法。在訓(xùn)練過程中,他們?cè)诿恳徊街卸紝?duì)對(duì)手的可能舉動(dòng)進(jìn)行采樣,計(jì)算出在這些情況下平均效果最佳的行動(dòng),然后訓(xùn)練自己的權(quán)重以偏向于此行動(dòng)。經(jīng)過訓(xùn)練,它跳過了采樣過程,僅根據(jù)其學(xué)習(xí)的知識(shí)進(jìn)行工作。Tacchetti說:“我們論文的信息是:我們可以在這樣的環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)?!?他們?cè)O(shè)計(jì)的一個(gè)AI玩家與六個(gè)DipNet的AI贏了30%的時(shí)間(有14%的機(jī)會(huì))。一個(gè)DipNet對(duì)抗他們的七個(gè),僅贏得了3%的時(shí)間。
今年4月,F(xiàn)acebook將在ICLR會(huì)議上發(fā)表一篇論文,描述他們?cè)凇癗o Press”版本的外交游戲中的研究成果。他們建立了類似DipNet的網(wǎng)絡(luò),但是沒有添加強(qiáng)化學(xué)習(xí)的元素,而是添加了一個(gè)“SearchBot”搜索玩家策略,SearchBot通過玩幾回合來評(píng)估玩家的每種潛在策略(假設(shè)每個(gè)人都根據(jù)神經(jīng)網(wǎng)絡(luò)的首選選擇后續(xù)行動(dòng))。策略不是一個(gè)最佳行動(dòng)組合,而是由50個(gè)可能行動(dòng)組成的一組概率(由神經(jīng)網(wǎng)絡(luò)建議)。
在真實(shí)游戲中進(jìn)行這樣的探索會(huì)減慢SearchBot的速度,但可以使它更優(yōu)于DipNet。SearchBot在外交游戲網(wǎng)站上與人類進(jìn)行了匿名比賽,在玩家中排名前2%。Facebook的計(jì)算機(jī)專家、論文的共同作者亞當(dāng)·勒勒(Adam Lerer)說:“這是第一個(gè)被證明具有能與人類競(jìng)爭(zhēng)的機(jī)器人?!?/p>
責(zé)任編輯:lq
-
人工智能
+關(guān)注
關(guān)注
1790文章
46671瀏覽量
237112 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
265瀏覽量
11197 -
DeepMind
+關(guān)注
關(guān)注
0文章
129瀏覽量
10812
原文標(biāo)題:DeepMind又出AI大招
文章出處:【微信號(hào):robotmagazine,微信公眾號(hào):機(jī)器人技術(shù)與應(yīng)用】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論