據(jù)外媒報道,DeepMind的使命是向人們展示,人工智能不僅能夠真正精通游戲甚至在不需要被告知游戲規(guī)則也能做到這一點。該公司最新的AI代理產(chǎn)品MuZero不僅可以通過具有復(fù)雜策略的視覺簡單游戲如圍棋、國際象棋和日本將棋實現(xiàn)這一目標(biāo),還可以通過視覺復(fù)雜的雅達(dá)利游戲?qū)崿F(xiàn)這一目標(biāo)。
DeepMind的早期AI的成功至少在一定程度上得益于巨大決策樹的非常有效的導(dǎo)航,這些決策樹代表了游戲中可能的行動。在圍棋或象棋中,這些樹則是由非常具體的規(guī)則控制,如棋子的移動位置、這個棋子移動時會發(fā)生什么等等。
在圍棋比賽中擊敗世界冠軍的AI AlphaGo在研究人類棋手之間和對手之間的比賽時了解了這些規(guī)則并把它們牢記于心從而形成了一套最佳實踐和策略。它的續(xù)作AlphaGo Zero則在沒有人類數(shù)據(jù)的情況下就做到了這一點。AlphaZero在2018年對圍棋、象棋和將棋也做了同樣的事情并由此創(chuàng)造了一個可以熟練玩所有這些游戲的AI模型。
但在所有這些情況下,AI都獲得了一系列不變的已知游戲規(guī)則并圍繞著這些規(guī)則創(chuàng)造了一個框架去創(chuàng)造自己的策略。
DeepMind在一篇關(guān)于他們新研究的博文中指出,如果AI提前被告知規(guī)則,“這就很難將它們應(yīng)用到混亂的現(xiàn)實世界問題中,這些問題通常都很復(fù)雜且很難提煉成簡單的規(guī)則?!?/p>
該公司的最新進(jìn)展是MuZero,它不僅可以玩上述游戲還可以玩雅達(dá)利的各種游戲,且完全無需任何規(guī)則手冊。最終的模型不僅通過自己的實驗(沒有人類數(shù)據(jù))甚至沒有被告知最基本的規(guī)則就學(xué)會玩所有這些游戲。
MuZero并沒有使用規(guī)則去尋找最佳情況,而是學(xué)會考慮游戲環(huán)境的方方面面并自己觀察它是否重要。在數(shù)以百萬計的游戲中,它不僅學(xué)會了規(guī)則還學(xué)會了位置的一般價值、領(lǐng)先的一般政策以及事后評估自己行為的方法。據(jù)悉,后一種能力能幫助AI從自己的錯誤中吸取教訓(xùn)、重新開始并嘗試不同的方法進(jìn)而進(jìn)一步完善位置和策略價值。
責(zé)編AJX
-
游戲
+關(guān)注
關(guān)注
2文章
733瀏覽量
26261 -
機(jī)器視覺
+關(guān)注
關(guān)注
161文章
4320瀏覽量
119996 -
AI
+關(guān)注
關(guān)注
87文章
29809瀏覽量
268109
發(fā)布評論請先 登錄
相關(guān)推薦
評論