亚洲精品国产呦系列,6080新视觉,亚洲中文字幕aⅴ无码

不僅會下圍棋，還自學(xué)成才橫掃國際象棋和日本將棋的DeepMind AlphaZero，登上了最新一期《科學(xué)》雜志封面。

同時，這也是經(jīng)過完整同行審議的AlphaZero論文，首次公開發(fā)表。

論文描述了AlphaZero如何快速學(xué)習(xí)每個游戲，如何從隨機(jī)對弈開始訓(xùn)練，在沒有先驗知識、只知道基本規(guī)則的情況下，成為史上最強(qiáng)大的棋類人工智能。

《科學(xué)》雜志評價稱，能夠解決多個復(fù)雜問題的單一算法，是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)，解決實際問題的重要一步。

DeepMind說，現(xiàn)在AlphaZero已經(jīng)學(xué)會了三種不同的復(fù)雜棋類游戲，并且可能學(xué)會任何一種完美信息博弈的游戲，這“讓我們對創(chuàng)建通用學(xué)習(xí)系統(tǒng)的使命充滿信心”。

AlphaZero到底有多厲害？再總結(jié)一下。

在國際象棋中，AlphaZero訓(xùn)練4小時就超越了世界冠軍程序Stockfish；

在日本將棋中，AlphaZero訓(xùn)練2小時就超越了世界冠軍程序Elmo。

在圍棋中，AlphaZero訓(xùn)練30小時就超越了與李世石對戰(zhàn)的AlphaGo。

AlphaZero有什么不同

國際象棋有什么難的？

實際上，國際象棋是計算機(jī)科學(xué)家很早就開始研究的領(lǐng)域。1997年，深藍(lán)擊敗了人類國際象棋冠軍卡斯帕羅夫，這是一個人工智能的里程碑。此后20年，國際象棋的算法在超越人類后，一直還在不斷地進(jìn)步。

這些算法都是由強(qiáng)大的人類棋手和程序員構(gòu)建，基于手工制作的功能和精心調(diào)整的權(quán)重來評估位置，并且結(jié)合了高性能的alpha-beta搜索。

而提到游戲樹的復(fù)雜性，日本將棋比國際象棋還難。日本將棋程序，使用了類似國際象棋的算法，例如高度優(yōu)化的alpha-beta搜索，以及許多有針對性的設(shè)置。

AlphaZero則完全不同，它依靠的是深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和通用樹搜索算法。除了基本規(guī)則之外，它對這些棋類游戲一無所知。

其中，深度神經(jīng)網(wǎng)絡(luò)取代了手工寫就的評估函數(shù)和下法排序啟發(fā)算法，蒙特卡洛樹搜索（MCTS）算法取代了alpha-beta搜索。

AlphaZero深度神經(jīng)網(wǎng)絡(luò)的參數(shù)，通過自我博弈的強(qiáng)化學(xué)習(xí)來訓(xùn)練，從隨機(jī)初始化的參數(shù)開始。

隨著時間推移，系統(tǒng)漸漸從輸、贏以及平局里面，學(xué)會調(diào)整參數(shù)，讓自己更懂得選擇那些有利于贏下比賽的走法。

那么，圍棋和國際象棋、將棋有什么不同？

圍棋的對弈結(jié)局只有輸贏兩種，而國際象棋和日本將棋都有平局。其中，國際象棋的最優(yōu)結(jié)果被認(rèn)為是平局。

此外，圍棋的落子規(guī)則相對簡單、平移不變，而國際象棋和日本將棋的規(guī)則是不對稱的，不同的棋子有不同的下法，例如士兵通常只能向前移動一步，而皇后可以四面八方無限制的移動。而且這些棋子的移動規(guī)則，還跟位置密切相關(guān)。

盡管存在這些差異，但AlphaZero與下圍棋的AlphaGo Zero使用了相同架構(gòu)的卷積網(wǎng)絡(luò)。

AlphaGo Zero的超參數(shù)通過貝葉斯優(yōu)化進(jìn)行調(diào)整。而在AlphaZero中，這些超參數(shù)、算法設(shè)置和網(wǎng)絡(luò)架構(gòu)都得到了繼承。

除了探索噪聲和學(xué)習(xí)率之外，AlphaZero沒有為不同的游戲做特別的調(diào)整。

5000個TPU練出最強(qiáng)全能棋手

系統(tǒng)需要多長時間去訓(xùn)練，取決于每個游戲有多難：國際象棋大約9小時，將棋大約12小時，圍棋大約13天。

只是這個訓(xùn)練速度很難復(fù)現(xiàn)，DeepMind在這個環(huán)節(jié)，投入了5000個一代TPU來生成自我對弈游戲，16個二代TPU來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)，用來指引一個搜索算法，就是蒙特卡洛樹搜索 (MCTS) ，為每一步棋選出最有利的落子位置。

每下一步之前，AlphaZero不是搜索所有可能的排布，只是搜索其中一小部分。

比如，在國際象棋里，它每秒搜索6萬種排布。對比一下，Stockfish每秒要搜索6千萬種排布，千倍之差。

△每下一步，需要做多少搜索？

AlphaZero下棋時搜索的位置更少，靠的是讓神經(jīng)網(wǎng)絡(luò)的選擇更集中在最有希望的選擇上。DeepMind在論文中舉了個例子來展示。

上圖展示的是在AlphaZero執(zhí)白、Stockfish執(zhí)黑的一局國際象棋里，經(jīng)過100次、1000次……直到100萬次模擬之后，AlphaZero蒙特卡洛樹的內(nèi)部狀態(tài)。每個樹狀圖解都展示了10個最常訪問的狀態(tài)。

經(jīng)過全面訓(xùn)練的系統(tǒng)，就和各個領(lǐng)域里的最強(qiáng)AI比一比：國際象棋的Stockfish，將棋的Elmo，以及圍棋的前輩AlphaGo Zero。

每位參賽選手都是用它最初設(shè)計中針對的硬件來跑的：

Stockfish和Elmo都是用44個CPU核；AlphaZero和AlphaGo Zero用的都是一臺搭載4枚初代TPU和44個CPU核的機(jī)器。

(一枚初代TPU的推理速度，大約相當(dāng)于一個英偉達(dá)Titan V GPU。)

另外，每場比賽的時長控制在3小時以內(nèi)，每一步棋不得超過15秒。

比賽結(jié)果是，無論國際象棋、將棋還是圍棋，AlphaGo都擊敗了對手：

國際象棋，大比分擊敗2016 TCEC冠軍Stockfish，千場只輸155場。

將棋，大比分擊敗2017 CSA世界冠軍Elmo，勝率91.2%。

圍棋，擊敗自學(xué)成才的前輩AlphaGo Zero，勝率61%。

不按套路落子

因為AlphaZero自己學(xué)習(xí)了每種棋類，于是，它并不受人類現(xiàn)有套路的影響，產(chǎn)生了獨(dú)特的、非傳統(tǒng)的、但具有創(chuàng)造力和動態(tài)的棋路。

在國際象棋里，它還發(fā)展出自己的直覺和策略，增加了一系列令人興奮的新想法，改變了幾個世紀(jì)以來對國際象棋戰(zhàn)略的思考。

國際象棋世界冠軍卡斯帕羅夫也在《科學(xué)》上撰文表示，AlphaZero具備動態(tài)、開放的風(fēng)格，“就像我一樣”。他指出通常國際象棋程序會追求平局，但AlphaZero看起來更喜歡風(fēng)險、更具侵略性?？ㄋ古亮_夫表示，AlphaZero的棋風(fēng)可能更接近本源。

卡斯帕羅夫說，AlphaZero以一種深刻而有用的方式超越了人類。

國際象棋大師馬修·薩德勒（Matthew Sadler）和女性國際大師娜塔莎·里根（Natasha Regan）即將于2019年1月出版新書《棋類變革者（Game Changer）》，在這本書中，他們分析了數(shù)以千計的AlphaZero棋譜，認(rèn)為AlphaZero的棋路不像任何傳統(tǒng)的國際象棋引擎，馬修·薩德勒評價它為“就像以前翻看一些厲害棋手的秘密筆記本?！?/p>

棋手們覺得，AlphaZero玩這些游戲的風(fēng)格最迷人。

國際象棋特級大師馬修·薩德勒說：“它的棋子帶著目的和控制力包圍對手的王的方式”，最大限度地提高了自身棋子的活動性和移動性，同時最大限度地減少了對手棋子的活動和移動性。

與直覺相反，AlphaZero似乎對“材料”的重視程度較低，這一想法是現(xiàn)代游戲的基礎(chǔ)，每一個棋子都具有價值，如果玩家在棋盤上的某個棋子價值高于另一個，那么它就具有物質(zhì)優(yōu)勢。AlphaZero愿意在游戲早期犧牲棋子，以獲得長期收益。

“令人印象深刻的是，它設(shè)法將自己的風(fēng)格強(qiáng)加于各種各樣的位置和空缺，”馬修說他也觀察到，AlphaZero以非?？桃獾姆绞桨l(fā)揮作用，一開始就以“非常人性化的堅定目標(biāo)”開始。

“傳統(tǒng)引擎非常強(qiáng)大，幾乎不會出現(xiàn)明顯錯誤，但在面對沒有具體和可計算解決方案的位置時，會發(fā)生偏差，”他說。 “正是在這樣的位置，AlphaZero才能體現(xiàn)出‘感覺’，‘洞察’或‘直覺’?！?/p>

這種獨(dú)特的能力，在其他傳統(tǒng)的國際象棋程序中看不到，并且已經(jīng)給最近舉辦的世界國際象棋錦標(biāo)賽提供了新的見解和評論。

“看看AlphaZero的分析與頂級國際象棋引擎甚至頂級大師級棋手的分析有何不同，這真是令人著迷，”女棋手娜塔莎·里根說。 “AlphaZero可以成為整個國際象棋圈強(qiáng)大的教學(xué)工具?！?/p>

AlphaZero的教育意義，早在2016年AlphaGo對戰(zhàn)李世石時就已經(jīng)看到。

在比賽期間，AlphaGo發(fā)揮出了許多極具創(chuàng)造性的勝利步法，包括在第二場比賽中的37步，這推翻了之前數(shù)百年的思考。這種下法以及其他許多下法，已經(jīng)被包括李世石本人在內(nèi)的所有級別的棋手研究過。

他對第37步這樣評價：“我曾認(rèn)為AlphaGo是基于概率計算的，它只是一臺機(jī)器。但當(dāng)我看到這一舉動時，我改變了想法。當(dāng)然AlphaGo是有創(chuàng)造性的?！?/p>

不僅僅是棋手

DeepMind在博客中說AlphaZero不僅僅是國際象棋、將棋或圍棋。它是為了創(chuàng)建能夠解決各種現(xiàn)實問題的智能系統(tǒng)，它需要靈活適應(yīng)新的狀況。

這正是AI研究中的一項重大挑戰(zhàn)：系統(tǒng)能夠以非常高的標(biāo)準(zhǔn)掌握特定技能，但在略微修改任務(wù)后往往會失敗。

AlphaZero現(xiàn)在能夠掌握三種不同的復(fù)雜游戲，并可能掌握任何完美信息游戲，解決了以上問題中重要的一步。

他們認(rèn)為，AlphaZero的創(chuàng)造性見解，加上DeepMind在AlphaFold等其他項目中看到的令人鼓舞的結(jié)果，帶來了創(chuàng)建通用學(xué)習(xí)系統(tǒng)的信心，有助于找到一些新的解決方案，去解決最重要和最復(fù)雜的科學(xué)問題。

DeepMind的Alpha家族從最初的圍棋算法AlphaGo，幾經(jīng)進(jìn)化，形成了一個家族。

剛提到的AlphaFold，最近可以說關(guān)注度爆表。

它能根據(jù)基因序列來預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)，還在有“蛋白質(zhì)結(jié)構(gòu)預(yù)測奧運(yùn)會”之稱的CASP比賽中奪冠，力壓其他97個參賽者。這是“證明人工智能研究驅(qū)動、加速科學(xué)進(jìn)展重要里程碑”，DeepMInd CEO哈薩比斯形容為“燈塔”。

從2016年AlphaGo論文發(fā)表在《自然》上，到今天AlphaZero登上《科學(xué)》，Alpha家族除了最新出爐的AlphaFold之外，AlphaGo、AlphaGo Zero和AlphaZero已經(jīng)全部在頂級期刊Nature和Science上亮相。

期待轟動科研界的AlphaFold論文早日露面。

AlphaZero論文

這篇刊載在《科學(xué)》上的論文，題為：

A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play

作者包括：David Silver、Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Matthew Lai、Arthur Guez、Marc Lanctot、Laurent Sifre、Dharshan Kumaran、Thore Graepel、Timothy Lillicrap、Karen Simonyan、Demis Hassabis。

《科學(xué)》刊載的論文在此：http://science.sciencemag.org/content/362/6419/1140

棋局可以在此下載：https://deepmind.com/research/alphago/alphazero-resources/

DeepMind還特別寫了一個博客，傳送門：https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4734

瀏覽量
100420
人工智能

人工智能

+關(guān)注

關(guān)注
1791

文章
46671

瀏覽量
237118
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8353

瀏覽量
132315

原文標(biāo)題：AlphaZero登上《科學(xué)》封面：一個算法“通殺”三大棋，完整論文首次發(fā)布

文章出處：【微信號：AItists，微信公眾號：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

如何才能高效地進(jìn)行深度學(xué)習(xí)模型訓(xùn)練？

分布式深度學(xué)習(xí)框架中，包括數(shù)據(jù)/模型切分、本地單機(jī)優(yōu)化算法訓(xùn)練、通信機(jī)制、和數(shù)據(jù)/模型聚合等模塊?，F(xiàn)有的算法一般采用隨機(jī)置亂切分的數(shù)據(jù)分配方式，隨機(jī)優(yōu)化算法（例如

發(fā)表于 07-09 08:48 ?1.4w次閱讀

如何才能高效地進(jìn)行深度<b class='flag-5'>學(xué)習(xí)</b>模型<b class='flag-5'>訓(xùn)練</b>？

從哪里開始學(xué)習(xí)

本帖最后由 lhg09 于 2011-10-14 23:31 編輯我是電氣專業(yè)大三學(xué)生，想學(xué)習(xí)MAtlab軟件，請問大家我該從哪里開始？謝謝

發(fā)表于 10-14 23:30

五子棋游戲里如何實現(xiàn)悔棋功能啊

基于labview的五子棋游戲，有人機(jī)對弈和雙人對弈模式，雙人對弈在不聯(lián)網(wǎng)的情況下

發(fā)表于 10-10 14:18

AlphaGo為何精通圍棋？圍棋論文曝光【中文翻譯】-原來它是這樣深度學(xué)習(xí)和思考的，難怪老贏！

有效的學(xué)習(xí)更新。和前人的工作相同，我們也訓(xùn)練了一個快速走子策略，它可以在展開中快速采樣。下一步，我們訓(xùn)練了一個強(qiáng)化

發(fā)表于 06-06 18:25

怎樣去設(shè)計一種人機(jī)對弈五子棋程序

五子棋游戲應(yīng)達(dá)到幾方面的要求？怎樣去設(shè)計一種人機(jī)對弈五子棋程序？

發(fā)表于 09-29 07:26

模擬射擊訓(xùn)練游戲T6963C程序

大佬們，有模擬射擊訓(xùn)練游戲的完整程序嗎？不需要填空的那種??！

發(fā)表于 12-20 21:15

如何在基于Arm的設(shè)備上運(yùn)行游戲AI呢

。培訓(xùn)結(jié)果下圖顯示了指標(biāo)如何在訓(xùn)練步驟中轉(zhuǎn)換：圖 2. 跟蹤學(xué)習(xí)進(jìn)度的訓(xùn)練指標(biāo)在訓(xùn)練的初始階段，您可以看到累積獎勵的值在 -1 左右。這是因為代理的動作一

發(fā)表于 08-15 15:43

一切從游戲開始_python

發(fā)表于 03-19 11:23 ?7次下載

谷歌發(fā)布新版AlphaGo，對弈自我學(xué)習(xí)，已擊敗柯潔系統(tǒng)

谷歌旗下人工智能研究部門DeepMind發(fā)布了新版AlphaGo軟件，它可以完全靠自己學(xué)習(xí)圍棋。這款名為AlphaGo Zero的系統(tǒng)可以通過自我對弈進(jìn)行學(xué)習(xí)，它利用了一種名為強(qiáng)化學(xué)習(xí)

發(fā)表于 10-19 17:57 ?4611次閱讀

隨機(jī)塊模型學(xué)習(xí)算法

由于隨機(jī)塊模型能夠有效處理不具有先驗知識的網(wǎng)絡(luò)，對其研究成為了機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)數(shù)據(jù)挖掘和社會網(wǎng)絡(luò)分析等領(lǐng)域的研究熱點．如何設(shè)計出具有模型選擇能力的快速隨機(jī)塊模型

發(fā)表于 01-09 18:20 ?1次下載

史上最強(qiáng)棋類AI降臨！也是迄今最強(qiáng)的棋類AI——AlphaZero

“盡管MCTS已經(jīng)成為圍棋程序中的標(biāo)準(zhǔn)搜索方法，但迄今為止，幾乎沒有證據(jù)表明它在國際象棋或?qū)⑵逯杏杏??！盋ampbell寫道：“DeepMind展示了深度強(qiáng)化學(xué)習(xí)與MCTS算法相結(jié)合的力量，從隨機(jī)初始化的參數(shù)

發(fā)表于 12-08 09:24 ?1.7w次閱讀

Python隨機(jī)數(shù)模塊的隨機(jī)函數(shù)使用

隨機(jī)數(shù)在日常的應(yīng)用開發(fā)中，使用的比較多，比如抽獎游戲，如果你不依靠隨機(jī)數(shù)，就會變的由規(guī)律，容易被人發(fā)現(xiàn)規(guī)律。比如我們的斗地主游戲，它的發(fā)牌程序也會隨

發(fā)表于 01-18 17:55 ?2347次閱讀

基于預(yù)訓(xùn)練模型和長短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

語義槽填充是對話系統(tǒng)中一項非常重要的任務(wù)，旨在為輸入句子的毎個單詞標(biāo)注正確的標(biāo)簽，其性能的妤壞極大地影響著后續(xù)的對話管理模塊。目前，使用深度學(xué)習(xí)方法解決該任務(wù)時，一般利用隨機(jī)詞向量或者預(yù)訓(xùn)練詞向量

發(fā)表于 04-20 14:29 ?19次下載

游戲AI對自對弈推理速度提出新要求

與推理服務(wù)，加快AI訓(xùn)練速度。游戲AI對自對弈推理速度提出新要求和圖像以及語音的訓(xùn)練方式不同，目前在游戲AI

發(fā)表于 10-22 09:23 ?1476次閱讀

開隨機(jī)顏色之與Alexa的隨機(jī)玩家游戲

電子發(fā)燒友網(wǎng)站提供《開隨機(jī)顏色之與Alexa的隨機(jī)玩家游戲.zip》資料免費(fèi)下載

發(fā)表于 12-20 09:23 ?0次下載

搜索歷史

AlphaZero如何快速學(xué)習(xí)每個游戲，如何從隨機(jī)對弈開始訓(xùn)練

評論

如何才能高效地進(jìn)行深度學(xué)習(xí)模型訓(xùn)練？

從哪里開始學(xué)習(xí)

五子棋游戲里如何實現(xiàn)悔棋功能啊

AlphaGo為何精通圍棋？圍棋論文曝光【中文翻譯】-原來它是這樣深度學(xué)習(xí)和思考的，難怪老贏！

怎樣去設(shè)計一種人機(jī)對弈五子棋程序

模擬射擊訓(xùn)練游戲T6963C程序

如何在基于Arm的設(shè)備上運(yùn)行游戲AI呢

一切從游戲開始_python

谷歌發(fā)布新版AlphaGo，對弈自我學(xué)習(xí)，已擊敗柯潔系統(tǒng)

隨機(jī)塊模型學(xué)習(xí)算法

史上最強(qiáng)棋類AI降臨！也是迄今最強(qiáng)的棋類AI——AlphaZero

Python隨機(jī)數(shù)模塊的隨機(jī)函數(shù)使用

基于預(yù)訓(xùn)練模型和長短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

游戲AI對自對弈推理速度提出新要求

開隨機(jī)顏色之與Alexa的隨機(jī)玩家游戲

搜索歷史

AlphaZero如何快速學(xué)習(xí)每個游戲，如何從隨機(jī)對弈開始訓(xùn)練

評論

AlphaZero如何快速學(xué)習(xí)每個游戲，如何從隨機(jī)對弈開始訓(xùn)練