亚洲三级电影在线,亚洲一区中文字幕在线观看

DeepMind最強(qiáng)棋類算法AlphaZero今天以Science封面論文形式發(fā)表。David Sliver、哈薩比斯等人親自撰文解讀這一棋類終極算法，以及實(shí)現(xiàn)通用學(xué)習(xí)系統(tǒng)的重要一步。

史上最強(qiáng)棋類AI降臨！

今天，DeepMind的通用棋類算法，也是迄今最強(qiáng)的棋類AI——AlphaZero，經(jīng)過同行評(píng)議，被頂級(jí)期刊 Science 以封面論文的形式，正式引入學(xué)界和公眾的視野。

一年前，DeepMind靜靜地在arXiv貼出了AlphaZero的預(yù)印版論文，當(dāng)即就在圈內(nèi)引發(fā)轟動(dòng)：AlphaZero從零開始訓(xùn)練，2小時(shí)擊敗最強(qiáng)將棋AI，4小時(shí)擊敗最強(qiáng)國際象棋AI，8小時(shí)擊敗最強(qiáng)圍棋AI（李世石版AlphaGo）。

現(xiàn)在，DeepMind將完整評(píng)估后的AlphaZero公之于眾，不僅驗(yàn)證了上述結(jié)果，還補(bǔ)充了新的提升。

AlphaZero沒有使用人類知識(shí)（除了棋類基本規(guī)則），從零開始訓(xùn)練，快速掌握日本將棋、國際象棋和圍棋這三種復(fù)雜棋類游戲，展現(xiàn)出令人耳目一新的獨(dú)道風(fēng)格，拓展了人類智慧，并證明了機(jī)器擁有創(chuàng)造性的可能。

國際象棋大師卡斯帕羅夫——20年前輸給IBM深藍(lán)的國際象棋世界冠軍，今天在Science發(fā)表社論，表示他很高興看到AlphaZero展現(xiàn)出了像他一樣“動(dòng)態(tài)、開放”的棋風(fēng)：

“傳統(tǒng)觀點(diǎn)以為，機(jī)器將通過無休止的枯燥操作趨近完美，最終導(dǎo)致平局。但據(jù)我觀察，AlphaZero優(yōu)先考慮棋子的活動(dòng)而非盤面上的點(diǎn)數(shù)優(yōu)勢(shì)，更喜歡在我看來有風(fēng)險(xiǎn)和激進(jìn)的地方落子。

“計(jì)算機(jī)程序通常會(huì)反映出編程者的側(cè)重和偏見，但由于AlphaZero通過自我對(duì)弈訓(xùn)練，我認(rèn)為它體現(xiàn)了棋的真諦（truth）。正是這種出色的理解使其能夠超越世界頂級(jí)的傳統(tǒng)棋類引擎，而且每秒計(jì)算的落子位置要少得多?！?/p>

AlphaZero證明了機(jī)器也能成為專家，機(jī)器生成的知識(shí)也值得人類去學(xué)習(xí)?！癆lphaZero以這樣一種強(qiáng)大而有用的方式超越了我們，”卡斯帕羅夫?qū)懙溃骸爸灰谔摂M知識(shí)（virtual knowledge）能夠生成的領(lǐng)域，這個(gè)模型都可能復(fù)制到任何其他任務(wù)上?！?/p>

IBM深藍(lán)的共同創(chuàng)造者之一Murray Campbell，也在Science發(fā)表評(píng)論文章，指出DeepMind論文使用通用的搜索方法，結(jié)合蒙特卡羅樹搜索（MCTS），增強(qiáng)了深度強(qiáng)化學(xué)習(xí)。

“盡管MCTS已經(jīng)成為圍棋程序中的標(biāo)準(zhǔn)搜索方法，但迄今為止，幾乎沒有證據(jù)表明它在國際象棋或?qū)⑵逯杏杏?。”Campbell寫道：“DeepMind展示了深度強(qiáng)化學(xué)習(xí)與MCTS算法相結(jié)合的力量，從隨機(jī)初始化的參數(shù)開始，讓神經(jīng)網(wǎng)絡(luò)通過自我對(duì)弈不斷更新參數(shù)?！?/p>

下面，就讓我們一起來看看，AlphaZero的論文作者David Silver、Thomas Hubert、Julian Schrittwieser和Demis Hassabis親自撰文，闡述他們?nèi)绾斡?000個(gè)TPU，讓AlphaZero快速掌握將棋、國際象棋和圍棋。

用5000個(gè)TPU，快速掌握將棋、圍棋和國際象棋

傳統(tǒng)國際象棋的引擎依賴于由人類高手玩家“手工制作”的數(shù)千條規(guī)則和啟發(fā)式方法，它們都試圖解釋游戲中可能發(fā)生的每一種結(jié)果。

日本將棋程序也是特定于游戲的，使用與國際象棋程序類似的搜索引擎和算法。

AlphaZero則采用了一種完全不同的方法，用深度神經(jīng)網(wǎng)絡(luò)和通用算法取代了這些“手工制作”的規(guī)則，而這些算法對(duì)基本規(guī)則之外的游戲卻一無所知。

在國際象棋中，AlphaZero僅用了4個(gè)小時(shí)便首次超越了Stockfish；在日本將棋中，AlphaZero在2小時(shí)后首次超過Elmo；在圍棋方面，AlphaZero在2016年的比賽中，經(jīng)過30個(gè)小時(shí)的鏖戰(zhàn)，首次擊敗了傳奇棋手李世石。注：每個(gè)訓(xùn)練步驟代表了4096個(gè)落子位置。

為了學(xué)習(xí)每一個(gè)游戲，一個(gè)未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通過強(qiáng)化學(xué)習(xí)與自己對(duì)打數(shù)百萬次。

一開始，它完全是隨機(jī)的，但是隨著時(shí)間的推移，系統(tǒng)從輸贏中開始學(xué)習(xí)，并根據(jù)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)整，使其在未來可以選擇更有利的走法。

網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜性，國際象棋需要9小時(shí)，將棋需要12小時(shí)，圍棋需要13天。

“AlphaZero的一些舉動(dòng)，例如將王將移至棋盤中央是有違將棋理論的，從人類的角度來看，它的這些舉動(dòng)似乎是將自己置于危險(xiǎn)境地。但令人難以置信的是，它仍然控制著局面。AlphaZero獨(dú)特的游戲風(fēng)格向我們展示了將棋的新可能性。”

羽生善治，日本將棋棋士，獲得七項(xiàng)頭銜的“永世稱號(hào)”，亦是日本將棋史上第一個(gè)達(dá)成七冠王與“永世七冠”的人，改寫了將棋界多項(xiàng)歷史紀(jì)錄

訓(xùn)練后的網(wǎng)絡(luò)用于指導(dǎo)搜索算法（蒙特卡羅樹搜索，MCTS），選擇游戲中最有有利的動(dòng)作。對(duì)于每次移動(dòng)，AlphaZero僅搜索傳統(tǒng)國際象棋引擎所考慮的一小部分位置。

例如，在國際象棋中，它每秒僅搜索6萬個(gè)位置，相比之下，Stockfish大約有6千萬個(gè)位置。

這些經(jīng)過全面訓(xùn)練的系統(tǒng)是在國際象棋(Stockfish)和將棋(Elmo)最強(qiáng)大的“手工引擎”以及我們之前自學(xué)的AlphaGo Zero系統(tǒng)(已知最強(qiáng)大的圍棋選手)的幫助下進(jìn)行測(cè)試的。

每個(gè)程序都在它們所設(shè)計(jì)的硬件上運(yùn)行。Stockfish和Elmo使用了44個(gè)CPU核，而AlphaZero和AlphaGo Zero使用了一臺(tái)擁有4個(gè)第一代TPU和44個(gè)CPU核的機(jī)器。第一代TPU在推理速度上與NVIDIA Titan V GPU等商用硬件大致相似，但架構(gòu)并不具有直接可比性。

所有的比賽都有時(shí)間控制，每場比賽3小時(shí)，外加每一步額外的15秒。

在每次評(píng)估中，AlphaZero都毫無懸念地?fù)魯×藢?duì)手：

在國際象棋比賽中，AlphaZero擊敗了2016年TCEC(第九季)世界冠軍Stockfish，贏得155場比賽，在1000場比賽中只輸了6場。為了驗(yàn)證AlphaZero的穩(wěn)健性，我們還進(jìn)行了一系列比賽，這些比賽都是從常見的“人類開局方式”開始的。在每一種開局情況下，AlphaZero都擊敗了Stockfish。我們還與最新開發(fā)版本的Stockfish以及它的變體打過比賽，在所有的比賽中，AlphaZero都贏了。

在將棋比賽中，AlphaZero擊敗了2017年CSA世界冠軍版Elmo，贏得了91.2％的比賽。

在圍棋比賽中，AlphaZero擊敗了AlphaGo Zero，贏得了61％的比賽。

獨(dú)創(chuàng)棋風(fēng)，拓展人類智慧，邁向通用學(xué)習(xí)系統(tǒng)重要一步

然而，讓人感到最著迷的是AlphaZero的行棋風(fēng)格。例如，在國際象棋中，AlphaZero在自我訓(xùn)練中獨(dú)立發(fā)現(xiàn)并走出了人類棋手常用的定式，如開局、王不立險(xiǎn)地（King safety）和兵的走法。

但是，由于這些都是自學(xué)的，因此不會(huì)受傳統(tǒng)觀念的影響，AlphaZero還開創(chuàng)出了自己的直覺和策略，產(chǎn)生了一系列令人興奮的新穎思路，為幾個(gè)世紀(jì)以來國際象棋戰(zhàn)略戰(zhàn)術(shù)的思考提供了有益的補(bǔ)充。

過去一個(gè)多世紀(jì)以來，國際象棋一直被用作衡量人類和機(jī)器認(rèn)知水平的黃金標(biāo)準(zhǔn)。 AlphaZero取得的非凡成果，刷新了這門古老的棋盤游戲和尖端科學(xué)之間的顯著聯(lián)系。

前國際象棋世界冠軍加里·卡斯帕羅夫

在與AlphaZero對(duì)弈時(shí)，棋手注意到的第一件事就是它的行棋風(fēng)格，國際象棋大師Matthew Sadler說道，“它會(huì)懷著明確的目的和力量來瓦解對(duì)手的王”。Sadler和女子國際象棋大師Natasha Regan一起分析AlphaZero，并寫作出版了專著《Game Changer：AlphaZero的顛覆性國際象棋策略和人工智能潛力》。

AlphaZero的行棋風(fēng)格非常靈活，最大限度地提升己方子力配備的靈活性和機(jī)動(dòng)性，同時(shí)最大限度地降低對(duì)手子力的靈活性和機(jī)動(dòng)性。

與我們的通常想法不同的是，AlphaZero似乎對(duì)“子力”本身的重視程度較低，而重視“子力”是現(xiàn)代國際象棋的基本行棋思路，棋盤上每個(gè)子都具有價(jià)值，如果一個(gè)玩家在棋盤上的子力高于對(duì)手，那么他就擁有子力優(yōu)勢(shì)。而AlphaZero甚至愿意在棋局早期犧牲子力，以獲得長期收益。

“令人印象深刻的是，AlphaZero在行棋時(shí)能將這種風(fēng)格應(yīng)用在各種各樣的開局和定式中?！盡atthew說道，他也觀察到，AlphaZero從走第一步開始就體現(xiàn)出了這種明確的的性，且一以貫之，其風(fēng)格體現(xiàn)得非常明顯。

“過去的傳統(tǒng)國際象棋軟件已經(jīng)非常穩(wěn)定，幾乎不會(huì)出現(xiàn)明顯錯(cuò)誤，但在面對(duì)沒有具體和可計(jì)算解決方案的時(shí)，其行棋會(huì)發(fā)生偏差，”他說：“正是在這種時(shí)候，才是AlphaZero發(fā)揮其'感覺'、'洞察'或'直覺'的地方。”

這種獨(dú)特的能力，在其他傳統(tǒng)的國際象棋引擎中是看不到的。目前，AlphaZero已經(jīng)被用來在世界國際象棋錦標(biāo)賽上為棋迷們提供有關(guān)Magnus Carlsen和Fabiano Caruana（現(xiàn)男子國際象棋等級(jí)分前兩名）對(duì)局的新見解和評(píng)論。

“我們可以看看AlphaZero的分析，與頂級(jí)國際象棋大師對(duì)棋局的分析，甚至和棋手實(shí)戰(zhàn)著法有何不同，這真是令人著迷的一件事。AlphaZero可以作為整個(gè)國際象棋社區(qū)的強(qiáng)大教學(xué)工具?！?/p>

AlphaZero的“教誨”，讓我們想起了2016年AlphaGo與圍棋世界冠軍李世乭對(duì)弈時(shí)的場景。在那次比賽中，AlphaGo走出了許多極具創(chuàng)造性的致勝著法，包括在第2局比賽中的執(zhí)黑第37手，這手棋推翻了人類數(shù)百年的思路。這些著法已經(jīng)被包括李世乭本人在內(nèi)的所有級(jí)別的棋手和愛好者研究過。

他們對(duì)此表示：“我之前還認(rèn)為AlphaGo是基于概率來計(jì)算的，它只是一臺(tái)機(jī)器。但當(dāng)我看到這手棋時(shí)，我改變了想法。毫無疑問，AlphaGo是有創(chuàng)造性的。”

“人機(jī)大戰(zhàn)”的影響力已經(jīng)遠(yuǎn)遠(yuǎn)超出了國際象棋本身。這些自學(xué)成才的專家級(jí)機(jī)器不僅表現(xiàn)優(yōu)異，棋力非凡，而且從自己創(chuàng)造的新知識(shí)中學(xué)習(xí)。

加里·卡斯帕羅夫前國際象棋世界冠軍

和圍棋一樣，我們對(duì)AlphaZero在國際象棋上的創(chuàng)造性突破感到興奮，自從計(jì)算機(jī)時(shí)代以來，人工智能時(shí)時(shí)面臨著巨大挑戰(zhàn)，包括巴貝奇、圖靈、馮·諾依曼在內(nèi)的早期計(jì)算機(jī)先驅(qū)人物，都曾試圖設(shè)計(jì)國際象棋程序，但AlphaZero的用途不僅僅是國際象棋、將棋和圍棋。

為了創(chuàng)建能夠解決各種現(xiàn)實(shí)問題的智能系統(tǒng)，它們需要更加靈活，能夠適應(yīng)新情況。雖然目前在實(shí)現(xiàn)這一目標(biāo)方面取得了一些進(jìn)展，但AI的通用化問題仍然是研究中的一項(xiàng)重大挑戰(zhàn)，經(jīng)過訓(xùn)練的AI系統(tǒng)面對(duì)特定任務(wù)時(shí)能夠以極高標(biāo)準(zhǔn)完成，但任務(wù)只要稍有變化往往就會(huì)失敗。

AlphaZero掌握了三種不同的復(fù)雜游戲，這可能是朝著解決這一問題邁出的重要一步。盡管目前還處于早期階段，但AlphaZero取得的進(jìn)步，以及在蛋白質(zhì)折疊系統(tǒng)AlphaFold等其他項(xiàng)目上的令人鼓舞的結(jié)果，讓我們對(duì)實(shí)現(xiàn)通用學(xué)習(xí)系統(tǒng)的使命充滿信心，相信未來我們能夠找到一些新的解決方案，解決最重要、最復(fù)雜的科學(xué)問題。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
28902

瀏覽量
266274
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
263

瀏覽量
11159
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
129

瀏覽量
10770

原文標(biāo)題：Science封面：AlphaZero達(dá)成終極進(jìn)化體，史上最強(qiáng)棋類AI降臨！

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI存儲(chǔ)“最強(qiáng)戰(zhàn)力”是怎樣煉成的？

行業(yè)資訊

腦極體

發(fā)布于 :2024年09月02日 20:31:28

云開發(fā)AI助手

草帽王路飛

發(fā)布于 :2024年07月22日 14:41:54

Anthropic發(fā)布Claude 3.5 Sonnet，AI領(lǐng)域再掀波瀾

近日，人工智能領(lǐng)域的競爭格局再次發(fā)生重要變化。OpenAI的強(qiáng)勁競爭對(duì)手Anthropic公司發(fā)布了其迄今為止最強(qiáng)大的AI模型——Claude 3.5 Sonnet。這一創(chuàng)新成果不僅展示了Anthropic在

發(fā)表于 06-24 15:14 ?521次閱讀

英偉達(dá)發(fā)布最強(qiáng)AI加速卡Blackwell GB200

英偉達(dá)在最近的GTC開發(fā)者大會(huì)上發(fā)布了其最新、最強(qiáng)大的AI加速卡——GB200。這款加速卡采用了新一代AI圖形處理器架構(gòu)Blackwell，標(biāo)志著英偉達(dá)在AI圖形處理領(lǐng)域邁入了一個(gè)新的

發(fā)表于 03-20 11:38 ?876次閱讀

英偉達(dá)發(fā)布最強(qiáng)AI加速卡GB200，開啟新一代AI圖形處理時(shí)代

英偉達(dá)正式發(fā)布了其最新、也是迄今為止最強(qiáng)大的AI加速卡——GB200。這一重大發(fā)布標(biāo)志著英偉達(dá)在AI圖形處理領(lǐng)域邁入了一個(gè)新的里程碑。

發(fā)表于 03-19 11:26 ?895次閱讀

英偉達(dá)發(fā)布<b class='flag-5'>最強(qiáng)</b><b class='flag-5'>AI</b>加速卡GB200，開啟新一代<b class='flag-5'>AI</b>圖形處理時(shí)代

今日看點(diǎn)丨英偉達(dá)發(fā)布最強(qiáng) AI 加速卡--Blackwell GB200；三星面臨罷工存儲(chǔ)市場供需引關(guān)注

1. 英偉達(dá)發(fā)布最強(qiáng) AI 加速卡--Blackwell GB200 ，今年發(fā)貨 ? 3 月 19 日，英偉達(dá)發(fā)布最強(qiáng) AI 加速卡--Blackwell GB200，今年發(fā)貨。英偉達(dá)

發(fā)表于 03-19 11:08 ?1076次閱讀

海信發(fā)布電視行業(yè)最強(qiáng)中文大模型，開啟電視AI新時(shí)代

3月15日，“海信視像 AI美好生活”全場景顯示新品發(fā)布會(huì)上，海信正式發(fā)布了自研星海大模型，這也是目前電視行業(yè)最強(qiáng)中文大模型。

發(fā)表于 03-18 14:24 ?294次閱讀

全球最強(qiáng)大模型易主，GPT-4被超越

近日，AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型，其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱，Claude 3系列在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面全面超越了包括GPT-4在內(nèi)的所有大型模型，重新樹立了行業(yè)基準(zhǔn)。

發(fā)表于 03-05 09:58 ?528次閱讀

新火種AI|谷歌深夜炸彈！史上最強(qiáng)開源模型Gemma，打響新一輪AI之戰(zhàn)

作者：文子編輯：小迪谷歌，2024年卷出新高度。全球最強(qiáng)開源模型，Gemma重燃戰(zhàn)局短短12天連放三次大招，谷歌AI更新迭代之快，讓人始料未及。當(dāng)?shù)貢r(shí)間2月21日，谷歌毫無預(yù)兆地發(fā)布號(hào)稱

發(fā)表于 02-23 10:21 ?299次閱讀

新火種<b class='flag-5'>AI</b>|谷歌深夜炸彈！<b class='flag-5'>史上</b><b class='flag-5'>最強(qiáng)</b>開源模型Gemma，打響新一輪<b class='flag-5'>AI</b>之戰(zhàn)

Stability AI推出迄今為止更小、更高效的1.6B語言模型

Stability AI 宣布推出迄今為止最強(qiáng)大的小語言模型之一 Stable LM 2 1.6B。

發(fā)表于 01-23 10:11 ?633次閱讀

Stability <b class='flag-5'>AI</b>推出<b class='flag-5'>迄今</b>為止更小、更高效的1.6B語言模型

基于AI的兵棋類模擬開發(fā)項(xiàng)目

該方法的難點(diǎn)是如何為知識(shí)庫設(shè)定良好的角色以及如何選擇相關(guān)中間概念。同時(shí)，充分利用SOAR內(nèi)的分塊學(xué)習(xí)能力尤為重要，因?yàn)樽畛醯闹庇X，當(dāng)前的系統(tǒng)因其學(xué)習(xí)能力受限。

發(fā)表于 12-18 09:20 ?450次閱讀

關(guān)于半導(dǎo)體存儲(chǔ)的最強(qiáng)入門科普

關(guān)于半導(dǎo)體存儲(chǔ)的最強(qiáng)入門科普

發(fā)表于 11-30 17:16 ?750次閱讀

關(guān)于半導(dǎo)體存儲(chǔ)的<b class='flag-5'>最強(qiáng)</b>入門科普

#芯片 #AI 世界最強(qiáng)AI芯片H200性能大揭秘！

芯片AI

深圳市浮思特科技有限公司

發(fā)布于 :2023年11月15日 15:54:37

智能制造設(shè)備如何擁有最強(qiáng)大腦？機(jī)器視覺+AI

智能制造產(chǎn)線設(shè)備的發(fā)展正日益推動(dòng)著工業(yè)領(lǐng)域的進(jìn)步和創(chuàng)新。隨著技術(shù)的不斷演進(jìn)，機(jī)器視覺和人工智能（AI）兩個(gè)關(guān)鍵領(lǐng)域的結(jié)合，為智能制造設(shè)備構(gòu)建了最強(qiáng)大腦。

發(fā)表于 10-21 14:47 ?1079次閱讀