微軟亞洲研究院開發(fā)的麻將 AI 系統(tǒng) Suphx 成為首個(gè)在國(guó)際知名專業(yè)麻將平臺(tái)“天鳳”上榮升十段的 AI 系統(tǒng),這是目前 AI 系統(tǒng)在麻將領(lǐng)域取得的最好成績(jī),其實(shí)力超越該平臺(tái)公開房間頂級(jí)人類選手的平均水平。
要說中國(guó)最流行、群眾基礎(chǔ)最深厚的運(yùn)動(dòng)是什么,那一定是歷史悠久、老少咸宜的“國(guó)粹”——麻將。 麻將的起源眾說紛紜,今天我們熟知的麻將玩法大體成型于晚清,在當(dāng)時(shí)稱作“麻雀”。隨著商貿(mào)與外交活動(dòng)的開展,麻將漸漸風(fēng)行亞洲,乃至流傳到世界各地,成為蘊(yùn)含著古老的東方哲學(xué)與博弈智慧的“一股神秘的東方力量”。在今天,無論是逢年過節(jié)的熱鬧團(tuán)圓,還是日常小聚的茶余飯后,隨時(shí)隨地,湊齊四個(gè)人一桌牌就能打個(gè)熱火朝天。 國(guó)際智力運(yùn)動(dòng)聯(lián)盟在 2017 年宣布,競(jìng)技麻將成為繼圍棋、象棋、國(guó)際象棋、橋牌和國(guó)際跳棋之后的第六項(xiàng)國(guó)際正式智力運(yùn)動(dòng)項(xiàng)目。近年來,隨著人工智能在象棋、圍棋、德州撲克等眾多棋牌類游戲中獲得亮眼的成績(jī),AI 在麻將領(lǐng)域卻一直有待跨越性的突破。 今年6月,由微軟亞洲研究院開發(fā)的麻將 AI 系統(tǒng) Suphx 成為首個(gè)在國(guó)際知名專業(yè)麻將平臺(tái)“天鳳”上榮升十段的 AI 系統(tǒng),這是目前 AI 系統(tǒng)在麻將領(lǐng)域取得的最好成績(jī),其實(shí)力超越該平臺(tái)公開房間頂級(jí)人類選手的平均水平。 5000 場(chǎng)麻將對(duì)局,Suphx 榮升天鳳十段
由于長(zhǎng)期在民間廣為流傳,不同地區(qū)的麻將玩法非常多樣,缺乏統(tǒng)一的規(guī)則標(biāo)準(zhǔn)和評(píng)價(jià)體系。日本在線麻將競(jìng)技平臺(tái)“天鳳”,因其完善的競(jìng)技規(guī)則、專業(yè)的段位體系,成為了業(yè)界知名的高水平專業(yè)麻將平臺(tái),受到職業(yè)麻將界的廣泛承認(rèn)。天鳳吸引了全球近 33 萬(wàn)名麻將愛好者,其中不乏大量的專業(yè)麻將選手。
天鳳平臺(tái)為高水平麻將玩家提供兩種競(jìng)技房間:“特上房”對(duì)四段以上所有玩家免費(fèi)開放,允許 AI 參與游戲,目前所有玩家在此房間的最高段位是十段;“鳳凰房”僅對(duì)七段以上的人類付費(fèi)玩家開放,目前不允許 AI 參與游戲,在該房間能夠達(dá)到的最高段位是十一段,稱為“天鳳位”。自天鳳平臺(tái)在 2006 年推出以來,全平臺(tái)達(dá)到四人麻將天鳳位的麻將高手僅有13位,曾經(jīng)達(dá)到過十段的選手約有 180 位,而現(xiàn)役十段的人類選手也僅有十幾位。
微軟亞洲研究院開發(fā)的麻將 AI 系統(tǒng) Suphx(Super Phoenix,意為“超級(jí)鳳凰”)于 2019 年 3 月登陸天鳳平臺(tái),在 AI 能夠參與的公開競(jìng)技房“特上房”,Suphx 與人類選手展開了 5000 余場(chǎng)精彩激烈的四人麻將對(duì)局。6 月,Suphx 成為了首個(gè)成功達(dá)到天鳳十段的 AI 系統(tǒng)。
由于單局麻將的輸贏并不僅僅取決于實(shí)力,從發(fā)牌到抽牌,4 位玩家的手牌組合都充滿了不確定性,機(jī)遇也會(huì)對(duì)結(jié)果產(chǎn)生重要的影響。因此麻將的對(duì)局?jǐn)?shù)越多,越能夠真實(shí)地反應(yīng)一位雀士的穩(wěn)定水平,于是,天鳳平臺(tái)通過計(jì)算穩(wěn)定段位(Stable Rank)來衡量雀士的真實(shí)實(shí)力水平。玩家的段位越高,在比賽中排位第四受到的點(diǎn)數(shù)懲罰也越多,點(diǎn)數(shù)扣除到一定程度會(huì)導(dǎo)致降段,因此取得一個(gè)高而穩(wěn)定的穩(wěn)定段位是非常不易的。
在這 5000 余場(chǎng)對(duì)局中,Suphx的 穩(wěn)定段位超過了 8.7。這樣的穩(wěn)定段位是一個(gè)極高的數(shù)字。據(jù)統(tǒng)計(jì),天鳳平臺(tái)的所有頂級(jí)人類選手在取得十段后,在“特上房”共參加過近萬(wàn)場(chǎng)比賽,整體穩(wěn)定段位為 7.4。與所有取得過天鳳十段的頂級(jí)人類玩家相比,Suphx 在特上房的穩(wěn)定水平要領(lǐng)先約 1.3 個(gè)段位。此前,天鳳平臺(tái)還活躍著另外兩個(gè)麻將 AI 系統(tǒng),由東京大學(xué)在 2015 年開發(fā)的“爆打”和 Dwango 公司于 2018 年開發(fā)的基于深度學(xué)習(xí)模型的“NAGA25”,二者的穩(wěn)定段位均在 6.5 左右。
“我看了 Suphx 的比賽,”天鳳 ID 為“ASAPIN”的朝倉(cāng)康心在社交媒體上表示,“我感覺它好像比我更強(qiáng)大!”“ASAPIN” 是在日本麻將玩家中無人不知曉的一個(gè)神級(jí)的存在,他是全世界天鳳玩家中率先到達(dá)“天鳳位”的第一人,是公認(rèn)的天鳳位中的最強(qiáng)玩家之一。
Suphx 的杰出表現(xiàn)也獲得了天鳳平臺(tái)官方的認(rèn)可與青睞:“毫無疑問,Suphx 是迄今為止段位最高的麻將 AI。我們?cè)诳紤]歸檔 Suphx 的所有比賽錄像,以共享給全平臺(tái)的其他麻將選手進(jìn)行參考和學(xué)習(xí)。我們也正在和麻將社區(qū)里的廣大玩家討論,是否可以破例允許 Suphx 進(jìn)入只有人類玩家參與的‘鳳凰房’進(jìn)行比賽。這樣,我們將有機(jī)會(huì)欣賞到更加激烈和精彩紛呈的比賽。”
天鳳平臺(tái)開發(fā)公司 C-EGG 的 CEO 角田真吾表示:“這是一項(xiàng)巨大的突破,Suphx 不僅幫助我們用更智能的方式發(fā)展傳統(tǒng)文化,更展示了拓展 AI 能力邊界的可能性,我想這對(duì)天鳳平臺(tái)、麻將社區(qū)乃至社會(huì)都是一個(gè)令人振奮的事情。”
全新預(yù)測(cè)探索與自我博弈策略,破解非完美信息游戲
與象棋、圍棋、德州撲克等棋牌類游戲相比,麻將具有更復(fù)雜的隱藏信息和更高的難度。總體而言,麻將 AI 主要面臨以下挑戰(zhàn):
巨大的狀態(tài)空間:與只有 52 張牌的德州撲克相比,136 張麻將牌的排列組合可能性更多。同時(shí),麻將中同一個(gè)玩家兩次出牌之間,夾雜了其他 3 個(gè)玩家的出牌和自己摸的底牌,可能出現(xiàn)的不同局面數(shù)目非常巨大。值得特別指出的是,在麻將中,4 位玩家的出牌順序是不固定的,任意一位玩家的“吃碰杠”都可能使出牌順序突然改變,導(dǎo)致游戲樹不規(guī)則、且動(dòng)態(tài)變化。這些特點(diǎn)使麻將很難直接利用 AlphaGo 等棋盤游戲 AI 常用的蒙特卡洛樹搜索算法。
非完美信息博弈:象棋和圍棋屬于完美信息游戲,玩家可以看到棋局中對(duì)方玩家的落子。麻將則存在大量的隱藏信息。具體而言,麻將中每個(gè)玩家可以有 13 張手牌,另外還有 84 張底牌。對(duì)于一個(gè)玩家而言,他只知道自己手里的 13 張牌和之前已經(jīng)打出來的牌,卻無法知道別人的手牌和沒有翻出來的底牌,所以最多可以有超過 120 張未知的牌。 這么多的未知信息使得麻將的難度非常高。一方面,由于隨機(jī)性太大,玩家即便在出牌決策中估計(jì)對(duì)方玩家手牌、底牌等不可見的牌,也無法避免不確定性對(duì)于游戲走向的影響。這將對(duì) AI 模型的訓(xùn)練帶來很大挑戰(zhàn):AI 模型很難發(fā)現(xiàn)已知牌面信息和最優(yōu)打法之間的邏輯鏈路。另一方面,豐富的隱藏信息導(dǎo)致游戲樹的寬度非常大,對(duì)樹搜索算法的可行性提出了進(jìn)一步的挑戰(zhàn)。
復(fù)雜的獎(jiǎng)勵(lì)機(jī)制:日本麻將的規(guī)則是“無役不能和牌”,多樣的特殊牌面構(gòu)成了復(fù)雜的“役種”和番數(shù)計(jì)算規(guī)則。一輪游戲共包含 8 局,單局得分與役種和番數(shù)相關(guān),最后根據(jù) 8 局的得分總和進(jìn)行排名,來形成最終影響段位的點(diǎn)數(shù)獎(jiǎng)懲。因此有時(shí)麻將高手會(huì)策略性輸牌,例如,在第 8 輪時(shí)如果 A 玩家已經(jīng)大比分領(lǐng)先第二名,他可能會(huì)故意放炮給排名第四的玩家,來防止總分被排名第二的玩家反超,保證自己在最終結(jié)算時(shí)獲得最大的點(diǎn)數(shù)獎(jiǎng)勵(lì)。這為構(gòu)建高超的麻將 AI 策略帶來了額外的挑戰(zhàn),AI 需要審時(shí)度勢(shì),把握進(jìn)攻與防守的時(shí)機(jī)。
“面對(duì)麻將游戲的巨大挑戰(zhàn),AI 僅靠強(qiáng)大的計(jì)算力無法從根本上解決問題,而需要更強(qiáng)的直覺、預(yù)測(cè)、推理和模糊決策能力,”微軟亞洲研究院副院長(zhǎng)、機(jī)器學(xué)習(xí)領(lǐng)域負(fù)責(zé)人劉鐵巖博士表示。
為了讓 Suphx 高效地學(xué)習(xí)麻將的復(fù)雜狀態(tài)和策略,微軟亞洲研究院針對(duì)麻將的特點(diǎn)與難點(diǎn)嘗試了一系列基于強(qiáng)化學(xué)習(xí)的新算法,希望通過技術(shù)層面的創(chuàng)新,讓 Suphx 具備有效的狀態(tài)表達(dá)機(jī)制和強(qiáng)大的策略學(xué)習(xí)能力,同時(shí)具有大局意識(shí),能從游戲的全局角度做出策略性的判斷,確保統(tǒng)計(jì)意義上總分的領(lǐng)先地位。
比如,為了應(yīng)對(duì)巨大的狀態(tài)空間,研究團(tuán)隊(duì)引入了全新的機(jī)制對(duì)探索過程的多樣性進(jìn)行動(dòng)態(tài)調(diào)控,讓 Suphx 可以比傳統(tǒng)算法更加充分地試探牌局狀態(tài)的不同可能;另一方面,一旦某一輪的底牌給定,其狀態(tài)子空間會(huì)大幅縮?。凰匝芯繄F(tuán)隊(duì)讓 Suphx 在推理階段根據(jù)本輪的牌局來動(dòng)態(tài)調(diào)整策略,對(duì)縮小了的狀態(tài)子空間進(jìn)行更有針對(duì)性的探索,從而更好地根據(jù)本輪牌局的演進(jìn)做出自適應(yīng)的決策。
其次,針對(duì)非完美信息博弈的挑戰(zhàn),Suphx 創(chuàng)新性地嘗試了先知教練技術(shù)來提升強(qiáng)化學(xué)習(xí)的效果。其基本思想是在自我博弈的訓(xùn)練階段利用不可見的一些隱藏信息來引導(dǎo) AI 模型的訓(xùn)練方向,使其學(xué)習(xí)路徑更加清晰、更加接近完美信息意義下的最優(yōu)路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據(jù)。
另外,對(duì)于麻將復(fù)雜的牌面表達(dá)和計(jì)分機(jī)制,研究團(tuán)隊(duì)還利用全盤預(yù)測(cè)技術(shù)搭建起每輪比賽和 8 輪過后的終盤結(jié)果之間的橋梁。這個(gè)預(yù)測(cè)器通過精巧的設(shè)計(jì),可以理解每輪比賽對(duì)終盤的不同貢獻(xiàn),從而將終盤的獎(jiǎng)勵(lì)信號(hào)合理地分配回每一輪比賽之中,以便對(duì)自我博弈的過程進(jìn)行更加直接而有效的指導(dǎo),并使得 Suphx 可以學(xué)會(huì)一些具有大局觀的高級(jí)技巧。
得益于以上新技術(shù)和其他方面的創(chuàng)新,自今年 3 月進(jìn)入天鳳平臺(tái)以來,Suphx 在與人類玩家的對(duì)局中學(xué)得非??臁D壳?,在平衡攻擊和防御方面,Suphx 表現(xiàn)出了比許多頂尖人類玩家更明智的策略,能夠戰(zhàn)略性地完成短期損失與長(zhǎng)期收益之間的權(quán)衡,并根據(jù)已有的模糊信息進(jìn)行快速?zèng)Q策。
Suphx 一直在不斷學(xué)習(xí)與進(jìn)步,研究團(tuán)隊(duì)也一直在對(duì) Suphx 背后核心算法的價(jià)值進(jìn)行評(píng)估、反思和迭代,從而實(shí)現(xiàn)進(jìn)一步的改進(jìn)和提升。劉鐵巖表示,“ 雖然 Suphx 根據(jù)麻將的獨(dú)特挑戰(zhàn)進(jìn)行了針對(duì)性的設(shè)計(jì),也取得了不錯(cuò)的戰(zhàn)績(jī),但我們的創(chuàng)新從未停止。我們期待在不久的將來發(fā)明出更新穎、更強(qiáng)大的 AI 技術(shù),使得 Suphx 的能力有更大幅度的提升??v觀歷史,游戲 AI 的進(jìn)化始終與 AI 研究進(jìn)展相生相伴,很多關(guān)于人工智能的研究都起源于研究如何構(gòu)建能夠完成游戲的智能體。我們希望通過對(duì) Suphx 的研究來探索及擴(kuò)展已有AI技術(shù)的邊界,不斷推動(dòng)人工智能領(lǐng)域的進(jìn)步?!?/p>
突破AI研究的邊界,解決更復(fù)雜的現(xiàn)實(shí)挑戰(zhàn)
麻將這類不完美信息游戲,與圍棋、象棋等完美信息游戲相比,對(duì)人工智能來說具有更大的挑戰(zhàn)性,因此為開發(fā)新的人工智能算法提供了理想的環(huán)境。
我們生活的世界是由許許多多的隨機(jī)事件構(gòu)成的,而且在很多情況下,無法知曉的信息也許遠(yuǎn)多于我們能夠掌握的信息,而我們?nèi)匀灰谶@樣信息不完全的條件下做出大大小小的決策。
而麻將游戲中復(fù)雜的推理策略和帶有隨機(jī)性的博弈過程,比完美信息游戲更加貼近人類復(fù)雜的真實(shí)生活。AI 在不完美信息游戲中的突破,將有助于協(xié)助人類應(yīng)對(duì)更多高度復(fù)雜的現(xiàn)實(shí)問題,尤其是在智能交通、金融投資等容易受到隨機(jī)突發(fā)狀況影響的場(chǎng)景中。
就麻將本身而言,Suphx 可以說是“另辟蹊徑”,風(fēng)格自成一派,創(chuàng)造了許多新的策略和打法,許多觀看 Suphx 比賽的玩家都表示在觀戰(zhàn)過程中受到了啟發(fā),甚至有麻將愛好者將 Suphx 稱作“麻將教科書”、“Suphx 老師”,通過學(xué)習(xí) Suphx 的打法,幫助他們進(jìn)一步提升和豐富自己的麻將技巧。
“我已經(jīng)看了 300 多場(chǎng) Suphx 的比賽,我甚至不再觀看人類玩家的比賽了。我從 Suphx 身上學(xué)到很多新技術(shù),它們對(duì)于我的三人麻將打法有著非常大的啟發(fā)意義,”麻將選手太くないお在社交媒體上表示。今年 6 月太くないお?jiǎng)倓偝蔀槭澜缟系?15 位三人麻將天鳳位獲得者,也是第一位在四人麻將和三人麻將中均取得天鳳位的頂級(jí)玩家。
劉鐵巖表示,“我們期待 Suphx 能夠成為眾多麻將愛好者的良師益友,幫助人類玩家學(xué)習(xí)和提升麻將技巧。未來,我們希望 Suphx 能獲得與‘天鳳位’的頂級(jí)麻將高手進(jìn)行切磋和學(xué)習(xí)的機(jī)會(huì),進(jìn)一步提升和精進(jìn) AI 在麻將領(lǐng)域的推理和決策水平。同時(shí),我們也期待通過游戲 AI 的研究推動(dòng)人工智能技術(shù)的創(chuàng)新發(fā)展,讓人工智能真正走進(jìn)人類的生活,幫助我們解決更加錯(cuò)綜復(fù)雜的現(xiàn)實(shí)挑戰(zhàn)?!?/p>
Suphx 仍在天鳳平臺(tái)上繼續(xù)著自己的競(jìng)技之旅,研究員們希望給予它更加寬松的環(huán)境來充分學(xué)習(xí)、不斷提高、自我演化;也希望在整個(gè)麻將社區(qū)的共同幫助和呵護(hù)下,Suphx 可以取得更大的進(jìn)步,與麻將社區(qū)共同成長(zhǎng)。未來,在合適的時(shí)機(jī),研究員將會(huì)把 Suphx 的技術(shù)總結(jié)成為一篇論文,與大家分享更多技術(shù)細(xì)節(jié)。敬請(qǐng)期待!
-
微軟
+關(guān)注
關(guān)注
4文章
6516瀏覽量
103610 -
AI
+關(guān)注
關(guān)注
87文章
28877瀏覽量
266241 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
263瀏覽量
11158
原文標(biāo)題:微軟超級(jí)麻將雀神榮升十段!AI Suphx橫掃“天鳳”領(lǐng)先人類1.3個(gè)段位
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論