0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CMU、Facebook聯(lián)合打造“賭神”AI,六人德?lián)鋼魯∪祟?/h1>

CMU 和 Facebook 聯(lián)合打造的史上最強(qiáng)德州撲克 AI “Pluribus”在六人德州撲克這項(xiàng)復(fù)雜游戲中擊敗了頂級(jí)人類玩家。今天,Science雜志以封面重磅的形式發(fā)表了該研究論文,詳細(xì)描述了Pluribus的策略。

前不久,一款名叫 “Pluribus” 的 AI 撲克牌機(jī)器人在六人無(wú)限注德州撲克這項(xiàng)復(fù)雜游戲中,碾壓了人類職業(yè)選手!

這是 AI 首次在規(guī)模超過兩人的復(fù)雜對(duì)局中擊敗頂級(jí)人類玩家。

“Pluribus” 是CMU 和 Facebook 聯(lián)合打造的史上最強(qiáng)德州撲克 AI,重點(diǎn)解決了多人對(duì)局環(huán)境下的非零和博弈和隱藏信息推理問題,是該領(lǐng)域的一個(gè)重大突破。

今天,“Pluribus”的論文更是以封面的形式登上Science雜志!

來(lái)自CMU和Facebook AI的Noam Brown和Tuomas Sandholm教授,在論文中詳細(xì)解讀了“Pluribus”的策略。

作者表示,撲克一直是一個(gè)具有挑戰(zhàn)性的問題,過去AI在這類基準(zhǔn)測(cè)試中取得的成功僅限于兩人參與的游戲。然而,傳統(tǒng)上玩撲克的人不止兩個(gè)人。多人撲克是一個(gè)公認(rèn)的AI里程碑。

“Pluribus”AI在六人無(wú)限制注德?lián)渲姓宫F(xiàn)了比頂級(jí)人類專業(yè)玩家更強(qiáng)大的技能。

接下來(lái),新智元帶來(lái)這篇論文的解讀,完整論文可點(diǎn)擊文末鏈接查看。

基于MCCFR的“藍(lán)圖”策略

三人或三人以上的博弈對(duì)博弈論提出了挑戰(zhàn)。對(duì)于兩個(gè)玩家的零和博弈,存在這樣一種策略,即沒有玩家可以通過切換到不同的策略來(lái)提高他們的機(jī)會(huì)。這種所謂的納什均衡被認(rèn)為是博弈的一個(gè)解。

但對(duì)于多人游戲,期望獎(jiǎng)勵(lì)可能因納什均衡的不同而有所不同。保證收斂到納什均衡的快速算法,例如虛擬遺憾最小化算法(CFR),在多人游戲中可能失效。盡管如此,CFR在一些多人游戲領(lǐng)域仍顯示出良好的經(jīng)驗(yàn)表現(xiàn)。

Pluribus首先通過自我游戲(self-play)來(lái)學(xué)習(xí)通用技巧,我們稱之為“藍(lán)圖”(blueprint)策略。

然后,在實(shí)際游戲中,它根據(jù)游戲的當(dāng)前狀態(tài)計(jì)算一個(gè)實(shí)時(shí)策略來(lái)細(xì)化blueprint策略。Pluribus程序通過名為Monte Carlo CFR (MCCFR)的CFR變體學(xué)習(xí)blueprint策略,并進(jìn)行一些改進(jìn)。

Pluribus會(huì)反復(fù)模擬所有玩家使用相同策略的撲克手牌;在每一手牌之后,它會(huì)遞歸地檢查每個(gè)決策,并與在相同情況下可能選擇的其他操作相比,評(píng)估該決策的預(yù)期結(jié)果。

為了提高Pluribus中MCCFR算法的效率,作者在訓(xùn)練的早期階段引入了linear weighted discounting,并在訓(xùn)練的后期對(duì)negative-regret行為進(jìn)行策略剪枝。

系統(tǒng)中最復(fù)雜的部分是實(shí)時(shí)策略組件。為了處理不完美信息,Pluribus執(zhí)行嵌套搜索,維護(hù)搜索樹的根節(jié)點(diǎn)和每個(gè)玩家持有的牌的根節(jié)點(diǎn)的概率分布,前提是假設(shè)所有玩家使用相同的(已知的)策略。

為了有效評(píng)估葉節(jié)點(diǎn),Pluribus考慮了blueprint 策略的四種不同變體。

在Abstraction機(jī)制中,Pluribus通過將類似的情況打包在一起,減少了關(guān)于是否跟注(call)、加注(raise)或棄牌(fold)的決策點(diǎn)的數(shù)量。使用蒙特卡羅虛擬遺憾最小化(MCCFR),將撲克游戲中樹搜索的復(fù)雜性從一個(gè)棘手的問題降低到一個(gè)可解決的問題。

真實(shí)游戲

Pluribus需要為每個(gè)場(chǎng)景提供一個(gè)動(dòng)作(跟注、加注或棄牌)。

抽象游戲

類似的方案,比如高牌9和高牌10一起。

抽象策略

Pluribus使用MCCFR通過操作將每個(gè)bucket映射到一個(gè)分布。

真實(shí)策略

每個(gè)方案都根據(jù)其bucket的抽象策略映射到操作上的分布。

對(duì)于大型復(fù)雜的游戲,狀態(tài)和動(dòng)作的抽象可以用來(lái)抑制搜索樹的增長(zhǎng)。這對(duì)于完整的六人無(wú)限德州撲克游戲來(lái)說(shuō)是必要的,因?yàn)榈聯(lián)涮^復(fù)雜而無(wú)法直接搜索。

相反,如上面的示意圖所示,Pluribus模擬了一個(gè)更簡(jiǎn)單的游戲版本,將類似的決策點(diǎn)組合在一起,并消除了一些操作。

“賭神”AI訓(xùn)練只需144美元

最后,Pluribus的blueprint策略是在64核服務(wù)器上在8天內(nèi)計(jì)算出來(lái)的,總共使用了12400個(gè)CPU核心小時(shí),所需內(nèi)存小于512 GB。按照當(dāng)前的云計(jì)算費(fèi)用,這花費(fèi)了大約144美元。

這與最近其他所有的超級(jí)AI里程碑游戲形成了鮮明的對(duì)比,那些AI使用了大量的服務(wù)器和/或GPU集群。更多的內(nèi)存和計(jì)算可以支持更細(xì)粒度的blueprint,這將帶來(lái)更好的性能,但也會(huì)導(dǎo)致Pluribus使用更多內(nèi)存或在實(shí)時(shí)搜索變慢。

研究人員將blueprint策略抽象的大小設(shè)置為允許Pluribus在一臺(tái)內(nèi)存不超過128GB的機(jī)器上實(shí)時(shí)運(yùn)行,同時(shí)在內(nèi)存中存儲(chǔ)blueprint策略的壓縮形式。

由于無(wú)限德州撲克的規(guī)模和復(fù)雜性,整個(gè)游戲的blueprint 策略必然是粗粒度的。Pluribus只在第一輪投注(四次投注)中根據(jù)這個(gè)blueprint策略進(jìn)行操作,其中決策點(diǎn)的數(shù)量足夠少,以至于blueprint策略可以不使用信息抽象,并且在操作抽象中進(jìn)行了很多操作。

在第一輪之后(甚至在第一輪中,如果對(duì)手選擇的賭注大小與blueprint action抽象中的大小完全不同),Pluribus將進(jìn)行實(shí)時(shí)搜索,以確定針對(duì)當(dāng)前情況的更好、更細(xì)粒度的策略。

結(jié)論

self play 的形式與搜索的形式相結(jié)合,在完全信息的二人零和博弈中取得了許多引人注目的成功。然而,現(xiàn)實(shí)世界中的大多數(shù)戰(zhàn)略交互都包含隱藏的信息和兩個(gè)以上的參與者。這使得這個(gè)問題在理論和實(shí)踐上都有很大的不同和困難。

為多人德?lián)溟_發(fā)一個(gè)超級(jí)AI是該領(lǐng)域的一個(gè)公認(rèn)的里程碑。在本文中,我們描述了Pluribus,一個(gè)AI,能夠在六人無(wú)限注德州撲克中擊敗人類專業(yè)玩家。

Pluribus的成功表明,盡管對(duì)多人博弈的性能缺乏已知的強(qiáng)有力的理論保證,但仍存在大規(guī)模、復(fù)雜的多人博弈不完全信息設(shè)置,在這種情況下,精心構(gòu)造的self play搜索算法可以生成超越人類的策略。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    27847

    瀏覽量

    204662
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4554

    瀏覽量

    92037
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1429

    瀏覽量

    54479

原文標(biāo)題:Science封面重磅:CMU、Facebook聯(lián)合打造“賭神”AI,六人德?lián)鋼魯∪祟?/p>

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    人類智慧水平AI即將到來(lái),AI芯片已提前布局

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃山明)在生成式AI的高速發(fā)展下,不少正在焦慮AI是否會(huì)取代他們的工作。就在近期,OpenAI首席執(zhí)行官Sam?Altman在瑞士達(dá)沃斯經(jīng)濟(jì)論壇上分享了對(duì)未來(lái)AI
    的頭像 發(fā)表于 01-22 06:44 ?2467次閱讀

    開啟全新AI時(shí)代 智能嵌入式系統(tǒng)快速發(fā)展——“第屆國(guó)產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇”圓滿結(jié)束

    嵌入式系統(tǒng)是電子信息產(chǎn)業(yè)的基礎(chǔ),是智能系統(tǒng)的核心。大模型催生AI走入千家萬(wàn)戶、喚醒端側(cè)AI的需求爆發(fā)。以機(jī)器、無(wú)人駕駛和智能制造為代表的智能嵌入式系統(tǒng)快速發(fā)展,操作系統(tǒng)在機(jī)器人和智能駕駛為代表
    發(fā)表于 08-30 17:24

    智謀紀(jì) AI+Multi LED 打開人類健康新寶藏

    技術(shù)。 智謀紀(jì)創(chuàng)始&CEO朱東亮先生受邀出席論壇,帶來(lái)題為《AI+ Multi LED,打開人類健康新寶藏》的專題演講。 演講精彩瞬間回顧:AI+ Multi LED,智謀紀(jì)
    的頭像 發(fā)表于 06-17 12:23 ?230次閱讀
    智謀紀(jì) <b class='flag-5'>AI</b>+Multi LED 打開<b class='flag-5'>人類</b>健康新寶藏

    打造時(shí)空智能體應(yīng)用生態(tài),助力智慧城市向時(shí)空智能城市進(jìn)化

    5月20日,在AI Day技術(shù)開放日活動(dòng)上,高地圖旗下高云圖宣布將逐步開放云睿時(shí)空融合大模型和云境AI三維重建平臺(tái),打造時(shí)空智能體應(yīng)用生
    的頭像 發(fā)表于 05-21 14:27 ?445次閱讀
    高<b class='flag-5'>德</b>將<b class='flag-5'>打造</b>時(shí)空智能體應(yīng)用生態(tài),助力智慧城市向時(shí)空智能城市進(jìn)化

    達(dá)實(shí)久信正式簽約上海市第六人民醫(yī)院臨港院區(qū)二期項(xiàng)目!

    深圳達(dá)實(shí)智能股份有限公司于 2024 年 3 月 19 日披露了《關(guān)于智慧醫(yī)院項(xiàng)目中標(biāo)的公告》,近日,公司全資子公司江蘇達(dá)實(shí)久信醫(yī)療科技有限公司與上海建工二建集團(tuán)有限公司就上海市第六人民醫(yī)院臨港院區(qū)二期凈化項(xiàng)目有關(guān)事項(xiàng)協(xié)商一致,在上海市楊浦區(qū)正式簽署了合同,合同金額 9805.28 萬(wàn)元。
    的頭像 發(fā)表于 05-16 09:55 ?334次閱讀

    諾和諾基金會(huì)將聯(lián)手英偉達(dá)打造丹麥AI超級(jí)計(jì)算機(jī)

    諾和諾基金會(huì)攜手英偉達(dá),共同宣布在丹麥打造一臺(tái)領(lǐng)先的AI超級(jí)計(jì)算機(jī)。這臺(tái)超級(jí)計(jì)算機(jī)將致力于推動(dòng)醫(yī)療保健、生命科學(xué)以及綠色轉(zhuǎn)型等領(lǐng)域的科研與創(chuàng)新,為丹麥乃至全球的諾和諾基金會(huì)攜手英偉
    的頭像 發(fā)表于 03-21 13:43 ?441次閱讀

    富士通發(fā)布最新的人工智能(AI)戰(zhàn)略,聚焦深化人類AI之間的協(xié)作

    富士通株式會(huì)社(以下簡(jiǎn)稱“富士通”)發(fā)布了最新的集團(tuán)人工智能(AI)戰(zhàn)略,聚焦深化人類AI之間的協(xié)作,并提出了將AI作為“可信賴的助手”這一愿景,為提升
    的頭像 發(fā)表于 02-21 17:09 ?629次閱讀
    富士通發(fā)布最新的人工智能(<b class='flag-5'>AI</b>)戰(zhàn)略,聚焦深化<b class='flag-5'>人類</b>與<b class='flag-5'>AI</b>之間的協(xié)作

    奧特曼稱相信AI無(wú)法替代人類

    奧特曼稱相信AI無(wú)法替代人類 AI對(duì)于人類的威脅一直有很多討論,各有不同觀點(diǎn),很多人對(duì)于科幻電影中的場(chǎng)景AI機(jī)器
    的頭像 發(fā)表于 01-19 11:43 ?791次閱讀

    引領(lǐng)AI未來(lái) | 軟通動(dòng)力攜手華為云聯(lián)合成立泰國(guó)AI云智社區(qū)

    12月18日,以“引領(lǐng)AI未來(lái)”為主題的華為云泰國(guó)首屆AI主題峰會(huì)在曼谷舉行,政企客戶、本地伙伴、中資伙伴、開發(fā)者等千參會(huì),圍繞“AI for Thailand”、“
    的頭像 發(fā)表于 12-20 09:45 ?317次閱讀
    引領(lǐng)<b class='flag-5'>AI</b>未來(lái) | 軟通動(dòng)力攜手華為云<b class='flag-5'>聯(lián)合</b>成立泰國(guó)<b class='flag-5'>AI</b>云智社區(qū)

    釋放生成式AI的巨大潛力,勤中國(guó)與亞馬遜云科技共建生成式AI聯(lián)合實(shí)驗(yàn)室

    2023年11月16日,勤中國(guó)與亞馬遜云科技共同宣布創(chuàng)建生成式AI聯(lián)合實(shí)驗(yàn)室。雙方將整合優(yōu)勢(shì)資源,圍繞“1+3”展開合作。
    的頭像 發(fā)表于 11-17 17:19 ?962次閱讀

    勤中國(guó)與亞馬遜云科技聯(lián)合成立生成式AI聯(lián)合實(shí)驗(yàn)室

    北京2023年11月16日??/美通社/ -- 勤中國(guó)與亞馬遜云科技共同宣布創(chuàng)建生成式AI聯(lián)合實(shí)驗(yàn)室。雙方將整合優(yōu)勢(shì)資源,圍繞"1+3"展開合作。"1" 是以亞馬遜云科技的堅(jiān)實(shí)技術(shù)為依托,在
    的頭像 發(fā)表于 11-17 09:43 ?623次閱讀

    CMU、MIT、清華聯(lián)合發(fā)布全球首個(gè)生成式機(jī)器智能體RoboGen

    CMU、MIT、清華聯(lián)合發(fā)布了全球首個(gè)生成式機(jī)器智能體RoboGen,可以無(wú)限生成數(shù)據(jù),讓機(jī)器7*24小時(shí)永不停歇地訓(xùn)練。為機(jī)器進(jìn)入通
    的頭像 發(fā)表于 11-09 10:19 ?944次閱讀

    賽西威聯(lián)合高通首發(fā)G9SH智能座艙域控平臺(tái)

    【2023年10月20日,惠州】賽西威與高通公司宣布雙方聯(lián)合打造的高性能座艙域控平臺(tái)—— 賽西威G9S H 正式發(fā)布。 在汽車產(chǎn)業(yè)升級(jí)與用戶需求升級(jí)的背景下, G9SH 基于高通公
    的頭像 發(fā)表于 10-20 14:55 ?471次閱讀
    <b class='flag-5'>德</b>賽西威<b class='flag-5'>聯(lián)合</b>高通首發(fā)G9SH智能座艙域控平臺(tái)

    百度Apollo聯(lián)合多家機(jī)構(gòu)發(fā)起 “AI超凡玩家·汽車機(jī)器挑戰(zhàn)賽”

    9月24日,百度Apollo聯(lián)合上海市科創(chuàng)教育指導(dǎo)委員會(huì)、世博會(huì)總代表和館長(zhǎng)聯(lián)合會(huì)、上海國(guó)際汽車城(集團(tuán))有限公司、上海萬(wàn)博科技創(chuàng)新促進(jìn)中心在上海發(fā)起 “AI超凡玩家·汽車機(jī)器挑戰(zhàn)賽
    的頭像 發(fā)表于 09-27 18:35 ?886次閱讀
    百度Apollo<b class='flag-5'>聯(lián)合</b>多家機(jī)構(gòu)發(fā)起 “<b class='flag-5'>AI</b>超凡玩家·汽車機(jī)器<b class='flag-5'>人</b>挑戰(zhàn)賽”