0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI Five在Dota2國(guó)際競(jìng)賽TI8中進(jìn)行首次對(duì)戰(zhàn)以失敗告終

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-24 08:53 ? 次閱讀

剛剛,OpenAI Five在Dota2最受關(guān)注的國(guó)際競(jìng)賽TI8中進(jìn)行了首場(chǎng)表演賽,對(duì)戰(zhàn)職業(yè)玩家隊(duì)伍paiNGame,也是TI8中最先被淘汰的一支隊(duì)伍,然而卻飲恨惜敗。雙方經(jīng)過(guò)激烈對(duì)戰(zhàn),AI在操控速度和團(tuán)隊(duì)支援方面遠(yuǎn)遠(yuǎn)超過(guò)人類,但對(duì)于技能的釋放和兵線的理解還有很大提升空間。

OpenAI Five,輸了。

此前以驚人的速度不斷進(jìn)化,并且成功碾壓Dota2準(zhǔn)職業(yè)玩家后,OpenAI Five劍指TI8,挑戰(zhàn)現(xiàn)役職業(yè)人類玩家,并于剛剛結(jié)束了首場(chǎng)與人類的對(duì)戰(zhàn)。

51分鐘的時(shí)間里,OpenAI Five雖然在控制速度和團(tuán)隊(duì)支援上遠(yuǎn)超人類,但金幣數(shù)量只有一次稍稍領(lǐng)先,說(shuō)明對(duì)英雄技能的釋放以及兵線的理解還有待提高。

OpenAI Five 在DOTA2 5V5團(tuán)隊(duì)?wèi)?zhàn)中戰(zhàn)勝Top 05%玩家,讓好多研究強(qiáng)化學(xué)習(xí)的人激動(dòng)了一把,更何況還有比爾·蓋茨的那句評(píng)價(jià):“這是人工智能發(fā)展歷史上的一座重大里程碑”。

因此,對(duì)于這次在TI8的首場(chǎng)對(duì)戰(zhàn),可謂吸足了眼球。

戰(zhàn)火一觸即發(fā)!

第一場(chǎng)演示賽,OpenAI Five對(duì)戰(zhàn)人類職業(yè)玩家隊(duì)伍paiN Game。

這是Pg的現(xiàn)役隊(duì)員

雖然pg是18支參賽隊(duì)伍中最弱的一隊(duì)(最先被淘汰),但不要忘了,這相當(dāng)于參加奧運(yùn)賽短跑決賽中跑得最慢的那一位,也是人類的強(qiáng)中之強(qiáng)啊。

這次對(duì)戰(zhàn),OpenAI選擇的英雄分別是:潮汐獵人、矮人直升機(jī)、水晶室女、死亡先知、巫妖。PG這方則選的是:萊恩、瘟疫法師、巫醫(yī)、狙擊手和斧王。

一上場(chǎng),OpenAI的兵線就比當(dāng)時(shí)Benchmark賽的時(shí)候更加靠前,這是因?yàn)閺?個(gè)信使變成了1個(gè)。

根據(jù)對(duì)戰(zhàn)前的預(yù)測(cè),大部分投票者還是認(rèn)為人類會(huì)贏(55%)。這或許也是OpenAI團(tuán)隊(duì)?wèi)阎那樯蠄?chǎng)的原因。

實(shí)際戰(zhàn)況開(kāi)始雙方勢(shì)均力敵,在地圖各處都在開(kāi)打,難分難解,但開(kāi)場(chǎng)20分鐘后,OpenAI Five就推倒了兩座塔,不過(guò)雙方的傷亡幾乎差不多。

幾分鐘后,OpenAI首次在金幣總量上超過(guò)了PG一點(diǎn)點(diǎn),然后逐漸獲得優(yōu)勢(shì),23殺vs18,OpenAI Five要領(lǐng)先2k。

如果你以為AI就會(huì)這樣獲勝,那么就想錯(cuò)了!

OpenAI的英雄DP總喜換守在Roahn那里。不朽者Roshan是Dota 2中最為強(qiáng)大的中立生物,他是游戲中首個(gè)生成的單位,在比賽載入完成后即會(huì)出現(xiàn),并且是唯一隨著時(shí)間成長(zhǎng)的NPC。

OpenAI Five研究人員表示,DP守在Roshan那里,是因?yàn)橐_認(rèn)具體位置,這是訓(xùn)練時(shí)Roshan隨機(jī)化的一個(gè)副作用,AI控制的英雄不知道Roshan會(huì)從哪里出現(xiàn),因此就喜歡守在那里確認(rèn)。

至于人類這邊,坦白說(shuō),斧王一直表現(xiàn)不好,AI雖然在整體執(zhí)行力、控制技能釋放以及保命道具使用上遠(yuǎn)超人類,但對(duì)于游戲的理解、兵線的牽扯以及大招的釋放還有待提高。

兵線對(duì)于游戲是很重要的,如果是人類這邊進(jìn)行更多帶線牽扯,AI可能會(huì)提前10分鐘被推掉高地。

也很明顯能看出來(lái),PG并沒(méi)有認(rèn)真去對(duì)戰(zhàn)。OpenAI這邊的C位是飛機(jī),但在買活死亡后且復(fù)活時(shí)間有100多秒,而人類這邊一直在AI的高地下玩,這段時(shí)間本是可以推下至少一路高地的。

一直到游戲結(jié)束,AI這邊人頭數(shù)量都是超過(guò)PG戰(zhàn)隊(duì)的,說(shuō)明AI團(tuán)戰(zhàn)和支援的速度更強(qiáng),但是人類這邊經(jīng)濟(jì)始終沒(méi)有落后太多并在取得優(yōu)勢(shì)的情況下,迅速拉開(kāi)經(jīng)濟(jì)差,說(shuō)明現(xiàn)役職業(yè)玩家在DOTA2的資源分配和對(duì)兵線的理解上,仍然是人類的希望。

OpenAI Five訓(xùn)練:從簡(jiǎn)單的操作中學(xué)到專業(yè)級(jí)的策略

1、OpenAI FIVE是如何工作的?

OpenAI Five是一個(gè)由5個(gè)人工神經(jīng)網(wǎng)絡(luò)組成的隊(duì)伍,可以把它想象成一個(gè)模擬的“大腦”,是專門為學(xué)習(xí)Dota而設(shè)計(jì)的。OpenAI Five將世界看作一個(gè)包含20000個(gè)數(shù)字的列表,這些數(shù)字對(duì)可見(jiàn)的游戲狀態(tài)(僅限于人類玩家被允許看到的信息)進(jìn)行編碼,并通過(guò)發(fā)出8個(gè)數(shù)字的列表來(lái)選擇一個(gè)動(dòng)作。

OpenAI團(tuán)隊(duì)編寫的代碼在游戲狀態(tài)/操作和數(shù)字列表之間進(jìn)行映射。 一旦經(jīng)過(guò)訓(xùn)練,這些神經(jīng)網(wǎng)絡(luò)就是純粹本能的生物——它們的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了記憶,但不會(huì)進(jìn)一步學(xué)習(xí)。OpenAI Five雖然是一個(gè)團(tuán)隊(duì),但并沒(méi)有設(shè)計(jì)特殊的溝通、交流結(jié)構(gòu),只提供他們一種激勵(lì)(incentive)。

2、OpenAI Five的訓(xùn)練過(guò)程

OpenAI Five的神經(jīng)網(wǎng)絡(luò)從隨機(jī)參數(shù)開(kāi)始,使用通用的訓(xùn)練系統(tǒng)Rapid來(lái)學(xué)習(xí)更好的參數(shù)。Rapid擁有OpenAI的5個(gè)游戲副本,此前的報(bào)道中也提到過(guò),OpenAI Five每天通過(guò)成千上萬(wàn)的并發(fā)游戲生成180年的游戲數(shù)據(jù),使用了128,000個(gè)CPU內(nèi)核和256個(gè)GPU

在每個(gè)游戲框架中,Rapid會(huì)計(jì)算出一個(gè)數(shù)值獎(jiǎng)勵(lì),當(dāng)有好事發(fā)生時(shí)(比如一個(gè)盟軍英雄獲得了經(jīng)驗(yàn))是正數(shù),當(dāng)有壞事發(fā)生時(shí)(比如一個(gè)盟軍英雄被殺)是負(fù)數(shù)。而后Rapid應(yīng)用近端策略優(yōu)化(Proximal Policy Optimization)算法來(lái)更新神經(jīng)網(wǎng)絡(luò)制定動(dòng)作的參數(shù)。

3、TAKEAWAY

就像人類在規(guī)劃一天的生活時(shí)不會(huì)計(jì)劃肌肉運(yùn)動(dòng)一樣,OpenAI社區(qū)(包括OpenAI)也期望通過(guò)長(zhǎng)期規(guī)劃來(lái)獲取算法,以此來(lái)解決短期和長(zhǎng)期的計(jì)劃,可能通過(guò)強(qiáng)化學(xué)習(xí)得以突破。

盡管OpenAI Five的底層算法非常簡(jiǎn)單,但在沒(méi)有提供任何人工數(shù)據(jù)的情況下,它從簡(jiǎn)單的操作中可以學(xué)到專業(yè)級(jí)的策略。

OpenAI DOTA進(jìn)化時(shí)間線:只用1年,從1v1到5v5!

2016.11.05OpenAI選擇將Dota作為要攻克的目標(biāo),因?yàn)檫@是Twitch在Linux上最受歡迎的游戲,并且有API。

2016.11.09OpenAI首次在Dota庫(kù)中提交。

2017.03.09首先在Rapid庫(kù)中提交。

2017.08.11OpenAI在Dota國(guó)際競(jìng)賽TI7中,1v1戰(zhàn)勝了頂級(jí)Dota 2職業(yè)玩家Dendi。

2017.09.07OpenAI在Dota 2 1v1普通模式(normal gameplay)首次戰(zhàn)勝了職業(yè)玩家,后續(xù)又有十幾個(gè)職業(yè)玩家與其挑戰(zhàn),對(duì)戰(zhàn)了上千次。

2018年1月在特定有限條件下(只有5位固定英雄,沒(méi)有守衛(wèi),不能隱身等),OpenAI Five戰(zhàn)勝了腳本bot。

2018年4月OpenAI Five在有限制的情況下,戰(zhàn)勝了OpenAI自己組建的半職業(yè)人類玩家隊(duì)伍(雙方陣容固定而且一樣的:NEC,火槍,毒龍,冰女,巫妖;不能插眼;沒(méi)有肉山;不能用隱身道具;不能使用召喚物和幻象;沒(méi)有圣劍,瓶子,補(bǔ)刀斧,飛鞋,知識(shí)之書(shū),魂淚;5只不能被攻擊的信使;不能掃描),被比爾·蓋茨稱之為“人工智能的一大里程碑”。

2018.06.06OpenAI Five戰(zhàn)勝了OpenAI自己組建的隊(duì)伍,這次的游戲限制相比上次少了一些。很多DOTA 2玩家表示,插眼和肉山非常重要,如果排除這些因素,對(duì)戰(zhàn)并不公平。所以,OpenAI Five學(xué)會(huì)了插眼與打肉山。

2018.08.05OpenAI在全球10萬(wàn)+觀眾的直播見(jiàn)證下,戰(zhàn)勝了Dota 2 Top 0.5%的玩家(Blitz、Cap、Fogged、Merlini和MoonMeander,其中有四人是Dota2前職業(yè)玩家),創(chuàng)造了OpenAI Five Benchmark。這次的勝利解除了一些限制,比如英雄池有18個(gè)可供選擇,將AI時(shí)間調(diào)整為更接近人類的200ms。更詳細(xì)的介紹可以看此前新智元的報(bào)道。此前,很多評(píng)論員認(rèn)為實(shí)現(xiàn)這一進(jìn)步至少需要一年的時(shí)間,但OpenAI用差不多一個(gè)月就做到了。

2018.08.20OpenAI被指責(zé)不是通過(guò)機(jī)器視覺(jué)而是游戲API獲取數(shù)據(jù),而人類玩家僅通過(guò)“看”來(lái)判斷,因此AI得出的結(jié)果和測(cè)距更加精準(zhǔn),從而也更具優(yōu)勢(shì)。但OpenAI在賽前便公開(kāi)所有條件,并不能稱“作弊”。

2018.08.22OpenAI Five在Dota2國(guó)際競(jìng)賽TI8中進(jìn)行首次對(duì)戰(zhàn),對(duì)戰(zhàn)現(xiàn)役職業(yè)玩家隊(duì)伍Pain Game(是TI8中第一支被淘汰的隊(duì)伍),雖然人頭數(shù)一直領(lǐng)先,但最終不敵對(duì)手,首場(chǎng)比賽以失敗告終。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29824

    瀏覽量

    268117
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46671

    瀏覽量

    237123

原文標(biāo)題:人類奮起反擊!OpenAI遭滑鐵盧,Dota2頂級(jí)淘汰賽開(kāi)場(chǎng)慘?。?/p>

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    微軟評(píng)估OpenAI股權(quán)

    隨著OpenAI向營(yíng)利性公司轉(zhuǎn)型,其與最大投資者微軟攜手聘請(qǐng)了投資銀行,評(píng)估微軟OpenAI的股權(quán)比例。微軟作為
    的頭像 發(fā)表于 10-21 15:40 ?354次閱讀

    是什么導(dǎo)致企業(yè)AI戰(zhàn)略的失敗

    近年來(lái),隨著人工智能技術(shù)深入到各行各業(yè),企業(yè)對(duì)人工智能的采用達(dá)到了前所未有的新高度。然而,針對(duì)人工智能的探索和應(yīng)用的過(guò)程,許多企業(yè)由于安全性、兼容性、人才短缺等種種“技術(shù)問(wèn)題”而苦苦掙扎,最后
    的頭像 發(fā)表于 10-16 10:18 ?232次閱讀

    使用霍爾效應(yīng)傳感器電子智能鎖中進(jìn)行位置感應(yīng)應(yīng)用說(shuō)明

    電子發(fā)燒友網(wǎng)站提供《使用霍爾效應(yīng)傳感器電子智能鎖中進(jìn)行位置感應(yīng)應(yīng)用說(shuō)明.pdf》資料免費(fèi)下載
    發(fā)表于 09-12 14:03 ?0次下載
    使用霍爾效應(yīng)傳感器<b class='flag-5'>在</b>電子智能鎖<b class='flag-5'>中進(jìn)行</b>位置感應(yīng)應(yīng)用說(shuō)明

    OpenAI人工智能領(lǐng)域發(fā)展勢(shì)頭強(qiáng)勁

    北京時(shí)間8月29日,彭博社援引知情人士消息,揭示了OpenAI即將完成其新一輪融資的重要進(jìn)展。本輪融資由知名投資機(jī)構(gòu)興盛資本(Thrive Capital)領(lǐng)銜,預(yù)計(jì)估值將突破千億美元大關(guān),標(biāo)志著OpenAI
    的頭像 發(fā)表于 08-29 15:37 ?408次閱讀

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來(lái)了

    的定制,滿足不同的行業(yè)需求。 發(fā)布現(xiàn)場(chǎng)關(guān)鍵演示 OpenAI的演示有效地展示了如何在各種現(xiàn)實(shí)場(chǎng)景利用ChatGPT-4o: · 多語(yǔ)言客戶支持模擬 :演示ChatGPT-4o
    發(fā)表于 05-27 15:43

    Ethercat中進(jìn)行閃存編程時(shí)發(fā)生電源故障怎么解決?

    斷電后如何從 FoE 恢復(fù)?閃存過(guò)程中斷供電,導(dǎo)致恢復(fù)步驟失敗。下載成功后請(qǐng)求 INIT,10 秒后電源中斷。 現(xiàn)在出現(xiàn)了錯(cuò)誤。FoE:閃光燈問(wèn)題。
    發(fā)表于 05-20 08:18

    任天堂Switch手柄漂移訴訟失敗,新主機(jī)或采用磁吸式Joy-Con

     兩位律師分別代表 Diaz 與 Carbajal 起訴 Nintendo Switch 的“Joy-Con 手柄漂移”問(wèn)題,但紛紛遭到駁回,這標(biāo)志著玩家們長(zhǎng)達(dá)五年的維權(quán)行動(dòng)失敗告終
    的頭像 發(fā)表于 05-14 14:04 ?354次閱讀

    亞馬遜加碼投資Anthropic,AI競(jìng)賽再掀波瀾

    亞馬遜正在掀起其30年歷史中最大規(guī)模的外部投資風(fēng)暴,人工智能領(lǐng)域的競(jìng)賽搶占先機(jī)。據(jù)最新消息,這家科技巨頭已決定再向初創(chuàng)公司Anthropic投入27.5億美元。Anthropic
    的頭像 發(fā)表于 03-28 14:16 ?459次閱讀

    TC234boot中進(jìn)行Deinit CANFD失敗了的原因?

    大家好: 問(wèn)題描述:項(xiàng)目已從啟動(dòng)切換到應(yīng)用程序。 如果在應(yīng)用程序中使用不同的 MO 并以相同的 ID 啟動(dòng),則無(wú)法接收應(yīng)用程序的消息。 我本來(lái)希望 boot 中進(jìn)行 Deinit CANFD,但我
    發(fā)表于 01-31 06:31

    AD2S1210初始化讀寫寄存器失敗的原因?如何解決?

    確認(rèn): AD2S1210芯片在工作,能夠采集到輸出的正弦波信號(hào)。 代碼的配置是沒(méi)問(wèn)題的。因?yàn)樯鲜鰡?wèn)題是使用boot刷寫app后,app出現(xiàn)的問(wèn)題;調(diào)試器燒錄app后,app能夠正
    發(fā)表于 12-04 06:33

    首次使用探頭前為什么要進(jìn)行補(bǔ)償?

    首次使用探頭前為什么要進(jìn)行補(bǔ)償?這是一個(gè)常見(jiàn)的問(wèn)題,但卻是保障精準(zhǔn)測(cè)量的關(guān)鍵步驟。進(jìn)行實(shí)驗(yàn)或測(cè)量之前,對(duì)探頭進(jìn)行補(bǔ)償是必不可少的。本文將詳
    的頭像 發(fā)表于 11-24 10:53 ?598次閱讀
    <b class='flag-5'>首次</b>使用探頭前為什么要<b class='flag-5'>進(jìn)行</b>補(bǔ)償?

    什么是頻率域?為什么要在頻率域中進(jìn)行圖像處理?

    什么是頻率域?為什么要在頻率域中進(jìn)行圖像處理? 頻率域是指在頻率上對(duì)圖像進(jìn)行分析和處理的領(lǐng)域。頻率域中,圖像被轉(zhuǎn)換為一組頻率成分,其中每個(gè)頻率表示圖像某種特定的變化。頻率域分析使用
    的頭像 發(fā)表于 11-20 14:05 ?1822次閱讀

    AD8475的spice模型有問(wèn)題,無(wú)法導(dǎo)入TINA-TI中進(jìn)行仿真計(jì)算怎么解決?

    (dA8475, ad8475) (dA8475, ad8475)的spice模型有問(wèn)題,無(wú)法導(dǎo)入TINA-TI中進(jìn)行仿真計(jì)算
    發(fā)表于 11-17 07:43

    創(chuàng)維并購(gòu)LG顯示廣州廠失敗告終

    lg display正在減少lcd的比重,用有機(jī)發(fā)光二極管(oled)重新編制事業(yè)結(jié)構(gòu)。該公司去年年末韓國(guó)坡州工廠(p7)中斷了電視用lcd面板的生產(chǎn),只剩下中國(guó)廣州的lcd工廠。
    的頭像 發(fā)表于 11-14 10:30 ?690次閱讀

    創(chuàng)維并購(gòu)LG顯示廣州廠失敗告終

     LG顯示正在減少lcd的比重,用有機(jī)發(fā)光二極管(oled)重新編制事業(yè)結(jié)構(gòu)。該公司去年年末韓國(guó)坡州工廠(p7)中斷了電視用lcd面板的生產(chǎn),只剩下中國(guó)廣州的lcd工廠。
    的頭像 發(fā)表于 11-13 14:25 ?858次閱讀