0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Reaver在《星際爭霸 II》各種小型游戲上與其他AI的性能對比

DPVg_AI_era ? 來源:未知 ? 2018-11-29 09:43 ? 次閱讀

如果說我們的征途是星辰大海,那么星際爭霸必定是其中一關。今天,有人在Github開源了他潛心研究一年半的成果,一個新手和資深研究人員都能受益的深度強化學習框架,單機運行速度快、方便調式,支持多種強化學習訓練環(huán)境。

上周結束的 AI Challenger 星際爭霸競賽,讓 AI 挑戰(zhàn)星際爭霸這個議題又稍稍火了一把。雖然這屆冠軍使用的仍然是硬編碼方法,但從其他解決方案中不難看出,AI算法的占比在不斷提升。

作為圍棋之后 DeepMind 公開宣布的下一個攻克目標,《星際爭霸》的魅力可見一斑。而隨后不久 DeepMind 便將其相關研究及平臺開源,更是印證了讓 AI 玩星際爭霸的挑戰(zhàn)。

今天,塔爾圖大學的 Roman Ring 在 Github 上開源了他傾力投入一年半的成果,一個名叫 Reaver 的《星際爭霸 II》AI,可用于訓練《星際爭霸 II》的各種基本任務。

Reaver 的基本思路是沿著 DeepMind 的路線在走,也即 AI 的玩法是像人類玩家一樣,從游戲畫面中獲取視覺特征,然后再做出決策。

補充說明,Roman 去年本科畢業(yè)項目是使用《Actor-Critic 法復現(xiàn) DeepMind 星際爭霸 II 強化學習基準》[1],Reaver 則是在此基礎上的改善提升。

Reaver 的強項在于比其他開源的同類框架單機運行速度快;除了支持星際爭霸游戲訓練環(huán)境 SC2LE,也支持 OpenAI Gym、ATARI 和 MUJOCO;模塊化組成,容易調試。

根據(jù)作者所說,Reaver 不到10 秒就解決 CartPole-v0,在 4 核 CPU 筆記本上每秒處理 5000 張圖像,使用 Google Colab,Reaver 通關《星際爭霸 II》SC2LE 小型游戲 MoveToBeacon 只需要半小時的時間。

Reaver 玩《星際爭霸 II》小型游戲 MoveToBeacon 的畫面,左邊是未經(jīng)訓練,右邊是訓練后的情況。來源:Roman Ring/YouTube

套用一句話,如果我們的征途是星辰大海,那么其中的一關必然是《星際爭霸》。

Reaver 對于不具備 GPU 集群的人非常友好,正如作者在 Github 庫里介紹所說,

“雖然開發(fā)是研究驅動的,但 Reaver API 背后的理念類似于《星際爭霸II》游戲本身——新手可以用,領域專家也能從中獲得東西。

“對于業(yè)余愛好者而言,只要對 Reaver 稍作修改(例如超參數(shù)),就能得到訓練深度強化學習智能體的所有必須工具。對于經(jīng)驗豐富的研究人員,Reaver 提供簡單但性能優(yōu)化的代碼庫,而且都是模塊化架構:智能體、模型和環(huán)境都是分開,并且可以隨意組合調換?!?/p>

歡迎加入星際爭霸強化學習陣營。

深度強化學習AIReaver:模塊化且便于調試

性能 大部分已發(fā)表的強化學習基準通常針對的都是 MPI 之間 message-based 通信,對于 DeepMind 或者 OpenAI 這樣有大規(guī)模分布式強化學習配置的機構而言這樣做自然很合理,但對于普通研究者或其他沒有這類強大基礎設施的人,這就成了很大的瓶頸。因此,Roman Ring 采用了共享內存(shared memory)的方法,相比 message-based 并行的解決方案實現(xiàn)了大約 3 倍的速度提升。

模塊化 很多強化學習基準都或多或少都是模塊化的,不過這些基準通常與作者使用的訓練環(huán)境密切相關。Roman Ring 自己就曾經(jīng)因為專注于《星際爭霸 II》環(huán)境而導致調試花了很長時間。因此,Revar 只需要一個命令行就能改變訓練環(huán)境,從 SC2 到 Atari 或者 CartPole(將來計劃納入 VizDoom)。每個神經(jīng)網(wǎng)絡都是簡單的 Keras 模型,只要符合基本的 API contracts 都能調用。

調試 現(xiàn)在一個游戲 AI 通常含有十幾個不同的調試參數(shù),如何實現(xiàn)更為統(tǒng)一便捷的調試?Roman Ring 在 Reaver 中只要能用的地方都用了 “gin-config”,這個輕量級調試框架只要是 Python 可調用函數(shù)都能調試,非常方便。

更新 是的,現(xiàn)在算法發(fā)展很快,去年發(fā)表的東西今年就可能過時。在開發(fā) Reaver 的時候 Roman 表示他想著用了 TensorFlow 2.0 API(主要是使用 tf.keras 不用 tf.contrib),希望這個庫能活用久一點吧。

單機友好,可用于訓練星際爭霸II各種任務

Roman Ring 列出了 Reaver 在《星際爭霸 II》各種小型游戲上與其他 AI 的性能對比。其中,

Reaver(A2C)就是在 SC2LE 訓練 Reaver 得到的結果

DeepMind SC2LE 是 DeepMind 在《StarCraft II: A New Challenge for Reinforcement Learning》一文中發(fā)布的結果[2]

DeepMind ReDRL 則是 DeepMind 在《Relational Deep Reinforcement Learning》中的結果[3]

人類專家是 DeepMind 收集的 GrandMaster 級別人類玩家的結果

以下是 Reaver 在不同小型游戲中訓練花費的時間:

綜上,就算 DefeatRoaches 花了 150 小時,但考慮到硬件只是一臺筆記本(英特爾酷睿 i5-7300HQ,4核 +GTX 1050GPU),這個結果已經(jīng)算很不錯。

Roman 還列出了他的路線圖,上述成果只是他萬里長征的第一步。如果你感興趣,不妨加入這個項目。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 強化學習
    +關注

    關注

    4

    文章

    263

    瀏覽量

    11158
  • GitHub
    +關注

    關注

    3

    文章

    461

    瀏覽量

    16237
  • AI算法
    +關注

    關注

    0

    文章

    242

    瀏覽量

    12180

原文標題:單機《星際爭霸2》AI,不用GPU集群,支持多種訓練環(huán)境

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Chip天線相比較其他天線的優(yōu)勢有哪些?

    hello小伙伴們,上周我們推出了Chip天線的文,這種天線因其小型化、高性能和易于集成的特點,能夠各種使用環(huán)境下保持優(yōu)異的性能。 Chi
    的頭像 發(fā)表于 08-30 09:07 ?133次閱讀
    Chip天線相比較<b class='flag-5'>其他</b>天線的優(yōu)勢有哪些?

    PLC如何與其他設備進行通信

    工業(yè)自動化領域中,PLC(Programmable Logic Controller,可編程邏輯控制器)扮演著至關重要的角色。作為工業(yè)自動化系統(tǒng)的核心,PLC不僅負責控制設備的運行,還需要與其他
    的頭像 發(fā)表于 06-27 14:07 ?973次閱讀

    ICL5101與ICL5102性能對比

    ICL5101與ICL5102性能對比-中文
    發(fā)表于 06-17 14:26 ?1次下載

    三星電容與其他品牌電容的對比優(yōu)勢是什么?

    三星電容與其他品牌電容相比,具有一些顯著的優(yōu)勢,以下是一些主要的對比優(yōu)勢: 1、優(yōu)秀的絕緣性能:三星電容具有出色的絕緣性能,這有助于減少漏電現(xiàn)象,提高電路的安全性和穩(wěn)定性。
    的頭像 發(fā)表于 05-06 16:04 ?288次閱讀
    三星電容<b class='flag-5'>與其他</b>品牌電容的<b class='flag-5'>對比</b>優(yōu)勢是什么?

    MES管理系統(tǒng)與其他系統(tǒng)的集成

    MES管理系統(tǒng)與其他系統(tǒng)的集成是實現(xiàn)生產(chǎn)流程高效協(xié)同的關鍵。通過與其他系統(tǒng)的緊密集成,MES管理系統(tǒng)可以更好地發(fā)揮其作用,實現(xiàn)生產(chǎn)資源的優(yōu)化配置、產(chǎn)品數(shù)據(jù)的準確管理、物流與生產(chǎn)的協(xié)同以及生產(chǎn)自動化和智能化。這不僅提高了企業(yè)的生產(chǎn)效率和質量,也為企業(yè)的發(fā)展提供了強有力的支撐
    的頭像 發(fā)表于 04-23 11:19 ?431次閱讀
    MES管理系統(tǒng)<b class='flag-5'>與其他</b>系統(tǒng)的集成

    逆變直流點焊機與其他類型點焊機對比研究

    點焊機作為現(xiàn)代工業(yè)生產(chǎn)中不可或缺的焊接設備,其類型多樣,性能各異。逆變直流點焊機以其高效、穩(wěn)定、節(jié)能的特點,焊接領域中逐漸占據(jù)重要地位。本文比斯特自動化小編將對逆變直流點焊機與其他類型點焊機進行
    的頭像 發(fā)表于 04-22 09:29 ?512次閱讀

    以太網(wǎng)通訊與485通訊性能對比

    以太網(wǎng)通訊與485通訊性能對比? 以太網(wǎng)通訊和485通訊是兩種常用的工業(yè)通訊方式,它們性能方面有著不同的特點和優(yōu)勢。本文將對以太網(wǎng)通訊和485通訊的性能進行詳盡、詳實、細致的
    的頭像 發(fā)表于 12-11 17:07 ?1841次閱讀

    奧拓電子MetaBox XR虛擬拍攝解決方案進軍游戲領域

    體驗,成為整場活動的焦點之一。暴雪嘉年華是暴雪娛樂(Blizzard)的年度盛會,這家全球頂尖的游戲制作公司推出過《魔獸爭霸》、《守望先鋒》、《星際爭霸》、《暗黑破壞神》、《魔獸世界》等風靡世界的作品
    的頭像 發(fā)表于 11-15 12:48 ?611次閱讀

    R128平臺SPI與DBI接口的性能對比

    R128平臺SPI與DBI接口的性能對比
    的頭像 發(fā)表于 11-15 09:08 ?806次閱讀
    R128平臺SPI與DBI接口的<b class='flag-5'>性能對比</b>

    NFC與其他近距離無線通信技術的對比

    電子發(fā)燒友網(wǎng)站提供《NFC與其他近距離無線通信技術的對比.pdf》資料免費下載
    發(fā)表于 11-10 15:45 ?0次下載
    NFC<b class='flag-5'>與其他</b>近距離無線通信技術的<b class='flag-5'>對比</b>

    昇騰910和含光800性能對比

    有網(wǎng)友問昇騰910和含光800性能對比;華為推出的昇騰910性能強大,而含光800則是阿里巴巴發(fā)布的含光800AI芯片。 2019年9月25日,阿里巴巴發(fā)布含光800AI芯片;含光80
    的頭像 發(fā)表于 10-16 17:29 ?1583次閱讀

    鯤鵬920和蘋果M1性能對比

    鯤鵬920和蘋果M1性能對比如下: 鯤鵬920和蘋果M1芯片在設計和性能上有所差異。據(jù)了解,鯤鵬920和蘋果M1芯片都采用了先進的工藝制程,具有高性能和低功耗的特點。 首先,蘋果M1芯片采用了臺積電
    的頭像 發(fā)表于 10-16 17:01 ?1632次閱讀

    天璣7200和8100性能對比

    天璣7200和8100性能對比: 天璣8100是聯(lián)發(fā)科高頻版芯片,已于2022年3月1日正式發(fā)布。天璣7200于2023年2月16日正式發(fā)布。 天璣 8100 號稱比同級競品多核性能提升 12
    的頭像 發(fā)表于 10-16 16:33 ?1.5w次閱讀

    麒麟9610A和高通8155性能對比 麒麟9610A和高通8295性能對比

    麒麟9610A和高通8155性能對比 算力:麒麟9610A和高通8155的算力都達到了200k DMIPS。這意味著它們處理計算密集型任務方面具有相似的性能。 工藝制程:麒麟9610A采用了國產(chǎn)
    的頭像 發(fā)表于 10-16 14:49 ?8904次閱讀

    Spring Boot虛擬線程和Webflux性能對比

    早上看到一篇關于Spring Boot虛擬線程和Webflux性能對比的文章,覺得還不錯。內容較長,抓重點給大家介紹一下這篇文章的核心內容,方便大家快速閱讀。
    發(fā)表于 09-24 14:54 ?753次閱讀
    Spring Boot虛擬線程和Webflux<b class='flag-5'>性能對比</b>