校花的秘密免费全文阅读妖夜宇,日本一道丝袜国产一区高清

去年，OpenAI 在 DOTA 的 1v1 比賽中戰(zhàn)勝了職業(yè)玩家 Dendi，而在距離進(jìn)階版 OpenAI Five 系統(tǒng)戰(zhàn)勝人類業(yè)余玩家不過一個(gè)月的時(shí)間，今天凌晨，它又以 2:1 的戰(zhàn)績再次完成對人類高級(jí)玩家的“屠殺”，GG（人類贏的最后一局純屬耍賴）。

相比之下，人類這次輸給的是怎樣的進(jìn)階版“AI 英雄”？

此次，OpenAI Five 對陣 5 個(gè)高級(jí)玩家（解說員+前職業(yè)玩家）——Blitz, Cap, Fogged, Merlini 和 Moonmeander，他們的平均天梯分 6000 以上。反觀 OpenAI Five，根據(jù)公開資料，它的實(shí)力相當(dāng)于人類玩了 180 年的游戲，而且每天都與自己進(jìn)行對抗學(xué)習(xí)，學(xué)習(xí)過程非常復(fù)雜，需要在 256 個(gè) GPU 和 128,000 個(gè) CPU 上運(yùn)行擴(kuò)展版本的近端策略優(yōu)化（PPO）進(jìn)行訓(xùn)練。

它對每個(gè)英雄使用了單獨(dú)的 LSTM（長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)），并且沒有人類數(shù)據(jù)，它會(huì)學(xué)習(xí)可識(shí)別的策略，這表明強(qiáng)化學(xué)習(xí)可以產(chǎn)生可實(shí)現(xiàn)規(guī)模的長期規(guī)劃。

此外，就應(yīng)用環(huán)境而言，不同于棋牌游戲的固定規(guī)則，像 DOTA2 這樣的復(fù)雜視頻游戲是 5v5 對決的戰(zhàn)略游戲，況且，DOTA 游戲已經(jīng)不斷開發(fā)了十幾年，游戲邏輯中有數(shù)十萬行代碼，且每兩周更新一次，游戲語義在不斷產(chǎn)生變化。

因此，AI 玩 DOTA 的難度可想而知，它首先需要解決以下四大問題：長時(shí)視野；局部觀察狀態(tài)；高維、連續(xù)的動(dòng)作空間；高維、連續(xù)的觀察空間。

▌模型架構(gòu)

OpenAI Five 的每個(gè)網(wǎng)絡(luò)都包含一個(gè)單層的、1024-unit 的 LSTM，它可以查看當(dāng)前的游戲狀態(tài)（從 Valve 的 Bot API 中抓?。⑼ㄟ^幾個(gè)可能的 ac tion heads 發(fā)出動(dòng)作。每個(gè) head 都具有語義含義，例如延遲動(dòng)作的刻度數(shù)，選擇哪一個(gè)動(dòng)作，該動(dòng)作在單元周圍網(wǎng)格中的 X 或 Y 坐標(biāo)等。Action heads 是獨(dú)立計(jì)算的。

OpenAI Five 使用觀察空間（observation space）和動(dòng)作空間（action space）進(jìn)行交互式演示。OpenAI Five 將世界視為 20000 個(gè)數(shù)字的列表，并通過發(fā)出一個(gè)包含 8 個(gè)枚舉值（enumeration values）的列表來執(zhí)行操作。通過選擇不同的行動(dòng)和目標(biāo)，我們可以了解 OpenAI Five 如何編碼每個(gè)動(dòng)作，以及如何觀察世界。下圖是人類會(huì)看到的場景。

OpenAI Five 可以對與它所看到的相關(guān)的丟失狀態(tài)片段做出反應(yīng)。例如，直到最近，OpenAI Five 的觀察區(qū)域才包括狙擊手的技能范圍（子彈落在敵人身上的區(qū)域）。然而，我們觀察到 OpenAI Five 可以學(xué)習(xí)走出（雖然不能避免進(jìn)入）狙擊手的技能范圍，因?yàn)楫?dāng)進(jìn)入這個(gè)區(qū)域時(shí)，它可以看到自己的血量是在減少的。

▌探索

就算有學(xué)習(xí)算法能夠處理較長的視野，我們?nèi)匀恍枰獙Νh(huán)境進(jìn)行探索。因?yàn)榧词刮覀冊O(shè)定了各種限制，仍然有數(shù)百種道具、幾十種建筑、法術(shù)、單元類型、長尾游戲機(jī)制，以及因此產(chǎn)生的各種組合，想要有效地探索這個(gè)巨大的空間其實(shí)并不容易。

OpenAI Five 可以從隨機(jī)權(quán)重開始，從自我博弈中學(xué)習(xí)。為了避免“策略崩潰”，智能體在訓(xùn)練的時(shí)候，80％的游戲都是自我對抗，另外 20％則是與過去的自己進(jìn)行對抗。在自我對抗時(shí)，英雄首先會(huì)漫無目的繞著地圖游走。經(jīng)過幾個(gè)小時(shí)的訓(xùn)練后，智能體開始有了一些概念，例如建造、中路對線等。幾天之后，他們始終采用基本的人類策略：試圖從對手那里偷走 Bountyrunes等。通過進(jìn)一步的訓(xùn)練，它們可以熟練掌握 5 個(gè)英雄集中推塔的高級(jí)策略。

OpenAI Five 使用了 1v1 機(jī)器人里的隨機(jī)化的方法。它還使用了一個(gè)新的路線分配（lane assignment）策略。在每個(gè)訓(xùn)練游戲開始時(shí)，他們隨機(jī)地將每個(gè)英雄“分配”到一些 lane 的子集，在到隨機(jī)選擇的時(shí)間之前，如果英雄偏離這些路線，就會(huì)受到懲罰。

當(dāng)然，也有獎(jiǎng)勵(lì)來幫助智能體探索環(huán)境，主要包括凈值（net worth）、殺敵數(shù)（kills）、死亡數(shù)（deaths）、助攻（assists）、最后一擊（last hits）等指標(biāo)。他們通過減少其他團(tuán)隊(duì)的平均獎(jiǎng)勵(lì)，來對每個(gè)智能體的獎(jiǎng)勵(lì)進(jìn)行后續(xù)處理，以防止智能體找到正和博弈（positive-sum）的情況。

他們也對道具和技能構(gòu)建進(jìn)行了硬編碼，同時(shí)，也通過腳本基線（ scripted baseline）引入了信使管理（Courier management）。

▌Rapid

這個(gè)系統(tǒng)的實(shí)現(xiàn)使用了被稱為“Rapid”的通用 RL 訓(xùn)練系統(tǒng)，它適用于任何多人模式環(huán)境。

訓(xùn)練系統(tǒng)分為 rolloutworkers，運(yùn)行游戲副本，智能體（agent），用來收集經(jīng)驗(yàn)，優(yōu)化器節(jié)點(diǎn)（optimizer nodes）執(zhí)行跨 GPU 組的同步梯度下降。每次訓(xùn)練還包括分別對訓(xùn)練機(jī)器人以及樣本機(jī)器人進(jìn)行評(píng)估的組件，以及監(jiān)視軟件，比如 TensorBoard，Sentry 以及 Grafana。

在同步梯度下降運(yùn)算過程中，每一個(gè) GPU 組件都會(huì)運(yùn)算自己負(fù)責(zé)的批處理部分的梯度計(jì)算，隨后整體梯度再進(jìn)行平均計(jì)算。他們原本使用消息傳遞借口的規(guī)約算法進(jìn)行平均計(jì)算，現(xiàn)在則使用英偉達(dá)的多卡通型框架 NCCL2 的封裝函數(shù)來實(shí)行 GPU 并行計(jì)算以及網(wǎng)絡(luò)間數(shù)據(jù)傳輸。同步 58MB 大小數(shù)據(jù)（用于 OpenAI Five 的參數(shù)）的延遲顯示在表格之中，延遲時(shí)間足夠低能滿足大部分?jǐn)?shù)據(jù)被進(jìn)行并行運(yùn)算的 GPU 標(biāo)記。

▌與人類的不同

OpenAI Five 獲取的信息和人類完全一致，但是系統(tǒng)能馬上反應(yīng)到類似位置、生命值以及物品更新情況等等人類玩家需要定時(shí)觀察的信息。OpenAI Five 的平均 APM 在 150-170 之間(理論上最快可以達(dá)到 450 考慮到每四幀一動(dòng))，平均反應(yīng)時(shí)間為 80 毫秒，比人類平均速度要快很多。

很多職業(yè)選手在去年 TI 結(jié)束后都使用 bot 進(jìn)行訓(xùn)練。根據(jù) Blitz 的說法 solo bot已經(jīng)改變了人們對 solo 賽節(jié)奏的看法，bot 偏向于快節(jié)奏風(fēng)格，現(xiàn)在大多數(shù)選手也已經(jīng)使用快節(jié)奏風(fēng)格來和 bot 抗衡。

AI 在 Dota2 中的節(jié)奏和執(zhí)行力非常強(qiáng)了，這是不是意味著它沒有優(yōu)化空間了？當(dāng)然不是，此次的 OpenAI Five 還是有諸多限制，比如系統(tǒng)在進(jìn)行最后一擊時(shí)較弱，其客觀優(yōu)先級(jí)與一個(gè)共同的專業(yè)策略相匹配，獲得戰(zhàn)略地圖控制等長期獎(jiǎng)勵(lì)往往需要犧牲短期獎(jiǎng)勵(lì)。

Open AI 方面稱，在今年后續(xù)的 TI 表演賽上，還會(huì)有職業(yè)玩家繼續(xù)挑戰(zhàn) AI，但結(jié)果想來也是實(shí)力“嘲諷”人類。或許，更讓人期待的是，在 Dota2 這樣的復(fù)雜游戲中，是否會(huì)出現(xiàn)“AI vs AI”的神仙打架比賽？

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4717

瀏覽量
100015
AI

AI

+關(guān)注

關(guān)注
87

文章
28877

瀏覽量
266241

原文標(biāo)題：Dota2團(tuán)戰(zhàn)實(shí)力蔑視人類，解剖5只“AI英雄”

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

人類智慧水平AI即將到來，AI芯片已提前布局

電子發(fā)燒友網(wǎng)報(bào)道（文/黃山明）在生成式AI的高速發(fā)展下，不少人正在焦慮AI是否會(huì)取代他們的工作。就在近期，OpenAI首席執(zhí)行官Sam?Altman在瑞士達(dá)沃斯經(jīng)濟(jì)論壇上分享了對未來AI

發(fā)表于 01-22 06:44 ?2466次閱讀

平衡創(chuàng)新與倫理：AI時(shí)代的隱私保護(hù)和算法公平

的發(fā)展不應(yīng)背離人類的倫理道德。在推動(dòng)技術(shù)創(chuàng)新的同時(shí)，我們必須確保每一步都走得穩(wěn)健和負(fù)責(zé)。通過提高透明度、保障算法公平性、保護(hù)個(gè)人隱私權(quán)以及加強(qiáng)國際合作，我們可以確保AI技術(shù)的健康發(fā)展，使其成為促進(jìn)社會(huì)進(jìn)步和增進(jìn)人類福祉的力量。

發(fā)表于 07-16 15:07

AI芯片會(huì)導(dǎo)元件中間商消失嗎？

元件AI芯片

芯廣場
發(fā)布于 :2024年06月19日 18:10:01

智謀紀(jì) AI+Multi LED 打開人類健康新寶藏

技術(shù)。智謀紀(jì)創(chuàng)始人&CEO朱東亮先生受邀出席論壇，帶來題為《AI+ Multi LED，打開人類健康新寶藏》的專題演講。演講精彩瞬間回顧：AI+ Multi LED，智謀紀(jì)AI照明

發(fā)表于 06-17 12:23 ?230次閱讀

AI芯片未來會(huì)控制這個(gè)世界嗎？

AI芯片行業(yè)資訊

芯廣場
發(fā)布于 :2024年03月27日 18:21:28

AI會(huì)取代誰?

AI行業(yè)芯事

電子發(fā)燒友網(wǎng)官方
發(fā)布于 :2024年03月13日 16:29:17

富士通發(fā)布最新的人工智能（AI）戰(zhàn)略，聚焦深化人類與AI之間的協(xié)作

富士通株式會(huì)社（以下簡稱“富士通”）發(fā)布了最新的集團(tuán)人工智能（AI）戰(zhàn)略，聚焦深化人類與AI之間的協(xié)作，并提出了將AI作為“可信賴的助手”這一愿景，為提升

發(fā)表于 02-21 17:09 ?628次閱讀

RK3568驅(qū)動(dòng)指南｜驅(qū)動(dòng)基礎(chǔ)進(jìn)階篇-進(jìn)階5 自定義實(shí)現(xiàn)insmod命令實(shí)驗(yàn)

RK3568驅(qū)動(dòng)指南｜驅(qū)動(dòng)基礎(chǔ)進(jìn)階篇-進(jìn)階5 自定義實(shí)現(xiàn)insmod命令實(shí)驗(yàn)

發(fā)表于 02-20 14:10 ?489次閱讀

RK3568驅(qū)動(dòng)指南｜驅(qū)動(dòng)基礎(chǔ)進(jìn)階篇-進(jìn)階8 內(nèi)核運(yùn)行ko文件總結(jié)

RK3568驅(qū)動(dòng)指南｜驅(qū)動(dòng)基礎(chǔ)進(jìn)階篇-進(jìn)階8 內(nèi)核運(yùn)行ko文件總結(jié)

發(fā)表于 01-31 14:58 ?953次閱讀

奧特曼稱相信AI無法替代人類

奧特曼稱相信AI無法替代人類 AI對于人類的威脅一直有很多討論，各有不同觀點(diǎn)，很多人對于科幻電影中的場景AI機(jī)器人傷害

發(fā)表于 01-19 11:43 ?791次閱讀

OpenAI CEO稱人類水平的AI即將出現(xiàn)

OpenAI首席執(zhí)行官山姆·奧特曼（Sam Altman）近日表示，達(dá)到人類水平的人工智能（AI）即將出現(xiàn)，但他認(rèn)為這種技術(shù)對世界的影響可能遠(yuǎn)沒有人們想象的那么大。

發(fā)表于 01-17 14:59 ?724次閱讀

AI跟人類搶工作？微軟小科普消除對AI的四大誤解

隨著AI的普及和快速發(fā)展，對其能力、影響和未來發(fā)展的誤解也隨之增多。AI是否會(huì)搶走每個(gè)人的工作？

發(fā)表于 01-10 16:05 ?719次閱讀

你了解步進(jìn)階梯指令嗎？

步進(jìn)階梯指令是一種在編程中常用的控制結(jié)構(gòu)，它允許程序按照一定的順序執(zhí)行一系列操作。

發(fā)表于 12-14 17:17 ?727次閱讀

什么因素會(huì)造成 AI 的失??？

AI 或許能生成代碼，但這些代碼是否能安全地使用，是否能滿足我們對質(zhì)量的標(biāo)準(zhǔn)要求？Varga 認(rèn)為這些問題只能由真正的人類來回答，這一過程并不容小覷。歸根結(jié)底，就像是代碼的編寫一樣，調(diào)試陌生人的代碼遠(yuǎn)比自己從頭到尾參與其中的代碼更為困難。

發(fā)表于 11-21 15:29 ?680次閱讀

人類認(rèn)知如何幫助我們制造更好的AI系統(tǒng)？

我們重點(diǎn)關(guān)注“一致性”問題，即AI系統(tǒng)思考和表征世界的方式與人類相比，有多大的一致性？我們需要做的是進(jìn)行更多的研究，找出AI系統(tǒng)擅長的事情，并幫助人們了解在哪些情況下可以與這些AI系統(tǒng)

發(fā)表于 11-15 16:34 ?313次閱讀