舌头伸进去添少妇好爽高潮,久久人人爽人人爽人人片AV超碰,国产AV一区二区三区天堂综合网

OpenAI昨日發(fā)布研究成果，宣布Dota2 5v5在限定條件下（英雄陣容固定，部分道具和功能禁用）戰(zhàn)勝人類半職業(yè)選手。本文主要對(duì)其模型技術(shù)架構(gòu)做一些分析總結(jié)。

一、模型輸入與輸出

模型的輸入是使用RAM(內(nèi)存信息)，如位置坐標(biāo)，技能血量數(shù)值狀態(tài)等，而不是圖像像素信息。

模型輸入主要分為兩個(gè)部分：

直接觀測(cè)的信息：場(chǎng)面其他英雄的絕對(duì)位置，相對(duì)距離，相對(duì)角度，血量，狀態(tài)等。

人工定義抽象的信息：是否被攻擊以及正在被誰(shuí)攻擊，炮彈距離命中的時(shí)間，朝向的cos與sin，最近12幀內(nèi)的英雄的血量變化等。

模型的輸出即是指AI所選擇的動(dòng)作，包括移動(dòng)，攻擊釋放技能等。OpenAI將連續(xù)的動(dòng)作，離散化對(duì)應(yīng)到網(wǎng)格，并對(duì)各種技能定制化釋放動(dòng)作，以減少動(dòng)作空間的大小。以下圖為例，AI要釋放一個(gè)攻擊技能，需要選取這個(gè)技能，并選擇一個(gè)目標(biāo)單位周圍網(wǎng)格內(nèi)的一個(gè)位置：

值得注意的是，在Dota2游戲內(nèi)還有其他動(dòng)作，例如操控信使，購(gòu)買裝備，技能升級(jí)與天賦等，這些都是人工定義好，而不需AI決策的。而操控幻象分身，召喚物等涉及更復(fù)雜的多單位操作，則未在OpenAI當(dāng)前版本的考慮范圍內(nèi)。

二、網(wǎng)絡(luò)架構(gòu)與訓(xùn)練方式

網(wǎng)絡(luò)架構(gòu)架構(gòu)局部如下圖：

Dota2敗給OpenAI-Five究竟是為什么？

模型大圖下載鏈接：https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf

總的來(lái)看，大量信息通過(guò)連接(concatenate)與全連接層(dense)層進(jìn)行綜合，作為1024維的LSTM的輸入。LSTM綜合時(shí)序信息，并輸出決策向量，再用決策向量解構(gòu)出詳細(xì)動(dòng)作。

訓(xùn)練方式：

純自我對(duì)弈訓(xùn)練。

隨機(jī)化訓(xùn)練：隨機(jī)初始狀態(tài)（血量速度移動(dòng)等）的訓(xùn)練，以增強(qiáng)泛化能力。

使用很高的γ=0.9997。γ為獎(jiǎng)勵(lì)衰減值，一般在其他環(huán)境中設(shè)置為0.98，0.998。

大量計(jì)算：128,000CPU+256GPU，能做到每天模擬玩180年的游戲。

獎(jiǎng)勵(lì)(reward)設(shè)計(jì)：

總體獎(jiǎng)勵(lì)：當(dāng)前局面評(píng)估（塔的情況等），KDA（個(gè)人戰(zhàn)績(jī)），補(bǔ)兵表現(xiàn)等。

合作獎(jiǎng)勵(lì)：全隊(duì)的表現(xiàn)作為自己獎(jiǎng)勵(lì)的一部分。

分路對(duì)線的獎(jiǎng)勵(lì)與懲罰：最開始分配一條路，前期發(fā)育時(shí)如果偏離就會(huì)懲罰。

三、總結(jié)

用強(qiáng)化學(xué)習(xí)玩Dota2需要面對(duì)4個(gè)挑戰(zhàn)：狀態(tài)空間大，局面不完全可見（有視野限制），動(dòng)作空間大，時(shí)間尺度大。

近期論文中提出的解決方案，大致有以下幾個(gè)方向：

狀態(tài)空間大：解決方法如先用World Models抽象，再進(jìn)行決策。

局面不完全可見：一般認(rèn)為需要進(jìn)行一定的搜索，如AlphaGo的MCTS（蒙特卡洛樹搜索）。

動(dòng)作空間大：可以使用模仿學(xué)習(xí)(Imitation Learning)，或者與層次強(qiáng)化學(xué)習(xí)結(jié)合的方法。

時(shí)間尺度大：一般認(rèn)為需要時(shí)間維度上的層次強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Leanring)來(lái)解決這個(gè)問(wèn)題。

而神奇的是，OpenAI沒(méi)有使用上述任一方法，而僅僅使用高γ值的PPO基礎(chǔ)算法，就解決了這些問(wèn)題。這說(shuō)明憑借非常大量的計(jì)算，強(qiáng)化學(xué)習(xí)的基礎(chǔ)算法也能突破這些挑戰(zhàn)。

OpenAI沒(méi)有使用的WorldModels，MCTS，IL，HRL等方法，既是學(xué)術(shù)界研究的重點(diǎn)方向，也是OpenAI-Five潛在的提升空間。這些更高效的方法若被合理應(yīng)用，可以加快模型的學(xué)習(xí)速度，增強(qiáng)模型的遷移能力，并幫助模型突破當(dāng)前的限制。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
28877

瀏覽量
266241
模型

模型

+關(guān)注

關(guān)注
1

文章
3032

瀏覽量
48367

原文標(biāo)題：技術(shù)架構(gòu)分析：攻克Dota2的OpenAI-Five

文章出處：【微信號(hào)：AItists，微信公眾號(hào)：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

《DotA2》同時(shí)在線人數(shù)首次突破100萬(wàn)，全民打年獸？

早在2015年2月2日，Steam同時(shí)在線人數(shù)最高曾超過(guò)840萬(wàn)名PC玩家。當(dāng)時(shí)根據(jù)Steam統(tǒng)計(jì)，當(dāng)時(shí)《DotA2》是玩的人最多的游戲，其次是《CS：GO》，《軍團(tuán)要塞2》，《足球經(jīng)

發(fā)表于 02-26 15:06

圖解：IGBT究竟是什么？

圖解：IGBT究竟是什么？ IGBT究竟是什么？

發(fā)表于 08-10 08:01

S參數(shù)究竟是什么？

S參數(shù)究竟是什么？起決定性作用的S參數(shù)將S參數(shù)擴(kuò)展到多端口器件和差分器件

發(fā)表于 03-01 11:46

我們仿真DDR究竟是仿真什么

我們仿真DDR究竟是仿真什么？

發(fā)表于 03-04 07:32

電感飽和究竟是什么

電感飽和究竟是什么

發(fā)表于 03-11 08:13

真正軟件定義無(wú)線電究竟是怎樣的？

真正軟件定義無(wú)線電究竟是怎樣的？

發(fā)表于 05-14 06:47

分貝究竟是什么？如何去理解它?

分貝究竟是什么？如何去理解它?

發(fā)表于 05-31 07:05

一文讀懂eMMC究竟是啥？

eMMC究竟是啥？eMMC長(zhǎng)什么樣？eMMC用在哪？主要是干嘛用的？eMMC究竟是如何工作的呢？

發(fā)表于 06-18 06:04

spec究竟是什么？有誰(shuí)可以分享一下嗎

spec究竟是什么?哪位同行可以幫忙分享下DFI 5.0的spec?

發(fā)表于 06-21 07:16

AI在簡(jiǎn)化了的DOTA2擊敗前1％玩家，學(xué)習(xí)能力很出色

”、沒(méi)有隱身裝備、沒(méi)有召喚單位和幻象、以及少了一些裝備等。這也使整個(gè)比賽簡(jiǎn)化了不少，從另一個(gè)角度看AI仍然沒(méi)能力完全加入人類版的DOTA2游戲中。

發(fā)表于 06-29 19:39 ?545次閱讀

AI也能相互協(xié)作的玩游戲，玩Dota2戰(zhàn)勝了人類玩家

據(jù)悉，OpenAI開發(fā)了出了一套名為“OpenAI Five”的算法，雖然單獨(dú)來(lái)看這種算法并沒(méi)有什么突破，只是針對(duì)玩Dota2的一種神經(jīng)網(wǎng)絡(luò)，并且此前也曾有AI算法在1對(duì)1的

發(fā)表于 06-27 05:29 ?586次閱讀

AI之間能團(tuán)隊(duì)合作嗎？AI團(tuán)隊(duì)挑戰(zhàn)Dota2職業(yè)選手團(tuán)隊(duì)

近日，馬斯克和Sam Altman所創(chuàng)立的人工智能非營(yíng)利組織OpenAI宣布：其開發(fā)的AI能夠組隊(duì)在5V5對(duì)戰(zhàn)中戰(zhàn)勝Dota2頂尖業(yè)余玩家，這些人類玩家的平均天梯分?jǐn)?shù)超過(guò)4200分。這也是繼阿爾法狗

發(fā)表于 07-17 11:51 ?3449次閱讀

OpenAI Five在Dota2國(guó)際競(jìng)賽TI8中進(jìn)行首次對(duì)戰(zhàn)以失敗告終

OpenAI Five是一個(gè)由5個(gè)人工神經(jīng)網(wǎng)絡(luò)組成的隊(duì)伍，可以把它想象成一個(gè)模擬的“大腦”，是專門為學(xué)習(xí)Dota而設(shè)計(jì)的。OpenAI Five

發(fā)表于 08-24 08:53 ?5117次閱讀

人工智能戰(zhàn)隊(duì)OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊(duì)的最終決戰(zhàn)

人工智能戰(zhàn)隊(duì)OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊(duì)，人工智能在圍棋上擊敗人類之后，很多技術(shù)人員就開始展望 AI 在視頻游戲中的表現(xiàn)了。2017 年的 Dota2 國(guó)際邀請(qǐng)賽 TI7 上，Ope

發(fā)表于 07-04 11:09 ?1343次閱讀

S參數(shù)究竟是什么？

S參數(shù)究竟是什么？

發(fā)表于 11-01 08:24 ?2次下載

搜索歷史

Dota2敗給OpenAI-Five究竟是為什么？

一、模型輸入與輸出

二、網(wǎng)絡(luò)架構(gòu)與訓(xùn)練方式

三、總結(jié)

評(píng)論

《DotA2》同時(shí)在線人數(shù)首次突破100萬(wàn)，全民打年獸？

圖解：IGBT究竟是什么？

S參數(shù)究竟是什么？

我們仿真DDR究竟是仿真什么

電感飽和究竟是什么

真正軟件定義無(wú)線電究竟是怎樣的？

分貝究竟是什么？如何去理解它?

一文讀懂eMMC究竟是啥？

spec究竟是什么？有誰(shuí)可以分享一下嗎

AI在簡(jiǎn)化了的DOTA2擊敗前1％玩家，學(xué)習(xí)能力很出色

AI也能相互協(xié)作的玩游戲，玩Dota2戰(zhàn)勝了人類玩家

AI之間能團(tuán)隊(duì)合作嗎？AI團(tuán)隊(duì)挑戰(zhàn)Dota2職業(yè)選手團(tuán)隊(duì)

OpenAI Five在Dota2國(guó)際競(jìng)賽TI8中進(jìn)行首次對(duì)戰(zhàn)以失敗告終

人工智能戰(zhàn)隊(duì)OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊(duì)的最終決戰(zhàn)

S參數(shù)究竟是什么？

搜索歷史

Dota2敗給OpenAI-Five究竟是為什么？

一、 模型輸入與輸出

二、 網(wǎng)絡(luò)架構(gòu)與訓(xùn)練方式

三、 總結(jié)

評(píng)論

一、模型輸入與輸出

二、網(wǎng)絡(luò)架構(gòu)與訓(xùn)練方式

三、總結(jié)