0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時(shí)候在想什么?

DPVg_AI_era ? 來源:lp ? 2019-04-19 09:29 ? 次閱讀

在上周末徹底攻陷了Dota人類頂級(jí)職業(yè)戰(zhàn)隊(duì)OG后,OpenAI站出來介紹了OpenAIFive是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時(shí)候在想什么。

OpenAIFive是第一個(gè)在電子競(jìng)技游戲中擊敗世界冠軍的人工智能,在上周末與2-0大敗世界冠軍Dota2團(tuán)隊(duì)OG,這是AI第一次在直播中擊敗了電子競(jìng)技專家。

OG和OpenAI開發(fā)組

本次比賽還得出了兩個(gè)驚人的發(fā)現(xiàn):

盡管訓(xùn)練的時(shí)候?qū)W⒂趽魯∑渌偪?a href="http://ttokpm.com/v/tag/1247/" target="_blank">電腦,但OpenAIFive在比賽中卻展現(xiàn)出和人類玩家的優(yōu)秀的團(tuán)隊(duì)協(xié)作意識(shí)。這意味著未來的AI系統(tǒng)可以從競(jìng)爭型AI轉(zhuǎn)變?yōu)楹献餍虯I

總決賽讓OpenAI的科學(xué)家可以回答一個(gè)重要的研究問題:OpenAIFive在多大程度、以何種方式能夠被確定的打???并且可能是有史以來最大規(guī)模的、人們可以有意識(shí)地與之交互的高強(qiáng)度深層強(qiáng)化學(xué)習(xí)智能體的部署

徹底攻陷了人類頂級(jí)職業(yè)玩家后,OpenAI站出來介紹了OpenAIFive是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時(shí)候在想什么。

為什么選擇Dota?

OpenAIFive的初衷是為了解決現(xiàn)有深度強(qiáng)化學(xué)習(xí)算法無法實(shí)現(xiàn)的問題。為此需要大幅增加工具的的能力、復(fù)雜的算法思想(例如分層強(qiáng)化學(xué)習(xí))。

OpenAIFive將世界視為一堆必須破譯的數(shù)字。它使用相同的通用學(xué)習(xí)代碼,無論這些數(shù)字代表Dota游戲(約20,000個(gè)數(shù)字)或機(jī)器人手(約200個(gè))的狀態(tài)

為了構(gòu)建OpenAIFive,研究人員創(chuàng)建了一個(gè)名為Rapid的系統(tǒng),以前所未有的規(guī)模運(yùn)行PPO。結(jié)果超出了研究人員最大的期望,產(chǎn)生出了世界級(jí)的Dota機(jī)器人,沒有觸及任何基本的性能限制。

當(dāng)今的監(jiān)督學(xué)習(xí)算法之所以能有如此強(qiáng)大功能,是以大量經(jīng)驗(yàn)為代價(jià)的,這在游戲或模擬環(huán)境之外是不切實(shí)際的。研究人員認(rèn)為減少經(jīng)驗(yàn)量是深度學(xué)習(xí)的下一個(gè)挑戰(zhàn)。

研究人員表示,從今天開始OpenAIFive將不會(huì)繼續(xù)打比賽,但取得的進(jìn)步和技術(shù)的發(fā)展將繼續(xù)推動(dòng)未來的工作。研究人員認(rèn)為Dota對(duì)于監(jiān)督學(xué)習(xí)開發(fā)來說比現(xiàn)在使用的標(biāo)準(zhǔn)環(huán)境更具有內(nèi)在的趣味性和難度。

算力

OpenAIFive這次的勝利是由于一次重大變化:訓(xùn)練計(jì)算量增加了8倍。前期階段研究人員通過提高培訓(xùn)規(guī)模來推動(dòng)進(jìn)一步的發(fā)展,之后將絕大部分算力用于培訓(xùn)單一的OpenAIFive模型,相當(dāng)于延長了訓(xùn)練時(shí)間。

總的來說,當(dāng)前版本的OpenAIFive已經(jīng)消耗了800petaflop/s-days,并且在10個(gè)實(shí)時(shí)月內(nèi)獲得了45000年的游戲經(jīng)驗(yàn),平均每天獲得250年的模擬經(jīng)驗(yàn)。OpenAIFive的總決賽版本與TI版本相比,勝率為99.9%。

遷移學(xué)習(xí)

盡管模型大小和游戲規(guī)則發(fā)生了變化,但目前版本的OpenAIFive自2018年6月以來一直在不斷訓(xùn)練。在每種情況下,研究人員都能夠?qū)⒛P娃D(zhuǎn)移并繼續(xù)培訓(xùn),這對(duì)于其他領(lǐng)域的監(jiān)督學(xué)習(xí)來說是一個(gè)開放的挑戰(zhàn)。

據(jù)悉,這可能是監(jiān)督學(xué)習(xí)智能體第一次使用如此長期的訓(xùn)練課程進(jìn)行訓(xùn)練。

更多Dota英雄

研究人員看到從訓(xùn)練5個(gè)英雄到訓(xùn)練18英雄速度并沒有減弱的很明顯,于是假設(shè)對(duì)更多英雄來說也是如此,隨后開始大量嘗試整合新英雄。

研究人員花了幾個(gè)星期的時(shí)間訓(xùn)練英雄池,最多達(dá)到了25個(gè)英雄。將這些英雄帶到大約5kMMR(大約95%的Dota玩家)。盡管在進(jìn)步,但學(xué)習(xí)速度還不夠快,無法在總決賽之前達(dá)到職業(yè)水平。

研究人員沒有太多時(shí)間調(diào)查原因,但他們認(rèn)為可能需要更好的匹配擴(kuò)展的英雄池,需要更多的訓(xùn)練時(shí)間讓新英雄達(dá)到老英雄的同等水平。想象一下當(dāng)你習(xí)慣了某個(gè)英雄后,學(xué)習(xí)新英雄的難度是多么大!

協(xié)同模式

它實(shí)際上感覺很好;我的毒蛇在某些時(shí)候?yàn)槲耀I(xiàn)出了生命。他試圖幫助我,想著“我確定她知道她在做什么”然后顯然我沒有。但是,你知道,他相信我。對(duì)于[人類]隊(duì)友,我并沒有那么多.-無論如何

在總決賽期間,研究人員展示了OpenAI Five與人類一起在團(tuán)隊(duì)中的表現(xiàn),兩隊(duì)的成員都是2個(gè)真人帶3個(gè)智能體

OpenAIFive與人類的協(xié)同作戰(zhàn)能力為人類與人工智能互動(dòng)的未來提供了一個(gè)引人注目的愿景:人工智能系統(tǒng)能夠和人類協(xié)作并增強(qiáng)人類體驗(yàn)。

玩家認(rèn)為從機(jī)器人隊(duì)友哪里感受到了戰(zhàn)友之情,并從這些先進(jìn)的系統(tǒng)中學(xué)到了很多東西,整體來說是一種有趣的體驗(yàn)。

值得注意的是,OpenAIFive展示了zero-shot遷移學(xué)習(xí),與人類并肩作戰(zhàn)或者對(duì)抗人類。研究人員非常驚訝這一點(diǎn)和它一樣有效。事實(shí)上,研究人員考慮在國際上進(jìn)行協(xié)同作案韓比賽,但認(rèn)為需要專門的訓(xùn)練。

OpenAI Five Arena

目前研究人員還不知道OpenAIFive在多大程度上能夠通過更機(jī)智的策略被擊敗,所以研究人員推出了OpenAIFiveArena。這是一項(xiàng)公開的實(shí)驗(yàn),任何人都可以跟OpenAIFive組隊(duì)或者對(duì)戰(zhàn)。

競(jìng)技場(chǎng)于4月18日星期四太平洋標(biāo)準(zhǔn)時(shí)間下午6點(diǎn)開放,并于4月21日星期日太平洋標(biāo)準(zhǔn)時(shí)間晚上11:59關(guān)閉。玩家需要注冊(cè),所有游戲的結(jié)果將自動(dòng)報(bào)告給競(jìng)技場(chǎng)公共排行榜。

下一步干什么

一旦研究人員審查了OpenAIFiveArena的結(jié)果,研究人員將發(fā)布對(duì)OpenAIFive的更多技術(shù)分析,之后將繼續(xù)使用OpenAI中的Dota2環(huán)境。

研究人員已經(jīng)看到過去兩年在監(jiān)督學(xué)習(xí)能力方面取得了快速進(jìn)展,并認(rèn)為Dota2將在推進(jìn)無論是通過較少的數(shù)據(jù)還是真正的人工智能合作實(shí)現(xiàn)有能力的表現(xiàn)方面,持續(xù)提供幫助。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46671

    瀏覽量

    237123
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5466

    瀏覽量

    120892
  • 遷移學(xué)習(xí)
    +關(guān)注

    關(guān)注

    0

    文章

    74

    瀏覽量

    5554

原文標(biāo)題:官方揭秘OpenAI Five如何打敗人類:遷移學(xué)習(xí)+海量訓(xùn)練,10個(gè)月訓(xùn)練4.5萬年

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練自己的AI大模型是一個(gè)復(fù)雜且耗時(shí)的過程,涉及多個(gè)關(guān)鍵步驟。以下是一個(gè)詳細(xì)的訓(xùn)練流程: 一、明確需求和目標(biāo) 首先,需要明確自己的需求和目標(biāo)。不同的任務(wù)和應(yīng)用領(lǐng)域需要不同類型的AI模型
    的頭像 發(fā)表于 10-23 15:07 ?389次閱讀

    端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    ChatGPT對(duì)技術(shù)的影響引發(fā)了對(duì)人工智能未來的預(yù)測(cè),尤其是多模態(tài)技術(shù)的關(guān)注。OpenAI推出了具有突破性的多模態(tài)模型GPT-4,使各個(gè)領(lǐng)域取得了顯著的發(fā)展。 這些AI進(jìn)步是通過大規(guī)模模型訓(xùn)練實(shí)現(xiàn)
    的頭像 發(fā)表于 10-23 11:26 ?242次閱讀
    端到端InfiniBand網(wǎng)絡(luò)解決LLM<b class='flag-5'>訓(xùn)練</b>瓶頸

    ai模型訓(xùn)練需要什么配置

    較小的數(shù)據(jù)集和簡單的計(jì)算任務(wù),如數(shù)據(jù)預(yù)處理、模型評(píng)估等。因此,選擇一款高性能的CPU對(duì)于提高AI模型訓(xùn)練的整體效率至關(guān)重要。 推薦選擇Intel Core i7或更高性能的處理器,或者
    的頭像 發(fā)表于 10-17 18:10 ?577次閱讀

    AI訓(xùn)練的基本步驟

    AI(人工智能)訓(xùn)練是一個(gè)復(fù)雜且系統(tǒng)的過程,它涵蓋了從數(shù)據(jù)收集到模型部署的多個(gè)關(guān)鍵步驟。以下是對(duì)AI訓(xùn)練過程的詳細(xì)闡述,包括每個(gè)步驟的具體內(nèi)容,并附有相關(guān)代碼示例(以Python和sc
    的頭像 發(fā)表于 07-17 16:57 ?1561次閱讀

    ai大模型訓(xùn)練方法有哪些?

    AI大模型訓(xùn)練方法是一個(gè)復(fù)雜且不斷發(fā)展的領(lǐng)域。以下是ai大模型訓(xùn)練方法: 數(shù)據(jù)預(yù)處理和增強(qiáng) 數(shù)據(jù)清洗:去除噪聲和不完整的數(shù)據(jù)。 數(shù)據(jù)標(biāo)準(zhǔn)化:將數(shù)據(jù)縮放到統(tǒng)一的范圍。 數(shù)據(jù)增強(qiáng):通過旋轉(zhuǎn)
    的頭像 發(fā)表于 07-16 10:11 ?1297次閱讀

    OpenAI公布AI發(fā)展的五個(gè)階段

    北京時(shí)間7月12日,OpenAI為追蹤其人工智能(AI)技術(shù)追趕并超越人類智能的進(jìn)程,正式公布了AI發(fā)展的五個(gè)階段性劃分,旨在加深公眾對(duì)公司AI安全策略及未來愿景的理解。這一分級(jí)體系在
    的頭像 發(fā)表于 07-12 15:50 ?1351次閱讀

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    增強(qiáng) OpenAI仍然致力于擴(kuò)大其技術(shù)的獲取范圍: · 免費(fèi)用戶的可訪問性 :確保初創(chuàng)企業(yè)和個(gè)人可以利用最先進(jìn)的人工智能,而無需初始投資。 · 改進(jìn)的API功能 :提供更好的與現(xiàn)有系統(tǒng)的集成以及增強(qiáng)
    發(fā)表于 05-27 15:43

    Stack Overflow引發(fā)用戶抗議,用戶貢獻(xiàn)被用于AI訓(xùn)練

    近日,編程問答社區(qū)Stack Overflow與人工智能研究機(jī)構(gòu)OpenAI簽署協(xié)議,允許后者通過API獲取平臺(tái)內(nèi)容進(jìn)行AI訓(xùn)練,此舉引來了大量社區(qū)成員的不滿。
    的頭像 發(fā)表于 05-09 16:05 ?479次閱讀

    OpenAI勁敵Inflection AI官宣“加盟”微軟

    OpenAI的強(qiáng)勁對(duì)手Inflection AI近期宣布,將與科技巨頭微軟展開深度技術(shù)合作。這次合作意味著Inflection AI將其尖端技術(shù)授權(quán)給微軟,標(biāo)志著這家初創(chuàng)公司正式轉(zhuǎn)向與企業(yè)客戶攜手
    的頭像 發(fā)表于 03-21 11:33 ?604次閱讀

    英偉達(dá)擅用版權(quán)作品遭起訴 AI訓(xùn)練數(shù)據(jù)和版權(quán)的矛盾凸顯

    英偉達(dá)擅用版權(quán)作品遭起訴 AI訓(xùn)練數(shù)據(jù)和版權(quán)的矛盾凸顯 據(jù)外媒路透社的報(bào)道,AI訓(xùn)練數(shù)據(jù)和版權(quán)之間的矛盾日益凸顯。英偉達(dá)因?yàn)樯糜冒鏅?quán)作品訓(xùn)練
    的頭像 發(fā)表于 03-11 14:17 ?518次閱讀

    DocuSign擬用用戶合同數(shù)據(jù)訓(xùn)練AI,引爭議

    據(jù)了解,DocuSign計(jì)劃借助微軟Azure上的OpenAI工具,如GPT技術(shù),以訓(xùn)練其所謂的“撰寫協(xié)議”模型,并且從用戶提供的大量數(shù)據(jù)中,訓(xùn)練出專屬的人工智能(AI)模型,但這部分
    的頭像 發(fā)表于 03-04 15:45 ?485次閱讀

    OpenAI迎戰(zhàn)紐約時(shí)報(bào)指控 非法使用其內(nèi)容訓(xùn)練人工智能模型

    OpenAI迎戰(zhàn)紐約時(shí)報(bào)指控 《紐約時(shí)報(bào)》提起版權(quán)訴訟指控OpenAI非法使用其內(nèi)容訓(xùn)練人工智能模型,OpenAI積極迎戰(zhàn),OpenAI表示
    的頭像 發(fā)表于 02-28 15:05 ?506次閱讀

    英偉達(dá)缺貨?OpenAI選擇自研芯片

    ?電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))在生成式AI和大模型帶來的AI洪流下,不少大廠都不約而同地選擇了自研AI芯片。即便這意味著組建新的團(tuán)隊(duì),花費(fèi)大量的資金,但從長遠(yuǎn)發(fā)展的角度來看,自研芯片
    的頭像 發(fā)表于 01-30 00:51 ?3634次閱讀

    新火種AI|這家“中國OpenAI”,能趕超OpenAI嗎?

    全面對(duì)標(biāo)OpenAI,智譜AI能成為“中國的OpenAI”嗎?
    的頭像 發(fā)表于 01-18 17:56 ?595次閱讀
    新火種<b class='flag-5'>AI</b>|這家“中國<b class='flag-5'>OpenAI</b>”,能趕超<b class='flag-5'>OpenAI</b>嗎?

    因?yàn)樯墒?b class='flag-5'>AI興起《紐約時(shí)報(bào)》起訴OpenAI和微軟

    因?yàn)樯墒?b class='flag-5'>AI興起《紐約時(shí)報(bào)》起訴OpenAI和微軟 對(duì)于生成式AI技術(shù)在訓(xùn)練AI時(shí)是否會(huì)侵犯版權(quán)這個(gè)問題一直沒有全面而準(zhǔn)確的答案,極具爭議
    的頭像 發(fā)表于 12-28 17:08 ?647次閱讀