a片疯狂做爰全过的视频,少妇内射高潮福利炮,网友自拍视频在线观看

12月30日，騰訊宣布其人工智能球隊(duì)摘得了首屆谷歌足球Kaggle競(jìng)賽冠軍。這是一場(chǎng)由Google Research與英超曼城俱樂部在Kaggle平臺(tái)上聯(lián)合舉辦的足球AI比賽，經(jīng)過多輪角逐，騰訊AI Lab研發(fā)的絕悟WeKick版本以1785.8的總分成為冠軍球隊(duì)。

創(chuàng)立于2010年的Kaggle是全球最大的數(shù)據(jù)科學(xué)社區(qū)和數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)，今年，也是Kaggle首次針對(duì)足球AI領(lǐng)域發(fā)布賽題。

比賽使用Google Research Football強(qiáng)化Learning環(huán)境，基于開源足球游戲Gameplay Football開發(fā)，采取11vs11的賽制，參賽團(tuán)隊(duì)需要控制其中1個(gè)智能體與10個(gè)內(nèi)置智能體組成球隊(duì)。

WeKick的比賽場(chǎng)景該賽事發(fā)布后，吸引了來自世界頂級(jí)院校和研究機(jī)構(gòu)的1100多支隊(duì)伍參加，而騰訊此次派出的隊(duì)伍其實(shí)是11月底剛剛升級(jí)為完全體的“絕悟”，當(dāng)時(shí)，騰訊“絕悟”首次精通了王者榮耀所有英雄的所有技能，此次參加足球賽，就是在其基礎(chǔ)上進(jìn)行了一些針對(duì)足球的調(diào)整。

AI如何踢足球？

Google Football（on Kaggle）以流行的足球游戲?yàn)槟Ｐ?，就像是一款由AI操作的FIFA游戲，智能體控制足球隊(duì)中的一個(gè)或所有足球運(yùn)動(dòng)員，學(xué)習(xí)如何在他們之間傳球，并設(shè)法克服對(duì)手的防守以進(jìn)球。其競(jìng)賽規(guī)則與普通足球比賽類似，比如目標(biāo)都是將球踢入對(duì)方球門以及越位、黃牌和紅牌規(guī)則。

不同于常見足球視頻游戲的統(tǒng)一調(diào)控式NPC球隊(duì)，在本次Kaggle競(jìng)賽中，每個(gè)球員都各由一個(gè)單獨(dú)的智能體控制，而參賽的AI模型則根據(jù)比賽情況控制其中一個(gè)智能體，與其他10個(gè)內(nèi)置智能體配合。這要求每個(gè)球員不僅需要觀察對(duì)手的行為，還需要留意己方隊(duì)員的情況，背后需要非常復(fù)雜的團(tuán)隊(duì)協(xié)作和競(jìng)爭(zhēng)策略作為支撐。

比如，當(dāng)對(duì)方球員控球時(shí)，己方智能體不僅要根據(jù)球場(chǎng)上雙方球員的分布位置預(yù)測(cè)控球球員的下一步動(dòng)作，還需要與己方其他球員協(xié)同如何合規(guī)地奪取足球的控制權(quán)。且由于球場(chǎng)動(dòng)態(tài)瞬息萬變，因此高速的實(shí)時(shí)決策能力也是必需的。

此外，從零開始完全采用強(qiáng)化學(xué)習(xí)方法來訓(xùn)練完整的足球AI實(shí)際上也相當(dāng)困難。與MOBA游戲中不斷有經(jīng)濟(jì)、血量、經(jīng)驗(yàn)等實(shí)時(shí)學(xué)習(xí)信號(hào)不同，足球的游戲激勵(lì)非常稀疏，基本只能依靠進(jìn)球，而稀疏激勵(lì)一直是目前強(qiáng)化Learning一大難題。

“絕悟”的冠軍之路

據(jù)騰訊方面介紹，絕悟WeKick版本首先采用了強(qiáng)化學(xué)習(xí)和自博弈（Self-Play）來從零開始訓(xùn)練模型，并部署了一種異步的分布式強(qiáng)化學(xué)習(xí)框架。雖然該異步架構(gòu)犧牲了訓(xùn)練階段的部分實(shí)時(shí)性能，但靈活性卻得到顯著提升，而且還支持在訓(xùn)練過程中按需調(diào)整計(jì)算資源，使其能適應(yīng) 11 智能體足球游戲訓(xùn)練環(huán)境。

由于MOBA游戲和足球游戲任務(wù)目標(biāo)的差異，絕悟WeKick版本還采用了生成對(duì)抗模擬學(xué)習(xí)（GAIL）與人工設(shè)計(jì)的獎(jiǎng)勵(lì)結(jié)合，在特征與獎(jiǎng)勵(lì)設(shè)計(jì)上進(jìn)行了擴(kuò)展和創(chuàng)新。

該方案利用了生成對(duì)抗訓(xùn)練機(jī)制來擬合專家行為的狀態(tài)和動(dòng)作分布，使得絕悟WeKick版本可以從其它球隊(duì)學(xué)習(xí)。然后，再將 GAIL 訓(xùn)練的模型作為固定對(duì)手進(jìn)行進(jìn)一步自博弈訓(xùn)練，進(jìn)一步提升策略的穩(wěn)健性。

但這種通過自博弈強(qiáng)化學(xué)習(xí)得到的模型有一個(gè)天然的缺點(diǎn)：很容易收斂到單一風(fēng)格。在實(shí)際比賽的時(shí)候單一風(fēng)格的模型很容易發(fā)生由于沒見過某種打法而表現(xiàn)失常，最終導(dǎo)致成績(jī)不佳的情況。因此，為了提升策略的多樣性和穩(wěn)健性，絕悟還采用了針對(duì)多智能體學(xué)習(xí)任務(wù)的League（若干策略池）多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案。

這種League多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案的主要流程可簡(jiǎn)單總結(jié)為先專精后綜合。

首先訓(xùn)練一個(gè)具備一定程度競(jìng)技能力的基礎(chǔ)模型，比如運(yùn)球過人、傳球配合、射門得分；

接著基于基礎(chǔ)模型訓(xùn)練出多個(gè)風(fēng)格化模型，每個(gè)模型專注一種風(fēng)格打法，在風(fēng)格化模型訓(xùn)練的過程中會(huì)定期加入主模型作為對(duì)手，避免過度堅(jiān)持風(fēng)格，丟失基本能力；

最后基于多個(gè)基礎(chǔ)模型訓(xùn)練一個(gè)主模型，主模型除了以自己的歷史模型為對(duì)手以外，還會(huì)定期加入所有風(fēng)格化對(duì)手的最新模型作為對(duì)手，確保主模型能夠適應(yīng)風(fēng)格完全不同的對(duì)手。

最終，基于絕悟完全體的架構(gòu)遷移，定制化的框架改進(jìn)，加上關(guān)鍵性的生成對(duì)抗模擬學(xué)習(xí)（GAIL）方案和 League （若干策略池）多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案，使得絕悟?qū)崿F(xiàn)了優(yōu)于其它競(jìng)爭(zhēng)AI球隊(duì)的優(yōu)勢(shì)，成就了冠軍之路。
責(zé)任編輯:pj

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴