亚洲1级在线观看,亚洲午夜福利av一区二区无码,噜噜噜噜噜视频在线观看

智能體（agent）互相爭奪資源的多智能體環(huán)境是通向強(qiáng)人工智能（AGI）的必經(jīng)之路。多智能體環(huán)境具有兩種優(yōu)越的特質(zhì)：首先，它具備自然的考驗(yàn)——環(huán)境的難易程度取決于競爭對手的技能（如果你正與自己的克隆體對抗，環(huán)境則完全符合你的技術(shù)水平）。其次，多智能體環(huán)境沒有穩(wěn)定的平衡，即無論一個智能體多么聰明，想變得更聰明總是有困難的。這種環(huán)境與傳統(tǒng)模式有很大的不同，在達(dá)到目標(biāo)之前需要進(jìn)行更多研究。

OpenAI開發(fā)了一種名為MADDPG（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments）的新算法，用于實(shí)現(xiàn)多智能體環(huán)境中的集中式學(xué)習(xí)和分散式執(zhí)行，讓智能體學(xué)習(xí)互相合作、互相競爭。

用MADDPG算法訓(xùn)練四個紅色圓點(diǎn)追逐兩個綠色圓點(diǎn)，紅色圓點(diǎn)已經(jīng)學(xué)會彼此合作追逐同一個綠色圓點(diǎn)，以獲得更高的獎勵。與此同時，綠色圓點(diǎn)學(xué)會了“分頭行動”，其中一個被紅點(diǎn)追逐，其他的則試圖接近藍(lán)色圓點(diǎn)獲得獎勵，同時避開紅色圓點(diǎn)

MADDPG對強(qiáng)化學(xué)習(xí)算法DDPG進(jìn)行擴(kuò)展，從actor-critic（玩家-評委）強(qiáng)化學(xué)習(xí)技術(shù)中獲得靈感；其他團(tuán)隊(duì)也正探索這些想法的變體和并行實(shí)現(xiàn)。

研究人員將模擬中的每個智能體看作“actor”（玩家），每個玩家從評委那里獲得建議，讓它們在訓(xùn)練過程中選擇應(yīng)該加強(qiáng)哪些動作的訓(xùn)練。在傳統(tǒng)環(huán)境中，評委嘗試預(yù)測在某一特定情況下一種動作的價(jià)值（即我們期待未來獲得的獎勵），從而讓玩家更新策略。這種方法比直接使用獎勵更穩(wěn)定，獎勵會導(dǎo)致較大的差異。為了能讓智能體進(jìn)行全局合作，研究者改進(jìn)了評委，使它們能夠訪問智能體的觀察和行動，如下圖所示。

測試時，智能體無需具備中間的評委；它們根據(jù)觀察以及對其他智能體行為的預(yù)測，做出動作。由于一個中心化的評委是為每個智能體獨(dú)立學(xué)習(xí)的，這種方法也可以用來模擬多智能體之間的任意獎勵結(jié)構(gòu)，包括擁有相反獎勵的對抗案例。

OpenAI研究者在多個任務(wù)上測試了他們的方法，結(jié)果均優(yōu)于DDPG上的表現(xiàn)。在上圖的動畫中，從上至下可以看到：兩個智能體試圖前往特定位置，并且學(xué)習(xí)分散，向?qū)κ蛛[藏真實(shí)的目的地；一個智能體將位置信息傳遞給另一個智能體，其他三個智能體協(xié)調(diào)前往此處，并且不會碰撞。

使用MADDPG訓(xùn)練的紅色圓點(diǎn)比用DDPG訓(xùn)練的智能體行為更復(fù)雜。在上面的動畫中可以看到，用MADDPG技術(shù)訓(xùn)練的智能體和用DDPG訓(xùn)練的智能體都試圖穿過綠色的圓圈追逐綠色的小圓點(diǎn)，同時不撞到黑色障礙物。新方法訓(xùn)練出來的智能體抓到的綠色圓點(diǎn)更多，也比用DDPG方法訓(xùn)練出的動作更協(xié)調(diào)。

傳統(tǒng)強(qiáng)化學(xué)習(xí)的困境

傳統(tǒng)的分散式強(qiáng)化學(xué)習(xí)方法，如DDPG、actor-critic學(xué)習(xí)、深度Q學(xué)習(xí)等，都難以在多智能體環(huán)境中學(xué)習(xí)，因?yàn)樵诿總€時間段，每個智能體都要嘗試學(xué)習(xí)預(yù)測其他智能體的行為，同時還要分析自己的行為。在競爭的情況下尤其如此。MADDPG采用集中的critic為智能體提供有關(guān)同類的觀察和潛在行為的信息，將不可預(yù)測的環(huán)境轉(zhuǎn)化為可預(yù)測環(huán)境。

使用梯度策略的方法會帶來更多挑戰(zhàn)：因?yàn)楫?dāng)獎勵不一致時，這種方法所得到的結(jié)果差別很大。另外，在提高穩(wěn)定性的同時，增加critic仍然不能解決一些環(huán)境問題，例如合作交流。這樣看來在培訓(xùn)期間考慮其他智能體的行為對于學(xué)習(xí)協(xié)作策略是很重要的。

最初的研究

在開發(fā)MADDPG之前，當(dāng)使用分散技術(shù)時，研究人員注意到如果speaker所發(fā)出的關(guān)于去哪里不一致的消息，那么listener常常會忽略speaker，智能體將把有關(guān)speaker的所有權(quán)中設(shè)置為0。一旦發(fā)生這種情況，就很難恢復(fù)訓(xùn)練，因?yàn)闆]有任何反饋，speaker永遠(yuǎn)不會知道自己所說是否正確。為了解決這個問題，他們研究了最近一個分層強(qiáng)化學(xué)習(xí)項(xiàng)目中所提到的技術(shù)，該技術(shù)可以讓強(qiáng)制讓listener在決策過程中考慮speaker的消息。這種修復(fù)方法并不奏效，因?yàn)樗m然強(qiáng)制listener關(guān)注speaker，但并不能幫助listener決定說出什么相關(guān)的內(nèi)容。通過幫助speaker學(xué)習(xí)哪些信息可能與其他智能體的位置信息有關(guān)，集中式的critic方法有助于應(yīng)對這些挑戰(zhàn)。想了解更多結(jié)果，可點(diǎn)擊視頻觀看：

下一步

智能體建模在人工智能的研究中已經(jīng)有了豐富的成果，但之前的很多研究都只考慮了短時間內(nèi)簡單的游戲。深度學(xué)習(xí)能讓我們處理復(fù)雜的視覺輸入，強(qiáng)化學(xué)習(xí)為我們提供了長時間學(xué)習(xí)行為的工具。現(xiàn)在我們可以用這些功能一次性訓(xùn)練多個代理，而無需了解環(huán)境的變化（即環(huán)境在每個時間段發(fā)生的變化），我們可以解決更廣泛的包括交流和語言的高維度信息，同時從環(huán)境的高維信息中學(xué)習(xí)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
29806

瀏覽量
268106

原文標(biāo)題：OpenAI公布MADDPG代碼，讓智能體學(xué)習(xí)合作、競爭和交流

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

合作學(xué)習(xí)在Prtel 99 SE教學(xué)中的應(yīng)用

中職學(xué)生由于文化素質(zhì)不高、基礎(chǔ)參差不齊,影響了他們對專業(yè)課的學(xué)習(xí)。筆者從分析合作學(xué)習(xí)的發(fā)展和特點(diǎn)入手,對合作學(xué)習(xí)在電子專業(yè)課《Prtel 99 SE》教學(xué)中的作用以及如何實(shí)施有效合作學(xué)習(xí)

發(fā)表于 05-13 09:06

云電云安“智能一體”領(lǐng)跑安防行業(yè)

　　隨著安防逐漸IT化及國內(nèi)安防廠商精工制造的崛起，產(chǎn)品的互聯(lián)互通及產(chǎn)品的工業(yè)設(shè)計(jì)逐漸成為市場競爭的重頭戲。2015年伊始，云電信息在市場提出“智能一體”的新主張，作為行業(yè)的領(lǐng)先者，在“智能

發(fā)表于 03-30 11:35

一種基于聚類和競爭克隆機(jī)制的多智能體免疫算法

包含分布式電源的配電網(wǎng)無功優(yōu)化matlab源代碼，代碼按照高水平文章復(fù)現(xiàn)，保證正確，可先發(fā)您文章看是否滿足您的要求利用分布式電源的無功補(bǔ)償能力，提出了一種基于聚類和競爭克隆機(jī)制的多智能

發(fā)表于 12-29 06:50

OpenAI分析機(jī)器學(xué)習(xí)的進(jìn)化策略

OpenAI總監(jiān)Ilya Sutskever昨天在EmTech Digital大會上介紹了人工智能領(lǐng)域下一個可能的爆發(fā)點(diǎn)。OpenAI是一家獨(dú)立研究機(jī)構(gòu)，EmTech Digital是MIT

發(fā)表于 09-30 13:09 ?0次下載

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個智能體的強(qiáng)化學(xué)習(xí)算法，但是也有很多重要的應(yīng)用場景牽涉到多個智能體之

發(fā)表于 11-02 16:18 ?2.2w次閱讀

OpenAI推出Spinning Up 旨在強(qiáng)化人工智能

近日，OpenAI宣布推出Spinning Up，一個旨在提供深度強(qiáng)化學(xué)習(xí)的項(xiàng)目。OpenAI以在虛擬環(huán)境中制作外觀時髦的代理而聞名，這些代理能夠學(xué)習(xí)如何獨(dú)自行走，例如與華盛頓大學(xué)

發(fā)表于 11-13 09:46 ?1879次閱讀

OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時候在想什么？

總決賽讓OpenAI的科學(xué)家可以回答一個重要的研究問題：OpenAI Five在多大程度、以何種方式能夠被確定的打敗？并且可能是有史以來最大規(guī)模的、人們可以有意識地與之交互的高強(qiáng)度深層強(qiáng)化學(xué)習(xí)

發(fā)表于 04-19 09:29 ?5390次閱讀

OpenAI與多家媒體商談內(nèi)容授權(quán)，蘋果也加入競爭

OpenAI負(fù)責(zé)人工智能專利和內(nèi)容的高管表示，“我們正在與眾多出版商進(jìn)行積極且富有建設(shè)性的會談，取得了良好進(jìn)展，未來將會公布更多合作協(xié)定。”近期他們主要致力于與國際知名新聞機(jī)構(gòu)開展對話

發(fā)表于 01-08 11:22 ?457次閱讀

Reddit與OpenAI達(dá)成合作，引入問答內(nèi)容及AI功能

消息指出，Reddit 與 OpenAI今日宣布建立“戰(zhàn)略聯(lián)盟”，共同推動Reddit問答內(nèi)容在OpenAI旗下產(chǎn)品中的應(yīng)用，OpenAI亦將成為Reddit的廣告合作商。

發(fā)表于 05-17 10:58 ?262次閱讀

OpenAI與新聞集團(tuán)簽署內(nèi)容合作協(xié)議

人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI近日宣布，已與美國傳媒巨頭新聞集團(tuán)（News Corp）達(dá)成多年全球合作伙伴關(guān)系。

發(fā)表于 05-24 09:45 ?375次閱讀

蘋果與OpenAI自2023年中開始接觸，微軟擔(dān)心合作競爭

據(jù)悉，蘋果有意在定于今年6月11日凌晨1點(diǎn)舉行的WWDC 2024全球開發(fā)者大會上公開與OpenAI的合作事宜。此外，除了計(jì)劃引入OpenAI的ChatGPT聊天服務(wù)至iOS外，蘋果并借機(jī)邀請

發(fā)表于 05-30 10:18 ?468次閱讀

蘋果宣布與OpenAI構(gòu)建合作伙伴關(guān)系

近日，蘋果公司宣布與人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI達(dá)成合作伙伴關(guān)系，計(jì)劃將OpenAI的ChatGPT技術(shù)整合至其產(chǎn)品中。

發(fā)表于 06-12 16:15 ?571次閱讀

阿聯(lián)酋與微軟、OpenAI達(dá)成AI合作

近日，阿聯(lián)酋人工智能部部長奧馬爾·阿爾·奧拉馬宣布了一項(xiàng)重要合作。微軟與阿聯(lián)酋本土人工智能公司G42已正式簽署協(xié)議，允許阿聯(lián)酋與全球知名的人工智能研究機(jī)構(gòu)

發(fā)表于 06-12 17:30 ?558次閱讀

歐盟加強(qiáng)對人工智能行業(yè)審查,微軟與OpenAI合作受關(guān)注

在人工智能（AI）領(lǐng)域日益激烈的競爭中，歐盟正展現(xiàn)出其加強(qiáng)監(jiān)管的決心。6月29日，美聯(lián)社報(bào)道指出，歐盟高級官員近期已明確表示，他們正在重新審視這一領(lǐng)域的多項(xiàng)合作關(guān)系，特別是微軟與OpenAI

發(fā)表于 06-29 16:46 ?523次閱讀

OpenAI公布AI發(fā)展的五個階段

北京時間7月12日，OpenAI為追蹤其人工智能（AI）技術(shù)追趕并超越人類智能的進(jìn)程，正式公布了AI發(fā)展的五個階段性劃分，旨在加深公眾對公司AI安全策略及未來愿景的理解。這一分級體系在

發(fā)表于 07-12 15:50 ?1336次閱讀

搜索歷史

OpenAI公布MADDPG代碼，讓智能體學(xué)習(xí)合作、競爭和交流

評論

合作學(xué)習(xí)在Prtel 99 SE教學(xué)中的應(yīng)用

云電云安“智能一體”領(lǐng)跑安防行業(yè)

一種基于聚類和競爭克隆機(jī)制的多智能體免疫算法

OpenAI分析機(jī)器學(xué)習(xí)的進(jìn)化策略

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

OpenAI推出Spinning Up 旨在強(qiáng)化人工智能

OpenAI Five是如何訓(xùn)練的、為什么選擇打Dota以及AI在打Dota的時候在想什么？

OpenAI與多家媒體商談內(nèi)容授權(quán)，蘋果也加入競爭

Reddit與OpenAI達(dá)成合作，引入問答內(nèi)容及AI功能

OpenAI與新聞集團(tuán)簽署內(nèi)容合作協(xié)議

蘋果與OpenAI自2023年中開始接觸，微軟擔(dān)心合作競爭

蘋果宣布與OpenAI構(gòu)建合作伙伴關(guān)系

阿聯(lián)酋與微軟、OpenAI達(dá)成AI合作

歐盟加強(qiáng)對人工智能行業(yè)審查,微軟與OpenAI合作受關(guān)注

OpenAI公布AI發(fā)展的五個階段

搜索歷史

OpenAI公布MADDPG代碼，讓智能體學(xué)習(xí)合作、競爭和交流

評論

OpenAI公布MADDPG代碼，讓智能體學(xué)習(xí)合作、競爭和交流