首頁(yè): 電子電路圖,電子技術(shù)資料網(wǎng)站首頁(yè)

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發(fā)創(chuàng)新靈感的新方案、新的參考設(shè)計(jì)、新的設(shè)計(jì)構(gòu)想等可下載的電子資料！

電子技術(shù)應(yīng)用: 電子技術(shù)應(yīng)用頻道 -- 為電子工程師提供電子產(chǎn)品設(shè)計(jì)所需的技術(shù)分析、設(shè)計(jì)技巧、設(shè)計(jì)工具、測(cè)試工具等技術(shù)文章！

電子元器件: 專(zhuān)業(yè)的電子元器件平臺(tái) -- 及時(shí)發(fā)布大量最新IC、分立器件、模組等電子元器件產(chǎn)品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車(chē)電路圖,手機(jī)電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術(shù)論壇: 構(gòu)建電子工程師交流的平臺(tái) -- 在交流中進(jìn)一步學(xué)習(xí)設(shè)計(jì)技巧、規(guī)劃技術(shù)人生、提升自我價(jià)值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語(yǔ)言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅(qū)動(dòng)程序單片機(jī)編程數(shù)值算法/人工智能

您的位置：電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

機(jī)器人進(jìn)行深度學(xué)習(xí)有何作用

大?。?/span>0.6 MB 人氣： 2017-09-29 需要積分：1

前往下載地址

分享到:

標(biāo)簽：機(jī)器人(199020)深度學(xué)習(xí)(119547)

DeepMind 和 OpenAI 合作的新研究，讓沒(méi)有技術(shù)經(jīng)驗(yàn)的人類(lèi)給強(qiáng)化學(xué)習(xí)系統(tǒng)提供反饋，從而避免事先為系統(tǒng)指定目標(biāo)的步驟。在某些情況下，這種方法只需要30分鐘的反饋就足以訓(xùn)練系統(tǒng)，包括教會(huì)系統(tǒng)一個(gè)全新的、復(fù)雜的行為，例如使模擬機(jī)器人做后空翻。
　　下載論文：arxiv.org/abs/1706.03741
　　我們相信，人工智能將是最重要、最廣泛有益的科學(xué)進(jìn)步之一，人工智能幫助人類(lèi)應(yīng)對(duì)了一些最大的挑戰(zhàn)，例如應(yīng)對(duì)氣候變化，提供先進(jìn)醫(yī)療，等等。但是，為了讓AI實(shí)現(xiàn)它的效用，我們知道技術(shù)必須建立在負(fù)責(zé)任的基礎(chǔ)之上，我們也必須考慮所有潛在的挑戰(zhàn)和風(fēng)險(xiǎn)。
　　這就是為什么 DeepMind 作為共同創(chuàng)立者發(fā)起了一些機(jī)構(gòu)，例如AI聯(lián)盟（Partnership on AI），旨在惠及人類(lèi)和社會(huì)；以及為什么我們擁有一個(gè)致力于A(yíng)I安全（AI Safety）的團(tuán)隊(duì)。這一領(lǐng)域的研究需要開(kāi)放、協(xié)作，以確保盡可能廣泛地采取最佳的實(shí)踐，這也是我們?yōu)槭裁磁cOpenAI合作開(kāi)展AI安全技術(shù)研究的原因。
　　這個(gè)領(lǐng)域的一個(gè)核心問(wèn)題是：我們?nèi)绾卧试S人類(lèi)去告訴系統(tǒng)我們希望它做什么，以及更重要的是，我們不希望它做什么。隨著我們利用機(jī)器學(xué)習(xí)處理的問(wèn)題越來(lái)越復(fù)雜，以及這些技術(shù)在現(xiàn)實(shí)世界中得到應(yīng)用，這個(gè)問(wèn)題變得越來(lái)越重要。
　　DeepMind 和 OpenAI 合作的第一個(gè)結(jié)果證明了一種解決這個(gè)問(wèn)題的方法：讓沒(méi)有技術(shù)經(jīng)驗(yàn)的人類(lèi)來(lái)教給強(qiáng)化學(xué)習(xí)（RL）系統(tǒng)一個(gè)復(fù)雜目標(biāo)。強(qiáng)化學(xué)習(xí)是通過(guò)反復(fù)的試驗(yàn)和試錯(cuò)學(xué)習(xí)的系統(tǒng)。這就消除了讓人類(lèi)事先為算法指定一個(gè)目標(biāo)的需要。這是一個(gè)重要的步驟，因?yàn)榧偃缒繕?biāo)就算只出了一點(diǎn)點(diǎn)差錯(cuò)也可能導(dǎo)致不良、甚至危險(xiǎn)的行為。在某些情況下，只需要30分鐘的來(lái)自非專(zhuān)家的反饋就足以訓(xùn)練我們的系統(tǒng)，包括教會(huì)系統(tǒng)一個(gè)全新的、復(fù)雜的行為，例如使模擬機(jī)器人做后空翻。
　　
　　大約用了900條來(lái)自人類(lèi)的反饋來(lái)教這個(gè)算法做后空翻
　　我們?cè)谛抡撐摹独萌祟?lèi)偏好的深度強(qiáng)化學(xué)習(xí)》（Deep Reinforcement Learning from Human Preferences）描述了這個(gè)系統(tǒng)，它與經(jīng)典的RL系統(tǒng)不同，經(jīng)典的RL系統(tǒng)使用被作為“激勵(lì)預(yù)測(cè)器”（reward predictor）的神經(jīng)網(wǎng)絡(luò)訓(xùn)練智能體，而不是在智能體探索環(huán)境時(shí)收集的激勵(lì)。
　　
　　在這里下載論文：arxiv.org/pdf/1706.03741.pdf
　　它包括3個(gè)并行運(yùn)行的進(jìn)程：
　　一個(gè)強(qiáng)化學(xué)習(xí)智能體探索它所處的環(huán)境（例如在A(yíng)tari游戲中）并進(jìn)行交互；
　　定期地，該智能體所做行為的1~2秒的兩個(gè)剪輯片段被發(fā)送給人類(lèi)控制員，人類(lèi)控制員需要在二者中選擇一個(gè)最能實(shí)現(xiàn)預(yù)期目標(biāo)的行為；
　　人類(lèi)的選擇被用于訓(xùn)練激勵(lì)預(yù)測(cè)器，該預(yù)測(cè)器反過(guò)來(lái)又用于訓(xùn)練智能體。隨著時(shí)間的推移，智能體學(xué)習(xí)最大限度地提高從預(yù)測(cè)器得到的獎(jiǎng)勵(lì)，并根據(jù)人類(lèi)的偏好改進(jìn)自己的行為。
　　
　　系統(tǒng)將學(xué)習(xí)目標(biāo)與學(xué)習(xí)行為分開(kāi)來(lái)實(shí)現(xiàn)
　　這種迭代學(xué)習(xí)的方法意味著人類(lèi)可以發(fā)現(xiàn)和糾正智能體的任何不想要的行為，這是所有安全系統(tǒng)的關(guān)鍵部分。這樣的設(shè)計(jì)也不會(huì)給人類(lèi)控制員帶來(lái)沉重的工作負(fù)擔(dān)，他們只需要檢查智能體的大約0.1%的行為，就能令其做他們希望的行為。但是，這仍然意味著要檢查幾百上千個(gè)剪輯片段，假如應(yīng)用到現(xiàn)實(shí)世界的問(wèn)題上，這個(gè)工作量是需要減少的。
　　
　　人類(lèi)控制員必須在兩個(gè)剪輯片段之間選一個(gè)。在這個(gè)例子中，對(duì)于A(yíng)tari游戲Qbert而言，右邊的剪輯看起來(lái)是更好的行為（得分更高）
　　在A(yíng)tari的Enduro游戲，要駕駛一輛汽車(chē)并超其他車(chē)，這很難通過(guò)傳統(tǒng)的RL網(wǎng)絡(luò)的試驗(yàn)和試錯(cuò)方法學(xué)習(xí)，加入人類(lèi)反饋的方法最終使我們的系統(tǒng)實(shí)現(xiàn)了超過(guò)人類(lèi)的結(jié)果。在其他游戲和模擬機(jī)器人的任務(wù)中，我們的方法與標(biāo)準(zhǔn)的RL設(shè)置表現(xiàn)相當(dāng)，但在Qbert和Breakout等幾個(gè)游戲中，我們的方法根本不工作。
　　但是，這樣一個(gè)系統(tǒng)的最終目標(biāo)是即使智能體不在環(huán)境中的情況下，也能允許人類(lèi)來(lái)為智能體指定一個(gè)目標(biāo)。為了測(cè)試，我們教智能體各種各樣的新行為，例如令它進(jìn)行后空翻，單腿走路或在Enduro游戲中學(xué)習(xí)與另一輛車(chē)并排行駛，而不是為了得分去超車(chē)。
　　
　　Enduro的正常目標(biāo)是盡可能多地超車(chē)。但是在我們的系統(tǒng)中，我們可以訓(xùn)練智能體實(shí)現(xiàn)不同的目標(biāo)，比如與其他車(chē)輛并行
　　雖然這些測(cè)試得到了一些積極的結(jié)果，但其他測(cè)試顯示出其局限性。尤其是，如果在訓(xùn)練初期停止人類(lèi)的反饋，我們的設(shè)置很容易被獎(jiǎng)勵(lì)黑掉。在這種情況下，智能體繼續(xù)探索所處環(huán)境，這意味著激勵(lì)預(yù)測(cè)器被迫在沒(méi)有反饋的情況繼續(xù)預(yù)測(cè)獎(jiǎng)勵(lì)。這可能會(huì)導(dǎo)致過(guò)高的獎(jiǎng)勵(lì)，從而令智能體學(xué)習(xí)了錯(cuò)誤的行為——往往是奇怪的行為。下面的視頻是一個(gè)例子，智能體發(fā)現(xiàn)，來(lái)回?fù)羟蚴窍啾葢?yīng)分或失分更好的策略。
　　
　　智能體的獎(jiǎng)勵(lì)功能黑了，它決定來(lái)回?fù)羟騼?yōu)于贏(yíng)分或失分
　　了解這些缺陷對(duì)于確保我們避免故障，并構(gòu)建按照預(yù)期行為的AI系統(tǒng)至關(guān)重要。
　　為了測(cè)試和增強(qiáng)這個(gè)系統(tǒng)，我們還有更多的工作要做。但是這個(gè)系統(tǒng)已經(jīng)顯示了在創(chuàng)建可以由非專(zhuān)家用戶(hù)使用的系統(tǒng)的許多關(guān)鍵的第一步，它們所需的反饋量十分少，而且可以擴(kuò)展到各種各樣的問(wèn)題。
　　其他的探索領(lǐng)域可以是減少所需人類(lèi)反饋的量，或使人類(lèi)能夠通過(guò)自然語(yǔ)言界面提供反饋。這將標(biāo)志著創(chuàng)建一個(gè)可以輕松學(xué)習(xí)人類(lèi)行為復(fù)雜性的系統(tǒng)的顯著進(jìn)步，也是創(chuàng)造與人類(lèi)全面合作的AI的關(guān)鍵一步。
　　這項(xiàng)研究是 DeepMind 的 Jan Leike，Miljan Martic，Shane Legg 和 OpenAI 的 Paul Christiano，Dario Amodei 以及 Tom Brown 持續(xù)合作的一部分。
　　在 OpenAI 的 gym 復(fù)制后空翻實(shí)驗(yàn)，使用如下獎(jiǎng)勵(lì)函數(shù)：
　　
?

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

下載地址

不能下載？請(qǐng)通知我們

機(jī)器人進(jìn)行深度學(xué)習(xí)有何作用下載

普通下載普通下載

用戶(hù)評(píng)論

發(fā)表評(píng)論即可獲得積分！ 詳見(jiàn)積分規(guī)則

發(fā)表評(píng)論

用戶(hù)評(píng)論

評(píng)價(jià):好評(píng)中評(píng)差評(píng)

發(fā)表評(píng)論，獲取積分！請(qǐng)遵守相關(guān)規(guī)定！

注冊(cè)會(huì)員

游客:

機(jī)器人進(jìn)行深度學(xué)習(xí)有何作用

下載地址

機(jī)器人進(jìn)行深度學(xué)習(xí)有何作用下載

相關(guān)電子資料下載

用戶(hù)評(píng)論

發(fā)表評(píng)論

分享你我的電子世界

實(shí)用電子設(shè)計(jì)資料下載

源碼下載排行

熱門(mén)詞