您好,歡迎來(lái)電子發(fā)燒友網(wǎng)! ,新用戶(hù)?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

機(jī)器人進(jìn)行深度學(xué)習(xí)有何作用

大?。?/span>0.6 MB 人氣: 2017-09-29 需要積分:1
DeepMind 和 OpenAI 合作的新研究,讓沒(méi)有技術(shù)經(jīng)驗(yàn)的人類(lèi)給強(qiáng)化學(xué)習(xí)系統(tǒng)提供反饋,從而避免事先為系統(tǒng)指定目標(biāo)的步驟。在某些情況下,這種方法只需要30分鐘的反饋就足以訓(xùn)練系統(tǒng),包括教會(huì)系統(tǒng)一個(gè)全新的、復(fù)雜的行為,例如使模擬機(jī)器人做后空翻。
  下載論文:arxiv.org/abs/1706.03741
  我們相信,人工智能將是最重要、最廣泛有益的科學(xué)進(jìn)步之一,人工智能幫助人類(lèi)應(yīng)對(duì)了一些最大的挑戰(zhàn),例如應(yīng)對(duì)氣候變化,提供先進(jìn)醫(yī)療,等等。但是,為了讓AI實(shí)現(xiàn)它的效用,我們知道技術(shù)必須建立在負(fù)責(zé)任的基礎(chǔ)之上,我們也必須考慮所有潛在的挑戰(zhàn)和風(fēng)險(xiǎn)。
  這就是為什么 DeepMind 作為共同創(chuàng)立者發(fā)起了一些機(jī)構(gòu),例如AI聯(lián)盟(Partnership on AI),旨在惠及人類(lèi)和社會(huì);以及為什么我們擁有一個(gè)致力于A(yíng)I安全(AI Safety)的團(tuán)隊(duì)。這一領(lǐng)域的研究需要開(kāi)放、協(xié)作,以確保盡可能廣泛地采取最佳的實(shí)踐,這也是我們?yōu)槭裁磁cOpenAI合作開(kāi)展AI安全技術(shù)研究的原因。
  這個(gè)領(lǐng)域的一個(gè)核心問(wèn)題是:我們?nèi)绾卧试S人類(lèi)去告訴系統(tǒng)我們希望它做什么,以及更重要的是,我們不希望它做什么。隨著我們利用機(jī)器學(xué)習(xí)處理的問(wèn)題越來(lái)越復(fù)雜,以及這些技術(shù)在現(xiàn)實(shí)世界中得到應(yīng)用,這個(gè)問(wèn)題變得越來(lái)越重要。
  DeepMind 和 OpenAI 合作的第一個(gè)結(jié)果證明了一種解決這個(gè)問(wèn)題的方法:讓沒(méi)有技術(shù)經(jīng)驗(yàn)的人類(lèi)來(lái)教給強(qiáng)化學(xué)習(xí)(RL)系統(tǒng)一個(gè)復(fù)雜目標(biāo)。強(qiáng)化學(xué)習(xí)是通過(guò)反復(fù)的試驗(yàn)和試錯(cuò)學(xué)習(xí)的系統(tǒng)。這就消除了讓人類(lèi)事先為算法指定一個(gè)目標(biāo)的需要。這是一個(gè)重要的步驟,因?yàn)榧偃缒繕?biāo)就算只出了一點(diǎn)點(diǎn)差錯(cuò)也可能導(dǎo)致不良、甚至危險(xiǎn)的行為。在某些情況下,只需要30分鐘的來(lái)自非專(zhuān)家的反饋就足以訓(xùn)練我們的系統(tǒng),包括教會(huì)系統(tǒng)一個(gè)全新的、復(fù)雜的行為,例如使模擬機(jī)器人做后空翻。
  
  大約用了900條來(lái)自人類(lèi)的反饋來(lái)教這個(gè)算法做后空翻
  我們?cè)谛抡撐摹独萌祟?lèi)偏好的深度強(qiáng)化學(xué)習(xí)》(Deep Reinforcement Learning from Human Preferences)描述了這個(gè)系統(tǒng),它與經(jīng)典的RL系統(tǒng)不同,經(jīng)典的RL系統(tǒng)使用被作為“激勵(lì)預(yù)測(cè)器”(reward predictor)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練智能體,而不是在智能體探索環(huán)境時(shí)收集的激勵(lì)。
  
  在這里下載論文:arxiv.org/pdf/1706.03741.pdf
  它包括3個(gè)并行運(yùn)行的進(jìn)程:
  一個(gè)強(qiáng)化學(xué)習(xí)智能體探索它所處的環(huán)境(例如在A(yíng)tari游戲中)并進(jìn)行交互;
  定期地,該智能體所做行為的1~2秒的兩個(gè)剪輯片段被發(fā)送給人類(lèi)控制員,人類(lèi)控制員需要在二者中選擇一個(gè)最能實(shí)現(xiàn)預(yù)期目標(biāo)的行為;
  人類(lèi)的選擇被用于訓(xùn)練激勵(lì)預(yù)測(cè)器,該預(yù)測(cè)器反過(guò)來(lái)又用于訓(xùn)練智能體。隨著時(shí)間的推移,智能體學(xué)習(xí)最大限度地提高從預(yù)測(cè)器得到的獎(jiǎng)勵(lì),并根據(jù)人類(lèi)的偏好改進(jìn)自己的行為。
  
  系統(tǒng)將學(xué)習(xí)目標(biāo)與學(xué)習(xí)行為分開(kāi)來(lái)實(shí)現(xiàn)
  這種迭代學(xué)習(xí)的方法意味著人類(lèi)可以發(fā)現(xiàn)和糾正智能體的任何不想要的行為,這是所有安全系統(tǒng)的關(guān)鍵部分。這樣的設(shè)計(jì)也不會(huì)給人類(lèi)控制員帶來(lái)沉重的工作負(fù)擔(dān),他們只需要檢查智能體的大約0.1%的行為,就能令其做他們希望的行為。但是,這仍然意味著要檢查幾百上千個(gè)剪輯片段,假如應(yīng)用到現(xiàn)實(shí)世界的問(wèn)題上,這個(gè)工作量是需要減少的。
  
  人類(lèi)控制員必須在兩個(gè)剪輯片段之間選一個(gè)。在這個(gè)例子中,對(duì)于A(yíng)tari游戲Qbert而言,右邊的剪輯看起來(lái)是更好的行為(得分更高)
  在A(yíng)tari的Enduro游戲,要駕駛一輛汽車(chē)并超其他車(chē),這很難通過(guò)傳統(tǒng)的RL網(wǎng)絡(luò)的試驗(yàn)和試錯(cuò)方法學(xué)習(xí),加入人類(lèi)反饋的方法最終使我們的系統(tǒng)實(shí)現(xiàn)了超過(guò)人類(lèi)的結(jié)果。在其他游戲和模擬機(jī)器人的任務(wù)中,我們的方法與標(biāo)準(zhǔn)的RL設(shè)置表現(xiàn)相當(dāng),但在Qbert和Breakout等幾個(gè)游戲中,我們的方法根本不工作。
  但是,這樣一個(gè)系統(tǒng)的最終目標(biāo)是即使智能體不在環(huán)境中的情況下,也能允許人類(lèi)來(lái)為智能體指定一個(gè)目標(biāo)。為了測(cè)試,我們教智能體各種各樣的新行為,例如令它進(jìn)行后空翻,單腿走路或在Enduro游戲中學(xué)習(xí)與另一輛車(chē)并排行駛,而不是為了得分去超車(chē)。
  
  Enduro的正常目標(biāo)是盡可能多地超車(chē)。但是在我們的系統(tǒng)中,我們可以訓(xùn)練智能體實(shí)現(xiàn)不同的目標(biāo),比如與其他車(chē)輛并行
  雖然這些測(cè)試得到了一些積極的結(jié)果,但其他測(cè)試顯示出其局限性。尤其是,如果在訓(xùn)練初期停止人類(lèi)的反饋,我們的設(shè)置很容易被獎(jiǎng)勵(lì)黑掉。在這種情況下,智能體繼續(xù)探索所處環(huán)境,這意味著激勵(lì)預(yù)測(cè)器被迫在沒(méi)有反饋的情況繼續(xù)預(yù)測(cè)獎(jiǎng)勵(lì)。 這可能會(huì)導(dǎo)致過(guò)高的獎(jiǎng)勵(lì),從而令智能體學(xué)習(xí)了錯(cuò)誤的行為——往往是奇怪的行為。下面的視頻是一個(gè)例子,智能體發(fā)現(xiàn),來(lái)回?fù)羟蚴窍啾葢?yīng)分或失分更好的策略。
  
  智能體的獎(jiǎng)勵(lì)功能黑了,它決定來(lái)回?fù)羟騼?yōu)于贏(yíng)分或失分
  了解這些缺陷對(duì)于確保我們避免故障,并構(gòu)建按照預(yù)期行為的AI系統(tǒng)至關(guān)重要。
  為了測(cè)試和增強(qiáng)這個(gè)系統(tǒng),我們還有更多的工作要做。但是這個(gè)系統(tǒng)已經(jīng)顯示了在創(chuàng)建可以由非專(zhuān)家用戶(hù)使用的系統(tǒng)的許多關(guān)鍵的第一步,它們所需的反饋量十分少,而且可以擴(kuò)展到各種各樣的問(wèn)題。
  其他的探索領(lǐng)域可以是減少所需人類(lèi)反饋的量,或使人類(lèi)能夠通過(guò)自然語(yǔ)言界面提供反饋。這將標(biāo)志著創(chuàng)建一個(gè)可以輕松學(xué)習(xí)人類(lèi)行為復(fù)雜性的系統(tǒng)的顯著進(jìn)步,也是創(chuàng)造與人類(lèi)全面合作的AI的關(guān)鍵一步。
  這項(xiàng)研究是 DeepMind 的 Jan Leike,Miljan Martic,Shane Legg 和 OpenAI 的 Paul Christiano,Dario Amodei 以及 Tom Brown 持續(xù)合作的一部分。
  在 OpenAI 的 gym 復(fù)制后空翻實(shí)驗(yàn),使用如下獎(jiǎng)勵(lì)函數(shù):
  
?

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶(hù)評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?