0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

強化學(xué)習(xí)新方法,機器人究竟是怎么學(xué)習(xí)新動作的呢?

天津機器人 ? 來源:未知 ? 作者:李倩 ? 2018-04-13 11:00 ? 次閱讀

波士頓動力人形機器人的后空翻技能亮相時,驚艷了全球群眾。

這么復(fù)雜的動作,不用說現(xiàn)實世界中的機器人,就算是在模擬器里,學(xué)起來也非常的難。

現(xiàn)在,加州大學(xué)伯克利分校和英屬哥倫比亞大學(xué)最新研究的一種新方法,能教生活在模擬器中的機器人通過模仿人類,學(xué)會武打、跑酷、雜技等復(fù)雜技能。

后空翻回旋踢什么的,輕輕松松搞定~

(下文還會提到很多次“機器人”,基本都是生活在模擬器里的這種)

讓機器人、動畫和游戲角色能靈活流暢地運動,是計算機圖形學(xué)、強化學(xué)習(xí)、機器人等等領(lǐng)域的研究者都在追求的目標(biāo)。

不同方法各有所長,當(dāng)然也各有所短。

用強化學(xué)習(xí)方法教機器人(模擬器里的智能體),能學(xué)會的動作花樣繁多,細致到拿東西、豪放到奔跑都能搞定,還可以給機器人設(shè)置一個明確的目的。但是,總難免上演一些羞恥或驚喜play。

而動作捕捉技術(shù),能讓機器人做出和真人一模一樣,自然流暢毫無違和感的動作。但是,活學(xué)活用是不能指望的,每個動作、每個形態(tài)的機器人,都是需要單獨訓(xùn)練的。

伯克利的科學(xué)家們?nèi)∵@兩個領(lǐng)域所長,創(chuàng)造了一種新方法DeepMimic。這種方法既有深度學(xué)習(xí)模型的通用性,可以覆蓋更多的動作類型和機器人形態(tài),動作的自然流暢程度也可以媲美動作捕捉。

用這種新方法,機器人究竟是怎么學(xué)習(xí)新動作的呢?

簡單來說是通過看動作片段來學(xué)習(xí),人類的動作捕捉數(shù)據(jù)就是個很好的學(xué)習(xí)資料。給機器人展示一個動作樣本,比如說下圖這個側(cè)空翻,右側(cè)就是供機器人學(xué)習(xí)的示范樣本。

參與這項研究的科學(xué)家們將示范動作分解成一個q^0,q^1,…,q^T的序列,q^T表示的是在機器人在t時間步的目標(biāo)動作。而這個機器人學(xué)習(xí)的目標(biāo),就是要盡可能消滅t時間步的實際動作qT和目標(biāo)動作q^T的差距。

機器人勤勞地不停練習(xí)練習(xí)練習(xí),直到自己的動作不再羞恥,靈活性和仿真度能夠媲美演示視頻,像上圖左側(cè)那樣。

指導(dǎo)這個練習(xí)過程的,是這樣一個獎勵函數(shù):

除了空翻,用這種方法教出來的機器人還能學(xué)到中西舞蹈、南拳北腿、跑步打把勢甚至鯉魚打挺:

對著完美的動作捕捉樣本,再copy一遍,有什么意思?這項研究當(dāng)然不止于模仿。DeepMimic能讓機器人通過模仿學(xué)會動作之后,再活學(xué)活用起來。

比如當(dāng)一個機器人學(xué)會了投球,就可以去執(zhí)行一個演示樣本中沒有的任務(wù)。我們可以在模擬器中,指定一個目標(biāo)讓它來投:

訓(xùn)練的機器人,也可以長得和演示樣本不太一樣。比如說還是用前邊的后空翻樣本,可以訓(xùn)練一個模擬波士頓動力Altas的機器人:

甚至不是人形的機器人,也可以用人形樣本來訓(xùn)練。比如說這頭霸王龍,就是跟人形樣本學(xué)習(xí)的走路。在論文的主頁上,他們還展示了更多的例子,甚至還有獅子和龍~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    210

    文章

    28103

    瀏覽量

    205847
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5463

    瀏覽量

    120890

原文標(biāo)題:強化學(xué)習(xí)新方法,讓后空翻回旋踢再也難不倒機器人 | 伯克利論文

文章出處:【微信號:tjrobot,微信公眾號:天津機器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    圖解:IGBT究竟是什么?

    圖解:IGBT究竟是什么? IGBT究竟是什么?
    發(fā)表于 08-10 08:01

    深度強化學(xué)習(xí)實戰(zhàn)

    網(wǎng)絡(luò)GAN5、遷移學(xué)習(xí)TL報名聯(lián)系方式聯(lián)系:李連杰(老師)手機:*** QQ: 1503177939深度學(xué)習(xí)之家QQ群群號:372448770(加群備注:李連杰老師)強化學(xué)習(xí)課程QQ
    發(fā)表于 01-10 13:42

    一次性模仿學(xué)習(xí)新算法讓AI現(xiàn)在可以快速學(xué)習(xí)新的任務(wù)

    方法基于所謂的一次性模仿學(xué)習(xí),這是一種OpenAI開發(fā)的技術(shù),允許軟件引導(dǎo)機器人僅使用一個示例來模擬身體動作。 AI現(xiàn)在可以通過模仿快速學(xué)習(xí)新
    發(fā)表于 09-22 14:25 ?0次下載

    基于LCS和LS-SVM的多機器人強化學(xué)習(xí)

    本文提出了一種LCS和LS-SVM相結(jié)合的多機器人強化學(xué)習(xí)方法,LS-SVM獲得的最優(yōu)學(xué)習(xí)策略作為LCS的初始規(guī)則集。LCS通過與環(huán)境的交互,能更快發(fā)現(xiàn)指導(dǎo)多機器人
    發(fā)表于 01-09 14:43 ?0次下載

    跟人一樣聰明的機器人,觀察一次就可以模仿人類的動作

    機器人由加州大學(xué)伯克利分校的工程師開發(fā),通過觀察視頻中的人員執(zhí)行動作,可以快速學(xué)習(xí)新動作。
    發(fā)表于 07-06 15:55 ?2983次閱讀

    機器人通過一段只有一個的視頻來模仿學(xué)習(xí)

    人類和動物在學(xué)習(xí)新行為時,大部分只需要觀察一次就能學(xué)會,然而想讓機器人學(xué)習(xí)就沒那么容易了。隨著計算機視覺的發(fā)展,目前的技術(shù)能讓機器人依靠人體姿勢檢測系統(tǒng),模仿人類的動作進行
    的頭像 發(fā)表于 02-07 14:25 ?6120次閱讀
    讓<b class='flag-5'>機器人</b>通過一段只有一個<b class='flag-5'>人</b>的視頻來模仿<b class='flag-5'>學(xué)習(xí)</b>

    【重磅】DeepMind發(fā)布通用強化學(xué)習(xí)新范式,自主機器人可學(xué)會任何任務(wù)

    SAC-X是一種通用的強化學(xué)習(xí)方法,未來可以應(yīng)用于機器人以外的更廣泛領(lǐng)域
    的頭像 發(fā)表于 03-19 14:45 ?1873次閱讀

    強化學(xué)習(xí)究竟是什么?它與機器學(xué)習(xí)技術(shù)有什么聯(lián)系?

    Q-learning和SARSA是兩種最常見的不理解環(huán)境強化學(xué)習(xí)算法,這兩者的探索原理不同,但是開發(fā)原理是相似的。Q-learning是一種離線學(xué)習(xí)算法,智能體需要從另一項方案中學(xué)習(xí)到行為a*的價值
    的頭像 發(fā)表于 04-15 10:32 ?1.4w次閱讀

    人工智能機器學(xué)習(xí)強化學(xué)習(xí)

    強化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎勵信號(強化信號)函數(shù)值最大,強化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1396次閱讀

    谷歌、DeepMind重磅推出PlaNet 強化學(xué)習(xí)新突破

    Google AI 與 DeepMind 合作推出深度規(guī)劃網(wǎng)絡(luò) (PlaNet),這是一個純粹基于模型的智能體,能從圖像輸入中學(xué)習(xí)世界模型,完成多項規(guī)劃任務(wù),數(shù)據(jù)效率平均提升50倍,強化學(xué)習(xí)又一突破。
    的頭像 發(fā)表于 02-17 09:30 ?3300次閱讀
    谷歌、DeepMind重磅推出PlaNet <b class='flag-5'>強化學(xué)習(xí)新</b>突破

    如何訓(xùn)練機器人學(xué)習(xí)新技能

    10月27日消息,據(jù)外媒報道,約翰斯霍普金斯大學(xué)博士生安德魯洪特(Andrew Hundt) 近日發(fā)布一篇新論文,指出應(yīng)通過正強化法訓(xùn)練機器人學(xué)習(xí)新技能。
    的頭像 發(fā)表于 10-28 10:16 ?2357次閱讀

    一文詳談機器學(xué)習(xí)強化學(xué)習(xí)

    強化學(xué)習(xí)屬于機器學(xué)習(xí)中的一個子集,它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前,相當(dāng)一部分機器人就在使用強化學(xué)習(xí)掌握種種新能力。
    發(fā)表于 11-06 15:33 ?1710次閱讀

    當(dāng)機器人遇見強化學(xué)習(xí),會碰出怎樣的火花?

    當(dāng)機器人遇見強化學(xué)習(xí),會碰出怎樣的火花? 一名叫 Cassie 的機器人,給出了生動演繹。 最近,24 歲的中國南昌小伙李鐘毓和其所在團隊,用強化學(xué)習(xí)教 Cassie 走路 ,目前它已
    的頭像 發(fā)表于 04-13 09:35 ?2396次閱讀
    當(dāng)<b class='flag-5'>機器人</b>遇見<b class='flag-5'>強化學(xué)習(xí)</b>,會碰出怎樣的火花?

    串口究竟是什么?

    串口通訊是我們在電力電子設(shè)計中使用頻率比較高的一種通訊協(xié)議,那串口究竟是什么?
    的頭像 發(fā)表于 04-12 09:40 ?1.9w次閱讀

    如何使用 PyTorch 進行強化學(xué)習(xí)

    強化學(xué)習(xí)(Reinforcement Learning, RL)是一種機器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源
    的頭像 發(fā)表于 11-05 17:34 ?194次閱讀