波士頓動力人形機器人的后空翻技能亮相時,驚艷了全球群眾。
這么復(fù)雜的動作,不用說現(xiàn)實世界中的機器人,就算是在模擬器里,學(xué)起來也非常的難。
現(xiàn)在,加州大學(xué)伯克利分校和英屬哥倫比亞大學(xué)最新研究的一種新方法,能教生活在模擬器中的機器人通過模仿人類,學(xué)會武打、跑酷、雜技等復(fù)雜技能。
后空翻回旋踢什么的,輕輕松松搞定~
(下文還會提到很多次“機器人”,基本都是生活在模擬器里的這種)
讓機器人、動畫和游戲角色能靈活流暢地運動,是計算機圖形學(xué)、強化學(xué)習(xí)、機器人等等領(lǐng)域的研究者都在追求的目標(biāo)。
不同方法各有所長,當(dāng)然也各有所短。
用強化學(xué)習(xí)方法教機器人(模擬器里的智能體),能學(xué)會的動作花樣繁多,細致到拿東西、豪放到奔跑都能搞定,還可以給機器人設(shè)置一個明確的目的。但是,總難免上演一些羞恥或驚喜play。
而動作捕捉技術(shù),能讓機器人做出和真人一模一樣,自然流暢毫無違和感的動作。但是,活學(xué)活用是不能指望的,每個動作、每個形態(tài)的機器人,都是需要單獨訓(xùn)練的。
伯克利的科學(xué)家們?nèi)∵@兩個領(lǐng)域所長,創(chuàng)造了一種新方法DeepMimic。這種方法既有深度學(xué)習(xí)模型的通用性,可以覆蓋更多的動作類型和機器人形態(tài),動作的自然流暢程度也可以媲美動作捕捉。
用這種新方法,機器人究竟是怎么學(xué)習(xí)新動作的呢?
簡單來說是通過看動作片段來學(xué)習(xí),人類的動作捕捉數(shù)據(jù)就是個很好的學(xué)習(xí)資料。給機器人展示一個動作樣本,比如說下圖這個側(cè)空翻,右側(cè)就是供機器人學(xué)習(xí)的示范樣本。
參與這項研究的科學(xué)家們將示范動作分解成一個q^0,q^1,…,q^T的序列,q^T表示的是在機器人在t時間步的目標(biāo)動作。而這個機器人學(xué)習(xí)的目標(biāo),就是要盡可能消滅t時間步的實際動作qT和目標(biāo)動作q^T的差距。
機器人勤勞地不停練習(xí)練習(xí)練習(xí),直到自己的動作不再羞恥,靈活性和仿真度能夠媲美演示視頻,像上圖左側(cè)那樣。
指導(dǎo)這個練習(xí)過程的,是這樣一個獎勵函數(shù):
除了空翻,用這種方法教出來的機器人還能學(xué)到中西舞蹈、南拳北腿、跑步打把勢甚至鯉魚打挺:
對著完美的動作捕捉樣本,再copy一遍,有什么意思?這項研究當(dāng)然不止于模仿。DeepMimic能讓機器人通過模仿學(xué)會動作之后,再活學(xué)活用起來。
比如當(dāng)一個機器人學(xué)會了投球,就可以去執(zhí)行一個演示樣本中沒有的任務(wù)。我們可以在模擬器中,指定一個目標(biāo)讓它來投:
訓(xùn)練的機器人,也可以長得和演示樣本不太一樣。比如說還是用前邊的后空翻樣本,可以訓(xùn)練一個模擬波士頓動力Altas的機器人:
甚至不是人形的機器人,也可以用人形樣本來訓(xùn)練。比如說這頭霸王龍,就是跟人形樣本學(xué)習(xí)的走路。在論文的主頁上,他們還展示了更多的例子,甚至還有獅子和龍~
-
機器人
+關(guān)注
關(guān)注
210文章
28103瀏覽量
205847 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890
原文標(biāo)題:強化學(xué)習(xí)新方法,讓后空翻回旋踢再也難不倒機器人 | 伯克利論文
文章出處:【微信號:tjrobot,微信公眾號:天津機器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論