讓智能體自己學(xué)會(huì)穿衣服一直是個(gè)難題,除了對(duì)衣服的布料的材質(zhì)模擬存在困難之外,穿衣過程中目標(biāo)與衣服之間的頻繁復(fù)雜的交互也會(huì)導(dǎo)致計(jì)算成本過高。在Siggraph 2018上,研究人員試圖通過深度強(qiáng)化學(xué)習(xí),將布料模擬融入學(xué)習(xí)框架,教機(jī)器人學(xué)會(huì)自己穿衣服!
隨著AI技術(shù)進(jìn)步的日新月異,現(xiàn)在的機(jī)器人越來(lái)越智能,但不管是機(jī)器人還是虛擬模型,基本都處于“赤身裸體”的狀態(tài),即便是穿了衣服,也是靠著外部的力量或幫助穿上的。
如何讓這些智能體學(xué)會(huì)自己穿衣服一直是個(gè)難題,因?yàn)橐路牟剂隙喾N多樣,材質(zhì)性質(zhì)各不相同,而且在穿衣過程中,衣服和身體會(huì)發(fā)生頻繁而復(fù)雜的相互作用。這兩點(diǎn)是解決“機(jī)器人學(xué)穿衣”過程中面臨的最大挑戰(zhàn)。
現(xiàn)在,研究人員正試圖攻克這個(gè)難題。在Siggraph 2018上的一篇論文《Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning》中,來(lái)自佐治亞理工學(xué)院和谷歌大腦的研究團(tuán)隊(duì)描述了他們?nèi)绾卫?a href="http://ttokpm.com/v/tag/150/" target="_blank">人工智能,來(lái)教虛擬人如何自己穿衣服。
本文表明,AI能夠利用機(jī)器學(xué)習(xí)工具“自動(dòng)發(fā)現(xiàn)強(qiáng)大的穿衣技能”,并設(shè)法訓(xùn)練出強(qiáng)大的穿衣模型,盡管對(duì)衣服布料的模擬計(jì)算成本很高。
本文作者表示,讓AI 學(xué)會(huì)穿衣服的秘訣就是觸覺,可以用于動(dòng)態(tài)調(diào)整AI的協(xié)調(diào)性,以適應(yīng)褶皺、光滑、或材質(zhì)詭異的布料。
研究概覽:將布料模擬融入深度強(qiáng)化學(xué)習(xí)框架
由于人和穿的衣服之間存在著復(fù)雜的相互作用,所以創(chuàng)建人物穿衣服的逼真動(dòng)畫是很具有挑戰(zhàn)性的任務(wù)。我們采用無(wú)模型深度強(qiáng)化學(xué)習(xí)(deepRL)方法,實(shí)現(xiàn)自動(dòng)發(fā)現(xiàn)由神經(jīng)網(wǎng)絡(luò)表示的、高魯棒性的控制策略。
雖然深度強(qiáng)化學(xué)習(xí)方案在復(fù)雜運(yùn)動(dòng)技能的學(xué)習(xí)方面取得了一些成功,但學(xué)習(xí)算法的數(shù)據(jù)特征與實(shí)際任務(wù)所需的、計(jì)算成本高昂的衣服和布料模擬任務(wù)并不一致。
下面是研究人員制作的機(jī)器人穿衣視頻演示,一起來(lái)看看,一共有3種衣服喲!
本文首次證明,通過設(shè)計(jì)合適的輸入狀態(tài)空間和獎(jiǎng)勵(lì)函數(shù),可以把對(duì)布料的模擬結(jié)合到深度強(qiáng)化學(xué)習(xí)框架中,以便學(xué)習(xí)強(qiáng)大的穿衣控制策略。
我們利用觸覺信息的顯著表示,來(lái)指導(dǎo)虛擬人物穿衣的過程,并將其用于獎(jiǎng)勵(lì)函數(shù)中,在訓(xùn)練期間提供明確的學(xué)習(xí)信號(hào)。我們發(fā)現(xiàn),為了學(xué)習(xí)涉及各種穿衣操作技能的長(zhǎng)時(shí)間運(yùn)動(dòng)序列,比如“抓住T恤衫的邊緣”或者“拉袖子”,有必要將整個(gè)穿衣任務(wù)分成幾個(gè)子任務(wù),并分別學(xué)習(xí)控制策略。
為此,本文引入了策略排序算法,該算法匹配從一個(gè)任務(wù)到輸出分布的輸出狀態(tài)的分布,用于序列中的下一個(gè)任務(wù)。我們已經(jīng)使用這種方法為幾種穿衣任務(wù)生成角色控制器:即穿T恤,穿外套,以及在機(jī)器人輔助下穿袖子。
虛擬人在穿T恤衫、外套和醫(yī)院的防護(hù)服
將穿衣任務(wù)分割為多個(gè)子任務(wù)
我們提出了一個(gè)強(qiáng)化學(xué)習(xí)框架,來(lái)訓(xùn)練虛擬角色在模擬環(huán)境中穿上衣服。我們的方法將穿衣任務(wù)分成一系列子任務(wù),這些任務(wù)之間的轉(zhuǎn)換由一個(gè)狀態(tài)機(jī)實(shí)現(xiàn)指導(dǎo)。比如,穿上外套這個(gè)任務(wù)包括以下四個(gè)子任務(wù):將袖子套在第一條手臂上,把第二條手臂向后伸,將第二只袖子套在手臂上,最后將身體重新轉(zhuǎn)到原來(lái)的靜止位置。
子任務(wù)控制器的獎(jiǎng)勵(lì)權(quán)重
對(duì)于每個(gè)子任務(wù),我們制定一個(gè)單獨(dú)的強(qiáng)化學(xué)習(xí)問題來(lái)學(xué)習(xí)控制策略。為了確保這些單獨(dú)的控制策略在按順序執(zhí)行時(shí)能夠組成成功的穿衣序列,我們引入了一個(gè)策略排序算法,該算法將每個(gè)子任務(wù)的初始狀態(tài)分布與前一個(gè)子任務(wù)的最終狀態(tài)分布相匹配。
這樣得到的控制策略可以按照虛擬人與衣服的交互率實(shí)現(xiàn)按順序應(yīng)用。在通過子任務(wù)完成標(biāo)準(zhǔn)的狀態(tài)機(jī)的轉(zhuǎn)換下,產(chǎn)生多種成功的穿衣動(dòng)作。
排序控制策略
由于每個(gè)子任務(wù)都是作為一個(gè)單獨(dú)的穿衣過程而制定的,因此在轉(zhuǎn)換點(diǎn)上直接執(zhí)行策略往往會(huì)失敗。 我們引入了一種策略排序算法,可確保不同策略之間的成功轉(zhuǎn)換,從而實(shí)現(xiàn)按需要延長(zhǎng)序列的任務(wù)。該算法主要由兩個(gè)通道組成,在算法1偽代碼中表示。
策略排序算法示意
部分插入衣服(藍(lán)色圓柱體)的手臂相關(guān)計(jì)算的可視化呈現(xiàn)
虛擬人分別穿T恤、外套和醫(yī)院防護(hù)服的動(dòng)作示意圖
最終研究政策的效果評(píng)估,x軸表示時(shí)間步長(zhǎng)
在馬爾可夫決策過程(MDP)中的手臂伸進(jìn)和靜止姿態(tài)的誤差量度的比較
研究結(jié)論和未來(lái)前景
我們提出了一個(gè)系統(tǒng),通過使用強(qiáng)化學(xué)習(xí)和物理模擬,學(xué)習(xí)如何建立虛擬人物穿衣的動(dòng)畫。在將整個(gè)穿衣任務(wù)劃分為可管理控制的多個(gè)子任務(wù)后,系統(tǒng)會(huì)單獨(dú)學(xué)習(xí)每個(gè)子任務(wù),將這些任務(wù)與狀態(tài)機(jī)連接,并將每個(gè)子任務(wù)的輸入狀態(tài)分布與先前子任務(wù)的輸出分布相匹配。
我們發(fā)現(xiàn),仔細(xì)選擇對(duì)布料觀察結(jié)果和獎(jiǎng)勵(lì)函數(shù),對(duì)于這種策略的成功非常重要。我們的方法的結(jié)果不僅僅是穿衣序列,而是一個(gè)可以在各種初始條件下實(shí)現(xiàn)成功穿衣的控制器。
盡管該系統(tǒng)在幾個(gè)穿衣任務(wù)上取得了成功,但仍有改進(jìn)的余地。我們的系統(tǒng)目前執(zhí)行的上半身的穿衣任務(wù),要想將穿衣任務(wù)擴(kuò)展至下半身,需要將平衡機(jī)制納入控制器。
雖然我們建立的衣服觀察空間足以完成所展示的任務(wù),但是看看是否可以訓(xùn)練端對(duì)端控制器,利用模擬視覺來(lái)確定衣服的狀態(tài)也是很有趣的事情。
我們的基于觸覺的觀察有助于跨越模擬效率和表示能力之間的鴻溝,但更完整的人體觸覺感知模型可能用于各種應(yīng)用。
最后,使用具有存儲(chǔ)器的控制策略體系結(jié)構(gòu),可以減少必要子任務(wù)的數(shù)量,并將已學(xué)會(huì)的技能實(shí)現(xiàn)更大程度的推廣。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28103瀏覽量
205852 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
265瀏覽量
11197 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1250瀏覽量
24202
原文標(biāo)題:SIGGRAPH2018論文:深度強(qiáng)化學(xué)習(xí)教機(jī)器人自己穿衣服!(附視頻)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論