導(dǎo) 讀
本文是國際機(jī)器人和自動化頂級會議 ICRA 2023入選論文 RLAfford:End-to-end Affordance Learning for Robotic Manipulation 的解讀。這項研究通過使用強(qiáng)化學(xué)習(xí)訓(xùn)練過程中產(chǎn)生的接觸信息來預(yù)測物體可操作性信息,更好地實現(xiàn)機(jī)器人***任務(wù),并對各種算法以及環(huán)境具有即插即用的能力。
01
研究背景
隨著生活逐漸智能化,通過機(jī)器人與物體交互變得越來越重要。如何讓機(jī)器人學(xué)會***不同形狀的物體并且學(xué)會穩(wěn)定有效的交互策略成為了當(dāng)前的研究熱點。近年來,強(qiáng)化學(xué)習(xí)(RL)為這一問題提供了解決方案。然而,在互動環(huán)境中學(xué)習(xí)***不同形狀、不同結(jié)構(gòu)、不同功能的三維物體一直是強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。特別是,我們往往很難訓(xùn)練出一個能夠處理不同語義類別、不同幾何形狀和多樣功能的物體的策略。
最近,視覺可操作性(Visual Affordance)學(xué)習(xí)技術(shù)在提供以物體為中心的信息先驗和有效的可操作語義方面展現(xiàn)出巨大的潛力。例如,一個理想的策略可以通過了解到把手的可操作性來打開一扇門。然而,學(xué)習(xí)視覺可操作性往往需要人類定義的原子動作(抓、握、推、拉等動作),這限制了適用任務(wù)的范圍。
在本文中,我們提出了 RLAfford。在研究中,我們抓住了智能體與世界交互的最本質(zhì)信息:接觸點信息,來預(yù)測 RL 系統(tǒng)感興趣的物體上的接觸位置(也即物體的可操作性),預(yù)測的信息又反過來指導(dǎo) RL 進(jìn)一步訓(xùn)練。這樣的接觸預(yù)測系統(tǒng)實現(xiàn)了端到端(End-to-end)的 Visual Affordance 學(xué)習(xí)框架,它可以廣泛地適用于不同類型的***任務(wù)中。
令人興奮的是,我們的框架甚至在多階段(Multi-stage)和多智能體(Multi-agent)的任務(wù)中也能保持有效性。我們在八種類型的***任務(wù)上測試了我們的方法。結(jié)果顯示,我們的方法在成功率上遠(yuǎn)遠(yuǎn)超過了基線(Baseline)算法,同時,我們的方法成功地在現(xiàn)實世界中成功完成了這八種***任務(wù)。部分VisualAffordance 學(xué)習(xí)結(jié)果如圖1所示。
圖1. 輸入一個物體的點云信息,我們利用 RL 交互過程中的接觸信息來預(yù)測以物體為中心的可操作性信息。圖中顏色越深意味著可操作性越強(qiáng)??梢钥闯?,這樣的信息對于完成物體操作非常有意義。
02
方 法
圖2. 框架結(jié)構(gòu)。
如圖2所示,我們的方案包含兩個主要模塊。其中 1)操作模塊(Manipulation Module)生成交互軌跡,2)視覺可操作性模塊(Visual Affordance Module)用來學(xué)習(xí)生成基于實時點云的可操作性信息(Affordance)。接觸預(yù)測器(Contact Predictor)在兩個模塊***享,作為它們之間的橋梁。
操作模塊使用接觸預(yù)測器的預(yù)測結(jié)果作為輸入觀察的一部分,同時預(yù)測的最大值點參與操作模塊的獎勵函數(shù)計算(MPR),以激勵 RL 算法去探索最感興趣的點附近的區(qū)域;
操作模塊通過收集交互中的碰撞信息實時生成動態(tài)的 Visual Affordance 學(xué)習(xí)目標(biāo)(Dynamic Ground Truth)來訓(xùn)練視覺可操作性模塊。
具體算法結(jié)構(gòu)如圖3所示。
圖3. 算法結(jié)構(gòu)。
03
實 驗
圖4. 頂部:模擬器中的任務(wù)設(shè)置。中間:在端到端訓(xùn)練期間,Visual Affordance Map 的變化以及部分 Visual Affordance 學(xué)習(xí)結(jié)果。底部:真實世界實驗示意圖。
如圖4所示,我們設(shè)計了三種類型的***任務(wù):單階段、多階段和多智能體。在所有的任務(wù)中,都要求一個或兩個機(jī)械臂來完成對不同物體的特定***任務(wù)。我們使用了 Isaac Gym 物理模擬器、PartNet-Mobility 數(shù)據(jù)集和 VAPO 數(shù)據(jù)集來完成虛擬環(huán)境的實驗。我們也利用了數(shù)字孿生方法在真實世界中完成了我們設(shè)計的任務(wù)。最終,我們進(jìn)行了一些消融實驗,實驗結(jié)果表明我們的方法在成功率上遠(yuǎn)遠(yuǎn)超過了基線算法,包括基于 Visual Affordance 的方法和 RL 方法。
04
總 結(jié)
據(jù)我們所知,這是第一項將 Visual Affordance 與 RL 完成端到端的結(jié)合的工作。在 RL 訓(xùn)練中,VisualAffordance可以通過提供額外的觀測和獎勵信號來提高策略學(xué)習(xí)的效果。我們的框架通過 RL 訓(xùn)練自動學(xué)習(xí)VisualAffordance語義,而不需要額外的演示或人工標(biāo)注。我們方法的簡單性、比所有基線更出色的性能以及廣泛靈活的適用場景,證明了我們的方案的有效性以及對各種算法、環(huán)境具有即插即用的能力,同時也為解決更多復(fù)雜任務(wù)打開了一種新的思路。
審核編輯:劉清
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28127瀏覽量
205889 -
模擬器
+關(guān)注
關(guān)注
2文章
863瀏覽量
43132 -
MPR
+關(guān)注
關(guān)注
0文章
6瀏覽量
8704
原文標(biāo)題:ICRA 2023 | RLAfford:基于端到端可操作性學(xué)習(xí)的機(jī)器人操縱框架
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論