护士交换配乱吟粗大交换配,国产乱妇乱子在线视频

導(dǎo) 讀

本文是國際機(jī)器人和自動化頂級會議 ICRA 2023入選論文 RLAfford：End-to-end Affordance Learning for Robotic Manipulation 的解讀。這項研究通過使用強(qiáng)化學(xué)習(xí)訓(xùn)練過程中產(chǎn)生的接觸信息來預(yù)測物體可操作性信息，更好地實現(xiàn)機(jī)器人***任務(wù)，并對各種算法以及環(huán)境具有即插即用的能力。

研究背景

隨著生活逐漸智能化，通過機(jī)器人與物體交互變得越來越重要。如何讓機(jī)器人學(xué)會***不同形狀的物體并且學(xué)會穩(wěn)定有效的交互策略成為了當(dāng)前的研究熱點。近年來，強(qiáng)化學(xué)習(xí)（RL）為這一問題提供了解決方案。然而，在互動環(huán)境中學(xué)習(xí)***不同形狀、不同結(jié)構(gòu)、不同功能的三維物體一直是強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。特別是，我們往往很難訓(xùn)練出一個能夠處理不同語義類別、不同幾何形狀和多樣功能的物體的策略。

最近，視覺可操作性（Visual Affordance）學(xué)習(xí)技術(shù)在提供以物體為中心的信息先驗和有效的可操作語義方面展現(xiàn)出巨大的潛力。例如，一個理想的策略可以通過了解到把手的可操作性來打開一扇門。然而，學(xué)習(xí)視覺可操作性往往需要人類定義的原子動作（抓、握、推、拉等動作），這限制了適用任務(wù)的范圍。

在本文中，我們提出了 RLAfford。在研究中，我們抓住了智能體與世界交互的最本質(zhì)信息：接觸點信息，來預(yù)測 RL 系統(tǒng)感興趣的物體上的接觸位置（也即物體的可操作性），預(yù)測的信息又反過來指導(dǎo) RL 進(jìn)一步訓(xùn)練。這樣的接觸預(yù)測系統(tǒng)實現(xiàn)了端到端（End-to-end）的 Visual Affordance 學(xué)習(xí)框架，它可以廣泛地適用于不同類型的***任務(wù)中。

令人興奮的是，我們的框架甚至在多階段（Multi-stage）和多智能體（Multi-agent）的任務(wù)中也能保持有效性。我們在八種類型的***任務(wù)上測試了我們的方法。結(jié)果顯示，我們的方法在成功率上遠(yuǎn)遠(yuǎn)超過了基線（Baseline）算法，同時，我們的方法成功地在現(xiàn)實世界中成功完成了這八種***任務(wù)。部分VisualAffordance 學(xué)習(xí)結(jié)果如圖1所示。

圖1. 輸入一個物體的點云信息，我們利用 RL 交互過程中的接觸信息來預(yù)測以物體為中心的可操作性信息。圖中顏色越深意味著可操作性越強(qiáng)?？梢钥闯?，這樣的信息對于完成物體操作非常有意義。

方法

圖2. 框架結(jié)構(gòu)。

如圖2所示，我們的方案包含兩個主要模塊。其中 1）操作模塊（Manipulation Module）生成交互軌跡，2）視覺可操作性模塊（Visual Affordance Module）用來學(xué)習(xí)生成基于實時點云的可操作性信息（Affordance）。接觸預(yù)測器（Contact Predictor）在兩個模塊***享，作為它們之間的橋梁。

操作模塊使用接觸預(yù)測器的預(yù)測結(jié)果作為輸入觀察的一部分，同時預(yù)測的最大值點參與操作模塊的獎勵函數(shù)計算（MPR），以激勵 RL 算法去探索最感興趣的點附近的區(qū)域；

操作模塊通過收集交互中的碰撞信息實時生成動態(tài)的 Visual Affordance 學(xué)習(xí)目標(biāo)（Dynamic Ground Truth）來訓(xùn)練視覺可操作性模塊。

具體算法結(jié)構(gòu)如圖3所示。

圖3. 算法結(jié)構(gòu)。

實驗

圖4. 頂部：模擬器中的任務(wù)設(shè)置。中間：在端到端訓(xùn)練期間，Visual Affordance Map 的變化以及部分 Visual Affordance 學(xué)習(xí)結(jié)果。底部：真實世界實驗示意圖。

如圖4所示，我們設(shè)計了三種類型的***任務(wù)：單階段、多階段和多智能體。在所有的任務(wù)中，都要求一個或兩個機(jī)械臂來完成對不同物體的特定***任務(wù)。我們使用了 Isaac Gym 物理模擬器、PartNet-Mobility 數(shù)據(jù)集和 VAPO 數(shù)據(jù)集來完成虛擬環(huán)境的實驗。我們也利用了數(shù)字孿生方法在真實世界中完成了我們設(shè)計的任務(wù)。最終，我們進(jìn)行了一些消融實驗，實驗結(jié)果表明我們的方法在成功率上遠(yuǎn)遠(yuǎn)超過了基線算法，包括基于 Visual Affordance 的方法和 RL 方法。

總結(jié)

據(jù)我們所知，這是第一項將 Visual Affordance 與 RL 完成端到端的結(jié)合的工作。在 RL 訓(xùn)練中，VisualAffordance可以通過提供額外的觀測和獎勵信號來提高策略學(xué)習(xí)的效果。我們的框架通過 RL 訓(xùn)練自動學(xué)習(xí)VisualAffordance語義，而不需要額外的演示或人工標(biāo)注。我們方法的簡單性、比所有基線更出色的性能以及廣泛靈活的適用場景，證明了我們的方案的有效性以及對各種算法、環(huán)境具有即插即用的能力，同時也為解決更多復(fù)雜任務(wù)打開了一種新的思路。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴