人們非常擅長操作物體,而無需將視角調(diào)整到某一固定或特定位置。這種能力(稱為視覺動作整合)在孩童時期通過在各種情境中操作物體而習得,并由一種利用豐富的感官信號和視覺作為反饋的自適應糾錯機制控制。不過,對于機器人技術(shù)中基于視覺的控制器而言,想要具備這種能力卻十分困難。
直到現(xiàn)在,這種控制器都基于一種用于從固定安裝式攝像頭讀取視覺輸入數(shù)據(jù)的固定裝置,訓練和測試過程中不能移動或重新調(diào)整攝像頭的位置。在視角大幅變化的情況下快速獲取視覺運動控制技能的能力將對自主機器人系統(tǒng)產(chǎn)生重大影響。例如,這種能力對于參與緊急情況或災區(qū)救援工作的機器人來說尤其必要。
在本周的 CVPR 2018 大會上,我們提交了名為“Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control”的論文。在這篇論文中,我們研究了一種新型深度網(wǎng)絡架構(gòu)(由兩個完全卷積網(wǎng)絡和一個長短期記憶單元組成),該架構(gòu)可以從過去的動作和觀察結(jié)果學習以進行自校準。我們的視覺適應網(wǎng)絡利用由演示軌跡和強化學習目標組成的各種模擬數(shù)據(jù),能夠從各種視角控制機械臂到達各種視覺指示目標,并且不依賴于攝像頭校準。
用物理機械臂到達視覺指示目標的視角不變操作
我們學習了一種策略,可以通過從截然不同的攝像頭視角捕獲的感官輸入到達不同的目標
第一行所示為視覺指示目標
挑戰(zhàn)
通過從未知視角捕獲的單一圖像分析可控自由程度(DoF) 對視覺運動的影響可能不夠明確和具體。確定動作對圖像-空間運動的影響并成功執(zhí)行所需的任務需要一個具備對過去動作的記憶能力的強大感知系統(tǒng)。要解決這一具有挑戰(zhàn)性的問題,我們必須解決以下基本問題:
? 如何提供適當?shù)慕?jīng)驗,讓機器人在模擬終身學習范式的純視覺觀察的基礎(chǔ)上學習自適應行為?
? 如何設(shè)計一個集強大感知和自適應控制于一體并能夠快速轉(zhuǎn)移到未知環(huán)境的模型?
為此,我們設(shè)計了一個新的操作任務,為一個七自由度機械臂提供一種物體的圖像,并指示它在一系列干擾物中拿到特定的目標物體,同時每一次試驗的視角會發(fā)生巨大變化。通過這種方式,我們能夠模擬復雜行為的學習以及向未知環(huán)境的轉(zhuǎn)移。
用物理機械臂和各種攝像頭視角完成到達視覺指示目標的任務
利用模擬學習復雜行為
收集機器人經(jīng)驗數(shù)據(jù)費時費力。在之前的博文中,我們展示了如何通過將數(shù)據(jù)收集和試驗分配給多個機器人來擴展學習技能。盡管這種方法加快了學習速度,但學習視覺自校準等復雜行為仍然不可行,學習復雜行為時需要我們將機器人置于包含各種視角的大型空間中。
因此,我們選擇在模擬中學習此類復雜行為,我們可以收集無限的機器人試驗數(shù)據(jù),并輕松將攝像頭移到各個隨機視角。除了在模擬中快速收集數(shù)據(jù)外,我們還可以擺脫在機器人周圍安裝多個攝像頭的硬件限制。
我們在模擬中使用域隨機化技術(shù)來學習可泛化的策略。
為了學習要向未知環(huán)境轉(zhuǎn)移的強大視覺特征,我們使用了Sadeghi & Levine在 2017 年提出的一項稱為“域隨機化”(又名“模擬隨機化”)的技術(shù),使機器人能夠完全在模擬中學習基于視覺的策略,從而可以泛化到現(xiàn)實世界。這項技術(shù)已被證明適用于各種機器人任務,例如室內(nèi)導航、物體定位以及挑選和放置等。此外,為了學習自校準等復雜行為,我們利用模擬功能來生成合成演示并結(jié)合強化學習目標來學習強大的機械臂控制器。
用模擬的七自由度機械臂到達視覺指示目標的視角不變操作
我們學習了一種策略,可以通過從截然不同的攝像頭視角捕獲的感官輸入到達不同的目標
將感知與控制分離
為了能夠快速轉(zhuǎn)移到未知環(huán)境中,我們設(shè)計了一個深度神經(jīng)網(wǎng)絡,將感知和控制相結(jié)合,并同時進行端到端訓練,且在必要情況下允許二者分別進行學習。將感知與控制分離讓轉(zhuǎn)移到未知環(huán)境變得容易,并且使得模型既靈活又高效,因為它的每個部分(即“感知”或“控制”)可以使用少量數(shù)據(jù)單獨適應新環(huán)境。
另外,雖然網(wǎng)絡的控制部分完全使用模擬數(shù)據(jù)訓練,但網(wǎng)絡的感知部分通過用物體邊界框收集少量靜態(tài)圖像來補充,而不需要用物理機器人收集整個動作序列軌跡。在實踐中,我們只用了來自 22 個圖像的 76 個物體邊界框來微調(diào)網(wǎng)絡的感知部分。
現(xiàn)實世界的機器人和移動攝像頭設(shè)置第一行所示為場景布置,第二行為機器人的視覺感官輸入
早期結(jié)果
我們在物理機器人和真實物體上測試了視覺適應版本的網(wǎng)絡,這些物體的外觀與模擬中使用的完全不同。在實驗中,桌子上會出現(xiàn)一個或兩個物體 -“見過的物體”(如下圖所示)用于視覺適應,實驗中使用的是小型靜態(tài)真實圖像集。在視覺適應期間沒有看到“未見過的物體”。在測試過程中,指示機械臂從各個視角到達視覺指示物體。對于雙物體實驗,第二個物體用于“迷惑”機械臂。由于純模擬網(wǎng)絡具有良好的泛化能力(因為它是使用域隨機化技術(shù)進行訓練的),加上我們的網(wǎng)絡架構(gòu)非常靈活,因此,雖然實驗中僅收集了非常少量的靜態(tài)視覺數(shù)據(jù)用于視覺適應,控制器的表現(xiàn)仍然有了很大提升。
在使用少量真實圖像進行視覺特征適應后,性能提高了10% 以上。使用的所有真實物體都與模擬中看到的物體截然不同。
我們認為,學習在線視覺自適應是一個重要而又具有挑戰(zhàn)性的課題,其目標是學習可泛化策略,讓機器人能夠在多樣化、非結(jié)構(gòu)型現(xiàn)實世界中運行。我們的方法可以延伸到任何類型的自動自校準。
-
控制器
+關(guān)注
關(guān)注
112文章
16111瀏覽量
177088 -
機器人
+關(guān)注
關(guān)注
210文章
28109瀏覽量
205863
原文標題:教未校準的機器人實現(xiàn)視覺自適應
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論