由視覺輸入控制的機(jī)器人非常依賴于固定視角的攝像頭,這意味著它們難以在活動(dòng)的情況下精確完成任務(wù)。近日,谷歌研究人員提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和 LSTM 的新架構(gòu),可通過強(qiáng)化學(xué)習(xí)等方法在接收多個(gè)攝像頭、不同視角圖像輸入的情況下控制機(jī)械臂準(zhǔn)確完成任務(wù)。研究人員稱,新方法可以擴(kuò)展到任何類型的自動(dòng)自校準(zhǔn)任務(wù)上。
人們非常擅長(zhǎng)在不將視點(diǎn)調(diào)整到某一固定或特殊位置的情況下操縱物體。這種能力(我們稱之為「視覺動(dòng)作整合」)在孩童時(shí)期通過在多種情形中操縱物體而習(xí)得,并由一種利用豐富的感官信號(hào)和視覺作為反饋的自適應(yīng)糾錯(cuò)機(jī)制控制。然而,在機(jī)器人學(xué)中,基于視覺的控制器很難獲得這種能力,目前來看,這種控制器都基于一種用來從固定安裝的攝像頭讀取視覺輸入數(shù)據(jù)的固定裝置。在視點(diǎn)大幅變化的情況下快速獲取視覺運(yùn)動(dòng)控制技能的能力將對(duì)自動(dòng)機(jī)器人系統(tǒng)產(chǎn)生重大影響——例如,這種能力對(duì)于參與救援工作或在災(zāi)區(qū)作業(yè)的機(jī)器人來說尤其必要。
在 CVPR 2018 會(huì)議中,谷歌提交了一篇名為《Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control》的論文。在這篇論文中,谷歌研究了一種新的深度網(wǎng)絡(luò)架構(gòu)(包含兩個(gè)全卷積網(wǎng)絡(luò)和一個(gè)長(zhǎng)短期記憶單元),該架構(gòu)從過去的動(dòng)作和觀測(cè)結(jié)果中學(xué)習(xí)自我校準(zhǔn)。其視覺適應(yīng)網(wǎng)絡(luò)(visually-adaptive network)利用由演示軌跡和強(qiáng)化學(xué)習(xí)目標(biāo)組成的各種模擬數(shù)據(jù),能夠從各種視點(diǎn)控制機(jī)械臂到達(dá)視覺指示的各種目標(biāo),并且獨(dú)立于攝像機(jī)校準(zhǔn)。
用物理機(jī)械臂實(shí)現(xiàn)視覺指示目標(biāo)的視點(diǎn)不變操作。新方法學(xué)習(xí)了一種單一策略,通過從截然不同的攝像機(jī)視點(diǎn)捕獲的感官輸入來到達(dá)不同的目標(biāo)。第一行顯示了視覺指示的目標(biāo)。
挑戰(zhàn)
從未知視點(diǎn)捕獲的單一圖像中探索可控自由度(DoF)如何影響視覺運(yùn)動(dòng)可能不夠明確和具體。確定動(dòng)作對(duì)圖像-空間運(yùn)動(dòng)的影響并成功地執(zhí)行預(yù)期任務(wù)需要一個(gè)對(duì)過去動(dòng)作記憶的保持能力進(jìn)行增強(qiáng)的魯棒感知系統(tǒng)。要解決這個(gè)具有挑戰(zhàn)性的問題,必須解決以下基本問題:
●如何提供適當(dāng)?shù)慕?jīng)驗(yàn),讓機(jī)器人在模擬終身學(xué)習(xí)模式的純視覺觀察的基礎(chǔ)上學(xué)習(xí)自適應(yīng)行為?
●如何設(shè)計(jì)一個(gè)將魯棒感知和自適應(yīng)控制整合起來并能快速遷移到未見環(huán)境中的模型?
為了解決以上問題,研究人員設(shè)計(jì)了一種新的操縱任務(wù),給一個(gè)七自由度機(jī)械臂提供一個(gè)物體的圖像,并命令它在一系列干擾物中拿到特定的目標(biāo)物體,同時(shí)每一次嘗試的視點(diǎn)會(huì)發(fā)生劇烈變化。采用這種做法,研究人員能夠模擬復(fù)雜行為的學(xué)習(xí)以及向未知環(huán)境的遷移。
用物理機(jī)械臂和各種攝像機(jī)視點(diǎn)完成到達(dá)視覺指示目標(biāo)的任務(wù)。
利用模擬來學(xué)習(xí)復(fù)雜行為
收集機(jī)器人經(jīng)驗(yàn)數(shù)據(jù)費(fèi)時(shí)費(fèi)力。在過去的一篇博文中,谷歌展示了如何通過將數(shù)據(jù)收集和試驗(yàn)分配給多個(gè)機(jī)器人來擴(kuò)展學(xué)習(xí)技能。盡管該方法加快了學(xué)習(xí)進(jìn)度,但它仍然不適合擴(kuò)展到復(fù)雜行為的學(xué)習(xí)中(如視覺自校準(zhǔn)),后者需要將機(jī)器人置于一個(gè)包含各種視點(diǎn)的大型空間中。因此,研究人員選擇在模擬環(huán)境中學(xué)習(xí)此類復(fù)雜行為,在模擬中可以收集無限的機(jī)器人試驗(yàn)數(shù)據(jù),并輕松將攝像頭移動(dòng)到各個(gè)隨機(jī)視點(diǎn)。除了在模擬中快速收集數(shù)據(jù)之外,該方法還可以突破需要在機(jī)器人周圍安裝多個(gè)攝像機(jī)的硬件限制。
谷歌研究人員在模擬環(huán)境中使用域隨機(jī)化技術(shù)來學(xué)習(xí)可泛化的策略。
為了學(xué)習(xí)足以遷移到未知環(huán)境的視覺魯棒特征,研究人員使用了 Sadeghi 與 Levine 在 2017 年提出的域隨機(jī)化技術(shù)(即模擬隨機(jī)化),它可令機(jī)器人完全在模擬環(huán)境中學(xué)習(xí)基于視覺的策略,并可以推廣到現(xiàn)實(shí)世界。該技術(shù)在諸如室內(nèi)導(dǎo)航、物體定位、拾取和放置等多種機(jī)器人任務(wù)上效果良好。此外,為了學(xué)習(xí)像自校準(zhǔn)這樣的復(fù)雜行為,研究人員利用模擬能力生成合成示例,并結(jié)合強(qiáng)化學(xué)習(xí)目標(biāo)來學(xué)習(xí)魯棒的機(jī)械臂控制器。
使用模擬的 7 自由度機(jī)械臂實(shí)現(xiàn)視覺指示目標(biāo)的視點(diǎn)不變操作。新方法學(xué)習(xí)了一種單一策略,可以通過不同相機(jī)視角捕捉的感官輸入實(shí)現(xiàn)不同的目標(biāo)。
在控制中解構(gòu)感知
為了更快地將知識(shí)遷移到未知環(huán)境中,谷歌研究人員設(shè)計(jì)了一個(gè)深度神經(jīng)網(wǎng)絡(luò),將感知和控制相結(jié)合,并同時(shí)進(jìn)行端到端訓(xùn)練,且在必要情況下允許二者分別進(jìn)行訓(xùn)練。感知與控制之間的分離使遷移到未知環(huán)境的難度減小,也讓模型更加靈活和高效,因?yàn)槊總€(gè)部分(即「感知」和「控制」)都可以單獨(dú)適應(yīng)僅有少量數(shù)據(jù)的新環(huán)境。另外,雖然神經(jīng)網(wǎng)絡(luò)中的控制部分完全由模擬數(shù)據(jù)進(jìn)行訓(xùn)練,但感知部分經(jīng)過物體邊界框收集的少量靜態(tài)圖像補(bǔ)充了輸入,無需讓物理機(jī)器人收集完整的動(dòng)作序列軌跡。在實(shí)踐中,谷歌研究人員只用了來自 22 張圖像的 76 個(gè)對(duì)象邊界框來微調(diào)網(wǎng)絡(luò)的感知部分。
真實(shí)世界的機(jī)器人和移動(dòng)攝像頭設(shè)置。第一行展示了場(chǎng)景布置,第二行顯示了機(jī)器人接收到的視覺感官輸入。
早期結(jié)果
谷歌研究人員在物理機(jī)器人和真實(shí)物體上測(cè)試了視覺適應(yīng)版本的網(wǎng)絡(luò),這些物體的外形與模擬環(huán)境中使用的完全不同。在實(shí)驗(yàn)中,桌子上會(huì)出現(xiàn)一個(gè)或兩個(gè)物體:「見過的物體」(如下圖所示)用于視覺適應(yīng),實(shí)驗(yàn)中使用的是小型靜態(tài)真實(shí)圖像集。在視覺適應(yīng)期間不會(huì)看到「未見過的物體」。在測(cè)試中,機(jī)械臂被引導(dǎo)從各個(gè)視點(diǎn)到達(dá)視覺指示目標(biāo)物體。對(duì)于雙對(duì)象實(shí)驗(yàn),第二個(gè)對(duì)象用于讓機(jī)械臂產(chǎn)生「混淆」。因?yàn)榧兡M網(wǎng)絡(luò)具有良好的泛化能力(因?yàn)樗窃谟螂S機(jī)技術(shù)之上進(jìn)行訓(xùn)練的),模型的網(wǎng)絡(luò)架構(gòu)非常靈活,因此雖然實(shí)驗(yàn)中僅收集了非常少量的真實(shí)靜態(tài)視覺數(shù)據(jù)用于視覺適應(yīng),但控制器的表現(xiàn)仍然有了很大提升。
在視覺特征和少量真實(shí)圖像進(jìn)行適應(yīng)之后,模型性能提高了 10% 以上。其中所有用到的真實(shí)物體都與模擬中看到的截然不同。
谷歌研究人員認(rèn)為,學(xué)習(xí)在線視覺自適應(yīng)是一個(gè)重要而具有挑戰(zhàn)性的問題,這一方向的目標(biāo)是學(xué)習(xí)到可在多樣化和非結(jié)構(gòu)化的現(xiàn)實(shí)世界中運(yùn)行的機(jī)器人所需要的通用化策略。新方法可以擴(kuò)展到任何類型的自動(dòng)自我校準(zhǔn)上。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
27839瀏覽量
204605 -
谷歌
+關(guān)注
關(guān)注
27文章
6080瀏覽量
104371 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4717瀏覽量
100015
原文標(biāo)題:資訊 | 谷歌提出Sim2Real:讓機(jī)器人像人類一樣觀察世界
文章出處:【微信號(hào):SRA2009,微信公眾號(hào):深圳市機(jī)器人協(xié)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論