您印象中的機(jī)器人還僅僅是按照代碼指令完成任務(wù)嗎?其實(shí),通過觀察人類行為來進(jìn)行操作才是機(jī)器人的未來趨勢。
圖片由斯坦福視覺和學(xué)習(xí)實(shí)驗(yàn)室提供
在前不久的GPU技術(shù)大會上,來自斯坦福大學(xué)的Animesh Garg和Marynel Vázquez在主題為《機(jī)器人移動和操控的通用性自主能力》的演講中分享了他們的研究成果。
通俗來講,通用性自主能力是指機(jī)器人可以觀察、學(xué)習(xí)并模仿人類行為,進(jìn)而在各種任務(wù)和情況中加以應(yīng)用。例如,通過觀看YouTube視頻學(xué)習(xí)烹飪,或者找到走出一間擁擠房間的方法。
Cooking 101
Garg是斯坦福視覺和學(xué)習(xí)實(shí)驗(yàn)室(CVGL)的博士后研究員。他熱衷烹飪,還特別喜歡機(jī)器人。但是,他認(rèn)為如果未來的每臺機(jī)器人都只會做一道菜,就太無聊了。
目前,精通單個任務(wù)的機(jī)器人已經(jīng)很常見,但Garg 則致力于研究如何實(shí)現(xiàn)他自己的“通用型機(jī)器人夢想”。
實(shí)現(xiàn)這個夢想的途徑可能就在于神經(jīng)任務(wù)編程 (NTP),這是一種新的元學(xué)習(xí)方法。NTP利用層次化結(jié)構(gòu),并學(xué)習(xí)使用模塊化機(jī)器人API進(jìn)行編程,從而僅通過一個測試示例即可執(zhí)行隱藏任務(wù)。
例如,機(jī)器人廚師會將烹飪視頻輸入到它的系統(tǒng)里,然后使用分層式神經(jīng)程序?qū)⒁曨l數(shù)據(jù)分解成Garg所說的基于視覺線索和時間序列的結(jié)構(gòu)化任務(wù)表達(dá)式。
機(jī)器人并非只學(xué)習(xí)制作肉丸意大利面的單一菜譜,而是會了解組成該任務(wù)的所有子程序或組件。如此一來,這位嶄露頭角的機(jī)器人廚師便可以在其他場景中展示其燒水、油炸肉丸和煨醬汁等烹飪技能。
解決任務(wù)域(而非任務(wù)實(shí)例)是Garg所謂的元學(xué)習(xí)的關(guān)鍵所在。NTP已經(jīng)取得了一些令人鼓舞的成果,其結(jié)構(gòu)化的分層式方法在處理隱藏任務(wù)時比扁平化編程表現(xiàn)優(yōu)越。此外,在處理可見任務(wù)時NTP也同樣出色。
感到太擁擠了?跟著機(jī)器人走吧
我們都經(jīng)歷過這樣的情況。您嘗試穿過擁擠的房間,然后突然發(fā)現(xiàn)自己撞到了迎面走來的陌生人。
您向右移動以繞開他,但他也向右,并且仍然擋著路。出于本能,你們都移動到另一個方向,然后又撞到了!
為了打破尷尬的場面,你們中的一個人開玩笑說“我們來跳個舞吧!”終于,你們越過彼此繼續(xù)前進(jìn)。
在一個擁擠的空間中行走時,理解人們?nèi)绾我约盀楹伟凑漳撤N方式移動十分重要。教會機(jī)器人理解這些規(guī)則是非常艱巨的任務(wù)。下面,我們來認(rèn)識下Vázquez和CVGL的機(jī)器人Jackrabbot 。
Jackrabbot在2015年首次踏上人行道,以低于每小時五英里的行人速度進(jìn)行小批量運(yùn)送。正如Vázquez所解釋的那樣,Jackrabbot(得名于他校園中頻繁出現(xiàn)的野生動物的名字)是用于解決在人群中預(yù)測人體運(yùn)動這一復(fù)雜問題的工具。
讓自動駕駛車輛學(xué)會在非結(jié)構(gòu)化空間(比如真實(shí)世界)中行駛是一個涉及多方面因素的問題?!鞍踩堑谝灰獎?wù),”Vázquez 說。
為了解決安全問題,他們開始利用深度學(xué)習(xí)開發(fā)了一種生成式對抗網(wǎng)絡(luò) (GAN),將JackRabbot相機(jī)捕獲的實(shí)時數(shù)據(jù)與GAN即時生成的圖像進(jìn)行比較。
這些圖像代表如果一個區(qū)域可以安全通過,機(jī)器人所應(yīng)該看到的內(nèi)容,例如走廊上沒有關(guān)閉的門、被丟棄的家具或站在路上的行人。如果現(xiàn)實(shí)情形滿足這些理想條件,JackRabbot就會繼續(xù)行走。否則,它就會進(jìn)行緊急制動。
然后,這支團(tuán)隊(duì)轉(zhuǎn)向了多目標(biāo)任務(wù),即“追蹤無法追蹤的行人”。在人群中優(yōu)雅地穿梭不僅需要迅速判斷“我的路線是否清晰?”,還要追蹤朝不同方向移動的多人的行動路線,并預(yù)測他們接下來的目的地。
在這里,該團(tuán)隊(duì)使用長短期記憶方法構(gòu)建了一個遞歸神經(jīng)網(wǎng)絡(luò),以解釋隨時間測量的多個線索,包括外觀、速度、相互作用和相似性等。
一篇已發(fā)表的研究論文已經(jīng)深入探討了這些技術(shù)細(xì)節(jié)。但實(shí)際上,CVGL設(shè)計了一種新穎的方法,可以學(xué)習(xí)人們在擁擠空間的常識行為,然后利用這種理解來預(yù)測每個人接下來可能前往的“軌跡”。
因此,如果下一次您發(fā)現(xiàn)自己在一個滿是陌生人的房間中即將遭遇“我們來跳個舞吧!”的尷尬時刻,請記得花點(diǎn)時間去探尋規(guī)律,將每個人的運(yùn)動軌跡記憶在腦海之中。
當(dāng)然您也可以采取捷徑——找一個JackRabbot,讓它為您指路。近期,配備雙路NVIDIA GPU的JackRabbot 2.0已經(jīng)發(fā)布。
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28103瀏覽量
205852 -
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128593
原文標(biāo)題:“看”到做到,機(jī)器人如何通過觀察人類行為進(jìn)行學(xué)習(xí)?
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論