機(jī)器人緊緊地抓住門把手,或者把塑料香蕉投進(jìn)碗中,亦或是用力在金屬箱附近推動樂高積木......
如果您參觀過加州大學(xué)伯克利分校 Sergey Levine 教授的實(shí)驗(yàn)室,您可能會看到這樣一些場景。
Sergey Levine 的機(jī)器人實(shí)驗(yàn)室也許有一天會成為機(jī)器人的“游樂場”。
機(jī)器人為什么會玩耍?因?yàn)橹腔劬腕w現(xiàn)在生物通過戳東西、推動物體和觀察發(fā)生的事情來了解自己的物理環(huán)境。
Levine 解釋說:“證明智慧存在的唯一證據(jù)是在人類身上,而人類存在于物質(zhì)世界中,是具體化的。事實(shí)上,我們所知道的所有智慧生物都是具體化的。也許他們不必如此,但我們并不知道例外情況?!?/p>
因此,更廣泛地講,“我認(rèn)為機(jī)器人實(shí)際上是人工智能的一個透視鏡”,他說道。
機(jī)器訓(xùn)練也應(yīng)遵循“達(dá)爾文進(jìn)化論”
Levine 認(rèn)為,多年來,人們從機(jī)器人技術(shù)上得到的重大收獲之一便是,它證實(shí)了“莫拉維克悖論”(Moravec's paradox)。
卡內(nèi)基梅隆大學(xué)機(jī)器人學(xué)教授 Hans Moravec 在其 1988 年出版的《智力后裔:機(jī)器人和人類智能的未來》(Mind Children: The Future of Robot and Human Intelligence) 一書中談到了 AI 的二分法。
機(jī)器可以被教會做“人類覺得困難的事情”,比如對戰(zhàn)一局國際象棋。但機(jī)器在“對我們來說輕而易舉的事情”上做得卻不盡人意,比如基本的運(yùn)動技能。
Levine 表示:“如果您想讓一臺機(jī)器下國際象棋,這實(shí)際上會相對容易些。但如果您想要一臺機(jī)器來拾起棋子,卻難于上青天?!?/p>
Moravec 把這種二分法看成是一條可制造智能機(jī)器的“重大線索”。他主張遵循達(dá)爾文進(jìn)化論的路線來構(gòu)建智能。也就是說,先從基本的感覺運(yùn)動系統(tǒng)逐步發(fā)展,自下而上,然后才是更高的推理能力。
缺乏機(jī)器學(xué)習(xí)的現(xiàn)成數(shù)據(jù)
有人要喝咖啡嗎?教機(jī)器學(xué)習(xí)可以創(chuàng)造能夠與人類一起生活和工作的機(jī)器人。
與網(wǎng)上無數(shù)的貓圖片不同,目前還沒有可供機(jī)器人學(xué)習(xí)的現(xiàn)成數(shù)據(jù)。因此,他的實(shí)驗(yàn)室專注于讓機(jī)器“連續(xù)幾周探索環(huán)境,自主地推動物體、操控物體,然后了解所處的世界”。
Levine 使用各種機(jī)器學(xué)習(xí)技術(shù)來訓(xùn)練機(jī)器人,包括 CNN,尤其使用了增強(qiáng)學(xué)習(xí),即通過從當(dāng)前狀態(tài)推斷到目標(biāo)狀態(tài)來規(guī)劃抵達(dá)目的地的路徑。然后,機(jī)器人在測試時使用該策略來執(zhí)行這些任務(wù)的新實(shí)例。
在訓(xùn)練階段,玩物體游戲是“無人監(jiān)督的”。目前人類尚未設(shè)計(jì)出機(jī)器人在執(zhí)行任務(wù)時應(yīng)該做出的精確動作,甚至也未指定目標(biāo)。
神經(jīng)網(wǎng)絡(luò)確定了機(jī)器人應(yīng)該實(shí)現(xiàn)的目標(biāo),然后確定了用于實(shí)現(xiàn)該目標(biāo)的策略,包括機(jī)器人肢體的運(yùn)動角度。
“學(xué)會學(xué)習(xí)”
場外訓(xùn)練利用了 NVIDIA GPU 集群。在測試期間,每個機(jī)器人都連接一個 GPU,用于運(yùn)行已學(xué)習(xí)到的策略。在一些更具挑戰(zhàn)性的測試中(例如通過觀看一段人類的視頻演示來學(xué)習(xí)一項(xiàng)新策略),每臺機(jī)器都連接了功能更強(qiáng)大的NVIDIA DGX-1。
Levine 表示,GPU 計(jì)算能力為 AI 帶來兩大好處。通過加速訓(xùn)練,它“允許我們更快地進(jìn)行科研工作?!逼浯危谕评磉^程中,GPU 的強(qiáng)大功能可以實(shí)時做出反應(yīng),這對“機(jī)器人來說至關(guān)重要”。
“當(dāng)機(jī)器人真正處于物質(zhì)世界中時,如果它正在運(yùn)動,例如閉門飛行,”類似無人機(jī)的情況,“它需要在撞到門之前弄清楚門是關(guān)著的?!?/p>
Levine 團(tuán)隊(duì)在增強(qiáng)學(xué)習(xí)方面的工作變得越發(fā)復(fù)雜。其中之一便是,教會機(jī)器人在測試時執(zhí)行任務(wù),就像它在訓(xùn)練中學(xué)到的那樣。更具挑戰(zhàn)性的是,讓機(jī)器人學(xué)習(xí)能夠解決新奇任務(wù)的策略。Levine 稱,機(jī)器正在“學(xué)會學(xué)習(xí)”。
后者稱為元學(xué)習(xí)(meta-learning),是他實(shí)驗(yàn)室日益關(guān)注的焦點(diǎn)。在近期發(fā)表的一篇名為《復(fù)合視覺運(yùn)動任務(wù)的一次性分層模仿學(xué)習(xí)》(One-shot Hierarchical Imitation Learning of Compound Visuomotor Tasks) 的論文中,機(jī)器人首先觀察人類演示一個簡單的“原始”任務(wù),比如將物體扔進(jìn)碗中。它制定了一項(xiàng)策略來模仿該動作。
在測試時,機(jī)器人將從事一項(xiàng)“復(fù)合”任務(wù),比如將物體扔進(jìn)碗中,然后沿著桌子移動碗。機(jī)器人利用其先前處理簡單任務(wù)掌握的經(jīng)驗(yàn),形成一“系列”策略,并借此來連續(xù)執(zhí)行動作。
伯克利人工智能研究實(shí)驗(yàn)室也參與了我們的 NVIDIA AI 實(shí)驗(yàn)室計(jì)劃。
Levine 的機(jī)器人僅在看到人類演示一次復(fù)合任務(wù)后,就能夠模仿人類所演示的任務(wù),這就是所謂的“一次性”學(xué)習(xí)。
機(jī)器人的成長
Levine 非常留意對 AI 持懷疑態(tài)度的人,比如紐約大學(xué)教授 Gary Marcus。Levine同意 Marcus 的觀點(diǎn),即今天的深度學(xué)習(xí)并不會帶來更高的推理能力。
形成更高的推理能力可能是機(jī)器人生命周期中的一個過程,而不是單個神經(jīng)網(wǎng)絡(luò)。
他說:“我認(rèn)為,如果未來機(jī)器人也能像我們一樣擁有童年,那將是一件了不起的事情。”這樣,機(jī)器人會通過各種發(fā)育階段來取得進(jìn)步。
Levine 若有所思地說,在最終的成年期,機(jī)器人的心智將會繼續(xù)發(fā)展。
“如果你有個機(jī)器人須執(zhí)行某種任務(wù),比如進(jìn)行施工。在停歇時,這個機(jī)器人不會只是坐在小房間里收拾塵土,實(shí)際上,它做事情的方式會和人類一樣?!?/p>
回歸現(xiàn)實(shí)
要使機(jī)器人能自行發(fā)育,我們還需從事大量的系統(tǒng)工程工作,并將其與深度學(xué)習(xí)相結(jié)合。但 Levine 相信,“在未來五年左右的時間里,我們將看到這些事情成為現(xiàn)實(shí)。”
“它可能從工業(yè)機(jī)器人開始,比如倉庫、雜貨店的機(jī)器人。但我認(rèn)為我們會在日常生活中看到越來越多的機(jī)器人?!?/p>
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
28103瀏覽量
205852 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106
原文標(biāo)題:加州大學(xué)AI實(shí)驗(yàn)室讓機(jī)器人擁有“童年”,“學(xué)會”學(xué)習(xí)
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論