近日,兩個(gè)由 OpenAI 的研究人員開發(fā)的一模一樣的機(jī)械臂愛麗絲和鮑勃,可以在模擬情景中通過對(duì)弈互相學(xué)習(xí),而不需要人為輸入文本。
其中一個(gè)虛擬機(jī)械臂已經(jīng)學(xué)會(huì)解決各種不同的難題堆積木、擺放桌子、排列國際象棋棋子,并且每項(xiàng)任務(wù)不需要進(jìn)行再訓(xùn)練。這一切通過與另一個(gè)機(jī)械臂對(duì)弈得以實(shí)現(xiàn)。據(jù)了解,另一個(gè)機(jī)械臂經(jīng)過訓(xùn)練后,會(huì)給原本的機(jī)械臂臂帶來越來越難的挑戰(zhàn)。
這些機(jī)器人采用的是強(qiáng)化學(xué)習(xí)算法,即在不同情況下,通過試錯(cuò)來訓(xùn)練人工智能,并采取不同行動(dòng)來實(shí)現(xiàn)目標(biāo)。游戲包括在虛擬桌面上移動(dòng)物體。例如,通過以特定的方式排列物體,愛麗絲試圖設(shè)置對(duì)鮑勃來說很難解決的謎題,而鮑勃會(huì)試圖解決愛麗絲的謎題。隨著它們的學(xué)習(xí),愛麗絲會(huì)設(shè)置更復(fù)雜的謎題,而鮑勃也會(huì)越來越會(huì)解謎。
經(jīng)過愛麗絲設(shè)置的積木謎題的訓(xùn)練后,鮑勃便可以通用于一系列任務(wù),包括擺放桌子和排列象棋棋子。
通常在多重任務(wù)處理中,深度學(xué)習(xí)模型必須在任務(wù)間進(jìn)行再訓(xùn)練。例如,AlphaZero (一款棋類 AI,可以通過自我博弈來學(xué)習(xí))會(huì)使用單一算法教自己下國際象棋、將棋和圍棋但每次只能下一盤棋。例如,下國際象棋的時(shí) AlphaZero 不能下圍棋,下圍棋時(shí)的 AlphaZero 不能下將棋。因此,造出真正能同時(shí)處理多任務(wù)的機(jī)器,是走向更通用的人工智能道路上的一大未解難題。
訓(xùn)練 AI 同時(shí)執(zhí)行多重任務(wù)時(shí)會(huì)遇到一個(gè)問題,即需要大量的例子。OpenAI 則通過訓(xùn)練愛麗絲為鮑勃生成例子,用一個(gè) AI 訓(xùn)練另一個(gè) AI 來避免這個(gè)問題。經(jīng)過訓(xùn)練,愛麗絲學(xué)會(huì)了設(shè)定目標(biāo),比如建造一座積木塔,然后把它撿起來并加以平衡。鮑勃學(xué)會(huì)了利用虛擬環(huán)境的屬性,如通過摩擦力來抓取和旋轉(zhuǎn)物體。
截至目前,虛擬現(xiàn)實(shí)的訓(xùn)練只在虛擬環(huán)境中進(jìn)行,但 OpenAI 和其他機(jī)構(gòu)的研究人員正在將虛擬環(huán)境中訓(xùn)練的模型轉(zhuǎn)移到物理環(huán)境中,且越來越有起色。據(jù)悉,模擬環(huán)境可以讓 AI 在短時(shí)間內(nèi)處理大型數(shù)據(jù)集,然后研究人員會(huì)根據(jù)現(xiàn)實(shí)世界的環(huán)境再對(duì)其進(jìn)行微調(diào)。
該團(tuán)隊(duì)的研究人員表示,他們的最終目標(biāo)是訓(xùn)練這些機(jī)械臂去解決人類可能要求它做的任何任務(wù)。與 GPT-3 一樣(GPT-3 是一個(gè)能以各種不同方式使用語言的語言模型),這些機(jī)器人手臂是 OpenAI 打造多任務(wù)人工智能整體目標(biāo)的一部分,而使用一個(gè) AI 來訓(xùn)練另一個(gè) AI 也許是其中的關(guān)鍵所在。
責(zé)任編輯:YYX
-
AI
+關(guān)注
關(guān)注
87文章
28876瀏覽量
266218 -
機(jī)械臂
+關(guān)注
關(guān)注
12文章
502瀏覽量
24296 -
OpenAI
+關(guān)注
關(guān)注
9文章
988瀏覽量
6252
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論