7月28日,谷歌DeepMind推出了一款新的機器人模型Robotics Transformer 2(RT-2)。
這是一個全新的視覺-語言-動作(VLA)模型,從網(wǎng)絡(luò)和機器人數(shù)據(jù)中學(xué)習(xí),并將這些知識轉(zhuǎn)化為機器人控制的通用指令。
高容量視覺-語言模型(VLMs)在web-scale數(shù)據(jù)集上訓(xùn)練,使得這些系統(tǒng)非常擅長識別視覺或語言模式并跨不同語言進行操作。但是,要使機器人達(dá)到類似的能力水平,需要收集每個物體、環(huán)境、任務(wù)和情況的第一手機器人數(shù)據(jù)。
在Google DeepMind的論文中介紹了Robotics Transformer 2(RT-2),一個全新的視覺-語言-動作(VLA)模型,它從網(wǎng)絡(luò)和機器人數(shù)據(jù)中學(xué)習(xí),并將這些知識轉(zhuǎn)化為機器人控制的通用指令,同時保留了web-scale能力。
?
一個在web-scale數(shù)據(jù)上進行預(yù)訓(xùn)練的視覺-語言模型(VLM)正在從RT-1的機器人數(shù)據(jù)中學(xué)習(xí),以成為可以控制機器人的視覺-語言-動作(VLA)模型,RT-2。
這項工作建立在Robotic Transformer 1(RT-1)的基礎(chǔ)上。RT-1是一個經(jīng)過多任務(wù)演示訓(xùn)練的模型,可以學(xué)習(xí)機器人數(shù)據(jù)中看到的任務(wù)和對象的組合。更具體地說,Google DeepMind的工作使用了在辦公室廚房環(huán)境中用13臺機器人在17個月的時間內(nèi)收集的RT-1機器人演示數(shù)據(jù)。
RT-2表現(xiàn)出了更好的泛化能力,超越了它所接觸到的機器人數(shù)據(jù)的語義和視覺理解,包括解釋新命令并通過執(zhí)行基本推理(例如關(guān)于對象類別或高級描述的推理)來響應(yīng)用戶命令。
Google DeepMind研究團隊還展示了將思維鏈推理納入RT-2中使其能夠進行多階段語義推理,例如決定哪種物體可以用作一把臨時錘子(石頭),或者哪種飲料最適合疲倦的人(能量飲料)。
1.采用視覺語言模型進行機器人控制
?
RT-2以視覺-語言模型(VLMs)為基礎(chǔ),將一個或多個圖像作為輸入,并生成一系列通常表示自然語言文本的標(biāo)記。此類VLMs已經(jīng)在大規(guī)模網(wǎng)絡(luò)的數(shù)據(jù)上成功訓(xùn)練,用于執(zhí)行視覺問答、圖像字幕或?qū)ο笞R別等任務(wù)。在Google DeepMind的工作中,將Pathways Language and Image model(PaLI-X)和 Pathways Language model Embodied(PaLM-E)作為RT-2的支柱。
要控制一個機器人,必須對其進行訓(xùn)練以輸出動作。Google DeepMind研究團隊通過將動作表示為模型輸出中的標(biāo)注(類似于語言標(biāo)記)來解決這一挑戰(zhàn),并將動作描述為可以由標(biāo)準(zhǔn)自然語言標(biāo)記化處理的字符串,如下所示:
在RT-2的訓(xùn)練中,動作字符串的表示方式。這種字符串的示例可以是機器人動作標(biāo)記編號的序列,例如:“1 128 91 241 5 101 127 217”。
該字符串以一個標(biāo)志開始,指示是繼續(xù),還是終止當(dāng)前情節(jié)不執(zhí)行后續(xù)命令,然后機器人根據(jù)指示更改末端執(zhí)行器的位置和旋轉(zhuǎn)以及機器人抓手所需伸展的命令。
Google DeepMind研究團隊使用與RT-1中相同的機器人動作離散版本,并表明將其轉(zhuǎn)換為字符串表示使得可以在機器人數(shù)據(jù)上訓(xùn)練VLM模型,因為此類模型的輸入和輸出空間無需改變。
?
RT-2的架構(gòu)和訓(xùn)練:對一個預(yù)訓(xùn)練的VLM模型在機器人和網(wǎng)絡(luò)數(shù)據(jù)上進行共同微調(diào)。生成的模型接收機器人攝像頭圖像并直接預(yù)測機器人要執(zhí)行的動作。
2.泛化和涌現(xiàn)能力
?
Google DeepMind研究團隊對RT-2模型進行了一系列定性和定量實驗,涵蓋了超過6000次機器人試驗。在探索RT-2的涌現(xiàn)能力時,首先尋找了需要將web-scale數(shù)據(jù)和機器人的經(jīng)驗相結(jié)合的任務(wù),然后定義了三類技能:符號理解、推理和人類識別。 ?
每個任務(wù)都需要理解視覺-語義概念,并具備執(zhí)行機器人控制以對這些概念進行操作的能力。例如,“拿起即將從桌子上掉下來的袋子”或“將香蕉移動到2加1的和”,要求機器人對機器人數(shù)據(jù)中從未見過的對象或場景上執(zhí)行操作任務(wù),這需要從網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化而來的知識進行操作。
機器人數(shù)據(jù)中不存在的涌現(xiàn)能力示例,需要從網(wǎng)絡(luò)預(yù)訓(xùn)練中進行知識轉(zhuǎn)移。
在所有類別中,與之前的基線相比(例如之前在大規(guī)模視覺數(shù)據(jù)集上預(yù)訓(xùn)練的RT-1模型和Visual Cortex(VC-1)等模型),RT-2的泛化性能提高到了3倍以上。
?
涌現(xiàn)能力評估的成功率:RT-2模型優(yōu)于之前的RT-1和VC-1基線。
Google DeepMind研究團隊還進行了一系列的定量評估,首先從最初的RT-1任務(wù)開始,這些任務(wù)在機器人數(shù)據(jù)中有示例,然后繼續(xù)進行對機器人來說之前從未見過的不同程度的對象、背景和環(huán)境的評估,要求機器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化能力。 ?
機器人以前未見過的環(huán)境示例,RT-2可以推廣到新的情況。
RT-2在機器人數(shù)據(jù)中保持了對原始任務(wù)的性能,并提高了機器人在之前未曾見過的情景上的性能,從RT-1的32%提高到62%,顯示了大規(guī)模預(yù)訓(xùn)練的顯著好處。 ?
此外,Google DeepMind研究團隊還觀察到與僅在視覺任務(wù)上預(yù)訓(xùn)練的基準(zhǔn)模型相比有顯著改進,例如VC-1和機器人操作的Reusable Representations for Robotic Manipulation(R3M),以及用VLM進行對象識別的算法,例如Manipulation of Open-World Objects(MOO)。 ?
RT-2在分布內(nèi)可見的任務(wù)上實現(xiàn)了高性能,在分布外不可見的任務(wù)上優(yōu)于多個基線。
在開源的“Language Table”機器人任務(wù)套件上評估模型,Google DeepMind研究團隊在模擬環(huán)境中取得了90%的成功率,明顯優(yōu)于以前的基線,包括BC-Z(72%)、RT-1(74%)和LAVA(77%)。 ?
然后研究團隊在真實世界中評估了相同的模型(因為它是在模擬和真實數(shù)據(jù)上進行訓(xùn)練的),并展示了它泛化到新物體的能力,如下所示,訓(xùn)練數(shù)據(jù)集中除藍(lán)色立方體外,沒有其他對象存在。 ?
RT-2在真實機器人Language Table任務(wù)中表現(xiàn)良好。在訓(xùn)練數(shù)據(jù)中,除了藍(lán)色立方體之外,沒有其他對象存在。
受到LLM中使用的思維鏈提示方法的啟發(fā),研究團隊對模型進行了探測,將機器人控制與思維鏈推理相結(jié)合,使得學(xué)習(xí)長期規(guī)劃和簡易技能可以在單個模型中實現(xiàn)。 ?
具體而言,研究團隊對RT-2的一個變體進行了幾百個梯度步驟的微調(diào),以增強其聯(lián)合使用語言和動作的能力。然后對數(shù)據(jù)進行擴充,加入一個額外的“計劃”步驟,首先用自然語言描述機器人即將采取的動作的目的,然后是“動作”和動作標(biāo)注。下面是一個這樣的推理示例和機器人的行為結(jié)果: ?
思維鏈推理可以學(xué)習(xí)一個獨立的模型,既可以規(guī)劃長期技能序列,又可以預(yù)測機器人的動作。 ?
通過這個過程,RT-2可以執(zhí)行更復(fù)雜的命令,需要推理完成用戶指令所需的中間步驟。得益于其VLM主干,RT-2可以從圖像和文本命令進行規(guī)劃,從而實現(xiàn)視覺基礎(chǔ)規(guī)劃,而當(dāng)前的計劃和執(zhí)行方法(如SayCan)無法看到真實世界,完全依賴于語言。 ? ? ?
3.推進機器人控制
?RT-2表明,視覺-語言模型(VLMs)可以轉(zhuǎn)變?yōu)閺姶蟮囊曈X-語言-動作(VLA)模型,通過將VLM預(yù)訓(xùn)練與機器人數(shù)據(jù)相結(jié)合,直接控制機器人。 ?
通過基于PaLM-E和PaLI-X的兩個VLA實例,RT-2導(dǎo)致了高度改進的機器人策略,并且更重要的是,它具有顯著更好的泛化性和涌現(xiàn)能力,這些能力繼承自web-scale的視覺-語言預(yù)訓(xùn)練。 ?
RT-2不僅是現(xiàn)有VLM模型簡單而有效的修改,而且顯示了構(gòu)建通用型物理機器人的前景,這種機器人可以進行推理、問題解決并解釋信息,以在真實世界中執(zhí)行各種任務(wù)。? ?
審核編輯:劉清
評論
查看更多