來(lái)源:Datawhale,作者:鄭程睿
最近,具身智能的概念很火。
不論是這幾天稚暉君開(kāi)源人形機(jī)器人全套圖紙+代碼,引發(fā)圈內(nèi)熱議。
還是各類具身智能產(chǎn)品,如李飛飛的 Voxposer、谷歌的 RT1 和 RT2、谷歌的 RTX、字節(jié)跳動(dòng)的 Robot Flamingo、斯坦福的 ACT 和卡耐基梅隆的 3D_diffuser_act,均在不同任務(wù)和場(chǎng)景中展示了強(qiáng)大的能力,并有潛力帶來(lái)革命性的變革。
那什么是具身智能呢?它又有什么用?
一文帶你了解。
本文拆分為上下兩篇,明天會(huì)更新下篇,聚焦人機(jī)交互、發(fā)展討論。
本文部分參考中國(guó)信息通信研究院和北京人形機(jī)器人創(chuàng)新有限公司的《具身智能發(fā)展報(bào)告》
具身智能基本概念
具身智能,即“具身+智能”,是將機(jī)器學(xué)習(xí)算法適配至物理實(shí)體,從而與物理世界交互的人工智能范式。以 ChatGPT 為代表的“軟件智能體”(或稱“離身智能體”)使用大模型通過(guò)網(wǎng)頁(yè)端、手機(jī) APP 與用戶進(jìn)行交互,能夠接受語(yǔ)音、文字、圖片、視頻的多種模態(tài)的用戶指令,從而實(shí)現(xiàn)感知環(huán)境、規(guī)劃、記憶以及工具調(diào)用,執(zhí)行復(fù)雜的任務(wù)。在這些基礎(chǔ)之上,具身智能體則將大模型嵌入到物理實(shí)體上,通過(guò)機(jī)器配備的傳感器與人類交流,強(qiáng)調(diào)智能體與物理環(huán)境之間的交互。
通俗一點(diǎn)講,就是要給人工智能這個(gè)聰明的“頭腦”裝上一副“身體”。這個(gè)“身體”可以是一部手機(jī),可以是一臺(tái)自動(dòng)駕駛汽車。
而人形機(jī)器人則是集各類核心尖端技術(shù)于一體的載體,是具身智能的代表產(chǎn)品。
具身智能的三要素:本體、智能、環(huán)境
具身智能的三要素:“本體”,即硬件載體;“智能”,即大模型、語(yǔ)音、圖像、控制、導(dǎo)航等算法;“環(huán)境”,即本體所交互的物理世界。本體、智能、環(huán)境的高度耦合才是高級(jí)智能的基礎(chǔ)。
不同環(huán)境下的會(huì)有不同形態(tài)的硬件本體以適應(yīng)環(huán)境。比如室內(nèi)平地更適用輪式機(jī)器人,崎嶇不平的地面更適用四足機(jī)器人(機(jī)器狗)。在具身智能體與環(huán)境的交互中,智能算法可以通過(guò)本體的傳感器以感知環(huán)境,做出決策以操控本體執(zhí)行動(dòng)作任務(wù),從而影響環(huán)境。在智能算法與環(huán)境的交互中還可以通過(guò)“交互學(xué)習(xí)”和擬人化思維去學(xué)習(xí)和適應(yīng)環(huán)境,從而實(shí)現(xiàn)智能的增長(zhǎng)。
具身智能的四個(gè)模塊:感知-決策-行動(dòng)-反饋
一個(gè)具身智能體的行動(dòng)可以分為“感知-決策-行動(dòng)-反饋”四個(gè)步驟,分別由四個(gè)模塊完成,并形成一個(gè)閉環(huán)。
感知模塊
感知模塊負(fù)責(zé)收集和處理信息,通過(guò)多種傳感器感知和理解環(huán)境。在機(jī)器人上,常見(jiàn)的傳感器有:
可見(jiàn)光相機(jī):負(fù)責(zé)收集彩色圖像。
紅外相機(jī):負(fù)責(zé)收集熱成像、溫度測(cè)量、夜視和透視。紅外相機(jī)能夠檢測(cè)物體發(fā)出的熱輻射,即使在完全黑暗的環(huán)境中也能生成圖像。這種能力使得紅外相機(jī)適用于夜視和熱成像。紅外相機(jī)可以測(cè)量物體表面的溫度,廣泛應(yīng)用于設(shè)備過(guò)熱檢測(cè)、能源審計(jì)和醫(yī)學(xué)成像等領(lǐng)域。某些紅外相機(jī)能夠穿透煙霧、霧氣和其他遮擋物,適用于應(yīng)急救援和安全監(jiān)控。
深度相機(jī):負(fù)責(zé)測(cè)量圖像中每個(gè)點(diǎn)與相機(jī)之間的距離,獲取場(chǎng)景的三維坐標(biāo)信息。
激光雷達(dá)(LiDAR):負(fù)責(zé)測(cè)量目標(biāo)物體的距離和速度。通過(guò)發(fā)射激光脈沖并接收反射回來(lái)的光來(lái)計(jì)算與物體的距離,生成高精度的三維點(diǎn)云數(shù)據(jù),廣泛應(yīng)用于自動(dòng)駕駛和機(jī)器人導(dǎo)航。
超聲波傳感器:負(fù)責(zé)避障。通過(guò)發(fā)射超聲波脈沖并接收這些脈沖的反射來(lái)確定機(jī)器人與障礙物之間的距離,判斷障礙物是否存在。
壓力傳感器:負(fù)責(zé)測(cè)量機(jī)器人手或腳部的壓力,用于行走和抓取力的控制以及避障。
麥克風(fēng):負(fù)責(zé)收音。
此外,根據(jù)不同應(yīng)用場(chǎng)景,還可以使用一些特定的傳感器實(shí)現(xiàn)特定功能。例如,電子鼻可以檢測(cè)氣體,應(yīng)用于防爆和環(huán)境監(jiān)測(cè)場(chǎng)景;濕度傳感器可以應(yīng)用于農(nóng)業(yè)機(jī)器人和室內(nèi)環(huán)境控制。環(huán)境理解在通過(guò)傳感器獲取環(huán)境信息后,機(jī)器人需要通過(guò)算法理解環(huán)境。在一些空間和場(chǎng)景相對(duì)穩(wěn)定可控的環(huán)境中,算法并不需要強(qiáng)泛化能力,因此只需要針對(duì)特定場(chǎng)景的模型。例如,可以使用YOLO進(jìn)行目標(biāo)檢測(cè),使用SLAM實(shí)現(xiàn)導(dǎo)航和定位。而對(duì)于多變和陌生的場(chǎng)景,算法需要強(qiáng)泛化能力,因此需要使用多模態(tài)大模型,將聲音、圖像、視頻、定位等多種環(huán)境信息融合并進(jìn)行判斷。后續(xù)章節(jié)將詳細(xì)討論這一點(diǎn)。
決策模塊(大模型)
決策模塊是整個(gè)具身智能系統(tǒng)的核心,它負(fù)責(zé)接收來(lái)自感知模塊的環(huán)境信息,進(jìn)行任務(wù)規(guī)劃和推理分析,以指導(dǎo)行動(dòng)模塊生成動(dòng)作。在早期的技術(shù)發(fā)展中,決策模塊主要依賴于人工編程的規(guī)則判斷和專用任務(wù)的算法設(shè)計(jì)。然而,這些定制化的算法很難應(yīng)對(duì)動(dòng)態(tài)變化的環(huán)境和未知情況。基于近端策略優(yōu)化算法(Proximal Policy Optimization, PPO)和Q-learning算法的強(qiáng)化學(xué)習(xí)方法在具身智能自主導(dǎo)航、避障和多目標(biāo)收集等任務(wù)中展現(xiàn)出更好的決策靈活性。然而,這些方法在復(fù)雜環(huán)境的適應(yīng)能力、決策準(zhǔn)確度和效率方面仍存在局限。
大模型的涌現(xiàn),極大地增強(qiáng)了具身智能體的智能程度,大幅提高了環(huán)境感知、語(yǔ)音交互和任務(wù)決策的能力。相較于“軟件智能體”的AIGC(AI-generated Content),即由大模型生成文字、圖片等內(nèi)容,調(diào)用的工具是函數(shù);具身智能體的大模型是AIGA(AI-generated Actions),即由大模型生成動(dòng)作,調(diào)用的工具是機(jī)械臂、相機(jī)等身體部件。在多模態(tài)的視覺(jué)語(yǔ)言模型(Vision Language Model, VLM)的基礎(chǔ)上,具身智能的大模型的發(fā)展方向是視覺(jué)語(yǔ)言動(dòng)作模型(Vision Language Action Model, VLA)和視覺(jué)語(yǔ)言導(dǎo)航模型(Vision Language Navigation Model, VLN)。
VLA:輸入是語(yǔ)言、圖像或視頻流,輸出是語(yǔ)言和動(dòng)作。在一個(gè)統(tǒng)一的框架內(nèi)融合了互聯(lián)網(wǎng)、物理世界以及運(yùn)動(dòng)信息,從而實(shí)現(xiàn)了從自然語(yǔ)言指令到可執(zhí)行動(dòng)作指令的直接轉(zhuǎn)換。
VLN:輸入是語(yǔ)言、圖像或視頻流,輸出是語(yǔ)言和移動(dòng)軌跡。針對(duì)導(dǎo)航任務(wù)中的語(yǔ)言描述、視覺(jué)觀測(cè)對(duì)象以及運(yùn)動(dòng)軌跡等多個(gè)階段的任務(wù)需求,VLN用于統(tǒng)一的指令輸入框架,使得大模型可以直接生成運(yùn)動(dòng)方向、目標(biāo)物體位置等操作信息。
近年來(lái),諸如VoxPoser、RT-2和Palme等初期的VLA模型,以及NaviLLM這樣的VLN模型已展示出令人期待的能力。在面向未來(lái)的發(fā)展中,多模態(tài)大模型與世界模型(World Model)的結(jié)合可以實(shí)現(xiàn)感知預(yù)測(cè),即模擬環(huán)境中的動(dòng)態(tài)變化。3D-VLA在此基礎(chǔ)上進(jìn)一步整合了三維世界模型的模態(tài),能夠預(yù)演環(huán)境動(dòng)態(tài)變化及其對(duì)行動(dòng)結(jié)果的影響。隨著多模態(tài)處理技術(shù)的發(fā)展,具身智能系統(tǒng)將能夠融合語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種感官信息,從而更自動(dòng)化地理解指令并增強(qiáng)任務(wù)泛化能力。也許在具身智能大模型發(fā)展的最終階段,一個(gè)具備感知-決策-執(zhí)行的端到端大模型將孕育而生。它如同融合了人類的大腦和小腦,將原本不同模塊的功能融合至一個(gè)統(tǒng)一的框架下,能夠直接推理語(yǔ)言回復(fù)、精細(xì)動(dòng)作、自主導(dǎo)航、工具使用以及與人協(xié)同合作,從而實(shí)現(xiàn)低延時(shí)和強(qiáng)泛化。
行動(dòng)模塊
行動(dòng)模塊是具身智能系統(tǒng)中的“執(zhí)行單元”,負(fù)責(zé)接收來(lái)自決策模塊的指令,并執(zhí)行具體的動(dòng)作。行動(dòng)模塊的主要任務(wù)包括使用導(dǎo)航定位算法實(shí)現(xiàn)移動(dòng),以及使用控制算法操縱機(jī)械臂等身體元件實(shí)現(xiàn)物體操作。例如,導(dǎo)航任務(wù)需要智能體通過(guò)移動(dòng)來(lái)尋找目標(biāo)位置,而物體操作和交互則涉及對(duì)環(huán)境中物體的抓取、移動(dòng)和釋放等動(dòng)作。在行動(dòng)模塊中,實(shí)現(xiàn)精細(xì)的動(dòng)作控制是一個(gè)重要的挑戰(zhàn)。行動(dòng)模塊如何響應(yīng)決策模塊的指令并生成動(dòng)作,具體實(shí)現(xiàn)可以分為以下三種方式:
決策模塊(大模型)調(diào)用預(yù)編動(dòng)作算法:
導(dǎo)航定位算法通過(guò)在事先建好的地圖和點(diǎn)位上實(shí)現(xiàn)移動(dòng)。
機(jī)械臂等身體元件通過(guò)預(yù)編好的控制算法執(zhí)行特定動(dòng)作。
這種方式的優(yōu)點(diǎn)在于動(dòng)作的可控性強(qiáng)。在與真實(shí)物理世界交互的過(guò)程中,動(dòng)作生成的容錯(cuò)率低,由模型推理的動(dòng)作一旦出錯(cuò)可能會(huì)造成巨大損失。這種方式的缺點(diǎn)在于算法開(kāi)發(fā)量大,且泛化能力弱,難以將動(dòng)作遷移至新環(huán)境中。
決策模塊(大模型)與動(dòng)作算法協(xié)同工作:使用視覺(jué)語(yǔ)言模型(VL)讀取行動(dòng)模塊的實(shí)時(shí)視頻流,從而指導(dǎo)導(dǎo)航與控制算法生成動(dòng)作。例如:
在執(zhí)行導(dǎo)航任務(wù)時(shí),將Rviz顯示的地圖視頻流與相機(jī)捕捉的實(shí)時(shí)視頻流輸入至VL中,結(jié)合用戶語(yǔ)言指令,指導(dǎo)導(dǎo)航系統(tǒng)移動(dòng)。
在執(zhí)行物體操作任務(wù)時(shí),將機(jī)械臂上的相機(jī)的實(shí)時(shí)視頻流輸入至VL中,結(jié)合用戶語(yǔ)言指令,指導(dǎo)控制算法操作機(jī)械臂完成精準(zhǔn)抓取等任務(wù)。
這種方式使得機(jī)器人能夠在與環(huán)境的交互中不斷輸入新的環(huán)境信息,以不斷優(yōu)化決策和行動(dòng),增強(qiáng)行動(dòng)的泛化性。然而,這種方式對(duì)數(shù)據(jù)吞吐量和算力是一個(gè)挑戰(zhàn)。
決策模塊(大模型)與行動(dòng)模塊的融合:如上所述,未來(lái)的發(fā)展方向?qū)⑹鞘褂肰LA(Vision Language Action Model)和VLN(Vision Language Navigation Model)這樣的端到端具身智能大模型直接推理動(dòng)作。這種模型將互聯(lián)網(wǎng)知識(shí)、物理世界概念與運(yùn)動(dòng)信息融合到統(tǒng)一框架中,能夠直接依據(jù)自然語(yǔ)言描述生成可執(zhí)行的動(dòng)作指令,傳入執(zhí)行器中。這種方式將決策、行動(dòng)甚至是感知逐漸融合,使行動(dòng)模塊的能力和靈活性進(jìn)一步提高,從而使具身智能系統(tǒng)在各種應(yīng)用場(chǎng)景中發(fā)揮更大的作用。
以上三種方式從上到下,隨著技術(shù)的不斷進(jìn)步,將決策、行動(dòng)甚至是感知逐漸融合,使行動(dòng)模塊的能力和靈活性不斷提高,從而使具身智能系統(tǒng)在各種應(yīng)用場(chǎng)景中發(fā)揮更大的作用。
反饋模塊
反饋模塊通過(guò)多層交互不斷接收來(lái)自環(huán)境的反饋經(jīng)驗(yàn)并進(jìn)行調(diào)整和優(yōu)化。具體來(lái)說(shuō),反饋模塊分別反饋上述的感知、決策、行動(dòng)模塊。以提高對(duì)環(huán)境的適應(yīng)性和智能化水平。
1. 反饋感知模塊:反饋模塊通過(guò)提供持續(xù)的反饋,增強(qiáng)了感知模塊對(duì)實(shí)時(shí)環(huán)境數(shù)據(jù)的敏感度。這包括但不限于圖像、聲音、壓力和觸感等多模態(tài)數(shù)據(jù),使得感知模塊能夠更加精準(zhǔn)地捕捉和響應(yīng)環(huán)境變化。
反饋模塊將感知模塊先前捕獲的環(huán)境信息視為“經(jīng)驗(yàn)”或“記憶”,并將這些信息作為“提醒”重新輸入到感知模塊中。例如,在人機(jī)對(duì)話的場(chǎng)景中,如果感知模塊識(shí)別到一個(gè)新用戶,即一個(gè)尚未建立用戶習(xí)慣檔案的個(gè)體,或者是一個(gè)已經(jīng)存在于記憶中的老用戶,即一個(gè)已經(jīng)擁有熟悉操作流程的用戶,反饋模塊會(huì)將這些識(shí)別信息反饋給感知模塊。這一過(guò)程模擬了人類在遇到陌生人或熟人時(shí)的自然反應(yīng),從而使得感知模塊能夠根據(jù)用戶的不同身份和歷史交互數(shù)據(jù),調(diào)整其感知和響應(yīng)策略,以提供更加個(gè)性化和適應(yīng)性的服務(wù)。
2. 反饋決策模塊:反饋模塊通過(guò)提供持續(xù)的任務(wù)完成度、用戶指令的反饋。決策模塊利用這些反饋進(jìn)行自我優(yōu)化,調(diào)整其算法的參數(shù)。通過(guò)這種閉環(huán)反饋機(jī)制,決策模塊能夠不斷學(xué)習(xí)和適應(yīng),提高對(duì)環(huán)境的適應(yīng)性和智能化水平。
例如,在自動(dòng)駕駛的決策規(guī)劃控制技術(shù)中,反饋模塊的作用是對(duì)感知到的周邊物體的預(yù)測(cè)軌跡的基礎(chǔ)上,結(jié)合無(wú)人車的路由意圖和當(dāng)前位置,對(duì)車輛做出最合理的決策和控制。
3. 反饋行動(dòng)模塊:反饋模塊通過(guò)感知模塊獲取環(huán)境變化信息,并將這些信息反饋給決策模塊。決策模塊根據(jù)反饋信息靈活調(diào)整動(dòng)作,確保執(zhí)行器在多變的環(huán)境中能夠調(diào)整運(yùn)動(dòng)軌跡、力量輸出和動(dòng)作順序。例如,機(jī)器人的超聲避障功能能夠在遇到突然出現(xiàn)的障礙物或前方行人時(shí)立即停止運(yùn)動(dòng),避免碰撞。導(dǎo)航系統(tǒng)在規(guī)劃自由路徑時(shí),遇到突發(fā)的障礙物和人群時(shí)能夠立即重新規(guī)劃路徑并繞行。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46599瀏覽量
236931 -
人形機(jī)器人
+關(guān)注
關(guān)注
2文章
404瀏覽量
16446 -
具身智能
+關(guān)注
關(guān)注
0文章
29瀏覽量
28
原文標(biāo)題:一篇具身智能的最新全面綜述!(上)
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論