欧美中文字幕乱码视频,人人妻人人妻人人人

具身智能新紀元。

*本文為稚暉君獨家供稿，「甲子光年」經(jīng)智元機器人授權發(fā)布。稚暉君本名彭志輝，先后任職OPPO、華為，現(xiàn)為智元機器人CTO、首席架構師。

在ChatGPT之后，又一個大模型概念火了——具身智能（Embodied AI）。

在學術界，圖靈獎得主、上海期智研究院院長姚期智認為，人工智能領域下一個挑戰(zhàn)將是實現(xiàn)“具身通用人工智能”；清華大學計算機系教授張鈸院士，也在某產(chǎn)業(yè)智能論壇上提出，隨著基礎模型的突破，通用智能機器人（具身智能）是未來的發(fā)展方向。

在產(chǎn)業(yè)界，微軟、谷歌、英偉達等大廠均開展了相關研究，比如谷歌RT-2、英偉達VIMA等。英偉達創(chuàng)始人兼CEO黃仁勛在ITF World 2023 半導體大會上表示，AI下一個浪潮將是“具身智能”。

具身智能作為人工智能發(fā)展的一個重要分支，正在迅速嶄露頭角，成為科技界和大眾關注的熱門話題，同時在各個領域中展現(xiàn)出巨大的潛力和吸引力。

1. 什么是具身智能？

具身智能通過在物理世界和數(shù)字世界的學習和進化，達到理解世界、互動交互并完成任務的目標。

具身智能是由“本體”和“智能體”耦合而成且能夠在復雜環(huán)境中執(zhí)行任務的智能系統(tǒng)。一般認為，具身智能具有如下的幾個核心要素：

第一是本體，作為實際的執(zhí)行者，是在物理或者虛擬世界進行感知和任務執(zhí)行的機構。

本體通常是具有物理實體的機器人，可以有多種形態(tài)。本體的能力邊界會限制智能體的能力發(fā)揮，所以，具有廣泛適應性的機器人本體是非常必要的。

隨著機器人技術的進步，本體越來越呈現(xiàn)多樣化和靈活性。比如，四足機器人可以具有良好的運動能力和通過性，復合機器人則把運動和操作機構整合，具有較好的任務能力；而人形機器人作為適應性更加廣泛，通用能力更強的本體形態(tài)，得到了長足的進步，已經(jīng)到了可以商業(yè)化的前夕。

本體具備環(huán)境感知能力、運動能力和操作執(zhí)行能力，是連接數(shù)字世界和物理世界的載體。

具身智能的第二個要素是智能體（Embodied Agents），是具身于本體之上的智能核心，負責感知、理解、決策、控制等的核心工作。

智能體可以感知復雜環(huán)境，理解環(huán)境所包含的語義信息，能夠和環(huán)境進行交互；可以理解具體任務，并且根據(jù)環(huán)境的變化和目標狀態(tài)做出決策，進而控制本體完成任務。

隨著深度學習的發(fā)展，現(xiàn)代智能體通常由深度網(wǎng)絡模型驅(qū)動，尤其是隨著大語言模型（LLM）的發(fā)展，結合視覺等多種傳感器的復雜多模態(tài)模型，已經(jīng)開始成為新一代智能體的趨勢。

同時，智能體也分化為多種任務形態(tài)，處理不同層次和模態(tài)的任務。智能體要能夠從復雜的數(shù)據(jù)中學習決策和控制的范式，并且能夠持續(xù)的自我演進，進而適應更復雜的任務和環(huán)境。

智能體設計是具身智能的核心。具有通用能力的LLM和VLM等模型，賦予了通用本體強大的泛化能力，使得機器人從程序執(zhí)行導向轉向任務目標導向，向通用機器人邁出了堅實的步伐。

具身智能的第三個要素是數(shù)據(jù)?！皵?shù)據(jù)是泛化的關鍵，但涉及機器人的數(shù)據(jù)稀缺且昂貴?！?/p>

為了適應復雜環(huán)境和任務的泛化性，智能體規(guī)模變的越來越大，而大規(guī)模的模型對于海量數(shù)據(jù)更為渴求?，F(xiàn)在的LLM通常需要web-scale級別的數(shù)據(jù)來驅(qū)動基礎的預訓練過程，而針對具身智能的場景則更為復雜多樣，這造成了多變的環(huán)境和任務，以及圍繞著復雜任務鏈的規(guī)劃決策控制數(shù)據(jù)。尤其是針對行業(yè)場景的高質(zhì)量數(shù)據(jù)，將是未來具身智能成功應用落地的關鍵支撐。

具身智能的第四個要素是學習和進化架構。智能體通過和物理世界（虛擬的或真實的）的交互，來適應新環(huán)境、學習新知識并強化出新的解決問題方法。

采用虛擬仿真環(huán)境進行部分學習是合理的設計，比如英偉達的元宇宙開發(fā)平臺Omniverse，就是構建了物理仿真的虛擬世界，來加速智能體的演進。

但真實環(huán)境的復雜度通常超過仿真環(huán)境，如何耦合仿真和真實世界，進行高效率的遷移（Sim2Real），也是架構設計的關鍵。

2. 具身智能的科研和技術進展

在基于Transformer的大語言模型浪潮帶領下，微軟、谷歌、英偉達等大廠，以及斯坦福、卡耐基梅隆等高等學府均開展了具身智能的相關研究。

微軟基于ChatGPT的強大自然語言理解和推理能力，生成控制機器人的相關代碼；

英偉達VIMA基于T5模型，將文本和多模態(tài)輸入交錯融合，結合歷史信息預測機器人的下一步行動動作；

斯坦福大學利用LLM的理解、推理和代碼能力，與VLM交互并生成3D value map，來規(guī)劃機械臂的運行軌跡；

谷歌具身智能路線較多，包括從PaLM衍生來的PaLM-E，從Gato迭代來的RoboCat，以及最新基于RT-1和PaLM-E升級得到的RT-2。

谷歌在具身智能的研究上更具有廣泛性和延續(xù)性。與其他大廠相比，谷歌依托旗下兩大AI科研機構，Google Brain和DeepMind（2023年4月兩大機構合并為Google DeepMind），在具身智能上研究了更多的技術路線，且各路線之間有很好的技術延續(xù)性。

其中基于RT-1研究成果，谷歌融合了VLM（PaLM-E是其中一種）和RT-1中收集的大量機器人真實動作數(shù)據(jù)，提出了視覺語言動作（VLA）模型 RT-2，在直接預測機器人動作的同時，受益于互聯(lián)網(wǎng)級別的訓練數(shù)據(jù)，實現(xiàn)了更好的泛化性和涌現(xiàn)性。

從RT-2的實驗結果看，一方面，面對訓練數(shù)據(jù)中沒見過的物體、背景、環(huán)境，RT-2系列模型能夠仍能實現(xiàn)較高的成功率，遠超基線對比模型，證明了模型有較強的泛化能力。

另一方面，對于符號理解、推理和人類識別三類不存在于機器人訓練數(shù)據(jù)中的涌現(xiàn)任務，RT-2系列模型也能以較高正確率完成，表明語義知識從視覺語言數(shù)據(jù)中轉移到RT-2 中，證明了模型的涌現(xiàn)性能。同時，思維鏈（CoT）推理能夠讓RT-2完成更復雜的任務。

任何的訓練都需要數(shù)據(jù)的支撐。目前來看，機器人數(shù)據(jù)來源通常是真實數(shù)據(jù)和合成數(shù)據(jù)。

真實數(shù)據(jù)效果更好，但需要耗費大量的人力和物力，不是一般的企業(yè)或機構能夠負擔的。谷歌憑借自己的資金和科研實力，耗費17個月時間收集了13臺機器人的13萬條機器人真實數(shù)據(jù)，為RT-1和RT-2的良好性能打下根基。

谷歌的另一項研究RoboCat，在面對新的任務和場景時，會先收集100-1000個真實的人類專家示例，再合成更多數(shù)據(jù)，用于后續(xù)訓練，是經(jīng)濟性和性能的權衡。

除了數(shù)據(jù)來源問題，還有一個就是具身智能體的預測如何映射到機器人的動作，這主要取決于預測結果的層級。

以谷歌PaLM-E和微軟ChatGPT for Robotics為例，預測結果處于高級別設計層級：PaLM-E實現(xiàn)了對具身任務的決策方案預測，但不涉及機器人動作的實際控制，需要依賴低級別的現(xiàn)成策略或規(guī)劃器來將決策方案“翻譯”為機器人動作。

微軟默認提供控制機器人的低層級 API，ChatGPT 輸出是更高層級的代碼，只需調(diào)用到機器人低層級的庫或API，從而實現(xiàn)對機器人動作的映射和控制。

還有一種情況就是預測結果已經(jīng)到了低級別動作層級。例如，RT-2輸出的一系列字符串，是可以直接對應到機器人的坐標、旋轉角等信息；VoxPoser規(guī)劃的結果直接就是機器人運行軌跡；VIMA也可以借助現(xiàn)有方法將預測的動作token映射到離散的機器人手臂姿勢，即不需要再經(jīng)過復雜的翻譯將高層級設計映射到低層級動作。

3. 具身智能的難點剖析

具身智能作為邁向通用人工智能（AGI）的重要一步，是學術界和產(chǎn)業(yè)界的熱點，隨著大模型的泛化能力進一步提升，各種具身方法和智能體不斷涌現(xiàn)，但是要實現(xiàn)好的具身智能，會面臨算法、工程技術、數(shù)據(jù)、場景和復雜軟硬件等的諸多挑戰(zhàn)。

首先，要有強大的通用本體平臺。如何解決硬件的關鍵零部件技術突破，形成具有優(yōu)秀運動能力和操作能力的平臺級通用機器人產(chǎn)品，將具身本體的可靠性、成本和通用能力做到平衡，是一個巨大的挑戰(zhàn)。

從基礎的電機、減速器、控制器到靈巧手等各部分，都需要持續(xù)進行技術突破，才能夠滿足大規(guī)模商用的落地需求。

同時，考慮到通用能力，人形機器人被認為是具身智能的終極形態(tài)。這方面的研發(fā)，也將持續(xù)成為熱點和核心挑戰(zhàn)。

其次，需要設計強大的智能體系統(tǒng)。

作為具身智能的核心，具備復雜環(huán)境感知認知能力的智能體，將需要解決諸多挑戰(zhàn)，包括：物理3D環(huán)境精確感知、任務編排與執(zhí)行、強大的通識能力、多級語義推理能力、人機口語多輪交互能力、long-term記憶能力、個性化情感關懷能力、強大的任務泛化與自學遷移能力等。

同時，具身智能要求實時感知和決策能力，以適應復雜和變化的環(huán)境。這要求高速的數(shù)據(jù)采集、傳輸和處理，以及實時的決策反應，尤其是LLM所消耗的算力規(guī)模巨大，對于資源有限的機器人處理系統(tǒng)將形成巨大的數(shù)據(jù)量、AI計算能力和低延遲的挑戰(zhàn)。

再者，高質(zhì)量的行業(yè)數(shù)據(jù)將成為巨大挑戰(zhàn)。

現(xiàn)實場景的復雜多變，使得現(xiàn)階段缺乏足夠的場景數(shù)據(jù)來訓練一個完全通用的大模型，進而讓智能體自我進化。

而且，耦合的本體，需要實際部署到真實環(huán)境中，才能夠采集數(shù)據(jù)，這也是和非具身智能的明顯不同。

比如，在工廠作業(yè)中，由于機器人本體并未參與到實際業(yè)務，則很多實際運行數(shù)據(jù)就無法采集，而大量的人類操作數(shù)據(jù)雖然可以彌補部分不足，但仍然需要實際業(yè)務的數(shù)據(jù)。

當然，通過大模型的涌現(xiàn)能力和思維鏈能力，部分任務可以零樣本學習到，但對于關鍵業(yè)務，要求成功率，則仍然需要高質(zhì)量的垂域數(shù)據(jù)。同時，通過層次化的智能體設計，將不同任務限定到特定領域，則是一個解決泛化和成功率的有效嘗試。

最后，通過虛擬和真實的交互，持續(xù)學習和進化的能力，則是具身智能演進的重要技術途徑。

億萬年的生物演化過程，造就了形態(tài)豐富的生命形式。而學習新任務來適應環(huán)境的變化，則是持續(xù)改進的動力。形態(tài)適配環(huán)境合適的智能體，則可以快速的學習到解決問題能力，進而更好的適應變化。

但是，由于形態(tài)的變化空間無窮巨大，搜索所有可能的選擇在有限的計算資源情況下變的幾乎不可能。本體的自由度設計，也會物理上約束智能體的任務執(zhí)行能力，進而限制了控制器的學習效果。

在復雜環(huán)境、形態(tài)演化和任務的可學習性之間，存在著未可知的隱式關系，如何快速學習到合理的規(guī)劃和決策能力，則成為具身智能的重要一環(huán)。

4. 智元機器人的實踐

8月18日，智元機器人在具身智能遠征A1的發(fā)布會提出了一種具身智腦的概念：

具身智腦EI-Brain（Embodied Intelligence Brain）把機器人的具身智能思維系統(tǒng)分為云端的超腦、端側的大腦、小腦，以及腦干這樣四層，分別對應于機器人任務級、技能級、指令級以及伺服級的能力。

?腦?于完成前?提到的語義級多段推理任務，結合上下文進行任務理解，?且如果模型的通識能?不滿?任務需求，還可以借?更強的云端超腦的互聯(lián)?能?。

小腦則負責結合各種傳感器的信息進行運動指令?成，就跟?類?樣，?家?路的時候并不會想著怎么精確地控制每塊肌?收縮，而是由?腦發(fā)出?個宏觀指令后，由?腦完成身體的平衡和各種運動學動?學的控制，運控算法都跑在這?層。

最后在硬件底層，由腦?來進?精確的伺服閉環(huán)控制每個電機?效精準地執(zhí)?。

在EI-Brain的設計中，上層大模型聚焦于具體的感知決策和計劃生成，不用依賴于具體的機器人載體硬件；下層視控模型和運控算法聚焦于底層的具體場景的特定動作執(zhí)行，不用決策整個任務如何完成。超腦、大腦與小腦、腦干能夠相互解耦，不用相互依賴，實現(xiàn)了具身智能系統(tǒng)的層級劃分。

智元遠征A1是為了完成重復性的通用任務而設計，設計時考慮了2個非常重要的指標，“任務泛化率”和“任務執(zhí)行成功率”。

任務泛化率指的是對未見過的任務的泛化能力，是否能夠按照上述生成的指令計劃進行精準執(zhí)行。這個指標主要針對是對上層的云端超腦和大腦來說，大模型是否能夠?qū)τ脩舾鞣N新說法和新的3D環(huán)境進行精確的感知決策和指令計劃生成。

任務執(zhí)行成功率指的是機器人載體在實際物理環(huán)境中，執(zhí)行具體任務的成功率等，這個指標主要針對下層的小腦和腦干來說，視控模型和運控算法是否能夠按照上述生成的指令計劃進行精準執(zhí)行。

EI-Brain具身智能系統(tǒng)層級有效保證了這兩個指標參數(shù)的實現(xiàn)，極大地提升了機器人的智能水平和工作效率，使其在完成復雜任務、泛化任務時，更加得心應手。

類似?動駕駛L1到L5的發(fā)展過程，全場景適?的通?機器?的實現(xiàn)也不會是?步到位的。在技能級模型層?，智元機器人定義了?系列的元操作（Meta-Skill）庫，在元操作庫范圍限定的這些有限泛化場景內(nèi)，機器?能夠?主推理決策出端到端完成任務所需要的動作編排。?且隨著元操作庫列表的不斷擴充，機器?能夠勝任的任務空間將呈指數(shù)級增?，在交互中學習進化，最終實現(xiàn)全場景的覆蓋，切?千?百業(yè)。

智元遠征A1本體是當前國內(nèi)通用機器人領域最領先的。智元遠征A1形態(tài)與人類相似，身高175cm，重量55kg，最高步速可達7km/h，全身49個自由度，整機承重80kg，單臂最大負載5kg。

智元遠征A1全身搭載了包含諧波?體關節(jié)、?星伺服、直線驅(qū)動器、空?杯電機等在內(nèi)的49個各類執(zhí)?器，也就是說這?版機器?擁有49個?由度。

在硬件層面，智元自研了關節(jié)電機PowerFlow、靈巧手SkillHand、反曲膝設計等關鍵零部件，以此提升具身智能機器人的能力、同時降低成本。

在軟件層面，智元自研了AgiROS，是一套機器人運行時中間件系統(tǒng)，在AI感知決策與視覺控制等大模型算法方面，能夠?qū)崿F(xiàn)自主任務編排、常識推理與規(guī)劃執(zhí)行等。

未來智元將緊跟算法前沿，尤其是大模型的前沿技術，重視數(shù)據(jù)原始積累和數(shù)據(jù)平臺建設，形成數(shù)據(jù)閉環(huán)，為算法打下堅實的基礎。結合硬件自研優(yōu)勢，以具身智能人形機器人為載體，構建豐富的meta-skills技能庫，快速落地相關商業(yè)垂域應用場景，在實驗室上的學術探索基礎上邁出商業(yè)落地的最為關鍵一步。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關注

關注
210

文章
27859

瀏覽量
204710
人工智能

人工智能

+關注

關注
1787

文章
46090

瀏覽量
235236
智能體

智能體

+關注

關注
1

文章
119

瀏覽量
10538
稚暉君

稚暉君

+關注

關注
5

文章
34

瀏覽量
5096
智元機器人

智元機器人

+關注

關注
0

文章
12

瀏覽量
490

原文標題：稚暉君獨家撰文：具身智能即將為通用機器人補全最后一塊拼圖｜甲子光年

文章出處：【微信號：jazzyear，微信公眾號：甲子光年】歡迎添加關注！文章轉載請注明出處。

地瓜機器人發(fā)布一系列通用機器人套件

在“機器人+”浪潮的推動下，地瓜機器人近日隆重推出了一系列面向未來的軟硬件產(chǎn)品組合，旨在賦能新一代通用機器人的發(fā)展。此次發(fā)布的亮點包括旭日5

發(fā)表于 09-25 15:56 ?66次閱讀

100T極致算力+全鏈路開發(fā)支持，地瓜機器人為具身智能造“基座”

專為新一代通用機器人而生的旭日5智能計算芯片、極致易用全能開發(fā)首選RDK X5機器人開發(fā)者套件、具身

發(fā)表于 09-21 14:15 ?196次閱讀

軟通動力與智元新創(chuàng)在通用機器人領域?qū)⒄归_合作

在科技日新月異的今天，人工智能與機器人技術的深度融合正引領著全球科技產(chǎn)業(yè)邁向一個前所未有的“具身智能

發(fā)表于 07-04 17:23 ?632次閱讀

軟通動力與智元機器人達成合作，共繪人形機器人“具身智能”新篇章

尤其是人形機器人技術創(chuàng)新與場景應用上邁出了堅實的一步。此次合作，不僅是對“具身智能”時代到來的積極響應，更是對未來

發(fā)表于 07-04 14:59 ?473次閱讀

具身智能與人形機器人領域現(xiàn)狀、挑戰(zhàn)以及未來方向

在人工智能（AI）的眾多前沿領域中，具身智能（Embodied Intelligence）已成為今年一級市場最引人矚目的投資熱點。在第六屆北

發(fā)表于 06-20 10:52 ?517次閱讀

通用機器人初創(chuàng)公司逐際動力完成新一輪戰(zhàn)略融資

近日，通用機器人領域的初創(chuàng)公司逐際動力宣布完成新一輪戰(zhàn)略融資，此次融資由杭州灝月企業(yè)管理有限公司參與。逐際動力自2022年成立以來，一直致力于具身

發(fā)表于 05-21 14:42 ?426次閱讀

力控、柔性觸覺成為核心需要，機器人要打造怎樣的具身傳感系統(tǒng)

機器人。 ? 業(yè)內(nèi)人士認為，具身智能機器人是人工智能終極形態(tài)。

發(fā)表于 04-26 01:03 ?2162次閱讀

廣東省具身智能機器人創(chuàng)新中心正式啟動，奧比中光參股

4月16日，廣東省具身智能機器人創(chuàng)新中心（下稱“創(chuàng)新中心”）啟動儀式在深圳南山區(qū)舉行，見證人形機器人產(chǎn)業(yè)發(fā)展邁入新階段。

發(fā)表于 04-18 09:44 ?401次閱讀

云天勵飛受邀出席廣東省具身智能機器人創(chuàng)新活動

4月16日，廣東省具身智能機器人創(chuàng)新中心啟動儀式在深圳市南山區(qū)政府舉行。云天勵飛作為深圳國創(chuàng)具身

發(fā)表于 04-18 09:32 ?291次閱讀

廣和通發(fā)布基于高通高算力芯片的具身智能機器人開發(fā)平臺Fibot

3月29日，為助力機器人廠商客戶快速復現(xiàn)及驗證斯坦福Mobile ALOHA機器人的相關算法，廣和通發(fā)布具身智能

發(fā)表于 03-29 14:17 ?254次閱讀

廣和通發(fā)布基于高通高算力芯片的具身智能機器人開發(fā)平臺Fibot

3月29日，為助力機器人廠商客戶快速復現(xiàn)及驗證斯坦福Mobile ALOHA機器人的相關算法，廣和通發(fā)布具身智能

發(fā)表于 03-29 11:16 ?509次閱讀

廣和通發(fā)布具身智能機器人開發(fā)平臺Fibot

為幫助機器人制造商更高效地復現(xiàn)和驗證斯坦福Mobile ALOHA機器人的先進算法，廣和通公司近日發(fā)布了全新的具身智能

發(fā)表于 03-29 09:29 ?579次閱讀

具身智能移動操作機器人發(fā)展與研究

多模態(tài)感知技術能夠使具身智能移動操作機器人實現(xiàn)更高的自主性、高效性、通用性，增強對周圍環(huán)境的局部感知能力，并為

發(fā)表于 03-12 11:38 ?520次閱讀

開源作品！稚暉君超迷你低成本開發(fā)板、超酷機器人、智能手環(huán)等參考方案

;>>點此查看全文&下載資料 2.分享一個大佬的設計作品：一只瓦力機器人 主要敘述機器人的系統(tǒng)硬件電路設計，包括鋰電池充放電電路、WiFi圖傳電路以及

發(fā)表于 12-12 10:28

是否擁有具身智能，是掃地機器人能否打破“內(nèi)卷”的關鍵

具身智能與掃地機器人相遇，螢石為“外卷”而來。

發(fā)表于 10-14 15:12 ?1456次閱讀