0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

具身智能,是機器人的“冷飯熱炒”嗎?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2023-07-24 09:08 ? 次閱讀

大模型正如火如荼,下一個AI風口就來了。

如果你關(guān)注2023世界人工智能大會等行業(yè)峰會,以及英偉達、微軟、谷歌、特斯拉和國內(nèi)科技大廠的最新發(fā)布會,除了“大模型”,應該會聽到另一個高頻詞——具身智能。

所謂具身智能Embodied AI ,指的是有身體并支持物理交互的智能體。

簡單來說,就是讓AGI從數(shù)字世界走向?qū)嶓w世界,落地在機器人、機械臂、無人車、無人機,讓實體世界中的機器人/仿真人具有智能,像人一樣與環(huán)境交互感知,執(zhí)行各種各樣的任務。

從這個角度看,其實很多人都已經(jīng)見過或者玩過具身智能產(chǎn)品了。索尼的機器狗AIBO,軟銀的服務機器人pepper,還有波士頓動力的人形機器人和機器狗……這些具身智能產(chǎn)品,曾是不少人的童年回憶,或者科幻恐懼。

雖然技術(shù)概念很超前,但這些產(chǎn)品的市場表現(xiàn),其實并不太理想,技術(shù)落地難、產(chǎn)品被停產(chǎn)、企業(yè)被轉(zhuǎn)賣,都不算新聞。

因此也有人認為,具身智能作為AI的終極形態(tài)之一,只是一些大廠推動的營銷概念。

我們今天就來聊聊,具身智能的這一波熱度,是機器人的“冷飯熱炒”嗎?

下一個AI風口

古話說得好,遇到問題,先問是不是,再問為什么。

有必要先探討一下,具身智能真的火了嗎?

目前來看,AI學術(shù)界和工業(yè)界,確實已經(jīng)將“具身智能”,作為下一個風口。

學術(shù)層面,不少科學家提出推論,大模型的技術(shù)路徑打通之后,下一個突破是具身智能。

圖靈獎得主、上海期智研究院院長姚期智認為,人工智能領(lǐng)域下一個挑戰(zhàn)將是實現(xiàn)“具身通用人工智能”,即如何構(gòu)建能夠通過自我學習掌握各種技能并執(zhí)行現(xiàn)實生活中的種種通用任務的高端機器人。清華大學計算機系教授張鈸院士,也在某產(chǎn)業(yè)智能論壇上提出,隨著基礎(chǔ)模型的突破,通用智能機器人(具身智能)是未來的發(fā)展方向。

wKgZomS9IDKAAhdtAAM12B5PZLk923.jpg

(張鈸院士的公開發(fā)言現(xiàn)場)

產(chǎn)業(yè)層面,谷歌、微軟、特斯拉等科技公司近日都相繼公布了自家的具身智能產(chǎn)品,國內(nèi)頭部科技大廠如華為、京東,也開始將自身在具身智能領(lǐng)域的相關(guān)布局,向大眾布道。前不久印發(fā)的《北京市機器人產(chǎn)業(yè)創(chuàng)新發(fā)展行動方案(2023-2025年)(征求意見稿)》,也提出發(fā)展機器人“1+4”產(chǎn)品體系,加緊布局人形機器人研發(fā)與應用。具身智能的產(chǎn)業(yè)化、市場化潛力,正在加速積累。

如前所說,無論是現(xiàn)實生活中的機器狗、機械臂、無人車,還是科幻電影中的人形機器人,具身智能產(chǎn)品早已為大眾所熟悉,但市場表現(xiàn)一直不溫不火。為什么一夜之間成為風口了?

和大模型“兩開花”

這一波具身智能的熱潮,讓我想起了這張梗圖。AGI起于大模型,終于具身智能。

wKgaomS9IDKAa_AdAAD-bmKWTwo221.jpg

具身智能的概念,可以追溯到1950年,圖靈在論文《Computing Machinery and Intelligence》中,提出機器像人一樣能和環(huán)境交互感知,自主規(guī)劃、決策、行動,并具備執(zhí)行能力,是AI的終極形態(tài)。

歷史上的兩次人工智能浪潮,AI智能水平都達不到大眾的預期,具身智能雖然誕生了波士頓動力這樣的“炸裂”,但是作為一種未來概念和獨特案例,并沒有取得有成效的產(chǎn)業(yè)化進展。

當下正在第三次人工智能浪潮,具身智能的希望重燃,就在于跟大模型“兩開花”。

具體來說,大語言模型讓人們看到了AGI通用智能的希望,而這也讓具身智能有了幾個方面突破的可能性:

1.大模型——更厲害的“大腦”

我們知道,大語言模型和傳統(tǒng)機器學習的區(qū)別,就在于泛化能力強,在復雜任務理解、連續(xù)對話、零樣本推理等方向有了突破進展。這一突破,讓機器人的理解力、連續(xù)決策力、人機交互能力,有了全新的解決思路。

微軟研究院發(fā)布“ChatGPT for Robotics” 文章中提到,大型語言模型 (LLM) 將人的語言快速轉(zhuǎn)換為機器人的高層控制代碼,從而控制機械臂、無人機等機器人。

以前,由于傳統(tǒng)AI不具備先驗知識,理解力和泛化能力不足,機器人就無法像人一樣擁有常識,必須要將一個指令由人類工程師分解成一連串簡短的程式化程序,然后機器人(機械臂)再一步一步去完成每個動作。

這也使得高級別的具身智能,比如L5自動駕駛、人形機器人、機器狗等,人機交互無法滿足現(xiàn)實中通用智能的需求,廣泛應用的主要是機械臂、履帶式搬運機器人等這類比較機械化的具身智能,只適應某一類設計好的特定任務。

有了大模型之后,機器人終于有了一個強大的“大腦”。

LLM可以幫助機器人更好理解運用到高級語義知識,自動化地分析自己的任務并拆分成具體的動作,這樣與人類、與物理環(huán)境的互動更加自然,機器人也就顯得更加智能了。

舉個例子,讓機器人倒一杯水,人類自動就會繞開室內(nèi)的障礙物,但傳統(tǒng)方式下,機器人并不具備“遇到障礙物水會打翻”這樣的常識,經(jīng)常會做錯事,而大模型驅(qū)動的具身智能,就可以更好地理解這些知識,自動分解任務,不再需要工程師或者主人一步步地指導。

wKgZomS9IDOAM0F9AABrr8UAy54493.jpg

2.多模態(tài)——更豐富的“小腦”

“具身”所相對的概念是“離身”(Disembodiment),從中可以看到,具身智能的實現(xiàn)依賴于身體的感知,不能脫離身體而單獨存在。

人類具有眼耳鼻舌身意,說明對于物理世界的充分感知和理解,是意識和智慧的來源。而傳統(tǒng)AI更多的是被動觀測,主要是“看”(計算機視覺)和“讀”(文本NLP),這就使得智能體Agent缺乏對外部環(huán)境的通用感知能力。

以自動駕駛為例,無人車也是具身智能的載體,需要通過傳感器、機器視覺、激光雷達等多種方式來感知物理世界的變化,成本昂貴,效果也不是很理想,至今依然沒能實現(xiàn)L3級別的自動駕駛量產(chǎn)。

多模態(tài)大模型,可以積累和分析2D&3D視覺、LiDAR激光、Voice聲音等多維信息,基于真實交互,為具身大模型積累高質(zhì)量數(shù)據(jù)數(shù)據(jù),深度理解并轉(zhuǎn)化為機器指令,來控制機器人的行為。

有了感知能力更豐富的“小腦”,具身智能自然也就能更好的理解物理世界。

3.精準決策——更靈活的軀干。

試想一下,如果一輛無人車,行駛過程中道路上突然沖出一個物體,它只能等著人類來判斷“當前是什么情況”,下達指令“應該干什么”,那黃花菜都涼了,萬一沖出來的是人,那實在是太危險太不可靠了。

傳統(tǒng)的機器人訓練往往采取pffline離線模式,一旦遇到訓練環(huán)境中沒有出現(xiàn)過的問題,就可能掉鏈子,需要收集數(shù)據(jù)再重新迭代優(yōu)化,這個過程的效率很低,也減慢了具身智能在現(xiàn)實中落地的速度。

大模型時代,具身智能模型的訓練與測試,與云服務相結(jié)合,可以在云上虛擬仿真場景下,進行端到端的實時訓練與測試,快速完成端側(cè)迭代與開發(fā),這就大大加速了具身智能體的進化速度。

具身智能體在模擬出來的場景中無數(shù)次地嘗試、學習、反饋、迭代,積累對物理世界的深度理解,產(chǎn)生大量交互數(shù)據(jù),再通過與真實環(huán)境的不斷交互積累經(jīng)驗,全面提升在復雜世界的自動移動、復雜任務的泛化能力,展現(xiàn)在具身載體上,就是機器人可以更好地適應環(huán)境,更靈活地運用機械“軀干”來進行人機交互。

一句話總結(jié),和大模型“兩開花”,將通用人工智能落地(Embodiment物理身體),為具身智能打開了新的想象空間。

能抓老鼠才是好貓

理論歸理論,實踐歸實踐。我們總說能抓住老鼠的才是好貓,那么實現(xiàn)具身智能,究竟有幾種“抓老鼠”的方式呢?

目前,主要以兩種路線為主:

一種是谷歌、伯克利等為代表的“未來派”,主打的是“一步到位”。

具體來說,這類研發(fā)機構(gòu)是從具身智能的終極目標出發(fā),希望從當下到終點,尋找一個端到端的技術(shù)路徑,所給出的方案,往往采取“緊耦合”的方式,希望一個大模型就能包辦所有,讓機器人完成識別環(huán)境、分解任務、執(zhí)行操作等所有工作,非常難,也非常有未來感。

比如今年三月谷歌推出的PaLM-E,就是一種多模態(tài)具身視覺語言模型(VLM),讓機器人可以基于大模型,來理解圖像、語言等數(shù)據(jù),執(zhí)行復雜的指令,而無需重新訓練。

加州大學伯克利分校的LM Nav,則通過視覺模型、語言模型、視覺語言模型 CLIP等三個大模型,讓機器人在不看地圖的情況下按照語言指令到達目的地。Koushil Sreenath教授的工作,就是推動硬件本體、運動小腦、決策大腦三部分逐漸融合,讓各種四足、雙足,以及人形機器人在真實世界中靈活地運動。

另一種,是英偉達及大量工業(yè)機器人廠商為代表的“務實派”,主打的是“馬上見效”。

“未來派”一步到位的路線雖然看起來很酷,但耗時漫長,距離產(chǎn)業(yè)可用還比較遙遠,成本昂貴,產(chǎn)業(yè)客戶未必能夠接受。在種種不確定之夏,滿足工業(yè)界需求,就出現(xiàn)了以松耦合來實現(xiàn)具身智能的技術(shù)路線。

簡單來說,就是不同任務通過不同模型來實現(xiàn),分別讓機器人學習概念并指揮行動,把所有的指令分解執(zhí)行,通過大模型來完成自動化調(diào)度和協(xié)作,比如語言大模型來學習對話、視覺大模型來識別地圖、多模態(tài)大模型來完成肢體驅(qū)動。

這種方式雖然底層邏輯上看還是比較機械,不像人一樣有綜合智能,但成本和可行性上,能讓具身智能更快落地。

哪種路線更優(yōu)?坦率地說,我們認為都有其局限性。

緊耦合的“未來派”,硬科技的含量顯然更高,在突破后很容易和LLM一樣給產(chǎn)業(yè)帶來顛覆式的變革,讓此前的大量工作成為無用功,但問題是商業(yè)化的周期很長,谷歌此前就曾將一門心思在人形機器人的波士頓動力出售,這一輪能堅持多久還是未知數(shù)。

松耦合的“務實派”,確實能很快落地產(chǎn)業(yè)應用,但技術(shù)壁壘相對不高,隨著AI玩家增多,存量市場逐漸被開發(fā),毛利率必然會在同質(zhì)化激烈競爭中受到擠壓,商業(yè)前景會很快到達天花板。此前國內(nèi)某機器人龍頭企業(yè),就因為技術(shù)含量不高而折戟科創(chuàng)板,這說明具身智能產(chǎn)業(yè)還是要篤定遠一點的未來,積累硬核科技。

星辰大海與商業(yè)賺錢之間的溝壑,是每一個AI企業(yè)都要穿越的“死亡之谷”。

我們對機器人還有哪些期待?

LLM方興未艾,距離通用智能只是理論可行,究竟如何實現(xiàn),還有很長的路要探索。從這個角度看,被大模型帶火的具身智能,目前也還留在語言、視覺這兩個經(jīng)典的AI任務領(lǐng)域,能否進一步突破,前途也很朦朧。

既然如此,為什么學術(shù)界和產(chǎn)業(yè)界依然將其作為下一個AI風口來布道呢?原因或許在于以下兩點:

從學術(shù)上看,具身智能是行為主義的極致。人工智能的兩大門派:符號主義和聯(lián)接主義。聯(lián)接主義也叫行為主義,不追求意識的本質(zhì),希望用人工神經(jīng)網(wǎng)絡模擬人的行為,讓機器“看起來像人”,讓人形機器人成為現(xiàn)實,具身智能就是行為主義發(fā)展到極致的表現(xiàn)之一。所以,從學術(shù)上倡導向具身智能發(fā)展,是符合技術(shù)向前演進的路線的。

從產(chǎn)業(yè)上看,產(chǎn)業(yè)智能化的浪潮,確實讓物理世界和數(shù)字世界的交互增多了,只有AI軟件是不夠的,必須要能驅(qū)動物理實體,比如工業(yè)場景下的抓拿放,可以取代人工操作的繁瑣和危險,在煤礦井下作業(yè)、港口倉庫搬卸、搬家快遞服務、清理事故現(xiàn)場和救災等領(lǐng)域,由機器人來代替人類,完成一些危重工作。同時,大模型、云計算、邊緣計算等技術(shù)相結(jié)合,有望大大降低具身智能的研發(fā)和應用成本,這對于機器人產(chǎn)業(yè)的推動作用是巨大的,這時候探索和占坑也有其戰(zhàn)略意義。

當然,現(xiàn)在就投入具身智能,有沒有風險呢?

也是有的。說一個最恐怖的,我們都知道人工智能產(chǎn)業(yè)的發(fā)展,是在符號主義和聯(lián)接主義之間做鐘擺運動,如果有一天,鐘擺向另一方擺動,那么已經(jīng)投入到行為主義這一技術(shù)路線的大量市場資源、基礎(chǔ)設施投資、人才儲備等,又該何去何從呢?

更加具體的挑戰(zhàn)也有不少。

比如數(shù)據(jù)的挑戰(zhàn),具身智能的數(shù)據(jù),不同于“紙上談兵”的算法,只能從與物理世界的交互中獲得,具有很大的隱私性、高成本、敏感性,不能批量生產(chǎn),這就對能力優(yōu)化迭代造成了限制。

再比如,收集來的數(shù)據(jù)一般是不能直接拿來訓練的,要整理轉(zhuǎn)換成有意義的語料庫,再讓大模型學習,這個開發(fā)過程是非常繁瑣的,又增加了研發(fā)的成本。

此外,廣大用戶對于具身智能的機器人的安全性要求非常高,如果家政服務機器人將水倒在了插電孔,機器狗摔倒壓住了小朋友,這些故障都是商業(yè)上不可能被接受的,可靠、可用、可市場化的具身智能,目前看還比較遙遠,需要長期投入。這意味著具身智能目前看來依然是大廠的游戲。

無論如何,大模型的普及,大大加快了具身智能的研發(fā)和落地速度。人工智能這個學科誕生以來,人類就希望能像“女媧”一樣,創(chuàng)造出和自己類似的通用機器人。具身智能,就是這個夢想的具體承載方式。

今天,我們終于可以將“具身智能”,作為一個產(chǎn)業(yè)風口來暢想和實現(xiàn)了,能夠見證這件事的發(fā)生,已經(jīng)十分值得人類為之自豪。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    210

    文章

    27838

    瀏覽量

    204584
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28876

    瀏覽量

    266218
  • Agi
    Agi
    +關(guān)注

    關(guān)注

    0

    文章

    71

    瀏覽量

    10156
  • ChatGPT
    +關(guān)注

    關(guān)注

    28

    文章

    1517

    瀏覽量

    6925
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2135

    瀏覽量

    1978
收藏 人收藏

    評論

    相關(guān)推薦

    智能:人工智能新紀元,賦能未來科技新引擎

    智能系統(tǒng)建立在認知的概念之上,強調(diào)智能不僅來自大腦,還來自身體與環(huán)境的互動。
    的頭像 發(fā)表于 07-25 10:19 ?513次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>:人工<b class='flag-5'>智能</b>新紀元,賦能未來科技新引擎

    軟通動力與智元機器人達成合作,共繪人形機器人智能”新篇章

    尤其是人形機器人技術(shù)創(chuàng)新與場景應用上邁出了堅實的一步。此次合作,不僅是對“智能”時代到來的積極響應,更是對未來智能生活與工作方式的深刻探
    的頭像 發(fā)表于 07-04 14:59 ?460次閱讀

    智能與人形機器人領(lǐng)域現(xiàn)狀、挑戰(zhàn)以及未來方向

    在人工智能(AI)的眾多前沿領(lǐng)域中,智能(Embodied Intelligence)已成為今年一級市場最引人矚目的投資熱點。在第六屆北京智源大會的熱烈氛圍中,北京智源人工
    的頭像 發(fā)表于 06-20 10:52 ?498次閱讀

    力控、柔性觸覺成為核心需要,機器人要打造怎樣的傳感系統(tǒng)

    機器人。 ? 業(yè)內(nèi)人士認為,智能機器人是人工智能終極形態(tài)。
    的頭像 發(fā)表于 04-26 01:03 ?2145次閱讀
    力控、柔性觸覺成為核心需要,<b class='flag-5'>機器人</b>要打造怎樣的<b class='flag-5'>具</b><b class='flag-5'>身</b>傳感系統(tǒng)

    廣東省智能機器人創(chuàng)新中心正式啟動,奧比中光參股

    4月16日,廣東省智能機器人創(chuàng)新中心(下稱“創(chuàng)新中心”)啟動儀式在深圳南山區(qū)舉行,見證人形機器人產(chǎn)業(yè)發(fā)展邁入新階段。
    的頭像 發(fā)表于 04-18 09:44 ?389次閱讀

    云天勵飛受邀出席廣東省智能機器人創(chuàng)新活動

    4月16日,廣東省智能機器人創(chuàng)新中心啟動儀式在深圳市南山區(qū)政府舉行。云天勵飛作為深圳國創(chuàng)
    的頭像 發(fā)表于 04-18 09:32 ?282次閱讀

    智能機器人開發(fā)平臺再添新秀!廣和通發(fā)布基于高通高算力芯片的Fibot

    廣和通重磅發(fā)布了智能機器人開發(fā)平臺Fibot。作為首款國產(chǎn)Mobile ALOHA機器人的升級配置版本,開發(fā)平臺采用全向輪底盤設計、可拆
    的頭像 發(fā)表于 04-01 18:14 ?3912次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b><b class='flag-5'>機器人</b>開發(fā)平臺再添新秀!廣和通發(fā)布基于高通高算力芯片的Fibot

    廣和通發(fā)布基于高通高算力芯片的智能機器人開發(fā)平臺Fibot

    3月29日,為助力機器人廠商客戶快速復現(xiàn)及驗證斯坦福Mobile ALOHA機器人的相關(guān)算法,廣和通發(fā)布智能
    發(fā)表于 03-29 14:17 ?252次閱讀
    廣和通發(fā)布基于高通高算力芯片的<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b><b class='flag-5'>機器人</b>開發(fā)平臺Fibot

    廣和通發(fā)布基于高通高算力芯片的智能機器人開發(fā)平臺Fibot

    3月29日,為助力機器人廠商客戶快速復現(xiàn)及驗證斯坦福Mobile ALOHA機器人的相關(guān)算法,廣和通發(fā)布智能
    的頭像 發(fā)表于 03-29 11:16 ?499次閱讀

    廣和通發(fā)布基于高通高算力芯片的智能機器人開發(fā)平臺Fibot

    3月29日,廣和通發(fā)布智能機器人開發(fā)平臺Fibot。 1.首款國產(chǎn)Mobile ALOHA機器人的升級配置版本 2.采用全向輪底盤設
    的頭像 發(fā)表于 03-29 10:50 ?276次閱讀
    廣和通發(fā)布基于高通高算力芯片的<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b><b class='flag-5'>機器人</b>開發(fā)平臺Fibot

    廣和通發(fā)布基于高通高算力芯片的智能機器人開發(fā)平臺Fibot

    3月29日,廣和通發(fā)布智能機器人開發(fā)平臺Fibot。 1.首款國產(chǎn)Mobile ALOHA機器人的升級配置版本 2.采用全向輪底盤設計、
    的頭像 發(fā)表于 03-29 10:49 ?461次閱讀
    廣和通發(fā)布基于高通高算力芯片的<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b><b class='flag-5'>機器人</b>開發(fā)平臺Fibot

    廣和通發(fā)布智能機器人開發(fā)平臺Fibot

    為幫助機器人制造商更高效地復現(xiàn)和驗證斯坦福Mobile ALOHA機器人的先進算法,廣和通公司近日發(fā)布了全新的智能
    的頭像 發(fā)表于 03-29 09:29 ?562次閱讀

    智能移動操作機器人發(fā)展與研究

    多模態(tài)感知技術(shù)能夠使智能移動操作機器人實現(xiàn)更高的自主性、高效性、通用性,增強對周圍環(huán)境的局部感知能力,并為機器人提供豐富、穩(wěn)定、準確的環(huán)
    發(fā)表于 03-12 11:38 ?510次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>移動操作<b class='flag-5'>機器人</b>發(fā)展與研究

    機器人擁抱AI大模型已成共識!

    目前普遍的共識是,機器人擁抱AI大模型的過程就是智能機器人的實現(xiàn)過程,融合AI大模型的
    發(fā)表于 12-22 17:08 ?334次閱讀

    是否擁有智能,是掃地機器人能否打破“內(nèi)卷”的關(guān)鍵

    智能與掃地機器人相遇,螢石為“外卷”而來。
    的頭像 發(fā)表于 10-14 15:12 ?1444次閱讀
    是否擁有<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>,是掃地<b class='flag-5'>機器人</b>能否打破“內(nèi)卷”的關(guān)鍵