時間回溯到2023年ITF世界大會,NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛在演講中表示:“下一波人工智能浪潮將是一種被稱為具身AI的新型人工智能,即能夠理解、推理并與物理世界互動的智能系統(tǒng)?!币粫r間,具身智能作為行業(yè)熱詞不脛而走,實際上NVIDIA等公司早就在這一領域開始了布局。
具身智能指機器人或智能系統(tǒng)能夠通過感知器和執(zhí)行器與其所處的環(huán)境進行實時互動。從概念上說,具身智能的實例范圍很廣,包括機器人技術、自動駕駛汽車和聊天機器人等。本文我們主要聚焦于人形機器人的發(fā)展上。
根據市場調研機構Markets and Markets的數據,預計全球人形機器人市場規(guī)模將從2023年的18億美元增長到2028年的138億美元,其間復合年增長率可達50.2%。國際投資銀行高盛在長期預測中稱,全球人形機器人市場將會在2035年達到1540億美元。巨大的市場潛力讓科技公司對人形機器人發(fā)展極為重視,并持續(xù)迭代自己的軟硬件方案,NVIDIA也不例外。
就像黃仁勛在NVIDIA GTC 2024上提到的,開發(fā)通用人形機器人基礎模型是當今人工智能領域中最令人興奮的課題之一。世界各地的機器人技術領導者正在匯集各種賦能技術,致力于在人工通用機器人領域實現(xiàn)突破。
會上,NVIDIA發(fā)布了Project GR00T人形機器人基礎模型,并在Isaac機器人平臺上實現(xiàn)重大更新。這些新方案體現(xiàn)了NVIDIA對人形機器人所需軟硬件的思考,且能夠看出一些未來人形機器人發(fā)展的具體方向。
人形機器人技術路線及NVIDIA的思考
相較于傳統(tǒng)機器人,人形機器人對環(huán)境的感知和響應能力更出色。主要原因在于,人形機器人具備感知、認知、決策和行動的能力,能夠根據環(huán)境的變化做出相應的調整,而傳統(tǒng)機器人基本只能依賴設定好的程序指令。
要將如此多的能力裝入到機器人系統(tǒng)中,模型的重要性不言而喻,這也決定了人形機器人具體走怎樣的技術路線??v覽當前整個人形機器人產業(yè),其所涉及的模型大概分為四種:LLM(大語言模型)、VNM(視覺導航模型)、VLM(視覺-語言模型)和VLA(圖像 -語言-動作多模態(tài)模型)。
在LLM技術路徑上,主要的實現(xiàn)方式是人形機器人+LLMs。當前,LLM是處于科技前沿的AI大模型,展現(xiàn)出非常強勁的智能化實力。不過,LLM和人形機器人在部署方式上有巨大的差異,前者依靠規(guī)模龐大的算力集群,后者則屬于單體智能,依賴本體算力。因而,人形機器人+LLMs路線需要將LLM進行量化,然后通過量化后的模型將外部信息,比如人的指令,轉化為機器人的高層控制代碼。
人形機器人+LLMs的好處在于LLM本身在很多實例方面已經具備很強的能力,部署之后只需要做快速推理就可以。不過,通過當前搭載LLM的人形機器人也能夠看出其不足,那就是量化范圍內的能力會非常出色,范圍之外的交互則會出現(xiàn)明顯的卡頓,甚至是不理解指令,并且這些機器人運動能力有限。
VNM正如其中文釋義一樣,人形機器人+VNMs可以理解為視覺自動駕駛系統(tǒng)從車端向人形機器人端的轉移,也有人將其稱為“車人同源”。由于VNM在車端主要負責在各種交通環(huán)境下進行感知、決策和控制,其核心神經網絡的信息輸入來自相機、激光雷達等實時傳感器,因而人形機器人+VNMs天生就具備比較強的運動能力。尤其是由BEV、Transfomer、自動標注等技術融合而成的VNM,這方面的能力是非常強勁的,具備了自身的“上帝視角”。
人形機器人+VNMs的難點在于如何在運動能力之外增強交互能力,這需要在VNM主體下融入更多的新模型,新模型的訓練和融入速度決定了人形機器人+VNMs的效果。
人形機器人+VLMs路線中的VLM從互聯(lián)網數據和機器人數據中學習,并將這些知識轉化為機器人控制的通用指令。VLM首先從預測語言和預測動作中進行學習,以此為基礎,然后結合視覺系統(tǒng)的上下文結合能力來做最終決策。VLM在任務正確性方面有很大的優(yōu)勢,不過基礎模型能力,如語言和動作并不如LLM和VNM。
那么,NVIDIA的技術路線是什么呢?2023年ITF世界大會上,NVIDIA發(fā)布了基于VIMA大模型的機械臂,支持文本、視覺、語音等多模態(tài)作為機器人的任務輸入,通過包含仿真基準測試、60多萬個專家軌跡、多種級別評估協(xié)議等系統(tǒng)化的泛化測試作為目標輸出集合。此時,NVIDIA初步展示了自己在機器人領域的多模態(tài)能力。
在NVIDIA GTC 2024上,該公司發(fā)布了Project GR00T人形機器人基礎模型。據介紹,Project GR00T是一個用于人形機器人的通用基礎模型,由其驅動的機器人(代表通用機器人00技術)將能夠理解自然語言,并通過觀察人類行為來模仿動作——快速學習協(xié)調、靈活性和其他技能,以便導航、適應現(xiàn)實世界并與之互動。下圖是Project GR00T的技術框圖,粗看比較像VLM的技術路徑,實際上是進一步的VLA。
Project GR00T的技術框圖
框圖表達的可能并不直觀,我們再看Project GR00T的訓練機制,能夠發(fā)現(xiàn)其確實是融合了LLM、VNM和VLM的能力,將語音、動作和機器人數據全部作為基礎模態(tài)融入大模型中,得到高度泛化能力和思維鏈能力。
Project GR00T的訓練機制
長江證券研究所此前在研報中指出,在人形機器人發(fā)展初期階段,LLM可以賦能人形機器人,大幅提升機器人的智能交互能力;在1-3年的中期階段,VLM模型將能夠顯著提升機器人的環(huán)境交互和決策能力;從長遠來看,具備語言、動作和專業(yè)機器人知識模態(tài)的VLA將成為最終部署方案,成熟的VLA模型可以實現(xiàn)人形機器人的具身智能。實際上,這也是符合具身智能技術形態(tài)的,具身智能是機器人學、深度學習、機器視覺、強化學習、自然語言、計算機圖形化和認知科學等多學科交叉互助的產物。
從這個結論來看,NVIDIA Project GR00T的戰(zhàn)略目光是非常長遠的。
人形機器人部署方式及NVIDIA的應對
以人形機器人為主導的具身智能將會給人工智能技術發(fā)展帶來重大轉變,也是通用人工智能落地的必由之路。也有很多業(yè)者認為,人形機器人商業(yè)化落地的進度是衡量通用人工智能成熟度的重要指標。
談到人形機器人的落地,就需要將上述這些模型部署到人形機器人殼體中。近兩年,人形機器人在關鍵技術方面取得了非常大的突破,尤其是模型方面,可以說是日新月異。不過,平安證券在研報中指出,人形機器人要落地,零部件先行。
其中,人形機器人所用到的很多零部件都傳承自傳統(tǒng)機器人,比如旋轉執(zhí)行器、直線執(zhí)行器、手部執(zhí)行器、電池包、視覺傳感器等。然而,由于人形機器人形態(tài)和理念的變化,傳統(tǒng)工業(yè)機器人零部件供應商并不能占據核心供應商的位置,這個位置屬于高性能計算芯片供應商,前者提供的零部件處于“機構層”,后者提供的零部件處于“決策層”。如下圖所示,芯片是人形機器人“大腦”的承載體。
圖源:覓途咨詢
從概念來說,智能汽車和人形機器人都屬于具身智能的實例,兩者的硬件系統(tǒng)也較為類似,也有企業(yè)選擇將自動駕駛的軟件算法和智駕芯片移植到人形機器人上,然后在人形機器人上融入其他模態(tài)。這種方法有利有弊,上面已經提到了,我們不過多贅述。同時,在系統(tǒng)打造時,人形機器人相較于智駕系統(tǒng)在微觀層面要求會更多。
就以事物識別這一能力來說,智駕主要是識別人、車、道路標識等駕駛中的常見物,人形機器人需要識別的事物明顯更多,且更加細節(jié),比如為了讓人形機器人能夠拿起一個物體且不損壞物體,物體的重量、體積、質感和抓取方式等都需要識別。就以NVIDIA GTC 2024上的場景舉例來說,黃仁勛在介紹視頻播放完成之后,他和由NVIDIA芯片和服務驅動的人形機器人一起向觀眾致意,這種模態(tài)是智駕不需要的,便不具備。
因而,應用于人形機器人的大模型會具有更多的模態(tài),一方面需要更好地做模型量化,另一方面也需要計算芯片提供更高的AI能力,這是人形機器人在部署層面遇到的主要挑戰(zhàn)之一。那么,NVIDIA是如何幫助人形機器人方案商應對這些挑戰(zhàn)的呢?我們從Jetson Thor 計算平臺上找找答案。
Jetson Thor是NVIDIA專門為人形機器人打造的全新的計算平臺,能夠執(zhí)行復雜的任務并安全、自然地與人和機器交互,具有針對性能、功耗和尺寸優(yōu)化的模塊化架構。這款SoC帶有transformer engine的下一代GPU,可由其處理多個傳感器數據,對于廣泛部署傳感器的人形機器人來說,這一點至關重要。
更重要的是,Jetson Thor帶來了能夠驅動人形機器人的AI能力,可提供每秒800萬億次8位浮點運算AI性能,以運行GR00T等多模態(tài)生成式AI模型。背后的功臣是NVIDIA Blackwell架構。Blackwell架構在性能、能耗、安全、規(guī)模和模塊化等方面帶來全面的提升,這些提升可以更好地賦能人形機器人發(fā)展。
Blackwell架構
首先看性能和能耗,上面提到了Jetson Thor的芯片性能,不過沒有競品可能大家的感受并不直觀。如果我們將Blackwell架構和NVIDIA上一代Hopper架構進行對比,通過下圖不難看出,Blackwell架構在各個關鍵性能方面都帶來了數倍的提升。并且,Blackwell Tensor核心增加了新的精度,基于該架構打造的第二代 Transformer 引擎支持4位浮點數AI推理,計算能力和模型規(guī)模提高一倍。簡單粗暴地對比一下,Blackwell GPU的訓練性能是上一代Hopper GPU的4倍,推理性能是Hopper GPU的30倍,能源效率是Hopper GPU的25倍。
Blackwell GPU性能優(yōu)勢
對于人形機器人應用來說,由于推理能力和能效更強,Blackwell架構讓單體機器人能夠承載的模型規(guī)模大幅提升,能夠容納更多的模態(tài),且機器人續(xù)航更有保障。
然后看一下規(guī)模和模塊化能力。Blackwell架構讓NVIDIA MCM-GPU付諸現(xiàn)實,其中MCM為Multi-Chip-Module,屬于NVIDIA自己的Chiplet技術。因此,Blackwell架構能夠將NVIDIA多代技術融合在一起,也能夠靈活地調整單顆SoC的性能。再深層考慮,Blackwell架構帶來了更大SoC規(guī)模和模塊化能力,這使得基于Blackwell架構的芯片能夠滿足不同層級的人形機器人應用需求。這也是為什么1X Technologies、Agility Robotics、Apptronik、波士頓動力公司、Figure AI、傅利葉智能、Sanctuary AI、宇樹科技和小鵬鵬行等人形機器人公司都能夠受益于NVIDIA開發(fā)的人形機器人計算平臺。
最后要談到Blackwell架構的安全性。據介紹,Blackwell架構內置NVIDIA機密計算技術,可通過基于硬件的強大安全性保護敏感數據和AI模型,使其免遭未經授權的訪問。Blackwell是業(yè)內首款具備可信執(zhí)行環(huán)境 (TEE) I/O功能的GPU,它不僅能夠與具備 TEE-I/O功能的主機一同提供性能卓越的機密計算解決方案,還能通過NVLink技術提供實時保護。這對發(fā)展人形機器人非常關鍵,也屬于行業(yè)剛需。為什么這樣說呢?我們從政策端看,在中國《人形機器人創(chuàng)新發(fā)展指導意見》中著重提到,提升人形機器人功能安全性能,確保相關技術產品對人和環(huán)境友好,強化網絡安全防護,提高信息獲取、數據交互、數據安全等技術保障能力。
人形機器人未來發(fā)展及NVIDIA的優(yōu)勢
從產業(yè)動態(tài)來看,當前我們正處于人形機器人產業(yè)發(fā)展的第一階段:在人形的殼體下,讓機器人具有特定的智能化功能,主要面向制造業(yè)“簡單且重復”的勞動替代,算是人形機器人從“0”到“1”的導入期。
在產業(yè)發(fā)展初期,專屬人形機器人的大模型以及算力芯片是兩大核心環(huán)節(jié)。在模型層面,LLM、VNM和VLM都將逐步找到自己擅長的領域,比如LLM更適合陪伴型機器人,VNM更有利于部署到倉儲物流領域等。當然,從長遠角度來說,VLA模型的空間更大,NVIDIA Project GR00T等項目有望打造真正通用的具身智能體。
從Blackwell架構和Jetson Thor計算平臺的特性來看,產業(yè)發(fā)展第一階段,提升計算性能當然很重要,但并非唯一目標,需要考慮能效、模塊化和安全性等問題。
對于人形機器人來說,后續(xù)發(fā)展主要有四大趨勢:
·深化跨學科研究:人形機器人是多學科交叉而成的產物,未來這種融合會愈發(fā)深入;
·自主性和協(xié)作性增強:隨著更多的模態(tài)融入應用于人形機器人的大模型中,人形機器人將逐步在復雜環(huán)境中實現(xiàn)自主決策,提升人機協(xié)作的效率;
·持續(xù)提升經濟特性:人形機器人在持續(xù)優(yōu)化軟件和硬件的同時,需要逐漸深入場景,做到模型精準量化以及算力精細化應用;
·完善倫理和法規(guī):隨著人形機器人的廣泛應用,倫理和法規(guī)問題將變得更加重要,數據安全防護是重要一環(huán),此外也需要配套政策和法規(guī)。
無論是大模型的探索,還是Blackwell架構和Jetson Thor計算平臺設計,NVIDIA在人形機器人領域的創(chuàng)新都極具前瞻性,幫助人形機器人產業(yè)更好地完成設計和部署,并對機器人數據進行全方位的保護。
不過,面向人形機器人的未來創(chuàng)新,NVIDIA的賦能價值遠不止于此,更大的潛能來自NVIDIA逐漸成熟的人形機器人生態(tài)布局。NVIDIA在機器人領域提供主控芯片、開發(fā)平臺和工具,助力開發(fā)人員打造、部署和管理機器人。
在NVIDIA GTC 2024上,該公司著重介紹了Isaac工具,包括用于強化學習的Isaac Lab和用于計算編排服務的OSMO。其中,Isaac Lab基于Isaac Sim而構建,能夠運行數千個用于機器人學習的并行仿真。作為底層技術,開發(fā)人員也可以通過Isaac Sim仿真攝像頭、激光雷達、超聲波、測距傳感器等各種機器人用到的傳感器,還可以生成用于訓練感知模型的合成數據,這種逼真、物理屬性準確的虛擬環(huán)境,可以大幅提升機器人的開發(fā)效率。
NVIDIA OSMO能夠在分布式環(huán)境中協(xié)調數據生成、模型訓練和軟硬件在環(huán)工作流,如下圖所示,這個云原生工作流程編排平臺可用于合成數據生成 (SDG),DNN訓練和驗證,強化學習,SIL或HIL 中的機器人 (重新) 仿真,以及基于SIM或真實數據的感知評估。
NVIDIA OSMO系統(tǒng)框圖
另外,NVIDIA Isaac平臺還包括新發(fā)布了Isaac Manipulator 和 Isaac Perceptor等一系列機器人預訓練模型、庫和參考硬件。有了這些工具,無論是面向傳統(tǒng)機器人開發(fā),還是面向人形機器人開發(fā),都更加得心應手,這種完善成熟的生態(tài)也能夠打破困擾人形機器人行業(yè)發(fā)展的“孤島效應”。
最后,我們在生態(tài)中還是要重提NVIDIA在人形機器人計算平臺布局的前瞻性,Blackwell架構在推理性能和能效方面數十倍的增長,證明NVIDIA深知人形機器人等單體智能設備需要什么,對人形機器人計算平臺的發(fā)展有很好的借鑒和引領作用。
GTC 2024過后,NVIDIA在人形機器人領域的護城河更寬、更深了。
-
NVIDIA
+關注
關注
14文章
4862瀏覽量
102723 -
黃仁勛
+關注
關注
9文章
90瀏覽量
56388 -
人形機器人
+關注
關注
2文章
413瀏覽量
16456
發(fā)布評論請先 登錄
相關推薦
評論