日韩精品无码按摩精油,香蕉视频在线观看

世界模型在實(shí)體機(jī)器人上能發(fā)揮多大的作用？

教機(jī)器人解決現(xiàn)實(shí)世界中的復(fù)雜任務(wù)，一直是機(jī)器人研究的基礎(chǔ)問題。深度強(qiáng)化學(xué)習(xí)提供了一種流行的機(jī)器人學(xué)習(xí)方法，讓機(jī)器人能夠通過反復(fù)試驗(yàn)改善其行為。然而，當(dāng)前的算法需要與環(huán)境進(jìn)行過多的交互才能學(xué)習(xí)成功，這使得它們不適用于某些現(xiàn)實(shí)世界的任務(wù)。為現(xiàn)實(shí)世界學(xué)習(xí)準(zhǔn)確的世界模型是一個(gè)巨大的開放性挑戰(zhàn)。在最近的一項(xiàng)研究中，UC 伯克利的研究者利用 Dreamer 世界模型的最新進(jìn)展，在最直接和最基本的問題設(shè)置中訓(xùn)練了各種機(jī)器人：無需模擬器或示范學(xué)習(xí)，就能實(shí)現(xiàn)現(xiàn)實(shí)世界中的在線強(qiáng)化學(xué)習(xí)。

論文鏈接：https://arxiv.org/pdf/2206.14176.pdf Dreamer 世界模型是谷歌、多倫多大學(xué)等機(jī)構(gòu)在 2021 年提出的一種。如下圖 2 所示，Dreamer 從過去經(jīng)驗(yàn)的回放緩存中學(xué)習(xí)世界模型，從世界模型的潛在空間中想象的 rollout 中學(xué)習(xí)行為，并不斷與環(huán)境交互以探索和改進(jìn)其行為。研究者的目標(biāo)是在現(xiàn)實(shí)世界中推動(dòng)機(jī)器人學(xué)習(xí)的極限，并提供一個(gè)強(qiáng)大的平臺來支持未來的工作。

總體來說，這項(xiàng)研究的貢獻(xiàn)在于： 1、Dreamer on Robots。研究者將 Dreamer 應(yīng)用于 4 個(gè)機(jī)器人，無需引入新算法直接在現(xiàn)實(shí)世界中展示了成功的學(xué)習(xí)成果。這些任務(wù)涵蓋了一系列挑戰(zhàn)，包括不同的行動(dòng)空間、感官模式和獎(jiǎng)勵(lì)結(jié)構(gòu)。

2、1 小時(shí)內(nèi)學(xué)會(huì)步行。研究者在現(xiàn)實(shí)世界中從零開始教四足機(jī)器人翻身、站起來并在 1 小時(shí)內(nèi)學(xué)會(huì)步行。

此外，他們發(fā)現(xiàn)機(jī)器人會(huì)在 10 分鐘內(nèi)能學(xué)會(huì)承受推力或快速翻身并重新站起來。

3、視覺拾取和放置。研究者訓(xùn)練機(jī)械臂從稀疏獎(jiǎng)勵(lì)中學(xué)會(huì)拾取和放置對象，這需要從像素定位對象并將圖像與本體感受輸入融合。此處學(xué)習(xí)到的行為優(yōu)于無模型智能體，并接近人類表現(xiàn)。

4、開源。研究者公開發(fā)布了所有實(shí)驗(yàn)的軟件基礎(chǔ)架構(gòu)，它支持不同的動(dòng)作空間和感官模式，為未來研究現(xiàn)實(shí)世界中機(jī)器人學(xué)習(xí)的世界模型提供了一個(gè)靈活的平臺。方法該研究利用 Dreamer 算法（Hafner et al., 2019; 2020）在物理機(jī)器人上進(jìn)行在線學(xué)習(xí)（online learning），無需模擬器，總體架構(gòu)如上圖 2 所示。Dreamer 從過去經(jīng)驗(yàn)的回放緩沖區(qū)中學(xué)習(xí)世界模型，使用參與者 - 評價(jià)者算法從學(xué)習(xí)模型預(yù)測的軌跡中學(xué)習(xí)行為，并將其行為部署在環(huán)境中來不斷提升回放緩沖區(qū)。該研究將學(xué)習(xí)更新與數(shù)據(jù)收集解耦，以滿足延遲要求并實(shí)現(xiàn)快速訓(xùn)練而無需等待環(huán)境變化。在該研究的實(shí)現(xiàn)中，一個(gè)學(xué)習(xí)線程持續(xù)訓(xùn)練世界模型和參與者 - 評價(jià)者行為，同時(shí)一個(gè)參與者線程并行計(jì)算環(huán)境交互動(dòng)作。世界模型是一個(gè)學(xué)習(xí)預(yù)測環(huán)境動(dòng)態(tài)的深度神經(jīng)網(wǎng)絡(luò)，如下圖 3（a）所示。

世界模型可以被認(rèn)為是機(jī)器人自主學(xué)習(xí)環(huán)境的快速模擬器，在探索現(xiàn)實(shí)世界時(shí)不斷改進(jìn)其模型。世界模型基于循環(huán)狀態(tài)空間模型 (RSSM; Hafner et al., 2018)，它由四個(gè)組件組成：

世界模型表征了與任務(wù)無關(guān)的動(dòng)態(tài)知識，而參與者 - 評價(jià)者算法負(fù)責(zé)學(xué)習(xí)特定于當(dāng)前任務(wù)的行為。如上圖 3(b) 所示。該研究從在世界模型的潛在空間中預(yù)測的 rollout 中學(xué)習(xí)行為，而無需解碼觀察結(jié)果。這可以在單個(gè) GPU 上以 16K 的批大小進(jìn)行大規(guī)模并行行為學(xué)習(xí)，類似于專門的現(xiàn)代模擬器 (Makoviychuk et al., 2021)。參與者 - 評價(jià)者算法由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成：

參與者網(wǎng)絡(luò)的作用是為每個(gè)潛在模型狀態(tài) s_t 學(xué)習(xí)成功動(dòng)作的分布，以最大化未來預(yù)測任務(wù)獎(jiǎng)勵(lì)（reward）的總和。評價(jià)者網(wǎng)絡(luò)通過時(shí)間差異學(xué)習(xí)來學(xué)習(xí)預(yù)測未來任務(wù)獎(jiǎng)勵(lì)的總和（Sutton 和 Barto，2018 ），這允許算法學(xué)習(xí)長期策略。與 Hafner et al. (2020) 相比，Dreamer 方法沒有訓(xùn)練頻率超參數(shù)，因?yàn)閷W(xué)習(xí)器優(yōu)化神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)收集并行進(jìn)行，沒有速率限制。實(shí)驗(yàn) 研究者在 4 個(gè)機(jī)器人上評估了 Dreamer，為每個(gè)機(jī)器人分配了不同的任務(wù)，并將其性能與算法和人類基線進(jìn)行比較，目的是評估近期學(xué)習(xí)世界模型的成功是否能夠直接在現(xiàn)實(shí)世界中實(shí)現(xiàn)樣本高效的機(jī)器人學(xué)習(xí)。這些實(shí)驗(yàn)代表了常見的機(jī)器人任務(wù)，例如運(yùn)動(dòng)、操縱和導(dǎo)航，帶來了各種各樣的挑戰(zhàn)，包括連續(xù)和離散的動(dòng)作、密集和稀疏的獎(jiǎng)勵(lì)、本體感受和圖像觀察，以及傳感器融合。 A1 機(jī)器狗四足步行如圖 4 所示，經(jīng)過一小時(shí)的訓(xùn)練，Dreamer 學(xué)會(huì)了不斷地讓機(jī)器人從其背部翻過來、站起來，然后向前走。在訓(xùn)練的前 5 分鐘，機(jī)器人設(shè)法從背部翻滾過來并用腳著地。20 分鐘后，它學(xué)會(huì)了如何站起來。大約 1 小時(shí)后，機(jī)器人學(xué)會(huì)了一種叉式步態(tài)，以所需的速度向前行走。

在成功完成這項(xiàng)任務(wù)后，研究者用一根棍子反復(fù)敲打機(jī)器人的四足來測試算法的魯棒性，如圖 8 所示。在額外在線學(xué)習(xí)的 10 分鐘內(nèi)，機(jī)器人會(huì)適應(yīng)并承受推力或快速翻身站穩(wěn)。相比之下，SAC 也很快學(xué)會(huì)了翻身，但由于數(shù)據(jù)預(yù)算（data budget）太小，無法站立或行走。

UR5 多物體視覺拾取和放置拾取和放置任務(wù)在倉庫和物流環(huán)境中很常見，需要機(jī)械臂將物品從一個(gè)箱子運(yùn)輸?shù)搅硪粋€(gè)箱子。圖 5 展示了成功拾取和放置的循環(huán)。由于獎(jiǎng)勵(lì)稀疏、需要從像素推斷對象位置以及多個(gè)移動(dòng)對象的挑戰(zhàn)性動(dòng)態(tài)，該任務(wù)具有一定挑戰(zhàn)性。

XArm 視覺拾取和放置上面提到的 UR5 機(jī)器人是高性能工業(yè)機(jī)器人，但 XArm 是一種可訪問的低成本 7 DOF 操作，此處任務(wù)類似，需要定位和抓取一個(gè)柔軟的物體，將其從一個(gè)容器移到另一個(gè)容器并返回，如圖 6 所示。

Sphero 導(dǎo)航此外，研究者還在視覺導(dǎo)航任務(wù)上評估了 Dreamer，該任務(wù)需要將輪式機(jī)器人操縱到固定目標(biāo)位置，僅給定 RGB 圖像作為輸入。這里使用了 Sphero Ollie 機(jī)器人，一個(gè)帶有兩個(gè)可控電機(jī)的圓柱形機(jī)器人，研究者通過 2 Hz 的連續(xù)扭矩命令對其進(jìn)行控制。鑒于機(jī)器人是對稱的，并且機(jī)器人只能獲得圖像觀察，它必須從觀察歷史中推斷出航向。

2 小時(shí)內(nèi)，Dreamer 學(xué)會(huì)了快速且始終如一地導(dǎo)航到目標(biāo)，并保持在目標(biāo)附近。如圖 7 所示，Dreamer 與目標(biāo)的平均距離為 0.15（以區(qū)域大小為單位測量并跨時(shí)間步求平均值）。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
27838

瀏覽量
204592
算法

算法

+關(guān)注

關(guān)注
23

文章
4552

瀏覽量
92021

原文標(biāo)題：1小時(shí)學(xué)會(huì)走路，10分鐘學(xué)會(huì)翻身，世界模型讓機(jī)器人迅速掌握多項(xiàng)技能

文章出處：【微信號：vision263com，微信公眾號：新機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

在NVIDIA Isaac Lab中訓(xùn)練四足機(jī)器人運(yùn)動(dòng)

由于涉及復(fù)雜的動(dòng)力學(xué)，為四足機(jī)器人制定有效的運(yùn)動(dòng)策略是機(jī)器人領(lǐng)域面臨的重大挑戰(zhàn)。在現(xiàn)實(shí)世界中訓(xùn)練四足機(jī)器人上下樓梯可能會(huì)損壞設(shè)備和環(huán)境，因此

發(fā)表于 09-06 14:48 ?176次閱讀

<b class='flag-5'>在</b>NVIDIA Isaac Lab中訓(xùn)練四足<b class='flag-5'>機(jī)器人</b>運(yùn)動(dòng)

在生產(chǎn)制造業(yè)中，碼垛機(jī)器人發(fā)揮的重要作用

?在生產(chǎn)制造業(yè)中，碼垛機(jī)器人發(fā)揮著至關(guān)重要的作用，主要體現(xiàn)在以下幾個(gè)方面： ?一、題高生產(chǎn)效率 ?碼垛機(jī)器人能夠以很高的速度和精度進(jìn)行碼垛作業(yè)，遠(yuǎn)遠(yuǎn)超過人工碼垛的效率。它可以持續(xù)不間斷

發(fā)表于 09-02 15:51 ?86次閱讀

Al大模型機(jī)器人

金航標(biāo)kinghelm薩科微slkor總經(jīng)理宋仕強(qiáng)介紹說，薩科微Al大模型機(jī)器人有哪些的優(yōu)勢?薩科微AI大模型機(jī)器人由清華大學(xué)畢業(yè)的天才少年N博士和王博士團(tuán)隊(duì)開發(fā)，與同行相比具有許多優(yōu)

發(fā)表于 07-05 08:52

編碼器在機(jī)器人系統(tǒng)中的應(yīng)用

隨著科技的飛速發(fā)展，機(jī)器人技術(shù)已廣泛應(yīng)用于工業(yè)、醫(yī)療、服務(wù)等多個(gè)領(lǐng)域。在機(jī)器人系統(tǒng)中，編碼器作為核心的位置和速度檢測裝置，發(fā)揮著至關(guān)重要的作用

發(fā)表于 06-13 14:51 ?507次閱讀

英偉達(dá)發(fā)布人形機(jī)器人基礎(chǔ)模型

英偉達(dá)在一年一度的GTC開發(fā)者大會(huì)上，由創(chuàng)始人黃仁勛親自揭曉了令人矚目的Project GR00T人形機(jī)器人項(xiàng)目，其中引人注目的是一款全新的人形機(jī)器人基礎(chǔ)

發(fā)表于 03-21 11:43 ?600次閱讀

基礎(chǔ)模型能為機(jī)器人帶來怎樣的可能性？

機(jī)器人是一種擁有無盡可能性的技術(shù)，尤其是當(dāng)搭配了智能技術(shù)時(shí)。近段時(shí)間創(chuàng)造了許多變革性應(yīng)用的大模型有望成為機(jī)器人的智慧大腦，幫助機(jī)器人感知和理解這個(gè)世

發(fā)表于 01-26 14:47 ?166次閱讀

自動(dòng)化生產(chǎn)線，工業(yè)機(jī)器人發(fā)揮重要的價(jià)值作用

自動(dòng)化生產(chǎn)線，工業(yè)機(jī)器人發(fā)揮重要的價(jià)值作用

發(fā)表于 01-09 13:55 ?979次閱讀

大語言模型在機(jī)器人上的應(yīng)用及面臨的挑戰(zhàn)

。 ? 一些機(jī)器人現(xiàn)在能夠理解人類的語言，并與之進(jìn)行交流。此外，一些新型的智能機(jī)器人還具備學(xué)習(xí)能力。他們可以通過大量的數(shù)據(jù)和經(jīng)驗(yàn)，不斷地優(yōu)化自己的行為和決策，提高自身的性能。這種能力使得機(jī)器人可以

發(fā)表于 01-09 00:05 ?1501次閱讀

詳解機(jī)器人技術(shù)基礎(chǔ)模型

基礎(chǔ)模型在解決機(jī)器人技術(shù)中的數(shù)據(jù)稀缺問題上至關(guān)重要。它們?yōu)槭褂米钌俚奶囟〝?shù)據(jù)學(xué)習(xí)和適應(yīng)新任務(wù)提供了堅(jiān)實(shí)的基礎(chǔ)。

發(fā)表于 01-08 10:44 ?328次閱讀

【開源項(xiàng)目】Emo：基于樹莓派 4B DIY 能笑會(huì)動(dòng)的桌面機(jī)器人

置于底座上，并為電源線的自由移動(dòng)預(yù)留了充足的空間。為了提高機(jī)器人運(yùn)動(dòng)的穩(wěn)定性，我們還特意使車身與底座輕微接觸。另外，我們特意選擇藍(lán)白配色方案，因?yàn)樗{(lán)白組合能提升機(jī)器人的視覺吸引力。

發(fā)表于 12-26 15:18

機(jī)器人擁抱AI大模型已成共識！

目前普遍的共識是，機(jī)器人擁抱AI大模型的過程就是具身智能機(jī)器人的實(shí)現(xiàn)過程，融合AI大模型的具身智能機(jī)器人將是未來

發(fā)表于 12-22 17:08 ?334次閱讀

LabVIEW的六軸工業(yè)機(jī)器人運(yùn)動(dòng)控制系統(tǒng)

空間的軌跡構(gòu)造方法，包括直線、圓弧、NURBS自由曲線等軌跡的構(gòu)造方程。模型機(jī)器人測試與仿真：通過LabVIEW編程，項(xiàng)目在PC端實(shí)現(xiàn)了算法和運(yùn)動(dòng)仿真。六軸模型

發(fā)表于 12-21 20:03

機(jī)器人的ROS模型建立

這個(gè)系列主要介紹機(jī)器人ROS模型的建立方法，ROS系統(tǒng)帶來的好處之一就是：我們無需自己建立復(fù)雜的數(shù)學(xué)模型來描述自己的機(jī)器人幾何尺寸、運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)等，只需要用它提供的

發(fā)表于 11-28 14:19 ?491次閱讀

如何創(chuàng)建機(jī)器人模型

的細(xì)節(jié)，先來找link和joint，看下這個(gè)機(jī)器人是由哪些部分組成的，了解完全局之后，再看細(xì)節(jié)。創(chuàng)建機(jī)器人模型好啦，講了這么多，還是要看一個(gè)完整的示例。我們以這款移動(dòng)機(jī)器人

發(fā)表于 11-22 17:09 ?742次閱讀

基于動(dòng)力學(xué)模型的機(jī)器人介紹

機(jī)器人具有高度非線性，強(qiáng)時(shí)變以及強(qiáng)耦合等動(dòng)力學(xué)特性，為了提高機(jī)器人控制的性能，研究人員提出了基于模型的控制（Model Based Control）方法。在

發(fā)表于 11-17 17:43 ?676次閱讀