0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MoDem解決了視覺強(qiáng)化學(xué)習(xí)領(lǐng)域的三個(gè)挑戰(zhàn)

OpenCV學(xué)堂 ? 來(lái)源:新智元 ? 2023-01-05 11:24 ? 次閱讀

【導(dǎo)讀】MetaAI這次發(fā)布的MoDem解決了視覺強(qiáng)化學(xué)習(xí)領(lǐng)域的三個(gè)挑戰(zhàn),無(wú)需解碼器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 負(fù)責(zé)視覺和強(qiáng)化學(xué)習(xí)領(lǐng)域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚間,這篇推文的閱讀量已經(jīng)達(dá)到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,僅給出5個(gè)演示,MoDem就能在100K交互步驟中解決具有稀疏獎(jiǎng)勵(lì)和高維動(dòng)作空間的具有挑戰(zhàn)性的視覺運(yùn)動(dòng)控制任務(wù),大大優(yōu)于現(xiàn)有的最先進(jìn)方法。

有多優(yōu)秀呢?

他們發(fā)現(xiàn)MoDem在完成稀疏獎(jiǎng)勵(lì)任務(wù)方面的成功率比低數(shù)據(jù)機(jī)制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也轉(zhuǎn)發(fā)了這一研究,表示MoDem的模型架構(gòu)類似于JEPA,可在表征空間做出預(yù)測(cè)且無(wú)需解碼器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

鏈接小編就放在下面啦,有興趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2212.05698

Github鏈接:https://github.com/facebookresearch/modem

研究創(chuàng)新和模型架構(gòu)

樣本效率低下是實(shí)際應(yīng)用部署深度強(qiáng)化學(xué)習(xí) (RL) 算法的主要挑戰(zhàn),尤其是視覺運(yùn)動(dòng)控制。

基于模型的RL有可能通過同時(shí)學(xué)習(xí)世界模型并使用合成部署來(lái)進(jìn)行規(guī)劃和政策改進(jìn),從而實(shí)現(xiàn)高樣本效率。

然而在實(shí)踐中,基于模型的RL的樣本高效學(xué)習(xí)受到探索挑戰(zhàn)的瓶頸,這次研究恰恰解決了這些主要挑戰(zhàn)。

首先,MoDem分別通過使用世界模型、模仿+RL和自監(jiān)督視覺預(yù)訓(xùn)練,解決了視覺強(qiáng)化學(xué)習(xí)/控制領(lǐng)域的三個(gè)主要挑戰(zhàn):

大樣本復(fù)雜性(Large sample complexity)

高維狀態(tài)和動(dòng)作空間探索(Exploration in high-dimensional state and action space)

同步視覺表征和行為學(xué)習(xí)(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

這次的模型架構(gòu)類似于Yann LeCun的JEPA,并且無(wú)需解碼器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素級(jí)預(yù)測(cè)的解碼器,架構(gòu)繁重,無(wú)解碼器架構(gòu)可支持直接插入使用SSL預(yù)訓(xùn)練的視覺表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他們提出了一個(gè)三階段算法:

BC預(yù)訓(xùn)練策略

使用包含演示和探索的種子數(shù)據(jù)集預(yù)訓(xùn)練世界模型,此階段對(duì)于整體穩(wěn)定性和效率很重要

通過在線互動(dòng)微調(diào)世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

結(jié)果顯示,生成的算法在21個(gè)硬視覺運(yùn)動(dòng)控制任務(wù)中取得了SOTA結(jié)果(State-Of-The-Art result),包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數(shù)據(jù)上來(lái)看,MoDem在各項(xiàng)任務(wù)中的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于其他模型,結(jié)果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

紅色線條為MoDem在各項(xiàng)任務(wù)中的表現(xiàn)

在此過程中,他們還闡明了MoDem中不同階段的重要性、數(shù)據(jù)增強(qiáng)對(duì)視覺MBRL的重要性以及預(yù)訓(xùn)練視覺表示的實(shí)用性。

最后,使用凍結(jié)的 R3M 功能遠(yuǎn)遠(yuǎn)優(yōu)于直接的 E2E 方法。這很令人興奮,表明視頻中的視覺預(yù)訓(xùn)練可以支持世界模型。

但8月數(shù)據(jù)強(qiáng)勁的E2E與凍結(jié)的R3M競(jìng)爭(zhēng),我們可以通過預(yù)訓(xùn)練做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1107

    瀏覽量

    40443
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    231

    瀏覽量

    11259
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    263

    瀏覽量

    11158

原文標(biāo)題:Meta推出MoDem世界模型:解決視覺領(lǐng)域三大挑戰(zhàn),LeCun轉(zhuǎn)發(fā)

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基本理想電路元件的三個(gè)特征是什么

    基本理想電路元件是構(gòu)成電路的基本單元,它們具有三個(gè)基本特征:電壓-電流關(guān)系、能量轉(zhuǎn)換和電路參數(shù)。以下是對(duì)這三個(gè)特征的分析: 電壓-電流關(guān)系 理想電路元件的電壓-電流關(guān)系是其最基本的特征之一。這種關(guān)系
    的頭像 發(fā)表于 08-25 09:38 ?323次閱讀

    簡(jiǎn)述極管的三個(gè)工作區(qū)域

    極管的三個(gè)區(qū)域,通常指的是其在不同工作條件下的狀態(tài)區(qū)域,即截止區(qū)、放大區(qū)和飽和區(qū)。這三個(gè)區(qū)域定義極管在不同電壓和電流條件下的行為特性,
    的頭像 發(fā)表于 07-29 10:50 ?952次閱讀

    可調(diào)變阻器三個(gè)引腳怎么區(qū)分

    可調(diào)變阻器,也稱為電位器或可變電阻器,是一種可以調(diào)節(jié)電阻值的電子元件。它廣泛應(yīng)用于各種電子設(shè)備中,如音頻設(shè)備、電源管理、電機(jī)控制等??烧{(diào)變阻器有三個(gè)引腳,分別是固定端、滑動(dòng)端和可調(diào)端。這三個(gè)引腳
    的頭像 發(fā)表于 07-24 11:12 ?384次閱讀

    如何判斷ebc三個(gè)電極電壓

    在電化學(xué)領(lǐng)域,電化學(xué)電池(Electrochemical Battery Cell,簡(jiǎn)稱EBC)是一種將化學(xué)能轉(zhuǎn)化為電能的裝置。EBC由三個(gè)
    的頭像 發(fā)表于 07-18 15:41 ?318次閱讀

    機(jī)器人視覺可以分為哪三個(gè)部分?

    機(jī)器人視覺是機(jī)器人技術(shù)中的一個(gè)重要分支,它涉及到圖像處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域。機(jī)器人視覺
    的頭像 發(fā)表于 07-04 11:17 ?374次閱讀

    深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其中的核心技術(shù)之一,已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得了顯著的成果。計(jì)算機(jī)視覺,作為計(jì)算機(jī)科學(xué)的一個(gè)重要分支,
    的頭像 發(fā)表于 07-01 11:38 ?433次閱讀

    通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí),尤其是馬爾可夫決策
    的頭像 發(fā)表于 06-05 08:27 ?224次閱讀
    通過<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇

    微波測(cè)量的三個(gè)基本參量是什么

    微波測(cè)量是電子工程領(lǐng)域中的一個(gè)重要分支,它涉及到對(duì)微波信號(hào)的頻率、幅度、相位等參數(shù)的測(cè)量。在微波測(cè)量中,有三個(gè)基本參量:頻率、幅度和相位。這三個(gè)參量是微波信號(hào)的基本特征,對(duì)于微波系統(tǒng)的
    的頭像 發(fā)表于 05-28 14:46 ?628次閱讀

    如何判斷極管的三個(gè)極性

    極管是電子電路中的基本元件之一,其性能的好壞直接影響到整個(gè)電路的性能。而判斷極管的三個(gè)極性(基極b、發(fā)射極e、集電極c)是電路分析和設(shè)計(jì)中不可或缺的一步。下面將詳細(xì)介紹判斷極管
    的頭像 發(fā)表于 05-21 15:26 ?3903次閱讀

    個(gè)籬笆三個(gè)樁——記晶體極管的發(fā)明

    個(gè)籬笆三個(gè)樁——記晶體極管的發(fā)明
    的頭像 發(fā)表于 05-12 08:14 ?425次閱讀
    一<b class='flag-5'>個(gè)</b>籬笆<b class='flag-5'>三個(gè)</b>樁——記晶體<b class='flag-5'>三</b>極管的發(fā)明

    美國(guó)公布對(duì)中國(guó)投資限制令,鎖定芯片、AI 和量子科技三個(gè)領(lǐng)域

    對(duì)受關(guān)注國(guó)家的某些投資。某些國(guó)家安全領(lǐng)域涉及半導(dǎo)體與微電子、量子信息技術(shù)、人工智能三個(gè)領(lǐng)域。行政令附件中重點(diǎn)提到中國(guó)。
    的頭像 發(fā)表于 04-23 16:29 ?498次閱讀
    美國(guó)公布對(duì)中國(guó)投資限制令,鎖定芯片、AI 和量子科技<b class='flag-5'>三個(gè)</b><b class='flag-5'>領(lǐng)域</b>

    linux關(guān)機(jī)的三個(gè)命令

    在Linux系統(tǒng)中,常用的關(guān)機(jī)命令有三個(gè):shutdown、poweroff和halt。下面是對(duì)這三個(gè)命令的詳細(xì)解釋: shutdown命令 shutdown命令用于在指定的時(shí)間或條件下關(guān)閉計(jì)算機(jī)
    的頭像 發(fā)表于 11-26 15:33 ?1913次閱讀

    mos管三個(gè)引腳怎么區(qū)分

    mos管三個(gè)引腳怎么區(qū)分? MOS管是一種常見的電子元件,它被廣泛應(yīng)用于各種電子設(shè)備中。MOS管通常具有三個(gè)引腳,即柵極(Gate)、源極(Source)和漏極(Drain)。這三個(gè)引腳在MOS管
    的頭像 發(fā)表于 11-22 16:51 ?6403次閱讀

    什么是強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一,它與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列,是種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。 在圍棋
    的頭像 發(fā)表于 10-30 11:36 ?3465次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>

    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問題

    擴(kuò)散模型(diffusion model)在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強(qiáng)化學(xué)習(xí)(RL)中來(lái)解
    的頭像 發(fā)表于 10-02 10:45 ?656次閱讀
    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>問題