0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種從視頻中學習技能的框架(skills from videos,SFV)

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-10-18 14:32 ? 次閱讀

無論是日常簡單的動作還是令人驚嘆的雜技,人類可以通過觀察別人的動作學會一系列驚人的技能。今天如果你想要學習新的技能,像YouTube一樣的視頻網站上擁有豐富的資源供你學習。

但遺憾的是,對于機器來說通過大量的視覺數據來進行技能學習依然面臨著很大的挑戰(zhàn)。目前絕大多數的模仿學習需要精確的動作記錄,例如精密的動作捕捉系統(tǒng)。但獲取動作捕捉數據很多時候十分復雜,極大的依賴于設備,將環(huán)境局限于于室內無遮擋的場景,這限制了可以被記錄的技能類型。那么如果存在一個智能體可以從視頻中學習技能就好了!

在這一工作中,伯克利BAIR的研究人員提出了一種從視頻中學習技能的框架(skills from videos,SFV),結合了前沿的計算機視覺和強化學習技術構建的系統(tǒng)可以從視頻中學習種類繁多的技能,包括后空翻和很滾翻等高難度動作。同時智能體還學會了在仿真物理環(huán)境中復現這些技能的策略,而無需任何的手工位姿標記。

SFV問題在計算機圖形學領域一直受到廣泛關注,先前的技術主要依靠手工的控制結構來限制可以產生的行為,這使得主體可以學習到的技能非常有限,同時表現出來的動作也很不自然。近年來,深度學習技術在視覺模仿鄰域取得了很大的進展,包括Atari游戲和簡單的機器人任務都取得的不錯的成績,但這些任務在所描述的與主體運行的環(huán)境只有些許的不同,并且所得到的結果也只是相對簡單的動力學過程。

基于深度學習視覺模仿的Atrai和簡單的機器人任務

框 架

研究人員提出的系統(tǒng)由三個部分構成:位姿估計、運動重建和運動模仿。

-首先利用輸入的視頻實現位姿估計,從每一幀中預測出主角的位姿;

-隨后在運動重建階段,將上一階段預測的位姿進行銜接得到參考的運動過程,并修正一些在位姿估計階段的缺陷;

-最終將參考運動過程傳輸給模仿階段,模擬的主體將會利用強化學習來訓練模仿這些動作。

這一框架主要包括位姿估計、運動重建和運動模仿三個過程

位姿估計

研究人員利用基于視覺的運動估計器來預測給定視頻中主角的在每一幀的運動。位姿估計器利用人體網格恢復中的方法來構建,利用了弱監(jiān)督對抗的方法訓練從單目圖像中預測出位姿。

從視頻中恢復人體位姿

雖然在訓練位姿估計器的時候需要進行位姿標記,但在訓練完成后它就可以用于新的圖像而無需額外的標記。

基于視覺的位姿估計器從每一幀中預測出主角的動作

運動重建

由于基于單幀圖像預測的位姿是不連續(xù)的,在上圖中可以看到明顯不連貫的動作。同時由于估計器某些錯誤估計的存在會產生一系列奇異結果造成估計的位姿出現跳變。這會造成智能體在物理上無法模仿。所以運動重建的目的就在于減輕上述原因帶來的影響,得到更為符合物理實際的參考運動,以便于智能體模擬。所以研究人員提出了下面的目標函數來優(yōu)化新的參考運動:

其中保證了參考運動與原始運動接近,而則保證了相鄰幀之間運動相近以便得到更加平滑的運動結果,這兩個損失對應了不同的權重w。

經過優(yōu)化后的參考運動結果如下,可以看到明顯地改善了位姿之間的連續(xù)性,讓生成的運動估計更為平滑。

運動模仿

在獲取了參考運動序列后,就可以訓練智能體來模擬這些技能了。研究人員使用了強化學習來訓練智能體學習這些技能,其中獎勵函數也十分簡單,主要用于鼓勵智能體采取不斷減小t時刻與每一幀參考運動位姿之間差距的策略。

雖然簡單,但得到了很好的結果。智能體學會了一系列高難度動作,從不同的技能視頻片段中學會了不同的技能。

來一個側手翻

再來一個前空翻

鯉魚打挺也不賴

嘿!看我的回旋踢!

結果

在訓練完成后,這一智能體可以學會從youtube中收集的20中不同的技能。

能唱能跳、能翻滾跳躍、武術也不在話下。

甚至對于與視頻中主角人類在形態(tài)上很不相似的Atlas機器,這一策略依然十分有效。

研究人員同時還發(fā)現,模擬智能體學習到的行為具有很強的泛化性。在新的環(huán)境中依舊可以學習如何適應崎嶇的地面。

運動平滑而又穩(wěn)定

這一研究取得良好效果的關鍵在于,將SFV這一復雜問題分解成多個可控的部分,并選取合適的方法來解決這些問題,并將他們有機高效的結合起來。然而這一領域依舊面臨著很大挑戰(zhàn),下面就是一個學習失敗的例子:

但這一工作依舊表明,充分合理地利用已有的技術我們可以在充滿挑戰(zhàn)的問題中得到不錯的結果。希望這一研究可以啟發(fā)小伙伴們對于相關領域的研究。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    8

    文章

    1685

    瀏覽量

    45814
  • 智能體
    +關注

    關注

    1

    文章

    119

    瀏覽量

    10538
  • Youtube
    +關注

    關注

    0

    文章

    142

    瀏覽量

    15463

原文標題:看看Youtube就能學會雜技,伯克利新算法讓智能體學會高難度動作

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    入門到精通,你不可錯過的CCES進階十大培訓視頻

    /education/education-library/videos/3164562428001.html VisualDSP++?遷移到CrossCore? Embedded Studiohttp
    發(fā)表于 05-14 17:19

    一種基于圖像平移的目標檢測框架

    1、摘要近年來,在深度卷積神經網絡(CNNs)的幫助下,圖像和視頻監(jiān)控在智能交通系統(tǒng)(ITS)中取得了長足的進展。作為一種先進的感知方法,智能交通系統(tǒng)對視頻監(jiān)控中每幀感興趣的目標進行
    發(fā)表于 08-31 07:43

    分享一種無人機開發(fā)的基礎技能體系

    分享一種無人機開發(fā)的基礎技能體系
    發(fā)表于 11-22 07:22

    如何去實現一種ThreadX內核框架的設計呢

    ThreadX內核模板框架是怎樣去設計的?如何去實現一種ThreadX內核框架的設計呢?
    發(fā)表于 11-29 07:08

    在RK3399開發(fā)板上如何去實現一種人工智能深度學習框架

    在RK3399開發(fā)板上如何去實現一種人工智能深度學習框架呢?
    發(fā)表于 03-07 07:00

    一種基于Deep U-Net的多任務學習框架

    提出了一種基于Deep U-Net的多任務學習框架,用于GE-MRI左心房分割,該框架同時執(zhí)行心房分割和消融前后分類。雖然論文已經很老了,但是改論文提出的多任務和后處理方法到現在還是可
    發(fā)表于 11-10 15:35

    一種基于USB2.0的視頻圖像處理芯片設計

    本文給出了一種基于USB2.0 的視頻圖像處理芯片的實現方案,首先介紹了系統(tǒng)的整體設計框架,然后針對框架內核心模塊闡述了相應的硬件實現原理,最后以Xilinx FPGA 開發(fā)板系列ML
    發(fā)表于 08-17 13:57 ?4152次閱讀
    <b class='flag-5'>一種</b>基于USB2.0的<b class='flag-5'>視頻</b>圖像處理芯片設計

    一種成分取證的理論分析模式的分類框架

    一種成分取證的理論分析模式的分類框架
    發(fā)表于 03-20 11:04 ?0次下載

    一種用深度學習框架對普通視頻進行流暢穩(wěn)定的慢動作回放的技術

    接著,研究人員YouTube和攝像機中選取了些240fps的視頻,其中包括The Slow Mo Guys(個總共有11000個視頻
    的頭像 發(fā)表于 06-21 10:14 ?4229次閱讀
    <b class='flag-5'>一種</b>用深度<b class='flag-5'>學習</b><b class='flag-5'>框架</b>對普通<b class='flag-5'>視頻</b>進行流暢穩(wěn)定的慢動作回放的技術

    實現機器學習一種重要框架是深度學習

    人工智能的概念起源于1956年,所謂的人工智能就是給機器賦予人的智能,讓機器能夠像人樣地思考問題,做出決策。而一種較為有效的、可行的實現人工智能的方法就是機器學習,機器學習最基本的做
    的頭像 發(fā)表于 07-06 14:37 ?3228次閱讀

    最新機器學習開源項目Top10

    Learning Acrobatics by Watching Youtube 是 Berkeley 研究人員提出的一種可以視頻中學習技能
    的頭像 發(fā)表于 11-20 09:47 ?2330次閱讀

    一種基于框架特征的共指消解方法

    基于框架語義的推理是實現語篇理解、冋答系統(tǒng)等任務中語義理解的一種有效手段,框架語乂推理通過構建漢語篇章句子框架之間的聯系尋找推理路徑,但框架
    發(fā)表于 03-19 11:35 ?7次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一種用于交通流預測的深度學習框架

    學習框架。方面,針對道路網絡非歐氏的空間關聯以及交通流時序數據的時間關聯,設計了一種融合圖卷積神經網絡和循環(huán)神經網絡的特征抽取子網絡;另
    發(fā)表于 04-14 15:54 ?3次下載
    <b class='flag-5'>一種</b>用于交通流預測的深度<b class='flag-5'>學習</b><b class='flag-5'>框架</b>

    個通用的時空預測學習框架

    。這篇論文介紹了一種用于高效時空預測的時間注意力單元(Temporal Attention Unit,TAU)。該方法改進了現有框架,對時間和空間上的依賴關系分別學習,提出了時間維度上的可并行化時序注意力單元
    的頭像 發(fā)表于 06-19 10:27 ?1262次閱讀
    <b class='flag-5'>一</b>個通用的時空預測<b class='flag-5'>學習</b><b class='flag-5'>框架</b>

    深度學習框架是什么?深度學習框架有哪些?

    深度學習框架是什么?深度學習框架有哪些?? 深度學習框架
    的頭像 發(fā)表于 08-17 16:03 ?2481次閱讀