0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook的研究人員提出了一個(gè)能從真實(shí)視頻中抽取可控制主角的模型Vid2Game

nlfO_thejiangme ? 來(lái)源:lq ? 2019-04-26 09:58 ? 次閱讀

相信大家還記得曾經(jīng)游戲中的主人公,可以隨著按鍵旋轉(zhuǎn)跳躍,通過(guò)三維/二維模型或者實(shí)現(xiàn)錄制好的視頻來(lái)響應(yīng)不同指令的動(dòng)作。而最近來(lái)自Facebook的研究人員提出了一個(gè)能從真實(shí)視頻中抽取可控制主角的模型Vid2Game,這意味你可以將視頻中喜歡的主人公變成可以在游戲中控制的主角。

讓我們先來(lái)看看效果,從真實(shí)視頻中抽取的主角被放置到了新背景中,隨著按鍵的控制左右移動(dòng)揮拍擊球。

黑衣服的運(yùn)動(dòng)員被妥妥地安排到了不同的背景中,隨著鍵盤(pán)的指令移動(dòng)。這是怎么做到的呢?為了實(shí)現(xiàn)對(duì)主體的控制和生成需要解決一下幾個(gè)問(wèn)題:首先需要將主體從環(huán)境中分離出來(lái)以便在新的任意的背景中生成;由于渲染陰影、反射、運(yùn)動(dòng)效果等、這種分離不是二值化的;用戶(hù)給出的控制信號(hào)任意的x,y位移、如何編碼并將控制量饋入主體生成中;最后需要處理生成序列過(guò)程中積累誤差的影響。

那么文章中具體是如何做到的呢?

下面讓我們一起來(lái)看看背后的原理。Vid2Game包含了兩個(gè)神經(jīng)網(wǎng)絡(luò)和三個(gè)主要步驟的工作流程,首先利用第一個(gè)神經(jīng)網(wǎng)絡(luò)將當(dāng)前位姿和控制信號(hào)映射到下一時(shí)刻的新位姿;隨后利用新位姿和給定的背景輸出希望的幀,包括背景和主體以及主體的mask;最后將生成的主體以背景融合生成最終輸出。這種通用的方法可以被廣泛用于多種不同運(yùn)動(dòng)場(chǎng)景中。給定視頻中的主角可以根據(jù)用戶(hù)的控制,生成在目標(biāo)背景中運(yùn)動(dòng)的視頻。兩個(gè)序列形式工作的模型分別是Pose2Pose和Pose2Frame。

Pose2Pose網(wǎng)絡(luò)基于用戶(hù)的控制序列信號(hào)以自回歸的方式操作給定的位姿,實(shí)現(xiàn)在特定的域內(nèi)基于2D控制信號(hào)引導(dǎo)人體位姿生成。

通過(guò)輸入t-1時(shí)刻的位姿和對(duì)應(yīng)物體、在用戶(hù)控制序列的操作下生成t時(shí)刻的主角位姿和對(duì)應(yīng)物體。上圖中我們可以看到輸入的運(yùn)動(dòng)員位姿圖和對(duì)應(yīng)的球拍、同時(shí)輸入的還有控制量。我們還可以看到中間的n-2個(gè)條件殘差模塊是基于質(zhì)心位移量進(jìn)行處理的。在訓(xùn)練時(shí),質(zhì)心唯一來(lái)自于訓(xùn)練序列的編碼、而推理時(shí)則來(lái)自于用戶(hù)輸入。

隨后將生成的位姿及給定的背景輸入Pose2Frame將生成高分辨率的真實(shí)視頻序列。同樣以運(yùn)動(dòng)員作為例子,將運(yùn)動(dòng)員位姿和網(wǎng)球拍的序列輸入,模型將生成一個(gè)RGB圖像和mask圖像.RGB圖像考慮了運(yùn)動(dòng)員在環(huán)境中需要包括了陰影、反射等渲染,而mask輔助融合運(yùn)動(dòng)員與給定背景。通過(guò)mask與生成的rgb相乘得到運(yùn)動(dòng)員部分的RGB圖像、再通過(guò)背景摳出mask區(qū)域隨后融合運(yùn)動(dòng)與與給定背景,即得到運(yùn)動(dòng)員在新環(huán)境中生成的受用戶(hù)控制的幀。

對(duì)于判別器部分、模型主要關(guān)注多尺度情況下二進(jìn)制閾值主體。其中o為基準(zhǔn)圖像f為生成圖像,在放入多尺度判別器前需要進(jìn)行均值pooling減采樣,。放入VGG分類(lèi)器中的圖像則保持了原始分辨率用于給出感知損失。Pose2Pose和Pose2Frame的生成器和判別器都使用了pix2pixHD架構(gòu)來(lái)作為基礎(chǔ)網(wǎng)絡(luò),并進(jìn)行了一系列改進(jìn)。同時(shí)利用了基于DensePose的方法來(lái)對(duì)位姿進(jìn)行表示,同時(shí)使用了語(yǔ)義分割的方法來(lái)對(duì)運(yùn)動(dòng)員手持物體進(jìn)行抽取。

通過(guò)這樣的方法,就可以在希望的場(chǎng)景中合成你可控制的主角了。這對(duì)于未來(lái)個(gè)性化游戲、虛擬顯示等具有十分重要的意義。從各種視頻中抽取主角、并可以通過(guò)鍵盤(pán)在游戲中控制真的很棒!

讓我們來(lái)跳一支舞吧:

控制你的主角四處漫游:

到任何想去的地方打球:

與龍來(lái)一場(chǎng)戰(zhàn)斗吧:

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100006
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1075

    瀏覽量

    40269
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1429

    瀏覽量

    54478

原文標(biāo)題:Facebook提出Vid2Game模型,幫助你來(lái)控制視頻里的主人公動(dòng)起來(lái)~

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    美國(guó)普渡大學(xué)和哈佛大學(xué)的研究人員出了項(xiàng)新發(fā)明 新...

    據(jù)物理學(xué)家組織網(wǎng)報(bào)道,美國(guó)普渡大學(xué)和哈佛大學(xué)的研究人員出了項(xiàng)極為應(yīng)景的新發(fā)明:種外形如同顆圣誕樹(shù)
    發(fā)表于 02-03 20:30

    研究人員提出了“Skim-RNN”的概念,用很少的時(shí)間進(jìn)行快速閱讀

    注意力模型和LSTM等方法提高計(jì)算效率或挑選重要任務(wù),但它們的表現(xiàn)都不夠好。在本篇論文中,研究人員提出了“Skim-RNN”的概念,用很少的時(shí)間進(jìn)行快速閱讀,不影響讀者的主要目標(biāo)。
    的頭像 發(fā)表于 01-10 12:41 ?3504次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b>“Skim-RNN”的概念,用很少的時(shí)間進(jìn)行快速閱讀

    研究人員提出了種柔性可拉伸擴(kuò)展的多功能集成傳感器陣列

    研究人員提出了種柔性可拉伸擴(kuò)展的多功能集成傳感器陣列,成功將電子皮膚的探測(cè)能力擴(kuò)展到7種,實(shí)現(xiàn)溫度、濕度、紫外光、磁、應(yīng)變、壓力和接近等多種外界刺激的實(shí)時(shí)同步監(jiān)測(cè)。
    的頭像 發(fā)表于 01-24 15:15 ?7115次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b><b class='flag-5'>一</b>種柔性可拉伸擴(kuò)展的多功能集成傳感器陣列

    Facebook提出了種在虛擬現(xiàn)實(shí)環(huán)境中表征真實(shí)世界對(duì)象的解決方案

    )”的專(zhuān)利中指出,VR用戶(hù)有時(shí)渴望與真實(shí)世界對(duì)象交互,但由于傳統(tǒng)頭顯的設(shè)計(jì),其無(wú)法或難以確定真實(shí)世界對(duì)象的位置。為了解決這個(gè)問(wèn)題,Facebook提出了
    發(fā)表于 01-28 09:47 ?1008次閱讀
    <b class='flag-5'>Facebook</b><b class='flag-5'>提出了</b><b class='flag-5'>一</b>種在虛擬現(xiàn)實(shí)環(huán)境中表征<b class='flag-5'>真實(shí)</b>世界對(duì)象的解決方案

    Facebook構(gòu)建虛擬空間訓(xùn)練AI

    近日,Facebook推出個(gè)開(kāi)源的模擬數(shù)據(jù)集,希望幫助研究人員創(chuàng)建更加真實(shí)的AR/VR體驗(yàn),最終目的是幫助 AI 了解物理世界的環(huán)境。
    的頭像 發(fā)表于 06-18 17:07 ?3211次閱讀

    研究人員提出了系列新的點(diǎn)云處理模塊

    為了探索這些問(wèn)題的解決辦法、來(lái)自倫敦大學(xué)學(xué)院的研究人員提出了系列新的點(diǎn)云處理模塊,從效率、信息共享和點(diǎn)云卷積操作等方面進(jìn)行了研究,得到了更寬、更深、更快效率更高的點(diǎn)云處理網(wǎng)絡(luò),讓更
    的頭像 發(fā)表于 08-02 14:44 ?2966次閱讀
    <b class='flag-5'>研究人員</b>們<b class='flag-5'>提出了</b><b class='flag-5'>一</b>系列新的點(diǎn)云處理模塊

    JD和OPPO的研究人員提出了種姿勢(shì)引導(dǎo)的時(shí)尚圖像生成模型

    研究人員的主要目的在于訓(xùn)練個(gè)生成模型,將模特在當(dāng)前姿勢(shì)上的圖像遷移到其他的目標(biāo)姿勢(shì)上去,實(shí)現(xiàn)對(duì)于衣著等商品的全面展示。
    的頭像 發(fā)表于 08-02 14:50 ?2478次閱讀

    Facebook研究人員提出了Mesh R-CNN模型

    研究的目標(biāo)是通過(guò)單張圖像輸入,對(duì)圖像的物體進(jìn)行檢測(cè)、獲取不同物體的類(lèi)別、掩膜和對(duì)應(yīng)的三維網(wǎng)格,并對(duì)真實(shí)世界的復(fù)雜
    的頭像 發(fā)表于 08-02 15:51 ?3780次閱讀
    <b class='flag-5'>Facebook</b>的<b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b>Mesh R-CNN<b class='flag-5'>模型</b>

    研究人員出了種新的基于深度學(xué)習(xí)的策略

    蘇黎世聯(lián)邦理工學(xué)院的研究人員最近推出了種新的基于深度學(xué)習(xí)的策略,該策略可以在不需要大量真實(shí)數(shù)據(jù)的情況下在機(jī)器人中實(shí)現(xiàn)觸覺(jué)傳感。在arXiv上預(yù)先發(fā)表的
    的頭像 發(fā)表于 03-26 15:47 ?2519次閱讀

    研究人員開(kāi)發(fā)出了種稱(chēng)為L(zhǎng)B-WayPtNav-DH的機(jī)器人導(dǎo)航新框架

    加州大學(xué)伯克利分校的研究人員最近開(kāi)發(fā)了種新的框架,該框架可以增強(qiáng)辦公室,房屋或博物館等室內(nèi)環(huán)境中人類(lèi)的機(jī)器人導(dǎo)航能力。他們的模型在arXiv上預(yù)先發(fā)表的篇論文中
    發(fā)表于 04-09 11:18 ?905次閱讀

    研究人員提出了個(gè)名為CommPlan的框架

    使用CommPlan,開(kāi)發(fā)人員首先使用數(shù)據(jù),領(lǐng)域?qū)I(yè)知識(shí)和學(xué)習(xí)算法指定五個(gè)模塊-任務(wù)模型,通信功能,通信成本模型,人員響應(yīng)
    的頭像 發(fā)表于 04-09 14:30 ?2092次閱讀

    Facebook研究人員發(fā)布友誼數(shù)據(jù)

    Facebook篇博文中表示,卡耐基梅隆大學(xué)的研究人員“不會(huì)與Facebook分享個(gè)人調(diào)查反饋,Facebook也不會(huì)與
    的頭像 發(fā)表于 04-22 10:58 ?3260次閱讀

    華裔女博士提出Facebook提出用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】Facebook研究人員近日提出了種用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架。
    的頭像 發(fā)表于 04-26 09:45 ?1685次閱讀
    華裔女博士<b class='flag-5'>提出</b>:<b class='flag-5'>Facebook</b><b class='flag-5'>提出</b>用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

    研究人員制造出種可以挖洞的軟體機(jī)器人

    的軟體機(jī)器人。 研究人員提出了新的在顆粒介質(zhì)挖掘的動(dòng)力學(xué)理解,結(jié)合關(guān)鍵結(jié)果設(shè)計(jì)出款帶有尖端延伸噴氣裝置的管狀機(jī)器人,控制地下的相互作用力
    的頭像 發(fā)表于 06-26 16:28 ?2097次閱讀

    人工智能研究人員利用靜止圖像創(chuàng)建循環(huán)視頻

      研究人員使用了 NVIDIA Pix2PixHD 用于運(yùn)動(dòng)估計(jì)網(wǎng)絡(luò)訓(xùn)練的 GAN 模型,以及 FlowNet2 和 PWC-Net 。模型
    的頭像 發(fā)表于 04-26 15:40 ?716次閱讀