0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICCV 2023 | 重塑人體動作生成,融合擴(kuò)散模型與檢索策略的新范式ReMoDiffuse來了

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-09-10 22:30 ? 次閱讀

人體動作生成任務(wù)旨在生成逼真的人體動作序列,以滿足娛樂、虛擬現(xiàn)實(shí)、機(jī)器人技術(shù)等領(lǐng)域的需求。傳統(tǒng)的生成方法包括 3D 角色創(chuàng)建、關(guān)鍵幀動畫和動作捕捉等步驟,其存在諸多限制,如耗時(shí)較長,需要專業(yè)技術(shù)知識,涉及昂貴的系統(tǒng)和軟件,不同軟硬件系統(tǒng)之間可能存在兼容性問題等。隨著深度學(xué)習(xí)的發(fā)展,人們開始嘗試使用生成模型來實(shí)現(xiàn)人體動作序列的自動生成,例如通過輸入文本描述,要求模型生成與文本要求相匹配的動作序列。隨著擴(kuò)散模型被引入這個(gè)領(lǐng)域,生成動作與給定文本的一致性不斷提高。

然而,生成動作的自然程度離使用需求仍有很大差距。為了進(jìn)一步提升人體動作生成算法的能力,本文在 MotionDiffuse [1] 的基礎(chǔ)上提出了 ReMoDiffuse 算法(圖 1),通過利用檢索策略,找到高相關(guān)性的參考樣本,提供細(xì)粒度的參考特征,從而生成更高質(zhì)量的動作序列。

wKgaomT91ByAJfNFAAFXJu_whUs405.png

  • 論文鏈接:https://arxiv.org/pdf/2304.01116.pdf

  • GitHub:https://github.com/mingyuan-zhang/ReMoDiffuse

  • 項(xiàng)目主頁:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通過巧妙地將擴(kuò)散模型和創(chuàng)新的檢索策略融合,ReMoDiffuse 為文本指導(dǎo)的人體動作生成注入了新的生命力。經(jīng)過精心構(gòu)思的模型結(jié)構(gòu),ReMoDiffuse 不僅能夠創(chuàng)造出豐富多樣、真實(shí)度高的動作序列,還能有效地滿足各種長度和多粒度的動作需求。實(shí)驗(yàn)證明,ReMoDiffuse 在動作生成領(lǐng)域的多個(gè)關(guān)鍵指標(biāo)上表現(xiàn)出色,顯著地超越了現(xiàn)有算法。

wKgaomT91ByAZF-fAAIVPX6J5mM831.png

圖 1. ReMoDiffuse 概覽

方法介紹

ReMoDiffuse 主要由兩個(gè)階段組成:檢索和擴(kuò)散。在檢索階段,ReMoDiffuse 使用混合檢索技術(shù),基于用戶輸入文本以及預(yù)期動作序列長度,從外部的多模態(tài)數(shù)據(jù)庫中檢索出信息豐富的樣本,為動作生成提供強(qiáng)有力的指導(dǎo)。在擴(kuò)散階段,ReMoDiffuse 利用檢索階段檢索到的信息,通過高效的模型結(jié)構(gòu),生成與用戶輸入語義一致的運(yùn)動序列。

為了確保高效的檢索,ReMoDiffuse 為檢索階段精心設(shè)計(jì)了以下數(shù)據(jù)流(圖 2):

共有三種數(shù)據(jù)參與檢索過程,分別是用戶輸入文本、預(yù)期動作序列長度,以及一個(gè)外部的、包含多個(gè) < 文本,動作 > 對的多模態(tài)數(shù)據(jù)庫。在檢索最相關(guān)的樣本時(shí),ReMoDiffuse 利用公式wKgaomT91ByAJvU7AABIc-hXsEw192.jpg計(jì)算出每個(gè)數(shù)據(jù)庫中的樣本與用戶輸入的相似度。這里的第一項(xiàng)是利用預(yù)訓(xùn)練的 CLIP [2] 模型的文本編碼器對用戶輸入文本和數(shù)據(jù)庫實(shí)體的文本計(jì)算余弦相似度,第二項(xiàng)計(jì)算預(yù)期動作序列長度和數(shù)據(jù)庫實(shí)體的動作序列長度之間的相對差異作為運(yùn)動學(xué)相似度。計(jì)算相似度分?jǐn)?shù)后,ReMoDiffuse 選擇相似度排名前 k 的樣本作為檢索到的樣本,并提取出文本特征wKgaomT91ByAERawAAAc-TaYXRo557.jpg,和動作特征wKgaomT91B2APqtpAAAgTdunvyo004.jpg。這兩者和從用戶輸入的文本中提取的特征wKgaomT91B2AKwE8AAAszx0bnmc131.jpg一同作為輸入給擴(kuò)散階段的信號,指導(dǎo)動作生成。

wKgaomT91B2AT9ZKAAIx47aDiPw641.png

圖 2:ReMoDiffuse 的檢索階段

擴(kuò)散過程(圖3.c)由正向過程和逆向過程兩個(gè)部分組成。在正向過程中,ReMoDiffuse 逐步將高斯噪聲添加到原始動作數(shù)據(jù)中,并最終將其轉(zhuǎn)化為隨機(jī)噪聲。逆向過程專注于除去噪聲并生成逼真的動作樣本。從一個(gè)隨機(jī)高斯噪聲開始,ReMoDiffuse 在逆向過程中的每一步都使用語義調(diào)制模塊(SMT)(圖3.a)來估測真實(shí)分布,并根據(jù)條件信號來逐步去除噪聲。這里 SMT 中的 SMA 模塊將會將所有的條件信息融入到生成的序列特征中,是本文提出的核心模塊。

wKgaomT91B2ASSzuAAJAGhFuaLk707.png

圖 3:ReMoDiffuse 的擴(kuò)散階段

對于 SMA 層(圖 3.b),我們使用了高效的注意力機(jī)制(Efficient Attention)[3] 來加速注意力模塊的計(jì)算,并創(chuàng)造了一個(gè)更強(qiáng)調(diào)全局信息的全局特征圖。該特征圖為動作序列提供了更綜合的語義線索,從而提升了模型的性能。SMA 層的核心目標(biāo)是通過聚合條件信息來優(yōu)化動作序列wKgaomT91B2ABzoxAAAdxhjtZao260.jpg的生成。在這個(gè)框架下:

1.Q 向量具體地代表了我們期望基于條件信息生成的預(yù)期動作序列wKgaomT91B2ABzoxAAAdxhjtZao260.jpg。

2.K 向量作為一種索引機(jī)制綜合考慮了多個(gè)要素,包括當(dāng)前動作序列特征wKgaomT91B2ABzoxAAAdxhjtZao260.jpg、用戶輸入的語義特征wKgaomT91B2AKwE8AAAszx0bnmc131.jpg,以及從檢索樣本中獲取的特征wKgaomT91B2APqtpAAAgTdunvyo004.jpgwKgaomT91ByAERawAAAc-TaYXRo557.jpg。其中,wKgaomT91B2APqtpAAAgTdunvyo004.jpg表示從檢索樣本中獲取的動作序列特征,wKgaomT91ByAERawAAAc-TaYXRo557.jpg表示從檢索樣本中獲取的文描述特征。這種綜合性的構(gòu)建方式保證了 K 向量在索引過程中的有效性。

3.V 向量提供了動作生成所需的實(shí)際特征。類似 K 向量,這里 V 向量也綜合考慮了檢索樣本、用戶輸入以及當(dāng)前動作序列。考慮到檢索樣本的文本描述特征與生成的動作之間沒有直接關(guān)聯(lián),因此在計(jì)算 V 向量時(shí)我們選擇不使用這一特征,以避免不必要的信息干擾。

結(jié)合 Efficient Attention 的全局注意力模板機(jī)制,SMA 層利用來自檢索樣本的輔助信息、用戶文本的語義信息以及待去噪序列的特征信息,建立起一系列綜合性的全局模板,使得所有條件信息能夠被待生成序列充分吸收。

實(shí)驗(yàn)及結(jié)果

我們在兩個(gè)數(shù)據(jù)集 HumanML3D [4] 和 KIT-ML [5] 上評估了 ReMoDiffuse。在與文本的一致性與動作質(zhì)量兩個(gè)角度上,實(shí)驗(yàn)結(jié)果(表 1、2)展示了我們提出的 ReMoDiffuse 框架的強(qiáng)大性能和優(yōu)勢。

wKgaomT91B2AJZskAAOGmlEXtww746.png

表 1. 不同方法在 HumanML3D 測試集上的表現(xiàn)

wKgaomT91B2ASgAKAAHjqaBlL_o118.png

表 2. 不同方法在 KIT-ML 測試集上的表現(xiàn)

以下是一些能定性展示 ReMoDiffuse 的強(qiáng)大性能的示例(圖 4)。與之前的方法相比,例如,在給定文本 “一個(gè)人在圓圈里跳躍” 時(shí),只有 ReMoDiffuse 能夠準(zhǔn)確捕捉到 “跳躍” 動作和 “圓圈” 路徑。這表明 ReMoDiffuse 能夠有效地捕捉文本細(xì)節(jié),并將內(nèi)容與給定的運(yùn)動持續(xù)時(shí)間對齊。

wKgaomT91B6AWLC-AAQ2rL4uyGM058.png

圖 4. ReMoDiffuse 生成的動作序列與其他方法生成的動作序列的比較

我們對 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相應(yīng)動作序列進(jìn)行了可視化展示,并以問卷形式收集測試參與者的意見。結(jié)果的分布情況如圖 5 所示。從結(jié)果中可以清晰地看出,在大多數(shù)情況下,參與測試者認(rèn)為我們的方法 —— 即 ReMoDiffuse 所生成的動作序列在四個(gè)算法中最貼合所給的文本描述,也最自然流暢。

wKgaomT91B6ANVwDAAEHvu5tSPY908.png

圖 5:用戶調(diào)研的結(jié)果分布

引用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.


原文標(biāo)題:ICCV 2023 | 重塑人體動作生成,融合擴(kuò)散模型與檢索策略的新范式ReMoDiffuse來了

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ICCV 2023 | 重塑人體動作生成,融合擴(kuò)散模型與檢索策略的新范式ReMoDiffuse來了

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Meta發(fā)布Imagine Yourself AI模型重塑個(gè)性化圖像生成未來

    Meta公司近日在人工智能領(lǐng)域邁出了重要一步,隆重推出了其創(chuàng)新之作——“Imagine Yourself”AI模型,這一突破性技術(shù)為個(gè)性化圖像生成領(lǐng)域帶來了前所未有的變革。在社交媒體與虛擬現(xiàn)實(shí)技術(shù)
    的頭像 發(fā)表于 08-26 10:59 ?325次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    與匹配 模型可能結(jié)合高效檢索技術(shù)來快速定位與問題相關(guān)的信息源。通過匹配算法和索引技術(shù),模型可以從海量數(shù)據(jù)中篩選出最相關(guān)的文本片段作為候選答案。 3. 推理與生成 在獲得候選答案后,
    發(fā)表于 08-02 11:03

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    實(shí)際應(yīng)用前需解決的挑戰(zhàn)。為提升大語言模型的性能,高級的提示詞技術(shù)可以促進(jìn)大語言模型與環(huán)境進(jìn)行動態(tài)交互,引導(dǎo)其生成和推理規(guī)劃。 檢索增強(qiáng)生成
    發(fā)表于 05-07 17:21

    谷歌推出AI擴(kuò)散模型Lumiere

    近日,谷歌研究院重磅推出全新AI擴(kuò)散模型Lumiere,這款模型基于谷歌自主研發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu),旨在實(shí)現(xiàn)視頻生成的一次性完成,同時(shí)保證視頻的真實(shí)性和
    的頭像 發(fā)表于 02-04 13:49 ?867次閱讀

    谷歌推出能一次生成完整視頻的擴(kuò)散模型

    該公司指出,當(dāng)前眾多文生視頻模型普遍存在無法生成長時(shí)、高品質(zhì)及動作連貫的問題。這些模型往往采用“分段生成視頻”
    的頭像 發(fā)表于 01-29 11:14 ?383次閱讀

    基于DiAD擴(kuò)散模型的多類異常檢測工作

    現(xiàn)有的基于計(jì)算機(jī)視覺的工業(yè)異常檢測技術(shù)包括基于特征的、基于重構(gòu)的和基于合成的技術(shù)。最近,擴(kuò)散模型因其強(qiáng)大的生成能力而聞名,因此本文作者希望通過擴(kuò)散
    的頭像 發(fā)表于 01-08 14:55 ?914次閱讀
    基于DiAD<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的多類異常檢測工作

    3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

    在 3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷一系列人工制作的過程,如 3D 人體模型回歸、綁定、蒙皮、紋理貼圖
    的頭像 發(fā)表于 12-20 16:37 ?1301次閱讀
    3D<b class='flag-5'>人體</b><b class='flag-5'>生成</b><b class='flag-5'>模型</b>HumanGaussian實(shí)現(xiàn)原理

    亞馬遜云科技全面發(fā)力生成式AI 2023 re:Invent中國行開啟

    北京2023年12月12日 /美通社/ --?亞馬遜云科技在2023 re:Invent全球大會上圍繞底層基礎(chǔ)設(shè)施、生成式人工智能(AI)、數(shù)據(jù)戰(zhàn)略等推出了一系列新服務(wù)及功能,以創(chuàng)新性的技術(shù)
    的頭像 發(fā)表于 12-12 16:13 ?517次閱讀

    如何在PyTorch中使用擴(kuò)散模型生成圖像

    除了頂尖的圖像質(zhì)量,擴(kuò)散模型還帶來了許多其他好處,包括不需要對抗性訓(xùn)練。對抗訓(xùn)練的困難是有據(jù)可查的。在訓(xùn)練效率的話題上,擴(kuò)散模型還具有可伸縮
    發(fā)表于 11-22 15:51 ?422次閱讀
    如何在PyTorch中使用<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b><b class='flag-5'>生成</b>圖像

    什么是檢索增強(qiáng)生成?

    檢索增強(qiáng) 生成是一種使用從外部來源獲 取的事實(shí),來提高生成式 AI 模型準(zhǔn)確性和可靠性的技術(shù)。 為了理解這一生成式 AI 領(lǐng)域的最新進(jìn)展,讓
    的頭像 發(fā)表于 11-16 21:15 ?898次閱讀
    什么是<b class='flag-5'>檢索</b>增強(qiáng)<b class='flag-5'>生成</b>?

    基于檢索的大語言模型簡介

    簡介章節(jié)講的是比較基礎(chǔ)的,主要介紹了本次要介紹的概念,即檢索(Retrieval)和大語言模型(LLM)
    的頭像 發(fā)表于 11-15 14:50 ?612次閱讀
    基于<b class='flag-5'>檢索</b>的大語言<b class='flag-5'>模型</b>簡介

    如何在搜索引擎中應(yīng)用AI大語言模型,提高企業(yè)生產(chǎn)力?

    人工智能尤其是大型語言模型的應(yīng)用,重塑了我們與信息交互的方式,也為企業(yè)帶來了重大的變革。將基于大模型檢索增強(qiáng)
    的頭像 發(fā)表于 11-06 08:10 ?467次閱讀
    如何在搜索引擎中應(yīng)用AI大語言<b class='flag-5'>模型</b>,提高企業(yè)生產(chǎn)力?

    ICCV 2023 | 面向視覺-語言導(dǎo)航的實(shí)體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法

    本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
    的頭像 發(fā)表于 10-23 09:40 ?537次閱讀
    <b class='flag-5'>ICCV</b> <b class='flag-5'>2023</b> | 面向視覺-語言導(dǎo)航的實(shí)體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法

    ICCV 2023生成式AI引人矚目,商湯多項(xiàng)技術(shù)突破展現(xiàn)中國“創(chuàng)新力”

    2160篇被接收,錄用率為26.8%,略高于上屆ICCV 2021錄用率25.9%。 商湯科技及聯(lián)合實(shí)驗(yàn)室共 49篇 論文入選,涵蓋 文生圖、3D數(shù)字人、自動駕駛、目標(biāo)檢測、視頻分割 等多個(gè)與大模型生成
    的頭像 發(fā)表于 10-04 18:50 ?841次閱讀
    <b class='flag-5'>ICCV</b> <b class='flag-5'>2023</b><b class='flag-5'>生成</b>式AI引人矚目,商湯多項(xiàng)技術(shù)突破展現(xiàn)中國“創(chuàng)新力”

    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問題

    擴(kuò)散模型(diffusion model)在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強(qiáng)化學(xué)習(xí)(RL)中來解決序列決策問題
    的頭像 發(fā)表于 10-02 10:45 ?656次閱讀
    NeurIPS <b class='flag-5'>2023</b> | <b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>解決多任務(wù)強(qiáng)化學(xué)習(xí)問題