案例介紹
-
通過全面的 GPU 優(yōu)化,星瀾的端到端響應(yīng)時間少于 2 秒,實現(xiàn)了近實時交互。
-
在角色的口型表情上,結(jié)合 NVIDIA Audio2Face 能力與 TensorRT 框架的性能優(yōu)化,實現(xiàn)了毫秒級逼真地基于音頻的面部 Rig 參數(shù)合成
-
訓(xùn)練提速比一般狀況下提升了 2-3 倍
客戶簡介
朝夕光年是一家面向全球用戶與開發(fā)者的游戲研發(fā)與發(fā)行公司。通過提供頂級游戲和打造玩家社群,朝夕光年致力于服務(wù)全球玩家,為每位玩家?guī)碛腥ず图钊诵牡捏w驗。
朝夕光年江南游戲工作室,成立于 2019 年 2 月。工作室主要聚焦中重度游戲和虛擬偶像研發(fā),面向全球市場。
使用 GPU 實現(xiàn)數(shù)字人實時交互
在《星球:重啟》游戲中,李星瀾是游戲中每位幸存者最好的伙伴。她將是新手玩家的“引導(dǎo)員”,亦是玩家在歷險中的“好助手”,更是跌宕劇情中的“女主角”。她也將為了拯救世界,犧牲自己回到 21 世紀。這科幻色彩十足的游戲設(shè)定,賦予了李星瀾鮮活的人設(shè),讓她的“靈魂”得以誕生。
李星瀾不僅僅只是簡單的游戲 NPC,她更是首位由江南游戲工作室所打造的真·元宇宙虛擬人,不僅在游戲中引導(dǎo)玩家,平時在游戲外,也會不定時在抖音上發(fā)布抖音直播、擔任代言人、主持人等角色,人氣爆棚的她也曾受邀領(lǐng)獎。
李星瀾也不是傳統(tǒng)意義上的“數(shù)字人”(Digital Human),不僅外形更加仿真,更重要的是,驅(qū)動她的內(nèi)核并非大家所認知的中之人(操縱虛擬主播進行直播的人),而是最新的 NVIDIA AI 技術(shù)。
朝夕光年江南游戲工作室提出建構(gòu)了一個由 NVIDIA GPU 驅(qū)動的 AI 系統(tǒng),包括文本到語音、音頻到全身動畫、視頻分析、渲染和聊天機器人,基于這些不同的應(yīng)用模塊,團隊成功構(gòu)建出一個逼真的實時交互數(shù)字人。2023 年 7 月,李星瀾甚至與玩家們在抖音平臺上成功連線,完成了一場直播,其直播總曝光量共高達 1.5 千萬,互動彈幕數(shù)量峰值 171 條/分鐘,為朝夕光年首次 AI 數(shù)字人實時互動直播創(chuàng)造了亮眼佳績。
從模型搭建、訓(xùn)練、推理到部署,
解密數(shù)字人背后 AI 推手
江南游戲工作室與 NVIDIA 團隊為數(shù)字虛擬人的互動共同設(shè)計未來“AI 大腦”——一個可擴展性的 AI 系統(tǒng)。這個系統(tǒng)能通過 NVIDIA Omniverse 平臺連接李星瀾和后端負責生成聊天文本內(nèi)容,以及通過聊天文本內(nèi)容生成動畫的深度定制神經(jīng)網(wǎng)絡(luò)。換言之,無論是她說話的內(nèi)容、傳遞的表情、肢體的動作,都是通過定制開發(fā)的神經(jīng)網(wǎng)絡(luò)來完成的。
為了加快在創(chuàng)造李星瀾中使用的深度學(xué)習(xí)模型的訓(xùn)練周期,江南游戲工作室使用了 NVIDIA Ampere 架構(gòu) GPU 執(zhí)行部署,并通過由 FasterTransformer 優(yōu)化的自動語音識別(ASR)模塊,可以實時地將語音轉(zhuǎn)錄成文本。同時通過部署在 NVIDIA A30 Tensor Core GPU 上的動畫生成模塊,其使用一系列深度學(xué)習(xí)模型,可根據(jù)語音及文本響應(yīng)生成逼真的面部表情和身體姿勢。除了通過 NVIDIA 硬件的支持,李星瀾團隊還利用了 FP16 混合精度訓(xùn)練和 Megatron-LM 風格的模型并行方案,在不犧牲收斂質(zhì)量的情況下,進一步提升訓(xùn)練吞吐量。目前該系統(tǒng)能夠在兩天內(nèi)完全訓(xùn)練 Audio2Motion 和 Text2Speech 模型,并在五天內(nèi)完全訓(xùn)練基于 Transformer 的 Chatbot 模型,超過 10TB 的訓(xùn)練數(shù)據(jù)。為了快速提升李星瀾的能力,所有模型均在 NVIDIA A100 Tensor Core 80GB GPU 上使用 DeepSpeed 訓(xùn)練,實現(xiàn)了高吞吐量的持續(xù)學(xué)習(xí),助力模型的快速演進。NVIDIA AI 解決方案使李星瀾具備了參與自然的實時會話的能力并能夠進行逼真的情緒表達。
在推理方面,團隊利用了另一部署在 NVIDIA A100 GPU 上的回復(fù)生成模塊,使用類似 GPT 的自回歸結(jié)構(gòu)的大型語言模型(LLM)快速生成自然回復(fù),并通過 FasterTransformer 加速,從而將推理延遲減半,使李星瀾能夠以高度響應(yīng)的方式與觀眾互動。
部署在 NVIDIA A30 GPU 上的文本到語音(TTS)模塊,通過 cuBLAS 和 CUTLASS 編寫的高性能自定義 kernels 來進行加算,高效的將文本轉(zhuǎn)換成逼真的語音。
通過 NVIDIA GPU 的算力支持,并結(jié)合 NVIDIA 團隊量身定制的 AI 系統(tǒng)進行優(yōu)化,江南游戲工作室在幾個月時間內(nèi)就完成了打造高質(zhì)量虛擬人的端到端迭代。
讓 AI 走進生活,
為各行業(yè)打造多元的應(yīng)用場景
憑借其逼真的外觀和出色的會話能力,像李星瀾這樣的數(shù)字人為許多行業(yè)開辟了新的可能:
-
虛擬助手和聊天機器人:數(shù)字人可以在客戶服務(wù)等場景中作為互動的 AI 助手提供幫助和服務(wù)。
-
數(shù)字內(nèi)容創(chuàng)作:逼真的視頻動畫為電影、電視、AR/VR 內(nèi)容創(chuàng)作開辟了新的道路,可定制數(shù)字角色。
-
醫(yī)療保?。?/strong>數(shù)字人可以模擬患者和醫(yī)生的互動來訓(xùn)練醫(yī)療專業(yè)人員。
-
教育:數(shù)字人可以扮演虛擬導(dǎo)師或老師的角色,提供互動課程。
-
社交聯(lián)系:對于護理院等隔離群體,數(shù)字人可以通過自然對話提供陪伴。
視頻 1. 星瀾情感交互產(chǎn)品概念-雷鳥合作視頻
視頻 2. 星瀾情感交互產(chǎn)品概念-老人篇
通過江南游戲工作室的 AI 技術(shù)演進、NVIDIA 的底層算力支持,以及 NVIDIA Omniverse 平臺,我們能夠充分利用這些快速發(fā)展的前沿技術(shù)。隨著李星瀾的能力不斷提升,更多的應(yīng)用將成為可能,從根本上改變?nèi)祟惻c AI 技術(shù)的互動方式。在不久的將來,李星瀾將給大家?guī)砀嗟捏@喜。
江南游戲工作室產(chǎn)品經(jīng)理肉山(金昱含)表示:“基于 NVIDIA 軟硬件的支持,數(shù)字人 AI 產(chǎn)品的表現(xiàn)力將不斷突破原有上限。我們致力于在超寫實數(shù)字人和 AI 產(chǎn)品的探索上,不僅能越來越接近用戶訴求,也能真正實際應(yīng)用于各式場景中。”
*本文中的圖片與視頻均來源于江南游戲工作室,若您有任何疑問或需要使用本文中的圖片與視頻,請聯(lián)系江南游戲工作室。
GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。點擊“閱讀原文”或掃描下方海報二維碼,關(guān)注更多會議及活動信息。
原文標題:星瀾再進化:NVIDIA AI 助力江南游戲工作室實現(xiàn)數(shù)字人實時交互
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達
+關(guān)注
關(guān)注
22文章
3723瀏覽量
90708
原文標題:星瀾再進化:NVIDIA AI 助力江南游戲工作室實現(xiàn)數(shù)字人實時交互
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論