電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)數(shù)字人(Digital Human / Meta Human)是運(yùn)用數(shù)字技術(shù)創(chuàng)造出來(lái)的、與人類形象接近的數(shù)字化人物形象。近些年數(shù)字人發(fā)展迅速,在短視頻、直播、金融、醫(yī)療等各行業(yè)上都有所應(yīng)用。而且隨著AI技術(shù)的發(fā)展,數(shù)字人的生成也越來(lái)越容易。
在不久前的深圳國(guó)際人工智能展,就有眾多企業(yè)展示其數(shù)字人技術(shù),包括出門(mén)問(wèn)問(wèn)、華為、元境科技、相芯科技等。在展會(huì)期間,電子發(fā)燒友網(wǎng)記者與現(xiàn)場(chǎng)工作人員進(jìn)行了詳細(xì)交流,發(fā)現(xiàn)當(dāng)前數(shù)字人技術(shù)和應(yīng)用已經(jīng)越來(lái)越成熟。
可以說(shuō)多國(guó)語(yǔ)言的數(shù)字人
此次展會(huì)上,華為重點(diǎn)展示了盤(pán)古大模型及其行業(yè)應(yīng)用。在其展臺(tái)上,記者注意到,華為也展示了其盤(pán)古數(shù)字人直播案例?;谌A為云MetaStudio分身數(shù)字人,多語(yǔ)種泛化,一次訓(xùn)練匹配多個(gè)語(yǔ)種,及多語(yǔ)言克隆,多語(yǔ)言驅(qū)動(dòng)等特點(diǎn),萬(wàn)興科技打造了AIGC“真人”出海營(yíng)銷神器萬(wàn)興播爆視頻版及直播版,結(jié)合盤(pán)古數(shù)字人大模型,其實(shí)現(xiàn)母語(yǔ)一次訓(xùn)練、多種語(yǔ)言流暢適配,助力企業(yè)輕松出海營(yíng)銷。
數(shù)字化時(shí)代,跨境電商成為了許多企業(yè)發(fā)展的新方向。然而,從文化差異、語(yǔ)言問(wèn)題,再到市場(chǎng)洞察、營(yíng)銷引流、用戶運(yùn)營(yíng),跨境電商立足海外市場(chǎng)面臨重重壓力。但全鏈路AIGC創(chuàng)作的“萬(wàn)能”助理萬(wàn)興播爆,解決了外籍演員難找、多語(yǔ)言難適配、制作周期長(zhǎng)、成本居高不下等痛點(diǎn),幫助企業(yè)大幅降本增效,輕松出海營(yíng)銷。
在今年7月的華為開(kāi)發(fā)者大會(huì)2023上,華為宣布,基于盤(pán)古大模型能力,華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線全新升級(jí),推出數(shù)字人模型生成服務(wù)和模型驅(qū)動(dòng)服務(wù),旨在通過(guò)數(shù)字人服務(wù)和技術(shù)賦能,賦能千行百業(yè)提升數(shù)字內(nèi)容創(chuàng)作體驗(yàn)和效率。
華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線,基于華為云盤(pán)古基礎(chǔ)大模型能力、渲染引擎和實(shí)時(shí)音視頻能力,使用PB級(jí)的音視頻數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建了數(shù)字人通用大模型,包括數(shù)字人形象、動(dòng)作、表情、口型、聲音等;每個(gè)用戶還可以結(jié)合個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建自己的數(shù)字人個(gè)性化大模型。數(shù)字人生成后,用戶通過(guò)文字、語(yǔ)音、視頻等方式生產(chǎn)驅(qū)動(dòng)向量信息,從而驅(qū)動(dòng)數(shù)字人生成高清視頻。
除了萬(wàn)興播爆數(shù)字人直播案例之外,現(xiàn)場(chǎng)還展示了多家基于華為云的數(shù)字人案例。展會(huì)現(xiàn)場(chǎng),工作人員告訴電子發(fā)燒友,目前市面上有很多通過(guò)圖片、文字生成的數(shù)字人,看上去是平面的,并不立體,華為云MetaStudio分身數(shù)字人看上去跟真人很相似了。對(duì)于數(shù)字人直播能否現(xiàn)場(chǎng)互動(dòng)的問(wèn)題,現(xiàn)場(chǎng)工作人員表示,當(dāng)前數(shù)字人直播基本難以做到現(xiàn)場(chǎng)互動(dòng),不過(guò)通過(guò)盤(pán)古大模型,后續(xù)會(huì)繼續(xù)進(jìn)行優(yōu)化,使得數(shù)字人能夠?qū)崟r(shí)回答現(xiàn)場(chǎng)用戶提出的部分問(wèn)題。
展會(huì)現(xiàn)場(chǎng),出門(mén)問(wèn)問(wèn)的展臺(tái)吸引了不少觀眾駐足觀看。出門(mén)問(wèn)問(wèn)成立于2012年,是一家以生成式AI與語(yǔ)音交互為核心的人工智能公司。該公司擁有領(lǐng)先的AI基礎(chǔ)設(shè)施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及豐富的垂直領(lǐng)域軟硬結(jié)合的優(yōu)化算法技術(shù)模塊,是為數(shù)不多的同時(shí)服務(wù)于消費(fèi)者、企業(yè)、創(chuàng)作者三大類不同群體的公司。
出門(mén)問(wèn)問(wèn)打造的AI數(shù)字人分身奇妙元,是一款專注于數(shù)字人短視頻和直播服務(wù)的軟件。包括多類型數(shù)字人和百種語(yǔ)言。據(jù)現(xiàn)場(chǎng)工作人員介紹,只需輸入一段文本內(nèi)容就能生成數(shù)字人視頻,幾秒鐘就能完成,制作起來(lái)非常方便。
出門(mén)問(wèn)問(wèn)提供4種超前沿的克隆與定制服務(wù),包括真人形象克隆、聲音克隆、3D數(shù)字人定制和IP活化。比如真人形象克隆,可以實(shí)現(xiàn)真人形象1:1還原,只需錄制一個(gè)5分鐘視頻,即可終身使用,輸入文字?jǐn)?shù)字人即可說(shuō)話,表情神態(tài)接近真人。
奇妙元數(shù)字人視頻制作非常簡(jiǎn)單,一鍵就可以將文本合成視頻。相比于傳統(tǒng)視頻制作,奇妙元視頻制作的優(yōu)勢(shì)在于:1、速度非???,即使是制作一個(gè)真人口播視頻,也僅需5分鐘;2、數(shù)字人視頻,可隨時(shí)修改文本,隨時(shí)生成;3、數(shù)字人更智能,一個(gè)數(shù)字人可說(shuō)10國(guó)語(yǔ)言,500種聲音。
如今數(shù)字人已經(jīng)適用于各種應(yīng)用場(chǎng)景,包括新聞播報(bào)、科普服務(wù)、培訓(xùn)視頻、線上客服、帶貨種草、產(chǎn)品宣傳、企業(yè)代言、金融宣傳等。出門(mén)問(wèn)問(wèn)還提供形象和聲音克隆,比如醫(yī)生、律師等各種需要大量科普的職業(yè),非常適合克隆自己的形象做數(shù)字人。
虛擬數(shù)字人涉及哪些前沿技術(shù)
在此次展會(huì)上,除了體驗(yàn)到快速生成數(shù)字人之外,我們也看到了數(shù)字人生成所涉及到的諸多技術(shù)。在參展的企業(yè)中,有一家提供全棧式虛擬數(shù)字人多場(chǎng)景應(yīng)用解決方案服務(wù)的企業(yè)元境科技,該公司成立于2021年12月,由A股上市公司天娛數(shù)科戰(zhàn)略投資。
元境科技以元享SaaS云平臺(tái)、元趣AI為基礎(chǔ),通過(guò)計(jì)算機(jī)圖形學(xué)、圖形渲染、動(dòng)作捕捉、深度學(xué)習(xí)、語(yǔ)音合成等計(jì)算機(jī)技術(shù),并打通AI智能交互設(shè)備鏈接,快速打通AI在各個(gè)垂直場(chǎng)景中的應(yīng)用,賦能各行業(yè)。元境科技核心技術(shù)團(tuán)隊(duì)從2016年開(kāi)始布局虛擬人業(yè)務(wù),擁有全球頂尖的動(dòng)態(tài)光場(chǎng)掃描、三維重建算法、無(wú)標(biāo)記點(diǎn)視覺(jué)捕捉、AI語(yǔ)音驅(qū)動(dòng)等前沿技術(shù),在北京總部擁有400平米XR動(dòng)捕基地。
虛擬人生成SaaS云平臺(tái)“元享”,是以底層數(shù)據(jù)為核心生成各類產(chǎn)品應(yīng)用的架構(gòu)平臺(tái)。從元境科技提供的材料來(lái)看,其包含動(dòng)態(tài)光場(chǎng)掃描建模、三位重建算法、AI驅(qū)動(dòng)、XR動(dòng)捕基地等技術(shù)。制作流程上:1、動(dòng)態(tài)動(dòng)態(tài)光場(chǎng)掃描真人;2、AI算法進(jìn)行三維重建;3、AI動(dòng)畫(huà)綁定;4、渲染;5、AI驅(qū)動(dòng)。
數(shù)據(jù)方面,元境科技擁有LightStage掃描建模技術(shù),包括面部三位模型與重光照數(shù)據(jù)采集、亞微米級(jí)別超高精度輸出等;專業(yè)級(jí)表演捕捉技術(shù),包括400平米超大動(dòng)捕棚、實(shí)時(shí)多人動(dòng)捕、實(shí)現(xiàn)線上線下同步直播;3D視覺(jué)捕捉芯片技術(shù),包括3D視覺(jué)深度引擎、3D傳感和AI計(jì)算、SLAM實(shí)時(shí)跟蹤建圖引擎。
算法方面,表情學(xué)習(xí)模型:1、利用LightStage對(duì)被采集人員面部動(dòng)態(tài)表情進(jìn)行掃描數(shù)據(jù)采集;2、自研SaaS平臺(tái)對(duì)采集數(shù)據(jù)進(jìn)行深度學(xué)習(xí);3、一鍵生成虛擬形象獨(dú)有的動(dòng)態(tài)表情數(shù)據(jù)庫(kù)。保障在數(shù)字人生成內(nèi)容時(shí)高度還原真人在說(shuō)話時(shí)的面部神經(jīng)反應(yīng)與細(xì)微表情。
AI算法表情驅(qū)動(dòng):利用綜合動(dòng)捕方案與自研智能算法,在直播期間可實(shí)現(xiàn)面部細(xì)微表情的高速傳遞與智能修正。
元境科技基于全球領(lǐng)先的完備人工智能元鯨框架,推出了數(shù)字員工產(chǎn)品線,從數(shù)據(jù)采集、訓(xùn)練到上線,最快僅需10小時(shí)。支持創(chuàng)建擁有情感交互能力、專業(yè)技能和內(nèi)容生產(chǎn)能力的數(shù)字人,目前已被應(yīng)用于很多領(lǐng)域及場(chǎng)景中。
記者在展會(huì)現(xiàn)場(chǎng)還看到一家提供數(shù)字人服務(wù)的企業(yè)相芯科技,據(jù)現(xiàn)場(chǎng)工作人員介紹,他們公司不直接給C端用戶提供生成數(shù)字人,而是為需要制作數(shù)字人的企業(yè)提供SDK,讓這些企業(yè)能夠基于他們的SDK快速的生成數(shù)字人。
相芯科技成立于2016年,由全球圖形學(xué)頂級(jí)專家領(lǐng)銜,團(tuán)隊(duì)成員來(lái)自微軟、蘋(píng)果、華為等國(guó)際知名企業(yè)。自研的“數(shù)字人平臺(tái)AvatarX”和“數(shù)字物平臺(tái)ObjectX”可刻畫(huà)人的音容笑貌,描繪物的流光溢彩,已服務(wù)數(shù)千家海內(nèi)外企業(yè),實(shí)現(xiàn)手機(jī)、電商、金融、汽車(chē)、互娛、融媒體、政務(wù)、文博等領(lǐng)域的規(guī)?;瘧?yīng)用。
此次展會(huì)重點(diǎn)展示其AvatarX數(shù)字人平臺(tái),該平臺(tái)依托獨(dú)創(chuàng)的“虛擬數(shù)字人引擎”,為各行各業(yè)提供從虛擬形象生成、自定義、驅(qū)動(dòng)、云渲染到應(yīng)用于一體的跨平臺(tái)數(shù)字人解決方案。用戶可通過(guò)組合不同能力的SDK,打造更面向未來(lái)的,更具差異化的數(shù)字人應(yīng)用產(chǎn)品和數(shù)宇資產(chǎn),賦能元宇由生態(tài)布局。
相芯科技擁有全棧數(shù)字人技術(shù)和全品類數(shù)字人產(chǎn)品,包括卡通數(shù)字人、視頻數(shù)字人、超寫(xiě)實(shí)數(shù)字人、仿真數(shù)字人、全真數(shù)字人。應(yīng)用場(chǎng)景包括社交、短視頻創(chuàng)作、智能客服、虛擬主播、品牌代言人、智能車(chē)載等。相芯科技數(shù)字人方案具有諸多優(yōu)勢(shì),比如形象自由生成;支持面部驅(qū)動(dòng)、身體驅(qū)動(dòng)、手勢(shì)識(shí)別、語(yǔ)音驅(qū)動(dòng);支持實(shí)時(shí)云端渲染,兼容第三方渲染引擎;不同能力SDK自由組合,幫助開(kāi)發(fā)者快速構(gòu)建不同應(yīng)用程序等。
在通過(guò)AvatarX SDK DEMO進(jìn)行體驗(yàn)的時(shí)候,可以發(fā)現(xiàn),AI形象生成非常快,只需上傳照片,便可一鍵生成還原度極高的虛擬形象。該平臺(tái)還支持形象自定義,支持拼臉扭臉、身體捏形、服飾美妝等不同方式對(duì)虛擬形象自定義編輯。據(jù)介紹,云平臺(tái)為用戶提供海量素材自由選擇搭配,并保持定期更新與維護(hù)。
根據(jù)其官網(wǎng)介紹,其AI面部驅(qū)動(dòng)支持51個(gè)維度的面部表情檢測(cè)與3個(gè)維度的舌頭活動(dòng)檢測(cè),實(shí)時(shí)人臉追蹤技術(shù)實(shí)現(xiàn)真人與虛擬人表情同步,即使只有側(cè)臉也能穩(wěn)定使用。AI身體驅(qū)動(dòng),通過(guò)實(shí)時(shí)驅(qū)動(dòng)跟蹤技術(shù),實(shí)現(xiàn)真人與虛擬人動(dòng)作同步,共同支持全身31個(gè)人體點(diǎn)位、26根骨骼方向驅(qū)動(dòng),單手21個(gè)手部點(diǎn)位。AI語(yǔ)音驅(qū)動(dòng),通過(guò)文本或語(yǔ)音驅(qū)動(dòng)虛擬人口型,集成TTS、ASR和NLP服務(wù),支持多種音色自由切換支持虛擬形象情緒和表情設(shè)置,并能控制虛擬形象肢體動(dòng)作。
此外,用戶的虛擬形象不僅可以與其他虛擬形象互動(dòng),也可與虛擬場(chǎng)景、虛擬道具互動(dòng),支持多人聊天功能與視頻遠(yuǎn)程共享功能并實(shí)現(xiàn)了WebRTC服務(wù)集成。
小結(jié)
當(dāng)前已經(jīng)有不少虛擬數(shù)字人出現(xiàn)在短視頻創(chuàng)作、直播等場(chǎng)景中,然而可以看到,不少數(shù)字人在表情、動(dòng)作、語(yǔ)言方面與真人相比還相差甚遠(yuǎn),在直播中數(shù)字人也無(wú)法進(jìn)行互動(dòng),體驗(yàn)還有待提高。虛擬數(shù)字人的制作涉及很多技術(shù),包括數(shù)據(jù)采集、動(dòng)作捕捉、AI驅(qū)動(dòng)、渲染等,要想讓數(shù)字人有更好的體驗(yàn),每個(gè)技術(shù)環(huán)節(jié)都需要打磨好。另外大模型的接入也讓數(shù)字人在直播中能夠互動(dòng)有了可能。
-
數(shù)字人
+關(guān)注
關(guān)注
0文章
107瀏覽量
1885 -
大模型
+關(guān)注
關(guān)注
2文章
2135瀏覽量
1978
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論