0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

融合AI大模型技術(shù),數(shù)字人交互更自然、應(yīng)用更廣泛!

Carol Li ? 來源:電子發(fā)燒友 ? 作者:李彎彎 ? 2024-04-27 00:58 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)數(shù)字人是通過先進(jìn)的計(jì)算機(jī)圖形學(xué)、深度學(xué)習(xí)等技術(shù)創(chuàng)建出的具有高度逼真形象和行為的虛擬人物。AI大模型則是指具有大規(guī)模參數(shù)量和復(fù)雜結(jié)構(gòu)的人工智能模型,能夠處理大量的數(shù)據(jù)和復(fù)雜的任務(wù),提供準(zhǔn)確和強(qiáng)大的預(yù)測和推理能力。

兩者結(jié)合,AI大模型可以在數(shù)字人的基礎(chǔ)上,利用AI大模型的強(qiáng)大能力進(jìn)行進(jìn)一步的優(yōu)化和拓展。例如,在數(shù)字人的交互和表達(dá)方面,AI大模型可以分析用戶的輸入和反饋,提供更智能、更自然的響應(yīng)和動(dòng)作。同時(shí),AI大模型還可以結(jié)合大量的數(shù)據(jù)資源,對(duì)數(shù)字人的行為和表現(xiàn)進(jìn)行學(xué)習(xí)和優(yōu)化,使其更加符合用戶的期望和需求。

AI大模型與數(shù)字人的結(jié)合

具體來看,AI大模型在數(shù)字人上的作用主要體現(xiàn)在多個(gè)方面,如多模態(tài)交互,AI大模型使得數(shù)字人能夠同時(shí)處理文字、語音、圖像等多種模態(tài)的信息,從而與用戶進(jìn)行更加自然和豐富的交互。這種多模態(tài)交互能力使得數(shù)字人能夠更好地理解用戶的意圖和需求,提供更加精準(zhǔn)和個(gè)性化的服務(wù)。

利用AI大模型,數(shù)字人可以構(gòu)建出高度智能化的對(duì)話系統(tǒng)。這些系統(tǒng)能夠理解復(fù)雜的語境和語義,生成流暢、自然的對(duì)話內(nèi)容,使得數(shù)字人能夠與用戶進(jìn)行深入的交流和互動(dòng)。

AI大模型可以根據(jù)用戶的喜好和習(xí)慣,生成個(gè)性化的內(nèi)容。例如,數(shù)字人可以根據(jù)用戶的興趣推薦相關(guān)的音樂、電影或書籍,或者根據(jù)用戶的性格和情緒生成合適的聊天話題。這種個(gè)性化內(nèi)容生成能力使得數(shù)字人能夠更好地滿足用戶的需求和期望。

更值得關(guān)注的還有,AI大模型可以通過分析用戶的語音、表情和文本等信息,識(shí)別用戶的情感狀態(tài)。數(shù)字人可以根據(jù)識(shí)別結(jié)果調(diào)整自己的行為和表達(dá)方式,以更好地與用戶建立情感連接。這種情感識(shí)別與表達(dá)能力使得數(shù)字人能夠?yàn)橛脩籼峁└訙嘏腿诵曰姆?wù)。

AI大模型將顯著提高數(shù)字人的生產(chǎn)效率。通過利用大規(guī)模深度神經(jīng)網(wǎng)絡(luò),大模型能夠自動(dòng)處理和分析大量數(shù)據(jù),從而快速生成具有真實(shí)感的數(shù)字人物形象。這大大縮短了數(shù)字人制作的時(shí)間,提高了創(chuàng)作效率,使得設(shè)計(jì)師可以將更多的精力投入到創(chuàng)意和細(xì)節(jié)打磨上。

AI大模型的發(fā)展也推動(dòng)數(shù)字人向更廣泛的應(yīng)用領(lǐng)域拓展。隨著技術(shù)的不斷進(jìn)步,數(shù)字人不僅可以在娛樂、游戲等領(lǐng)域提供優(yōu)質(zhì)的服務(wù),還可以應(yīng)用于教育、醫(yī)療、營銷等多個(gè)領(lǐng)域。大模型的強(qiáng)大能力使得數(shù)字人能夠更好地適應(yīng)不同場景的需求,為各行各業(yè)提供更智能化和高效的服務(wù)。

此外,AI大模型還能夠促進(jìn)數(shù)字人技術(shù)的創(chuàng)新和發(fā)展。隨著生成式AI和大模型技術(shù)的融合,數(shù)字人平臺(tái)展現(xiàn)出更加高效和可信的生產(chǎn)能力。這使得數(shù)字人技術(shù)能夠不斷突破創(chuàng)新,滿足市場用戶和場景需求,推動(dòng)整個(gè)行業(yè)的進(jìn)步和發(fā)展。

融合了AI大模型的數(shù)字人應(yīng)用

過去幾年,數(shù)字人技術(shù)迅速發(fā)展,逐漸在各個(gè)領(lǐng)域?qū)崿F(xiàn)應(yīng)用。然而很明顯,不少數(shù)字人在交互能力上有所不足,近一年多來,隨著大模型的發(fā)展,數(shù)字人也迎來了新的發(fā)展高潮。目前就有多家廠商推出和應(yīng)用融合了AI大模型的數(shù)字人技術(shù)。

日前,云知聲基于新合成深度學(xué)習(xí)技術(shù)打造的數(shù)字人解決方案正式上線,可以滿足客戶在人機(jī)交互、虛擬IP、內(nèi)容定制等活動(dòng)中的廣泛需求,助力提升品牌知名度和用戶粘性。

云知聲數(shù)字人技術(shù)的首要優(yōu)勢在于其高度逼真的形象塑造。通過大規(guī)模多語種音視頻訓(xùn)練數(shù)據(jù)的深度挖掘,結(jié)合前沿的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略,云知聲成功實(shí)現(xiàn)了語音與人臉運(yùn)動(dòng)的精細(xì)解耦。這不僅保證了數(shù)字人外貌的真實(shí)度,更讓其動(dòng)作和表情達(dá)到了前所未有的自然流暢。

在音色表現(xiàn)上,云知聲同樣展現(xiàn)出了優(yōu)秀的技術(shù)實(shí)力。通過聲音克隆技術(shù),數(shù)字人能夠輕松擁有與真人無異的音色和發(fā)音風(fēng)格;情感合成技術(shù)的加入,使得數(shù)字人能夠表達(dá)多元的情感,讓對(duì)話更加富有感染力;而方言合成技術(shù)則進(jìn)一步拓展了數(shù)字人的語言表現(xiàn)能力,無論是普通話還是地方方言,甚至是外語,數(shù)字人都能輕松駕馭。

云知聲憑借山海大模型的技術(shù)支撐,正致力于構(gòu)建具備記憶、獨(dú)特人設(shè)和性格的AI數(shù)字分身,它們將能“復(fù)刻”人類思維,更深度地融入各行業(yè)場景,促進(jìn)數(shù)字人技術(shù)的實(shí)際應(yīng)用,為行業(yè)智能化升級(jí)注入了新動(dòng)力。

近日,劉強(qiáng)東數(shù)字人分身直播帶貨也引起廣泛關(guān)注。4月16日,由京東云言犀打造的“采銷東哥”AI數(shù)字人開啟直播首秀,同時(shí)亮相京東家電家居、京東超市采銷直播間。不到1小時(shí),直播間觀看量超2000萬。網(wǎng)友驚嘆,“采銷東哥”AI數(shù)字人近乎百分百還原了東哥的表情、姿態(tài)、手勢、音色,不僅要“形似”,而且“神似”。

京東負(fù)責(zé)人介紹說,AI數(shù)字人其實(shí)具有挑戰(zhàn)性的是聲音還原,為了讓聲音更適合直播帶貨,以及把東哥“兄弟們”這樣的口頭禪用在合適的地方,京東云言犀團(tuán)隊(duì)對(duì)這些細(xì)節(jié)進(jìn)行了模型調(diào)優(yōu)。他們起初“喂”給大模型的演講素材,雖然充滿激情、爆發(fā)力強(qiáng),但過于正式。

為此,他們用最新錄制的閑談作為主要素材,其中有東哥娓娓道來生動(dòng)的旅行經(jīng)歷,再提取5分鐘演講的韻律特征灌給大模型,通過不斷優(yōu)化,最終塑造出“采銷東哥”AI數(shù)字人親切自然、貼近用戶的聲音。

寫在最后

AI大模型的發(fā)展讓數(shù)字人互動(dòng)更真實(shí)、技術(shù)更高效、應(yīng)用更廣泛,融合AI大模型的數(shù)字人技術(shù)發(fā)展也面臨一些挑戰(zhàn),如需要大量的計(jì)算資源和數(shù)據(jù)支持、模型訓(xùn)練的難度和復(fù)雜性等。不過,相信隨著技術(shù)的不斷進(jìn)步和優(yōu)化,數(shù)字人技術(shù)將會(huì)持續(xù)完善和發(fā)展。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)字人
    +關(guān)注

    關(guān)注

    0

    文章

    107

    瀏覽量

    1886
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    281

    瀏覽量

    213
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    華發(fā)數(shù)智攜手字節(jié)跳動(dòng)共同發(fā)布AI數(shù)字及大模型綜合解決方案

    近日,珠海華發(fā)數(shù)智技術(shù)有限公司(簡稱:華發(fā)數(shù)智)攜手字節(jié)跳動(dòng)旗下領(lǐng)先的云服務(wù)平臺(tái)火山引擎,共同發(fā)布了AI數(shù)字及大模型綜合解決方案,標(biāo)志著華
    的頭像 發(fā)表于 08-07 16:53 ?486次閱讀

    Al大模型機(jī)器

    理解能力強(qiáng)大: AI模型機(jī)器可以理解和生成自然語言,能夠進(jìn)行復(fù)雜的對(duì)話和語言任務(wù)。它們能夠識(shí)別語言中的語義、語境和情感,并據(jù)此作出適當(dāng)?shù)幕貞?yīng)。
    發(fā)表于 07-05 08:52

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/多模態(tài)交互/英語評(píng)測SDK合集)

    自定義大模型應(yīng)用并接入到開發(fā)套件上實(shí)現(xiàn)語音交互,由淺入深地展示如何開發(fā)自己的大模型助手。 離線AI能力示例SDK清單 序號(hào)AI 能力 1語音
    發(fā)表于 06-18 17:33

    智能語音交互技術(shù)如何助力設(shè)備實(shí)現(xiàn)人機(jī)自然對(duì)話

    智能語音交互技術(shù)是指通過語音識(shí)別、語音合成和自然語言理解等技術(shù),實(shí)現(xiàn)與機(jī)器之間自然語言的交流和
    的頭像 發(fā)表于 05-23 15:14 ?276次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    的特征,并且這些特征融合了這些詞在當(dāng)前序列的上下文語義,因此能夠解決一詞多義的問題。憑借這種優(yōu)勢,基于動(dòng)態(tài)詞向量語言模型進(jìn)行預(yù)訓(xùn)練的方法被廣泛應(yīng)用于自然語言處理任務(wù)中。 經(jīng)典結(jié)構(gòu)
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    大語言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然語言文本。這些
    發(fā)表于 05-04 23:55

    **十萬級(jí)口語識(shí)別,離線自然技術(shù),讓智能照明懂你**

    自然技術(shù),用戶不用死記硬背,提供了自然、更靈活、智能的語音交互方式。 方案框圖 在方案設(shè)計(jì)
    發(fā)表于 04-29 17:09

    李未可科技正式推出WAKE-AI多模態(tài)AI模型

    文本生成、語言理解、圖像識(shí)別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互,同時(shí)多模態(tài)問答
    發(fā)表于 04-18 17:01 ?489次閱讀
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b>多模態(tài)<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>

    自然語言控制機(jī)械臂:ChatGPT與機(jī)器技術(shù)融合創(chuàng)新(上)

    1.引言: 自O(shè)penAI發(fā)布ChatGPT以來,世界正迅速朝著更廣泛地將AI技術(shù)融合到機(jī)器人設(shè)備中的趨勢發(fā)展。機(jī)械手臂,作為自動(dòng)化與智能化技術(shù)
    的頭像 發(fā)表于 04-11 14:36 ?502次閱讀
    <b class='flag-5'>自然</b>語言控制機(jī)械臂:ChatGPT與機(jī)器<b class='flag-5'>人</b><b class='flag-5'>技術(shù)</b>的<b class='flag-5'>融合</b>創(chuàng)新(上)

    自然語言處理的研究內(nèi)容

    模態(tài) NLP:NLP 正在與計(jì)算機(jī)視覺融合,允許 AI 將文本和圖像一起處理以獲得豐富的理解。 3. 對(duì)話式AI:聊天機(jī)器人和虛擬助手正變得越來越對(duì)話,使
    的頭像 發(fā)表于 01-18 16:39 ?350次閱讀

    讓設(shè)備聰明 |啟英泰倫離線自然說,開啟智能語音交互新體驗(yàn)!

    啟英泰倫新推出「離線自然說」——一種輕量級(jí)的離線NLP技術(shù)。通過該技術(shù),語音芯片可支持?jǐn)?shù)萬條離線詞條,泛化能力強(qiáng),幾乎可涵蓋用戶日常所有說話習(xí)慣,可以為用戶提供
    的頭像 發(fā)表于 01-04 11:24 ?580次閱讀
    讓設(shè)備<b class='flag-5'>更</b>聰明 |啟英泰倫離線<b class='flag-5'>自然</b>說,開啟智能語音<b class='flag-5'>交互</b>新體驗(yàn)!

    機(jī)器擁抱AI模型已成共識(shí)!

    目前普遍的共識(shí)是,機(jī)器擁抱AI模型的過程就是具身智能機(jī)器的實(shí)現(xiàn)過程,融合AI
    發(fā)表于 12-22 17:08 ?334次閱讀

    在線研討會(huì) | 大模型時(shí)代語音 AI 模型的訓(xùn)練、優(yōu)化與應(yīng)用

    AI模型在語音識(shí)別、自然語言處理等領(lǐng)域已經(jīng)取得了令人矚目的成就。語音 AI(Speech AI技術(shù)
    的頭像 發(fā)表于 12-15 15:50 ?491次閱讀
    在線研討會(huì) | 大<b class='flag-5'>模型</b>時(shí)代語音 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>的訓(xùn)練、優(yōu)化與應(yīng)用

    汽車多模態(tài)交互研究:大模型及多模態(tài)融合,推進(jìn)AI Agent上車

    語音交互方面:語音交互AI模型的賦能下,功能愈加智能化、情感化。唇動(dòng)識(shí)別、聲紋識(shí)別等技術(shù)的上車,使語音
    的頭像 發(fā)表于 11-24 16:12 ?1214次閱讀
    汽車多模態(tài)<b class='flag-5'>交互</b>研究:大<b class='flag-5'>模型</b>及多模態(tài)<b class='flag-5'>融合</b>,推進(jìn)<b class='flag-5'>AI</b> Agent上車

    AI數(shù)字操作的底層邏輯

    與動(dòng)作,實(shí)現(xiàn)與用戶的互動(dòng)。這個(gè)人物模型是通過AI技術(shù)預(yù)先訓(xùn)練得到的,能夠通過文本驅(qū)動(dòng)生成語音和對(duì)應(yīng)動(dòng)畫,業(yè)內(nèi)將此模型稱為 TTSA(Text To Speech & Animation
    的頭像 發(fā)表于 11-14 17:51 ?922次閱讀