在語音交互領(lǐng)域,語音合成是重要的一環(huán),其技術(shù)也在不斷發(fā)展。近年來,人們對情感合成的興趣和需求越來越高。情感語音合成會讓機器如真人一樣和我們交流,它可以用憤怒的聲音、開心的聲音、悲傷的聲音等不同情緒來表達,甚至是不同強度的不同情緒。
而情感語音轉(zhuǎn)換技術(shù)可以在保持說話人身份和語言內(nèi)容不變的前提下,將語音從一種情感狀態(tài)轉(zhuǎn)換為另一種情感狀態(tài)。簡單說就是在保持良好的目標說話人音色的同時,將情感表達從一個情感說話人適當(dāng)?shù)剡w移到目標說話人。
情感語音合成技術(shù)
情感語音合成系統(tǒng)可以使用說話人及情感嵌入的模型方案。用情感做標簽,即在原有網(wǎng)絡(luò)基礎(chǔ)上增加一個情感標簽,這些情感的信息會通過網(wǎng)絡(luò)得到學(xué)習(xí)。
說話人嵌入是通過神經(jīng)網(wǎng)絡(luò)來得到一個說話人向量,需要一定規(guī)模的多人數(shù)據(jù)庫進行訓(xùn)練。
情感嵌入則需要情感數(shù)據(jù)結(jié)合說話人向量來實現(xiàn)情感語音合成的模型,所以需要高質(zhì)量、多情感的數(shù)據(jù)。
情感語音轉(zhuǎn)換技術(shù)
如跨說話人情感遷移可以利用情感和音色擾動,分別學(xué)習(xí)說話人和情感相關(guān)的語譜,為最終的語音生成提供顯式的情感特征。說話人相關(guān)即保持目標說話人的音色,情感相關(guān)即捕捉源說話人的情感表達,因此需要多人多情感和多人無情感的數(shù)據(jù)來共同訓(xùn)練。
情感語音應(yīng)用場景
虛擬形象:可以讓虛擬的人物具有一定的情感表現(xiàn)能力。
短視頻配音:可以為短視頻的內(nèi)容進行配音,使內(nèi)容更加生動有趣。
游戲角色:可以讓用戶在游戲中有更好的體驗。
影視動畫:可以進行生動的解說。
智能客服:可以提高人機交互體驗,讓互動充滿樂趣。
作為全球領(lǐng)先的人工智能的數(shù)據(jù)服務(wù)商,數(shù)據(jù)堂可以為客戶提供豐富的情感語音數(shù)據(jù),通過這些數(shù)據(jù)訓(xùn)練的人工智能,合成在情感和表達上更加豐富的語音,讓合成的聲音更加自然真實,更好的應(yīng)用在不同的場景。
審核編輯 黃宇
-
人工智能
+關(guān)注
關(guān)注
1787文章
46060瀏覽量
234971
發(fā)布評論請先 登錄
相關(guān)推薦
評論