0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟在人工智能TTS語音合成技術(shù)上的最新進展

微軟科技 ? 來源:微軟科技 ? 作者:微軟科技 ? 2022-02-08 09:27 ? 次閱讀

小編說:在這個技術(shù)快速更迭的時代,人工智能的可能性在逐漸拓寬。為了讓大家可以更好的理解人工智能在智能語音方面的強大能力,今天小編就來詳細為大家介紹微軟在人工智能TTS語音合成(Text-to-Speech)技術(shù)上的一些最新進展。

不同對話場景

用戶期待不同語氣的擬人 AI 語音

TTS 語音已被越來越多地用于支持人機對話或機器輔助的日常交流——例如人與人之間對話的同聲傳譯。在這些場景中,人們普遍期待能夠?qū)崿F(xiàn)更自然、更口語化的對話風格。我們不妨從以下三個典型場景中,來理解用戶對于對話聲音和風格的不同需求。

客服機器人:語氣要自然、友好且專業(yè)

很多企業(yè)正在使用支持語音的聊天機器人或 IVR(互動式語音應(yīng)答)系統(tǒng),為客戶帶來相比傳統(tǒng)方式更為高效、體貼的客戶服務(wù)。例如國際移動通訊網(wǎng)絡(luò)公司沃達豐就成功地創(chuàng)建了一個擁有自然語音的客服機器人 TOBi。Azure 的人工智能和自然語言處理功能賦予了 TOBi 鮮明的個性,使客戶與 TOBi 之間的人機對話變得輕松自然,讓客戶更樂于與之交流。

設(shè)想這樣的情景:在客戶對 TOBi 報出姓名后,當 TOBi 需要了解客戶的地址以便提供進一步服務(wù)時,TOBi 并不會生硬地接著發(fā)問:「請說出您的地址。」而是會這樣表達:「嘿,好名字!接下來我還需要了解一下您住在哪里?」此時此刻,客戶一定希望 AI 能夠以聽起來熱情、友好、溫暖,且又專業(yè)的聲音來說出這句話。類似的需求不僅體現(xiàn)在 AI 解答客戶疑問時,還適用于 AI 語音向客戶打招呼,或表達共情態(tài)度時。個人助理:表情符號、重點強調(diào)要讀懂

隨著虛擬助手和虛擬現(xiàn)實技術(shù)的興起,使用 Neural TTS 來支持閑聊和日常對話功能的客戶數(shù)量正在不斷增加。想要讓 AI 與人類的對話更加自然,最主要的挑戰(zhàn)之一在于如何讓 AI 理解包含特殊字符在內(nèi)的聊天用語——比如「呵呵」、「哈哈」、「哎喲」這類詞匯。

這類表情符號,還有重復(fù)字母如「soooo good」——然后再以自然的語氣提供即時響應(yīng)。此外,讓 AI 能使用不同的信息來表達相應(yīng)情感,從而表現(xiàn)出對人類感受的共鳴感,也正在成為一種越來越普遍的用戶需求。同聲傳譯:翻譯前后說話風格、語氣要一致

語音互譯是又一個對話式 AI 語音可支持的典型場景。Azure Neural TTS 已覆蓋 110 多種不同語言,被應(yīng)用于多種翻譯場景中。不過,如何在翻譯的同時保持講話者的原始語氣風格,一直都是個挑戰(zhàn)。尤其是在較為隨意的對話場景中,講話者往往會使用語氣上的細微差別來與聽眾建立情感聯(lián)系。在這種情況下,如果 AI 語音可在提供同步翻譯的同時,又能捕捉并理解講話者的風格,就能使不同語言之間的對話依然生動且具有吸引力。

Azure Neural TTS

進化:多國語言皆可栩栩如生戶

Sara(英語):更能表現(xiàn)自然情感的聊天機器人語音

Sara 是一個新近推出的美式英語音色,尤其擅長輕松的對話?!杆褂兄p松自然的年輕女性聲線,能夠勝任各種需要聊天機器人的場景。Sara 擁有三種情緒:快樂、悲傷和氣憤。她在閱讀表情符號時,可以發(fā)出笑聲、嘆息或氣憤語氣,而且還能發(fā)出「太~(拉長語調(diào))好了」這種人類特有的語調(diào)。播放下面的語音,親耳感受一下效果。

下面這段錄音,來自 Sara 作為聊天機器人與人類用戶之間的自然對話。(此示例來自機器人和人類用戶之間的閑聊,對話很隨意,可能包含錯誤。)

除了預(yù)設(shè)的幾種「情緒」,用戶還可以通過 SSML 讓 Sara 在常規(guī)交流、歡快、悲傷和憤怒等幾種語氣風格之間隨意切換。

曉辰和曉顏(中文普通話):專為日常對話及客服場景而優(yōu)化的全新中文語音

曉辰和曉顏是專為中文用戶提供的普通話語音。其中曉辰擅長逼真的自然語氣,曉顏與客戶服務(wù)場景更匹配。曉辰和曉顏最顯著的特征,在于能逼真模仿人類在日常場合下的交流。與朗誦、播音這類「嚴肅」場合不同,人們的日常對話中除了語氣隨意,韻律多變,而且常常出現(xiàn)詞語發(fā)音不完整,句子語法不像課本那么嚴謹,且會出現(xiàn)重復(fù)、不完整、或者啰嗦等情況。借助先進的建模技術(shù),曉辰和曉顏的 AI 語音能夠?qū)W習并活用這些人類表達的「缺陷」,并逼真地還原這些「不完美」,使合成語音聽起來更加真實親切。在下面這段客服場景模擬對話中,曉顏是客服助理,曉辰是客戶。您可以從中感受到他們?nèi)缤嫒艘话爿p松、自然的對話語氣。

Nanami(日語):元氣滿滿的東瀛女聲

Nanami 是擁有動聽女性聲線的日語語音。「她」有著三種不同語音風格:聊天風格、客服風格和開朗風格,讓合成語音在各種場景中都更具吸引力。

來聽一聽 Nanami 元氣滿滿的聲音:

現(xiàn)在就來感受

Azure Neural TTS 擬人語音的動人表現(xiàn)力吧!

微軟不斷傾聽全球用戶對于 Azure Neural TTS 在不同情況下語音發(fā)音準確性的反饋,以負責任的 AI 及公平、可靠和安全、隱私和保障、包容、透明、負責的六項人工智能準則為前提,進行了這次更新,為用戶帶來表達更自然、語義更清晰的語音體驗?,F(xiàn)在,微軟的文本轉(zhuǎn)語音可以支持超過 110 種語言的 270 多種 AI 語音。如果想親身感受 Azure Neural TTS 的強大,就來 Azure 官網(wǎng)親自體驗吧!還有聲音定制平臺可以即刻為企業(yè)創(chuàng)建多種語言和風格的獨特品牌語音。

原文標題:什么!跟我說話的竟然是AI!

文章出處:【微信公眾號:微軟科技】歡迎添加關(guān)注!文轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6516

    瀏覽量

    103603
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28876

    瀏覽量

    266218
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46060

    瀏覽量

    234983

原文標題:什么!跟我說話的竟然是AI!

文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    FPGA人工智能中的應(yīng)用有哪些?

    定制化的硬件設(shè)計,提高了硬件的靈活性和適應(yīng)性。 綜上所述,F(xiàn)PGA人工智能領(lǐng)域的應(yīng)用前景廣闊,不僅可以用于深度學(xué)習的加速和云計算的加速,還可以針對特定應(yīng)用場景進行定制化計算,為人工智能技術(shù)的發(fā)展提供有力支持。
    發(fā)表于 07-29 17:05

    美國政府推動美國科技公司阿聯(lián)酋發(fā)展人工智能

    據(jù)悉,拜登政府正在敦促美國科技巨頭阿拉伯聯(lián)合酋長國涉足人工智能領(lǐng)域的商業(yè)活動及各類涉及AI的合作。最新進展表明,本周,Microsoft宣布向阿布扎比的AI企業(yè)G42注資15億美元。
    的頭像 發(fā)表于 04-22 09:23 ?265次閱讀

    百度首席技術(shù)官王海峰解讀文心大模型的關(guān)鍵技術(shù)最新進展

    4月16日,以“創(chuàng)造未來”為主題的Create 2024百度AI開發(fā)者大會在深圳國際會展中心成功舉辦。百度首席技術(shù)官王海峰以“技術(shù)筑基,星河璀璨”為題,發(fā)表演講,解讀了智能體、代碼、多模型等多項文心大模型的關(guān)鍵
    的頭像 發(fā)表于 04-18 09:20 ?544次閱讀
    百度首席<b class='flag-5'>技術(shù)</b>官王海峰解讀文心大模型的關(guān)鍵<b class='flag-5'>技術(shù)</b>和<b class='flag-5'>最新進展</b>

    玩轉(zhuǎn)語音合成芯片(TTS芯片),看這一篇就夠了

    什么是語音合成芯片:語音合成芯片也稱為TTS芯片,即文字轉(zhuǎn)語音芯片,是一種能夠?qū)⑤斎氲奈淖中畔⑥D(zhuǎn)
    的頭像 發(fā)表于 03-19 18:13 ?1084次閱讀
    玩轉(zhuǎn)<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片(<b class='flag-5'>TTS</b>芯片),看這一篇就夠了

    Claude 3 Haiku模型Amazon Bedrock正式可用

    近日,人工智能領(lǐng)域的創(chuàng)新者Anthropic公布了其Claude 3基礎(chǔ)模型系列的最新進展。該系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三種模型
    的頭像 發(fā)表于 03-19 11:12 ?606次閱讀

    微軟將舉辦工作新時代發(fā)布會

    微軟宣布將于3月21日舉辦名為“工作新時代”的數(shù)字發(fā)布會。這次活動,微軟將重點展示其Copilot人工智能計劃的最新進展,以及Windows和Surface系列的全新更新。
    的頭像 發(fā)表于 03-08 11:24 ?666次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    。 國內(nèi)外科技巨頭紛紛爭先入局,微軟、谷歌、蘋果、臉書等積極布局人工智能的同時,國內(nèi)的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業(yè)的方向有哪些呢
    發(fā)表于 02-26 10:17

    兩家企業(yè)有關(guān)LED項目的最新進展

    近日,乾富半導(dǎo)體與英創(chuàng)力兩家企業(yè)有關(guān)LED項目傳來最新進展。
    的頭像 發(fā)表于 01-15 13:37 ?571次閱讀

    語音識別技術(shù)最新進展:視聽融合的多模態(tài)交互成為主要演進方向

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)所謂“模態(tài)”,英文是modality,用通俗的話說,就是“感官”,多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來人工智能領(lǐng)域的一項重要創(chuàng)新。隨著語音識別技術(shù)
    的頭像 發(fā)表于 12-28 09:06 ?2844次閱讀
    <b class='flag-5'>語音</b>識別<b class='flag-5'>技術(shù)</b><b class='flag-5'>最新進展</b>:視聽融合的多模態(tài)交互成為主要演進方向

    語音數(shù)據(jù)集人工智能中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的快速發(fā)展,語音數(shù)據(jù)集各種應(yīng)用中發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集是AI語音
    的頭像 發(fā)表于 12-14 15:00 ?504次閱讀

    情感語音識別:技術(shù)前沿與未來趨勢

    一、引言 情感語音識別是當前人工智能領(lǐng)域的前沿技術(shù),它通過分析人類語音中的情感信息,實現(xiàn)更加智能化和個性化的人機交互。本文將探討情感
    的頭像 發(fā)表于 11-28 18:35 ?438次閱讀

    國星光電LED器件封裝及其應(yīng)用產(chǎn)品項目最新進展

    近日,國星光電LED器件封裝及其應(yīng)用產(chǎn)品項目傳來新進展。
    的頭像 發(fā)表于 11-03 14:19 ?631次閱讀

    TTS技術(shù)賦能對講機,迎來智能語音革新

    隨著語音合成技術(shù)的快速發(fā)展,對講機的智能語音升級已經(jīng)到來。作為文本轉(zhuǎn)語音的核心
    的頭像 發(fā)表于 10-20 14:53 ?518次閱讀
    <b class='flag-5'>TTS</b><b class='flag-5'>技術(shù)</b>賦能對講機,迎來<b class='flag-5'>智能</b><b class='flag-5'>語音</b>革新

    VisionFive 2 AOSP最新進展即將發(fā)布!

    非常開心地在這里和大家提前預(yù)告,我們即將發(fā)布VisionFive 2 集成 AOSP的最新進展!請大家多多期待吧~ 此次通過眾多社區(qū)成員的支持和貢獻(https://github.com
    發(fā)表于 10-08 09:15

    語音識別技術(shù)進展、挑戰(zhàn)和未來

    語音識別技術(shù)是一種人機交互的核心技術(shù),它賦予機器“聽懂”人類語言的能力。這項技術(shù)從早期的符號識別和模板匹配方法,發(fā)展到現(xiàn)在的深度學(xué)習模型,經(jīng)歷了一個漫長而又富有成果的過程。本文將詳細探
    的頭像 發(fā)表于 09-24 09:48 ?806次閱讀