0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

百度智能語音交互的產(chǎn)業(yè)化成果豐碩,推進(jìn)語音技術(shù)應(yīng)用落地

牽手一起夢 ? 來源:電科技 ? 作者:辛雯 ? 2020-09-16 15:20 ? 次閱讀

9月15日,AI領(lǐng)域的行業(yè)盛會(huì)“百度世界2020”大會(huì)于線上隆重召開,一大波硬核技術(shù)襲來:百度創(chuàng)始人、董事長兼CEO李彥宏與總臺(tái)央視主持人康輝“虛擬人”亮相、顛覆搜索形態(tài)的“度曉曉”、沒有駕駛員的“全自動(dòng)駕駛”、各行各業(yè)賦能案例……既有硬核技術(shù),又有“接地氣”的落地應(yīng)用。

在當(dāng)天的百度大腦分論壇上,百度語音首席架構(gòu)師賈磊重點(diǎn)講解了百度端到端語音交互技術(shù)。他表示,百度語音交互技術(shù)持續(xù)迭代升級,已發(fā)展成為基于深度學(xué)習(xí)技術(shù)的端到端的語音識(shí)別和語音合成技術(shù)。在語音識(shí)別層面,百度推出端到端信號(hào)聲學(xué)一體化建模的技術(shù),語音合成方面,最新的Meitron和單人千面合成個(gè)性化技術(shù)亮相。同時(shí)交出了百度語音技術(shù)最新成績單:日均調(diào)用量超過155億次,廣泛應(yīng)用在移動(dòng)端、智能家居、和語音IoT等場景,智能語音產(chǎn)業(yè)化成果豐碩。

會(huì)上,賈磊分別從語音識(shí)別和語音合成兩個(gè)技術(shù)維度詳解了百度語音技術(shù)的發(fā)展迭代和最新成果。在語音識(shí)別方面,百度語音識(shí)別技術(shù)持續(xù)創(chuàng)新,從2012年首推深度學(xué)習(xí)技術(shù),到2019年在業(yè)內(nèi)首先把注意力模型應(yīng)用于在線語音識(shí)別,推出流式多級的截?cái)嘧⒁饬δP?SMLTA;再到如今全面進(jìn)化為端到端的信號(hào)聲學(xué)一體化建模技術(shù),在助力百度自身業(yè)務(wù)發(fā)展的同時(shí),更好地賦能多場景、多產(chǎn)業(yè)應(yīng)用。

百度智能語音交互的產(chǎn)業(yè)化成果豐碩,推進(jìn)語音技術(shù)應(yīng)用落地

作為百度語音識(shí)別技術(shù)的最新成果,端到端的信號(hào)聲學(xué)一體化建模技術(shù)很好地解決了傳統(tǒng)數(shù)字信號(hào)處理和語音識(shí)別級聯(lián)系統(tǒng)的各種問題,拋棄了各自學(xué)科的學(xué)科假設(shè),通過端到端的建模,大幅提升了遠(yuǎn)場語音識(shí)別率。

據(jù)賈磊介紹,端到端的信號(hào)聲學(xué)一體化建模技術(shù)由模型波束技術(shù)和模型AEC技術(shù)組成。前者進(jìn)化為多分區(qū)融合的模型波束建模技術(shù),在國際上由百度首次提出,較單分區(qū)技術(shù)進(jìn)一步提升識(shí)別性能15%以上;后者是升級為基于雙LOSS實(shí)值掩蔽的模型AEC技術(shù),可以解決設(shè)備有非線性情況下的回波消除問題,使得設(shè)備即使在播放音樂的時(shí)候,也能夠進(jìn)行成功的打斷和高精準(zhǔn)的語音識(shí)別。

此外,賈磊還在會(huì)上介紹了百度今年推出的端側(cè)全雙工語音交互技術(shù)。據(jù)他介紹,百度端側(cè)全雙工語音交互技術(shù)將復(fù)雜的建模過程轉(zhuǎn)化為3個(gè)端到端的深度學(xué)習(xí)過程,即信號(hào)聲學(xué)一體化建模、聲學(xué)語言一體化建模以及語義置信一體化建模。通過端到端的建模,該技術(shù)能夠?qū)⒄麄€(gè)復(fù)雜的端側(cè)交互轉(zhuǎn)變成若干個(gè)深度學(xué)習(xí)計(jì)算,使得依靠一顆AI芯片就能完成端側(cè)的全雙工語音交互,從而大幅度提升車載手機(jī)等語音交互性能,顯著改善用戶體驗(yàn)。

而在語音合成方面,百度自2013年啟動(dòng)語音合成研發(fā),歷經(jīng)參數(shù)合成、拼接合成、深度學(xué)習(xí)語音合成和端到端的語音合成,到如今全新升級為包含個(gè)性化、多風(fēng)格多角色、單人千面的語音合成系統(tǒng),百度語音合成技術(shù)始終處于升級迭代中。

會(huì)上,賈磊依次介紹了百度語音合成技術(shù)的最新成果——個(gè)性化TTS,多風(fēng)格、多角色,單人千面。個(gè)性化TTS是個(gè)性化定制的Meitron語音合成系統(tǒng)的最新演進(jìn),是基于子帶分解和GAN_loss的端側(cè)神經(jīng)網(wǎng)絡(luò)聲碼器,也是業(yè)內(nèi)首個(gè)在手機(jī)端多人通用的端側(cè)的基于神經(jīng)計(jì)算的聲碼器。個(gè)性化TTS相較于傳統(tǒng)的基于信號(hào)處理和參數(shù)的聲碼器,ABX提升可以達(dá)到65:35,其已應(yīng)用于地圖導(dǎo)航,目前每日的導(dǎo)航播報(bào)超過1億次。

多風(fēng)格、多角色的語音合成,則是針對娛樂內(nèi)容產(chǎn)業(yè)(例如小說)中存在的多個(gè)角色交替、多種情感需求并存的播報(bào)需求而研發(fā)的新技術(shù)。此前,用單一音色播報(bào)缺乏表現(xiàn)力,播報(bào)語音和文字本身的角色情感不一致,用戶長時(shí)間聽感到單調(diào)疲倦。百度通過深度學(xué)習(xí)技術(shù)對小說文本進(jìn)行分析,判斷出角色、身份、情感,再借助多風(fēng)格、多角色語音合成技術(shù)去合成小說中的聲音,從而實(shí)現(xiàn)聲音自然流暢、情感表現(xiàn)力豐富、用戶體驗(yàn)優(yōu)美的效果。

針對一個(gè)發(fā)音人需要用不同風(fēng)格播報(bào)文本的應(yīng)用場景,百度推出單人千面語音合成技術(shù)。該技術(shù)能夠把說話人的語音、文本、風(fēng)格、內(nèi)容、音色都進(jìn)行分離,在進(jìn)行語音合成的時(shí)候自由組合,從而能夠讓一個(gè)發(fā)音人同時(shí)去播報(bào)新聞、小說、脫口秀、讀書、詩歌等不同風(fēng)格。

“百度智能語音交互的產(chǎn)業(yè)化成果豐碩,目前百度智能語音的日均調(diào)用量超過155億次,廣泛應(yīng)用于移動(dòng)端、智能家居、智能車載、智能服務(wù)以及語音IoT,極大地提高了中國社會(huì)的智能化程度。”賈磊表示。語音技術(shù)作為百度大腦的重要AI能力之一,不但應(yīng)用于百度搜索、百度輸入法、百度地圖、小度音箱等百度系列產(chǎn)品,更通過百度大腦AI開放平臺(tái)廣泛賦能眾多行業(yè)和場景的合作伙伴。未來,百度還將持續(xù)創(chuàng)新升級語音交互技術(shù),推進(jìn)語音技術(shù)應(yīng)用落地,助力更多產(chǎn)業(yè)智能化轉(zhuǎn)型升級。

責(zé)任編輯:gt

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 百度
    +關(guān)注

    關(guān)注

    9

    文章

    2234

    瀏覽量

    89840
  • 智能家居
    +關(guān)注

    關(guān)注

    1924

    文章

    9397

    瀏覽量

    182182
  • IOT
    IOT
    +關(guān)注

    關(guān)注

    186

    文章

    4097

    瀏覽量

    195100
收藏 人收藏

    評論

    相關(guān)推薦

    智能語音交互技術(shù)如何助力設(shè)備實(shí)現(xiàn)人機(jī)自然對話

    智能語音交互技術(shù)是指通過語音識(shí)別、語音合成和自然語言理解等
    的頭像 發(fā)表于 05-23 15:14 ?276次閱讀

    百度智能云攜手烏鎮(zhèn)共建AI數(shù)據(jù)產(chǎn)業(yè)基地

    近日,百度智能云與桐鄉(xiāng)市烏鎮(zhèn)大數(shù)據(jù)高新技術(shù)產(chǎn)業(yè)園區(qū)簽署合作協(xié)議,雙方將發(fā)揮各自優(yōu)勢,以人工智能標(biāo)注產(chǎn)業(yè)為基礎(chǔ),共建
    的頭像 發(fā)表于 04-01 16:12 ?483次閱讀

    東莞與百度簽署戰(zhàn)略合作協(xié)議,推動(dòng)人工智能的全場景應(yīng)用落地

    3月22日,東莞市人民政府與百度簽署戰(zhàn)略合作協(xié)議,雙方將緊密圍繞人工智能產(chǎn)業(yè)發(fā)展,充分發(fā)揮百度在 AI 算法、云計(jì)算、大數(shù)據(jù)、自動(dòng)駕駛技術(shù)
    的頭像 發(fā)表于 03-25 10:05 ?742次閱讀

    東莞市與百度合作推動(dòng)人工智能的全場景應(yīng)用落地

    3月22日,東莞市人民政府與百度簽署戰(zhàn)略合作協(xié)議,雙方將緊密圍繞人工智能產(chǎn)業(yè)發(fā)展,充分發(fā)揮百度在 AI 算法、云計(jì)算、大數(shù)據(jù)、自動(dòng)駕駛技術(shù)
    的頭像 發(fā)表于 03-25 10:05 ?501次閱讀
    東莞市與<b class='flag-5'>百度</b>合作推動(dòng)人工<b class='flag-5'>智能</b>的全場景應(yīng)用<b class='flag-5'>落地</b>

    首屆百度智能云全球生態(tài)大會(huì),4月9日成都見!

    為了加快人工智能的發(fā)展步伐,進(jìn)一步推動(dòng)大模型產(chǎn)業(yè)的實(shí)際落地,促進(jìn)AI原生應(yīng)用的全面繁榮,百度智能云將于2024年4月9日在成都舉辦首屆“
    的頭像 發(fā)表于 03-12 09:43 ?515次閱讀

    【有獎(jiǎng)】 百度智能目推出首款多模態(tài) AI 模組,應(yīng)用場景有獎(jiǎng)?wù)骷?/a>

    他來了,他來了 大模型時(shí)代悄然到來 百度首款大模型落地的硬件產(chǎn)品 目多模態(tài)AI模組LUCA系列正式亮相 目LUCA深度集成百度
    的頭像 發(fā)表于 02-26 15:19 ?456次閱讀

    華為智能座艙與百度地圖簽署生態(tài)合作協(xié)議 共創(chuàng)導(dǎo)航出行新體驗(yàn)

    此次簽約,百度地圖和華為智能座艙將在智能座艙領(lǐng)域共同打造車機(jī)版百度地圖,將手機(jī)端百度地圖的豐富體驗(yàn)延伸到車端,包括車道級導(dǎo)航、紅綠燈倒計(jì)時(shí)、
    的頭像 發(fā)表于 01-19 15:50 ?570次閱讀

    語音數(shù)據(jù)集:智能語音技術(shù)的燃料與推動(dòng)力

    隨著人工智能技術(shù)的不斷進(jìn)步,語音技術(shù)作為人機(jī)交互的重要方式,正在逐漸滲透到我們的日常生活中。而語音數(shù)據(jù)集作為
    的頭像 發(fā)表于 12-29 11:11 ?306次閱讀

    語音數(shù)據(jù)集:開啟智能語音技術(shù)的新篇章

    隨著人工智能技術(shù)的飛速發(fā)展,語音數(shù)據(jù)集在推動(dòng)智能語音技術(shù)的進(jìn)步中發(fā)揮著越來越重要的作用。語音數(shù)據(jù)
    的頭像 發(fā)表于 12-29 11:06 ?461次閱讀

    語音數(shù)據(jù)集:AI語音技術(shù)的靈魂

    一、引言 在人工智能領(lǐng)域,語音技術(shù)被譽(yù)為“未來人機(jī)交互的入口”,而語音數(shù)據(jù)集則是AI語音
    的頭像 發(fā)表于 12-14 14:33 ?825次閱讀

    離線語音識(shí)別技術(shù):掌控未來的語音交互

    離線語音識(shí)別技術(shù)的核心優(yōu)勢在于其獨(dú)立性和實(shí)時(shí)性。在沒有網(wǎng)絡(luò)連接的情況下,設(shè)備依然能夠迅速識(shí)別用戶的語音指令,實(shí)現(xiàn)各種功能。這使得語音交互更加
    的頭像 發(fā)表于 12-13 11:12 ?464次閱讀
    離線<b class='flag-5'>語音</b>識(shí)別<b class='flag-5'>技術(shù)</b>:掌控未來的<b class='flag-5'>語音</b><b class='flag-5'>交互</b>

    情感語音識(shí)別技術(shù)在人機(jī)交互中的應(yīng)用與展望

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,人機(jī)交互已經(jīng)滲透到日常生活的方方面面。情感語音識(shí)別作為人機(jī)交互中的關(guān)鍵技術(shù)之一,能夠通過分析人類
    的頭像 發(fā)表于 11-22 10:40 ?629次閱讀

    百度阿波羅智行(西南)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地揭牌

    繼今年6月,自貢市人民政府與百度公司簽署戰(zhàn)略合作,與大安區(qū)、市城投集團(tuán)簽署落地協(xié)議以來達(dá)成的“ 里程碑時(shí)刻 ”。雙方將立足自貢5G產(chǎn)業(yè)發(fā)展定位和產(chǎn)業(yè)要素優(yōu)勢,發(fā)揮
    的頭像 發(fā)表于 11-13 18:00 ?839次閱讀
    <b class='flag-5'>百度</b>阿波羅智行(西南)人工<b class='flag-5'>智能</b>基礎(chǔ)數(shù)據(jù)<b class='flag-5'>產(chǎn)業(yè)</b>基地揭牌

    情感語音識(shí)別技術(shù)在人機(jī)交互中的應(yīng)用與挑戰(zhàn)

    ?一、引言 隨著人工智能技術(shù)的不斷發(fā)展,人機(jī)交互已經(jīng)成為了研究的熱點(diǎn)之一。情感語音識(shí)別技術(shù)作為人機(jī)交互中的重要組成部分,能夠通過識(shí)別人的
    的頭像 發(fā)表于 11-09 15:27 ?668次閱讀

    百度發(fā)布首個(gè)量子領(lǐng)域大模型及百度量子助手

    ? 9月23-24日,以“協(xié)同創(chuàng)新 量點(diǎn)未來”為主題,2023量子產(chǎn)業(yè)大會(huì)在安徽合肥召開。量子領(lǐng)域院士專家、智庫機(jī)構(gòu)、產(chǎn)業(yè)界嘉賓匯聚一堂,探討量子產(chǎn)業(yè)化之路。 作為主旨報(bào)告嘉賓,百度
    的頭像 發(fā)表于 09-26 09:53 ?701次閱讀