0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

研究自然語音交互系統(tǒng)帶來人機對話新體驗

bNZh_Ali ? 來源:AliOS ? 作者:AliOS ? 2021-05-19 14:16 ? 次閱讀

不難發(fā)現(xiàn),現(xiàn)在「車載語音交互」的體驗越來越完善。它不僅能完成更多的指令,而且能和我們進行情感交互,甚至還懂得一些基本的倫理綱常。AI語音交互,同樣正在占據(jù)我們生活應(yīng)用中的每一個入口,現(xiàn)在,被視作“第三空間”的汽車場景,通過自然連續(xù)對話完成人車之間的主動交互,正在成為現(xiàn)實。

回顧發(fā)展之初,車載語音雖然能完整跑通 ASR、TTS 這些流程,能實現(xiàn)一些簡單的 NLU/NLP 能力,但體驗有很多漏洞,比如有可能識別失敗,指令完成緩慢,交互邏輯不合常理等等。如今來看,這些基礎(chǔ)能力正變得更強,基本可以稱得上是一個「有價值的工具」。

另一方面,語音交互作為智能網(wǎng)聯(lián)汽車的“靈魂”,一直是車聯(lián)網(wǎng)公司和主機廠發(fā)力的重點領(lǐng)域。目前市面上常見的車載系統(tǒng)每次交互都得說出喚醒詞,無法做到自然連續(xù)對話。相比市場同類車載系統(tǒng),基于AliOS底層技術(shù)開發(fā)的斑馬智行VENUS系統(tǒng),在AI語音功能智能化程度上有了更高突破,不僅具備人類親和力的特質(zhì)和邏輯思維能力,同時,整個對話體驗更加自然流暢,能帶給用戶更具情景化、更有溫度的用車體驗。

實際上,新斑馬語音產(chǎn)品在快、準(zhǔn)、自然的交互體驗基礎(chǔ)上,開創(chuàng)了全雙工、全場景、全閉環(huán)的交互特色,并第一次在車內(nèi)實現(xiàn)了個性化聲音克隆的技術(shù)。

語音基礎(chǔ)能力方面,新斑馬語音背靠阿里巴巴達摩院,提供ECNR、VW、ASR、TTS等全鏈路語音基礎(chǔ)能力,并且在汽車語義上投入重兵與達摩院合作共建,保障在核心能力上的領(lǐng)先性和特色。

語音交互特性方面,重點演進了全雙工交互能力,并且開發(fā)了可見即可說、全時喚醒、靈動喚醒詞、多TTS引擎、雙模態(tài)交互、個性化聲音克隆等交互特色。其中聲音克隆技術(shù)可以將用戶的聲音復(fù)制到車內(nèi),提供更加個性化的趣味體驗。

同時,在與車場景結(jié)合方面,斑馬語音擁有全場景、全閉環(huán)的交互體驗。在地圖導(dǎo)航、多媒體、通訊、車控車設(shè)四大場景上進行了深度挖掘,與語音進行深度結(jié)合,實現(xiàn)動口不動手的語音交互體驗。同時為支付寶車載小程序開放平臺提供語音開放能力,讓接入汽車的支付寶車載小程序都可以使用語音進行交互。

自然語音交互系統(tǒng)- 全雙工交互技術(shù)

一次喚醒多次輸入

更高效更接近人類交互習(xí)慣

基于場景的上下文預(yù)測

邊說邊聽,邊聽邊想

全雙工交互具有一次喚醒多次輸入、邊說邊聽邊聽邊想、基于場景進行上下文預(yù)測等能力。相比傳統(tǒng)語音交互方式,全雙工更接近人類習(xí)慣,是語音交互到自然交互的必備階段。

實現(xiàn)全雙工語音交互,面臨著多項技術(shù)挑戰(zhàn):如何在機器說話的同時清楚地接收用戶說話的信號?如何保證持續(xù)不斷地接收用戶完整的信息表達?如何在保證準(zhǔn)確理解的前提下控制誤觸發(fā)?這些問題在汽車環(huán)境中會被不斷放大,阻礙技術(shù)的落地應(yīng)用。

斑馬依托達摩院降噪、回聲消除、流式ASR、流式NLU、專項NLU拒識模型等前沿技術(shù),在大規(guī)模實車數(shù)據(jù)的訓(xùn)練下,實現(xiàn)了真正的全雙工交互技術(shù)在車內(nèi)的大規(guī)模使用。

自然語音交互系統(tǒng)- 聲音克隆技術(shù)

基于深度神經(jīng)網(wǎng)絡(luò)

快速生成TTS聲音模擬

個性化自然交互體驗

讓最熟悉的聲音一路相伴

聲音克隆技術(shù)只需要提取用戶5-10分鐘的聲音片段,就可以提取出他的聲音特征,進而訓(xùn)練出和他的聲音相似的TTS聲音。傳統(tǒng)的TTS技術(shù)需要獲得幾十小時的數(shù)據(jù)才能夠進行TTS的發(fā)音人訓(xùn)練。而基于深度神經(jīng)網(wǎng)絡(luò),斑馬聲音克隆系統(tǒng)在5-10分鐘的聲音片段中,就可以通過聲音特征提取訓(xùn)練、聲音合成器訓(xùn)練和聲碼器訓(xùn)練完成TTS聲音的模擬。

聲音克隆技術(shù)在車內(nèi)可以為你帶來更加個性化的自然交互體驗,你可以把車內(nèi)的聲音設(shè)置成自己的愛人、子女、父母等親人的聲音,為自己的行車生活增添更多的溫暖。

有了聲音及語意上的天然優(yōu)勢,再加之AI大數(shù)據(jù)的后端支持,斑馬智行VENUS實現(xiàn)了“智商情商雙進步,聊啥都懂”的突出能力。具體來看,斑馬智行VENUS AI語音技能將覆蓋500多個常用知識領(lǐng)域,無論是查天氣、查股票,還是幽默段子,都能“隨問隨答”。

隨著5G、物聯(lián)網(wǎng)、自動駕駛等技術(shù)的成熟,車載語音助手必然會替代我們現(xiàn)有的人車交互方式,一款好的車機語音對汽車而言,顯得尤為重要。在近日對外透露的斑馬5計劃中,「對話式導(dǎo)航」將成為下一項語音交互黑科技。不久的將來,影視劇中如霹靂游俠那般的人車對話也終將會實現(xiàn)。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2900

    文章

    44062

    瀏覽量

    370252
  • ASR
    ASR
    +關(guān)注

    關(guān)注

    2

    文章

    35

    瀏覽量

    18694
  • 5G
    5G
    +關(guān)注

    關(guān)注

    1352

    文章

    48326

    瀏覽量

    562961
  • 自動駕駛
    +關(guān)注

    關(guān)注

    782

    文章

    13622

    瀏覽量

    165952

原文標(biāo)題:自然語音交互系統(tǒng) 帶來人機對話新體驗

文章出處:【微信號:AliOS,微信公眾號:AliOS】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    具身智能對人機交互的影響

    在人工智能的發(fā)展歷程中,人機交互一直是研究的核心領(lǐng)域之一。隨著技術(shù)的進步,人機交互的方式也在不斷演變。從最初的命令行界面,到圖形用戶界面,再到現(xiàn)在的自然語言處理和
    的頭像 發(fā)表于 10-27 09:58 ?218次閱讀

    科大訊飛發(fā)布星火極速超擬人交互,重塑智能對話新體驗

    8月19日,科大訊飛震撼宣布了一項關(guān)于其明星產(chǎn)品——星火語音大模型的重大革新,即將推出的“星火極速超擬人交互”功能,預(yù)示著人機交互的新紀(jì)元。該功能定于8月30日正式登陸訊飛星火App,面向廣大用戶開放體驗,引領(lǐng)一場前所未有的智能
    的頭像 發(fā)表于 08-20 16:46 ?298次閱讀

    OpenAI提前解鎖GPT-4o語音模式,引領(lǐng)對話新紀(jì)元

    OpenAI近日宣布了一項令人振奮的消息:即日起,部分ChatGPT Plus用戶將率先體驗到GPT-4o的語音模式,這一創(chuàng)新功能標(biāo)志著自然語言處理與人工智能交互技術(shù)邁出了重要一步。GPT-4o的高級
    的頭像 發(fā)表于 08-01 18:24 ?1136次閱讀

    智能語音交互技術(shù)如何助力設(shè)備實現(xiàn)人機自然對話

    隨著現(xiàn)代人工智能在各行業(yè)的普及,智能語音交互技術(shù)也越來越多的在日常工作、生活中應(yīng)用,智能語音交互的出現(xiàn)不僅僅大量節(jié)省了人工的工作時間提高了工作效率,為人們工作生活
    的頭像 發(fā)表于 05-23 15:16 ?662次閱讀
    智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>技術(shù)如何助力設(shè)備實現(xiàn)<b class='flag-5'>人機</b><b class='flag-5'>自然</b><b class='flag-5'>對話</b>

    智能語音交互技術(shù)如何助力設(shè)備實現(xiàn)人機自然對話

    智能語音交互技術(shù)是指通過語音識別、語音合成和自然語言理解等技術(shù),實現(xiàn)人與機器之間自然語言的交流和
    的頭像 發(fā)表于 05-23 15:14 ?346次閱讀

    訊維智能可視化綜合平臺:打造高效遠程會議的新體驗

    訊維智能可視化綜合平臺在遠程會議領(lǐng)域帶來了前所未有的新體驗,它通過高度集成化的技術(shù)和創(chuàng)新設(shè)計,為遠程會議參與者提供了高效、便捷、直觀的交流方式。以下是訊維智能可視化綜合平臺如何打造高效遠程會議新體驗
    的頭像 發(fā)表于 05-11 16:37 ?306次閱讀

    **十萬級口語識別,離線自然說技術(shù),讓智能照明更懂你**

    NLP技術(shù)。該技術(shù)基于端到端語音識別技術(shù)及端側(cè)NLP技術(shù),可識別端側(cè)十萬級別口語說法,打破傳統(tǒng)的固定詞條語音識別,為用戶提供更自然、更靈活、更智能的語音
    發(fā)表于 04-29 17:09

    人機交互的三個階段 人機交互的常用方式

    交互經(jīng)歷的三個階段:命令行界面交互階段、圖形用戶界面交互階段、自然和諧的人機交互階段。
    的頭像 發(fā)表于 03-13 17:25 ?2670次閱讀

    人機交互技術(shù)有哪幾種 人機交互技術(shù)的發(fā)展趨勢

    的幾種形式: 圖形用戶界面(GUI):圖形用戶界面是目前最為常見的人機交互技術(shù)形式。它通過圖形化的方式展示信息,用戶可通過鼠標(biāo)、鍵盤等設(shè)備進行操作。GUI簡單直觀,易于學(xué)習(xí)使用,適用于大眾用戶。 語音交互技術(shù):
    的頭像 發(fā)表于 01-22 17:47 ?3304次閱讀

    讓設(shè)備更聰明 |離線自然說,開啟智能語音交互新體驗

    ,導(dǎo)致用戶只能使用固定的詞條來控制設(shè)備,大大降低了用戶與設(shè)備之間的語音交互體驗。用戶A通過傳統(tǒng)離線語音交互來打開空調(diào)他只能說:“打開空調(diào)”近日,啟英泰倫新推出「離
    的頭像 發(fā)表于 01-10 08:15 ?910次閱讀
    讓設(shè)備更聰明 |離線<b class='flag-5'>自然</b>說,開啟智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b><b class='flag-5'>新體驗</b>!

    讓設(shè)備更聰明 |啟英泰倫離線自然說,開啟智能語音交互新體驗!

    啟英泰倫新推出「離線自然說」——一種輕量級的離線NLP技術(shù)。通過該技術(shù),語音芯片可支持?jǐn)?shù)萬條離線詞條,泛化能力強,幾乎可涵蓋用戶日常所有說話習(xí)慣,可以為用戶提供更自然、更豐富、更靈活的離線語音
    的頭像 發(fā)表于 01-04 11:24 ?692次閱讀
    讓設(shè)備更聰明 |啟英泰倫離線<b class='flag-5'>自然</b>說,開啟智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b><b class='flag-5'>新體驗</b>!

    語音數(shù)據(jù)集:AI語音技術(shù)的靈魂

    一、引言 在人工智能領(lǐng)域,語音技術(shù)被譽為“未來人機交互的入口”,而語音數(shù)據(jù)集則是AI語音技術(shù)的靈魂。本文將深入探討語音數(shù)據(jù)集的重要性、構(gòu)建方
    的頭像 發(fā)表于 12-14 14:33 ?945次閱讀

    離線語音識別“自然說”:掌控未來的智能交互

    離線語音識別“自然說”以其獨特優(yōu)勢,為用戶帶來了前所未有的便捷與舒適體驗。它無需依賴網(wǎng)絡(luò)環(huán)境,讓用戶在任何地點、任何時間都能享受到高效的語音識別服務(wù)。無論是在地鐵、電梯還是偏遠地區(qū),只
    的頭像 發(fā)表于 12-05 10:55 ?498次閱讀
    離線<b class='flag-5'>語音</b>識別“<b class='flag-5'>自然</b>說”:掌控未來的智能<b class='flag-5'>交互</b>

    情感語音識別技術(shù)在人機交互中的應(yīng)用與展望

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,人機交互已經(jīng)滲透到日常生活的方方面面。情感語音識別作為人機交互中的關(guān)鍵技術(shù)之一,能夠通過分析人類語音中的情感信息實現(xiàn)更加智能化和個性化的
    的頭像 發(fā)表于 11-22 10:40 ?714次閱讀

    情感語音識別在人機交互中的應(yīng)用與挑戰(zhàn)

    一、引言 情感語音識別是近年來人工智能領(lǐng)域的研究熱點之一,它能夠通過分析人類語音中的情感信息實現(xiàn)更加智能化和個性化的人機交互。本文將探討情感
    的頭像 發(fā)表于 11-15 15:42 ?519次閱讀