0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語音識別技術最新進展:視聽融合的多模態(tài)交互成為主要演進方向

Carol Li ? 來源:電子發(fā)燒友網 ? 作者:李彎彎 ? 2023-12-28 09:06 ? 次閱讀

電子發(fā)燒友網報道(文/李彎彎)所謂“模態(tài)”,英文是modality,用通俗的話說,就是“感官”,多模態(tài)即將多種感官融合。多模態(tài)交互技術是近年來人工智能領域的一項重要創(chuàng)新。隨著語音識別技術的發(fā)展,采用多種模態(tài)(聲學、語言模型、視覺特征等)進行聯(lián)合建模,基于深度學習的多模態(tài)語音識別取得了新進展。

多模態(tài)交互的原理及優(yōu)勢

多模態(tài)交互技術融合了多種輸入方式,包括語音、手勢、觸摸和眼動等,使用戶可以根據(jù)自己的喜好和習慣選擇最方便的交互方式。多模態(tài)交互通過將不同輸入方式的數(shù)據(jù)進行融合和處理,實現(xiàn)更準確、智能的交互響應,提高用戶體驗。

上周在星宸科技2023開發(fā)者大會暨產品發(fā)布會論壇上,科大訊飛企業(yè)數(shù)字化副總裁盧堯談到,人工智能有三個層次,1、運算智能:能存會算;2、感知智能:能聽會說,能看會認;3、認知智能:能理解會思考。而感知智能典型的進展是多模態(tài)交互。

從盧堯的介紹來看,融合了視覺和語音的多模態(tài)免喚醒系統(tǒng)具有明顯優(yōu)勢。如下圖:這套多模態(tài)免喚醒交互系統(tǒng),同時采用視覺檢測和語音識別交互,誤喚醒率僅為0.01%,交互響應成功率相較于僅基于語音識別交互系統(tǒng)大幅提升。

wKgaomWMymCACWUdAAZDJDahffk724.jpg

早在今年5月,科大訊飛AI研究院副院長高建清博士就在某論壇上介紹過公司在多模態(tài)語音交互技術方面的最新進展。據(jù)高建清介紹,科大訊飛依托語音與視覺方面的多年積累,打造了一套語音、視覺多模態(tài)融合的免喚醒多模態(tài)交互系統(tǒng)。

通過將麥克風提供的空間信息和音視頻提供的說話人相關信息進行融合綁定,實現(xiàn)高準確度的說話人分離;通過多模態(tài)VAD與端到端意圖技術的結合,實現(xiàn)無喚醒詞的自然人機交互,具有可靠、自然、魯棒的特點。

具體來看,基于多模態(tài)多通道的語音分離系統(tǒng),將語音信號、麥克風陣列提供的空間信息以及主說話人的唇形輸入分離模型,系統(tǒng)最終輸出視頻說話人的語音,抑制背景噪聲及干擾說話人語音。在多人同時講話、車載音樂情況下,語音識別效果相比單模分離系統(tǒng)有50%以上性能提升。不僅解決了傳統(tǒng)麥克風陣列方法無法有效區(qū)分同向干擾的問題,還可提升非同向干擾分離場景的性能。

多模態(tài)交互技術的應用

語音識別是人工智能技術的一個重要分支,近些年來,智能語音也在多項技術難點上取得突破。業(yè)界普遍認為,在語音識別方面,視聽融合的多模態(tài)交互技術成為技術演進的主要方向。

科大訊飛是國內主要的智能語音技術玩家,其多模語音增強技術融合語音與視覺的多模感知,讓高噪音場景下的語音交互跨過實用門檻,目前已經在車載、會議、地鐵購票和醫(yī)療掛號等場景落地。

wKgaomWMymyAGg6TAAa96QItwQ8667.jpg

在車載領域,人機交互系統(tǒng)需要攻克兩大難題:一是環(huán)境噪音及人聲干擾,尤其是麥克風陣列技術難以解決的同向人聲干擾問題(如:駕駛員與左后方乘客同時說話);二是傳統(tǒng)語音交互系統(tǒng)每次啟動交互都需要說喚醒詞,難以做到像人與人交流一樣自然順暢。

此前就有消息顯示,科大訊飛多模態(tài)免喚醒交互解決方案將率先在廣汽傳祺和威馬等自主品牌車型上部署應用。該方案能夠適應復雜光線暗、語音嘈雜等多種工況,并支持主流SOC和DMS攝像頭。

在地鐵購票場景中,此前因為地鐵站點太多,買票難以找到目的地站點,而且這些操作對于老年人不太友好,而語音購票的功能讓這些問題迎刃而解。同時,因為地鐵站人聲嘈雜,也使得語音交互的體驗并不友好。

根據(jù)此前的報道,深圳地鐵12號線智能售票機及智慧客服終端上,率先采用了科大訊飛多模語音增強技術,該技術通過識別人臉唇形等信息,同時結合人聲,使得即使在人聲嘈雜的環(huán)境,語音識別的準確率也大大提升。

多模態(tài)語音識別技術在智能家居場景中也非常實用。融合語音、手勢、視覺感知,用戶可以過簡單的口頭指令控制智能家居設備,實現(xiàn)智能燈光、家居安防等功能,通過攝像頭和深度學習技術,智能家居可以識別用戶的手勢動作,實現(xiàn)手勢控制家居設備的操作。同時,通過視覺感知技術,識別用戶的面部表情和情緒狀態(tài),根據(jù)不同情況提供相應的互動體驗。

總結

經過多年的發(fā)展,語音識別技術已經相當成熟,并且在車載、智能家居等各種場景中實現(xiàn)應用,并給人們的生活帶來便利。然而同時,一直以來語音識別也存在諸多難點,比如環(huán)境噪聲、多人同時發(fā)出聲音等情況,都會影響語音識別的準確率。而視聽融合的多模態(tài)技術,將視覺和語音結合,能夠很好的解決這些問題,使得語音識別的準確率大幅提升。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    38

    文章

    1696

    瀏覽量

    112247
收藏 人收藏

    評論

    相關推薦

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/模態(tài)交互/英語評測SDK合集)

    豐富外設配件 配套模態(tài)應用示例,支持快速上手體驗大模型語音交互、智能視覺等 AI 應用 板載 DAPLINK 調試器,外接一條USB 線即可實現(xiàn)燒錄、調試、串口日志查看 板載網絡模組
    發(fā)表于 06-18 17:33

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語言理解、圖像識別及視頻生成等模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然
    發(fā)表于 04-18 17:01 ?488次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型

    百度首席技術官王海峰解讀文心大模型的關鍵技術最新進展

    4月16日,以“創(chuàng)造未來”為主題的Create 2024百度AI開發(fā)者大會在深圳國際會展中心成功舉辦。百度首席技術官王海峰以“技術筑基,星河璀璨”為題,發(fā)表演講,解讀了智能體、代碼、
    的頭像 發(fā)表于 04-18 09:20 ?544次閱讀
    百度首席<b class='flag-5'>技術</b>官王海峰解讀文心大模型的關鍵<b class='flag-5'>技術</b>和<b class='flag-5'>最新進展</b>

    兩家企業(yè)有關LED項目的最新進展

    近日,乾富半導體與英創(chuàng)力兩家企業(yè)有關LED項目傳來最新進展。
    的頭像 發(fā)表于 01-15 13:37 ?571次閱讀

    人工智能領域模態(tài)的概念和應用場景

    隨著人工智能技術的不斷發(fā)展,模態(tài)成為了一個備受關注的研究方向。
    的頭像 發(fā)表于 12-15 14:28 ?7258次閱讀

    語音數(shù)據(jù)集:AI語音技術的靈魂

    提升語音識別和生成能力:語音數(shù)據(jù)集為AI模型提供了豐富的語音樣本,通過訓練和學習這些數(shù)據(jù),AI可以更好地理解和模擬人類的語音特征,從而提高
    的頭像 發(fā)表于 12-14 14:33 ?816次閱讀

    情感語音識別技術前沿與未來趨勢

    一、引言 情感語音識別是當前人工智能領域的前沿技術,它通過分析人類語音中的情感信息,實現(xiàn)更加智能化和個性化的人機交互。本文將探討情感
    的頭像 發(fā)表于 11-28 18:35 ?438次閱讀

    離線語音識別及控制是怎樣的技術

    引言:  隨著人工智能的飛速發(fā)展,離線語音識別技術成為了一項備受矚目的創(chuàng)新。離線語音識別
    發(fā)表于 11-24 17:41

    汽車模態(tài)交互研究:大模型及模態(tài)融合,推進AI Agent上車

    語音交互方面:語音交互在AI大模型的賦能下,功能愈加智能化、情感化。唇動識別、聲紋識別
    的頭像 發(fā)表于 11-24 16:12 ?1207次閱讀
    汽車<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>交互</b>研究:大模型及<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>融合</b>,推進AI Agent上車

    情感語音識別技術的應用與未來發(fā)展

    一、引言 隨著科技的飛速發(fā)展,情感語音識別技術已經成為人機交互的重要發(fā)展方向。情感語音
    的頭像 發(fā)表于 11-12 17:30 ?596次閱讀

    情感語音識別技術在人機交互中的應用與挑戰(zhàn)

    ?一、引言 隨著人工智能技術的不斷發(fā)展,人機交互已經成為了研究的熱點之一。情感語音識別技術作為人
    的頭像 發(fā)表于 11-09 15:27 ?665次閱讀

    國星光電LED器件封裝及其應用產品項目最新進展

    近日,國星光電LED器件封裝及其應用產品項目傳來新進展
    的頭像 發(fā)表于 11-03 14:19 ?631次閱讀

    VisionFive 2 AOSP最新進展即將發(fā)布!

    非常開心地在這里和大家提前預告,我們即將發(fā)布VisionFive 2 集成 AOSP的最新進展!請大家多多期待吧~ 此次通過眾多社區(qū)成員的支持和貢獻(https://github.com
    發(fā)表于 10-08 09:15

    語音識別技術進展、挑戰(zhàn)和未來

    語音識別技術是一種人機交互的核心技術,它賦予機器“聽懂”人類語言的能力。這項技術從早期的符號
    的頭像 發(fā)表于 09-24 09:48 ?805次閱讀

    語音識別技術的進步與挑戰(zhàn)

    一、引言 在當今數(shù)字化時代,語音識別技術已經成為人機交互的重要方式之一。本文將探討語音識別
    的頭像 發(fā)表于 09-22 18:29 ?669次閱讀