近日,中國領(lǐng)先的一站式醫(yī)療健康生態(tài)平臺平安好醫(yī)生(01833.HK)宣布,平安好醫(yī)生客戶端“聲紋登陸系統(tǒng)”在經(jīng)過多次模型優(yōu)化和升級迭代后,登陸成功率接近 99%,達行業(yè)一流水準。該系統(tǒng)由云知聲提供聲紋技術(shù)支持。
聲紋識別(Voiceprint Recognition,VPR)也稱說話人識別,是一種通過聲音判別說話人身份的技術(shù),分為說話人辨識和說話人確認。前者用以判斷某段語音是若干人中的哪一個所說的,即“ N 選一”;后者用以確認某段語音是否是指定的某人所說,是“1對1匹配”問題。不同的任務(wù)和應(yīng)用會使用不同的聲紋識別技術(shù),如縮小刑偵范圍時可能需要辨認技術(shù),而銀行交易時則需用到確認技術(shù)。
作為國內(nèi)為數(shù)不多具備全棧語音技術(shù)能力的人工智能公司,云知聲已在聲紋技術(shù)領(lǐng)域深耕多年。團隊多位技術(shù)骨干曾在美國國家標準技術(shù)署(NIST)主辦的說話人識別技術(shù)評測中多次屢次斬獲第一名。
早在 2004 年,尚就職于摩托羅拉公司的云知聲創(chuàng)始人黃偉博士便帶領(lǐng)團隊研發(fā)出世界上第一款手機聲紋認證系統(tǒng),搭載該系統(tǒng)的相關(guān)產(chǎn)品總計銷量超 2 億臺。
近年來,伴隨深度學習的興起,云知聲在國內(nèi)率先將這一技術(shù)使用到語音識別中,且后續(xù)引入到聲紋識別領(lǐng)域,解決了一系列聲紋技術(shù)實用難點,并應(yīng)用到實際產(chǎn)品上。此次,云知聲和平安好醫(yī)生聯(lián)手打造的平安好醫(yī)生客戶端用戶聲紋登錄系統(tǒng)便是其中一項成功案例。
雖然聲紋識別優(yōu)勢明顯,但要想準確分辨聲音特征卻并非易事。首先,聲紋識別系統(tǒng)性能會受用戶發(fā)聲狀態(tài)影響,如用戶的身體狀況、情緒等都會影響識別準確度。其次,環(huán)境的嘈雜度,以及采集、傳輸音頻的硬件配置,都會在不同程度上對識別系統(tǒng)行成干擾。
為解決上述問題,云知聲聲紋技術(shù)團隊進行了一系列技術(shù)攻堅與創(chuàng)新:
首先,依托云知聲強大的語音信號前端處理技術(shù),如 VAD、語音降噪等,準確地捕捉到人聲并進行背景噪聲消除。
其次,云知聲將 DNN 引入到傳統(tǒng)聲紋識別 ivector 技術(shù)框架中,并融合最新端到端聲紋識別技術(shù),基于云知聲超算平臺和海量聲紋訓練數(shù)據(jù),使得模型得以學習到數(shù)萬說話人,每人多種發(fā)聲的特性,且在云端針對每個用戶采用說話人自適應(yīng)技術(shù),達到越用越好的效果。
在信道處理上,采用 PLDA 信道補償技術(shù),可將信道影響降到最小。
與此同時,為保障用戶登陸的“安全性”,云知聲為平安好醫(yī)生客戶端聲紋登錄系統(tǒng)提供數(shù)字串注冊和登錄的“文本弱相關(guān)”技術(shù),工程難度更高,安全性更強。與傳統(tǒng)固定口令登錄方式不同,該系統(tǒng)采用隨機數(shù)字串登錄方式,即在用戶進行登錄時,系統(tǒng)會隨機下發(fā) 8 位隨機數(shù)字串,可有效規(guī)避錄音攻擊等安全問題。
在同一賬號下,云知聲聲紋識別產(chǎn)品可支持 6 人注冊。在客戶端云知聲提供封裝好的 SDK,支持聲紋注冊、登錄、解綁等接口,供上層調(diào)用 API 實現(xiàn)產(chǎn)品邏輯。同時,云知聲還提供成熟的聲紋服務(wù)私有化部署方案,基于在金融、客服、快遞等不同行業(yè)豐富的私有云部署經(jīng)驗,可有效保障客戶數(shù)據(jù)安全。
在移動醫(yī)療領(lǐng)域,云知聲與平安好醫(yī)生已建立深度合作關(guān)系——2017年12 月,雙方合資成立上海澔醫(yī)智能科技有限公司,共同探索以智能語音識別等技術(shù)為基礎(chǔ)的家庭智慧醫(yī)療服務(wù)終端建設(shè)。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237081 -
智能語音
+關(guān)注
關(guān)注
10文章
774瀏覽量
48684 -
聲紋識別
+關(guān)注
關(guān)注
3文章
137瀏覽量
21490
發(fā)布評論請先 登錄
相關(guān)推薦
評論