受到當前利率市場化、互聯(lián)網金融快速發(fā)展、經濟發(fā)展進入新時代等多種因素的影響,國內銀行業(yè)傳統(tǒng)經營模式正面臨著全新的變革。如何在精細化管理的基礎上為客戶提供更便捷、更優(yōu)質、更安全的服務體驗,已經成為各商業(yè)銀行競爭的焦點。
近年來,云計算、大數(shù)據(jù)、物聯(lián)網和人工智能等FinTech技術快速發(fā)展,促進了語音識別準確度的迅速提升,為商業(yè)銀行引入智能化服務提供了重要的技術資源,語音識別技術將掀起商業(yè)銀行服務模式的變革,為智能化服務增加新的元素。本文從商業(yè)銀行實際出發(fā),對該技術的發(fā)展進行梳理,并提出商業(yè)銀行語音識別“4I”應用框架,以期推動FinTech時代下銀行綜合智能化服務能力進一步提升。
一、語音識別技術概述
語音識別通過運用語言學、計算機科學、電子工程、模式識別、概率論、信息論以及人工智能等領域的方法和技術,使計算機設備能夠精準識別和翻譯語音信息,也被稱為自動語音識別(ASR)或者語音到文本(STT),在金融、電信、電子商務、醫(yī)療、制造等行業(yè)得到了廣泛應用。
1.語音識別技術發(fā)展
語音識別技術按照發(fā)展和應用程度,可分為早期實驗研究階段、實用階段、現(xiàn)代語音識別系統(tǒng)開發(fā)應用階段。
(1)早期實驗研究階段
20世紀50年代,世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)在貝爾實驗室誕生;20世紀60年代,出現(xiàn)了動態(tài)時間規(guī)整(DTW)算法以及將語音信號以幀為單位切分的技術,實現(xiàn)了有效的語音特征提取;20世紀80年代,識別算法從基于標準模板的方法轉向基于統(tǒng)計模型的方法,產生了基于高斯混合隱馬爾可夫模型(GMM-HMM)的聲學模型和以N元語法為基礎的語言模型,實現(xiàn)了大量詞匯、非特定人以及連續(xù)語音的識別。
(2)實用階段
進入20世紀90年代后,語音識別的系統(tǒng)框架趨于穩(wěn)定,隨著計算機運算能力的快速提升以及語音識別在系統(tǒng)自適應、參數(shù)調優(yōu)等方面的成熟,語音識別技術在商業(yè)上逐步成功運用,語音識別技術進入實用階段。
(3)現(xiàn)代語音識別系統(tǒng)開發(fā)應用階段
近些年,隨著大數(shù)據(jù)和深度學習技術的發(fā)展,深度學習方法逐漸被引入到語音識別系統(tǒng)中,相較于傳統(tǒng)的語音識別技術,識別性能獲得了顯著提升。
目前,市場上的語音識別系統(tǒng)大多基于深度神經網絡模型進行建模,大幅提升了各種應用場景下語音識別的準確度和可靠性,使語音識別技術進入了新的應用階段。
2.語音識別的分類
按照說話人的不同,語音識別技術分為兩類:一是特定人語音識別,它用來對特定人的說話內容進行識別,同時基于說話人的聲紋信息,應用聲紋鑒別技術,實現(xiàn)基于聲音的身份識別;二是非特定人語音識別,通過采集大量語音數(shù)據(jù)來進行訓練建模,實現(xiàn)非特定人的語音識別,可以被任何說話人使用,更符合實際需要,通常要難于針對特定人的語音識別任務。
根據(jù)識別詞匯對象的不同,語音識別任務分為三類:一是孤立詞識別,可識別事先已知的詞語,比如“存款”“取款”等,可應用到自動控制領域;二是連續(xù)語音識別,可識別自然交流的連續(xù)語音,比如一個句子或者一段話,可應用于語音輸入系統(tǒng);三是關鍵詞識別,從連續(xù)語音中檢測出特定關鍵詞出現(xiàn)的位置,而不需要識別出整個句子,可應用于語音監(jiān)聽任務。
根據(jù)識別服務的實現(xiàn)方式,語音識別分為兩類:一是云端方式,依賴網絡并依托強大的后臺模型,識別更準確,目前已經有多款基于云端的語音助手工具;二是離線方式,不依賴于網絡,應用場景更靈活,但識別精確度受到計算資源的限制,一般離線識別會結合專用芯片,通過壓縮模型規(guī)模,將計算量控制在合理的水平。
3.語音識別技術原理
傳統(tǒng)語音識別技術的基本過程如圖1所示,主要包括如下內容。
(1)預處理
這一過程主要包括對輸入的原始語音信號進行采樣,去除個體發(fā)音差異以及設備環(huán)境等引起的背景噪聲,通過分幀將語音信號切分為短片段,并運用端點檢測技術確定出語音的起點和終點。
(2)特征提取
這一過程主要包括從預處理過的語音信號中,抽取出反映語音本質的特征參數(shù),形成特征矢量序列。通常由頻譜衍生出頻率倒譜系數(shù)(MFCC),使用長度為10ms的幀分割語音波形,然后從每幀中提取出特征向量。
(3)聲學模型訓練
基于語音數(shù)據(jù)庫進行訓練,通過計算語音特征和發(fā)音模板的相似度,為每個聲學單元建立模型參數(shù),識別時將待識別的語音特征參數(shù)與訓練得到的聲學模型進行匹配,獲得識別結果。傳統(tǒng)語音識別系統(tǒng)大多采用GMM-HMM進行聲學模型建模。
(4)語言模型訓練
根據(jù)語言的語法規(guī)則,對訓練文本數(shù)據(jù)庫進行語法、語義分析,建立描述給定詞序列在語言中出現(xiàn)的概率分布,在給定若干個詞的情境下能夠判定下一個最可能出現(xiàn)的詞語,縮小搜索范圍,進而提高語音識別性能以及準確率。
(5)語音解碼
語音解碼指語音技術中的識別過程,針對輸入的原始語音信號,經預處理和特征提取后,結合訓練得到的聲學模型、語言模型以及發(fā)音字典建立一個識別網絡,運用搜索算法尋找到最佳路徑,進而獲取該語音信號對應的最優(yōu)詞串。
4.深度學習和語音識別技術
深度學習也稱為“深層結構化學習”,是一種基于學習數(shù)據(jù)表征的機器學習方法,通過構建多隱藏層神經網絡,組合低層特征形成更加抽象的高層表示特征,以此提升分類或預測的準確性。
語音信號是一種非平穩(wěn)的隨機信號,人腦對其感知的過程是一個復雜的信號處理過程,深度學習可通過模仿人腦對語音信號的處理方式,以層次化的方式進行處理,因此比傳統(tǒng)的模型更適合于語音信號處理。結合深度學習技術對傳統(tǒng)語音識別技術的相關環(huán)節(jié)進行優(yōu)化和完善,出現(xiàn)了級聯(lián)系統(tǒng)(Tandem System)、混合系統(tǒng)(Hybrid System)、端到端模型(End-to-End Model)系統(tǒng)等新技術,具體描述如下:
(1)級聯(lián)系統(tǒng)
運用深度神經網絡(DNN)進行特征提取,優(yōu)于使用傳統(tǒng)特征訓練的GMM-HMM識別系統(tǒng),它可以聯(lián)合特征的上下文信息形成長時特征矢量,并且具有深層次的非線性變換能力,能夠從有限的數(shù)據(jù)中挖掘出更多的信息。
(2)混合系統(tǒng)
在GMM-HMM聲學模型基礎上,用DNN替換高斯混合模型(GMM)來計算輸出概率密度函數(shù),其中的DNN可替換為其他的深度學習架構,比如循環(huán)神經網絡(RNN)、卷積神經網絡(CNN)等,這種方法最常用也最便利,不需要重新設計整個傳統(tǒng)聲學模型系統(tǒng)。
(3)端到端模型系統(tǒng)
基于深度神經網絡完成從輸入特征向量到輸出結果的整個過程,聲學模型和語言模型通過后端解碼進行融合,與傳統(tǒng)識別過程相比,不需要進行分幀以及幀級別的標注操作。端到端模型實現(xiàn)方法分為兩種,一種是采用連續(xù)時序分類(CTC)和長短記憶網絡(LSTM)結合的聲學模型,對語音的音素序列和對應的語音特征序列進行序列層面建模;另一種是基于編碼解碼(Encoder-Decoder)模型以及注意力(Attention)模型,直接實現(xiàn)從語音聲學特征序列到最終詞序列的輸出。
二、智能語音識別技術在商業(yè)銀行中的應用
隨著語音識別技術與文本挖掘、自然語言處理等技術的不斷融合,在以商業(yè)銀行為代表的金融領域,語音識別技術呈現(xiàn)出巨大的應用價值潛力。本文對商業(yè)銀行視角下的語音識別應用場景進行梳理和歸類,從對智能化技術要求由淺入深的角度,提出“4I”應用架構,即“Input(信息輸入)—Inspection(實時監(jiān)察)—Interaction(溝通交互)—Identification(身份驗證)”,以期為商業(yè)銀行智能語音識別技術落地提供參考和借鑒。
1.Input(信息輸入):“聽得見”
語音識別的一個主要應用就是將語音數(shù)據(jù)自動轉換為文本數(shù)據(jù),實現(xiàn)自動信息輸入。該類應用下,語音識別技術的主要功能是將音頻數(shù)據(jù)轉化為文本數(shù)據(jù),并為進一步開展智能文本挖掘和自然語言處理積累大量文本信息語料。在商業(yè)銀行運營環(huán)境下,該功能可主要應用于簡化柜臺人員業(yè)務操作流程、實現(xiàn)客戶經理拜訪客戶后的報告口述撰寫等場景。
以柜臺操作簡化流程為例,當前網點仍是銀行提供服務的重要渠道之一,柜臺運營人員服務質量是決定客戶體驗的關鍵要素??蛻翎槍︺y行提出的反饋意見顯示,等待時間過長已成為影響客戶滿意度的重要因素。通過引入語音識別系統(tǒng),可以將客戶需求直接轉化為系統(tǒng)可識別的文本內容,柜臺人員僅需針對錄入的信息進行復核校驗,減少客戶填寫各種憑證的時間以及運營人員錄入信息的時間,從而減少客戶等待時間,提升服務效率。此外,當銀行一線人員走出網點對客戶進行拜訪后,由于缺乏行內雙錄設備,往往需要撰寫訪談報告對客戶情況及交談內容進行記錄,此時語音識別技術的應用可直接將客戶經理的口述轉換為文字報告,以提升工作效率,進一步釋放銀行生產力。
2.Inspection(實時監(jiān)察):“聽得懂”
商業(yè)銀行日常應用場景除了需要“聽得見”,很多場景還要求“聽得懂”,即需要在銀行服務人員與客戶交流過程中實時識別出客戶需求點及業(yè)務風險點,支持更精準地對客戶提供個性化服務,同時保證業(yè)務合規(guī)性。
例如,通過在語音識別技術的基礎上架構索引機制、引入文本挖掘和自然語言處理技術支持,對實時“聽”到的文字在“關注”字詞庫里進行搜索。當客戶在柜臺辦理業(yè)務時,通過對客戶與窗口人員的交談內容進行實時監(jiān)察,一方面可以及時識別銀行員工話術的合規(guī)性,當業(yè)務人員出現(xiàn)不當銷售、違規(guī)引導時,系統(tǒng)及時跳出提醒標識對銀行人員進行警示,盡可能避免對客戶和銀行權益造成損害;另一方面銀行可以實時發(fā)現(xiàn)客戶的業(yè)務需求,并及時讓窗口人員予以相關產品的推介,當客戶的需求與本行產品及服務核心關鍵詞相匹配時,系統(tǒng)展示產品信息及相關話術對業(yè)務人員進行提示,進一步提升銷售成功率。
此外,該技術還可以通過對客戶語言文本的分析,及時發(fā)現(xiàn)客戶是否存在負面情緒,輔助業(yè)務人員減少不當處理,及時調節(jié)、化解業(yè)務辦理中可能發(fā)生的客戶糾紛。
3.Interaction(溝通交互):“有交互”
語音識別在商業(yè)銀行的應用場景除了上述“聽得見”“聽得懂”外,很多時候還需與客戶“有交互”。通過語音合成、聲向定位、語義理解、機器翻譯等進一步技術支持,語音識別技術可應用于自助機具操作、電話銀行自動應答、銀行呼叫中心自動回訪、廳堂機器人服務交互、外籍客戶服務提升等場景。以廳堂設備自助化功能優(yōu)化為例,當前自助設備已成為廳堂運營過程中分流客戶的重要手段。
目前,自助設備操作主要以觸點操作、手動輸入為主,為輔助客戶進行業(yè)務辦理,一般需設置專人對客戶的操作進行指導。引入智能語音識別技術可進一步優(yōu)化自助設備功能,通過識別語音中的要求、請求、命令或詢問來做出正確的響應,既能改善手動輸入速度慢、易出錯等缺點,又有利于縮短系統(tǒng)的反應時間,使人機交互變得簡便易行。
將語音識別技術應用于手機銀行和微信銀行等數(shù)字化渠道,可進一步優(yōu)化客戶和系統(tǒng)交互的客戶體驗,完成余額查詢、賬戶掛失、手機號轉賬、轉賬費率查詢、預約取款、賬單查詢、信用卡還款、積分查詢、信用卡掛失等基本業(yè)務辦理,減少客戶輸入信息量,增加客戶對渠道的使用黏性,在節(jié)省服務成本的同時有效提升客戶體驗。
此外,外籍客戶服務提升也是智能語音識別技術充滿潛力的應用場景。以廳堂或窗口服務機器人為載體,在語音識別技術應用的基礎上實現(xiàn)“同聲傳譯”,使銀行能夠很好的服務外籍客戶,提升客戶尊享度,同時也為銀行更好地布局國際化戰(zhàn)略、發(fā)展海外業(yè)務提供技術支撐。
4.Identification(身份驗證):“認得出”
語音識別技術還可通過聲紋識別實現(xiàn)客戶身份驗證。在生物特征識別應用中,基于語音的身份驗證具有非接觸、非侵入、易用性強等特征,客戶易于接受。聲紋識別可以通過每個人獨特的聲音直接辨識客戶,無需設定、記住和鍵入密碼等操作,同時在信息采集方面較人臉、虹膜、指紋、指靜脈等方式具有更佳的便捷性和友好性,讓身份驗證過程變得快速而簡單。國外領先商業(yè)銀行已開啟語音身份驗證的探索,2013年5月,英國巴克萊銀行宣布使用語音識別技術,能夠在30秒內通過一般談話驗證客戶的身份。更進一步,通過建立客戶聲紋庫并對語音中的聲紋鑒別,銀行可有效對客戶進行識別、歷史檔案查詢、信息檢索與推薦。
毋庸置疑,語音識別技術為商業(yè)銀行的員工操作和客戶服務等應用模式提供了新的技術選擇,并能進一步提升業(yè)務效率,開拓新的業(yè)務運營模式。近年來,語音識別技術得到了迅猛發(fā)展,但是該技術在國內商業(yè)銀行的應用仍處于起步階段。這主要是因為基于銀行業(yè)領域特定的語料庫還不夠成熟,導致無法在真正意義上實現(xiàn)智能語音識別。隨著大數(shù)據(jù)技術不斷發(fā)展,數(shù)據(jù)積累越來越龐大,銀行業(yè)的語料庫必將逐漸完善,語音識別技術在商業(yè)銀行的應用將會逐漸深入。
-
語音識別
+關注
關注
38文章
1697瀏覽量
112255 -
深度學習
+關注
關注
73文章
5422瀏覽量
120601
原文標題:FinTech時代商業(yè)銀行智能語音識別技術應用與發(fā)展
文章出處:【微信號:jingzhenglizixun,微信公眾號:機器人博覽】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論