其中,整理會議記錄絕對是最讓人無奈的加班原因之一。1個小時的講話內(nèi)容整理起來卻能耗費(fèi)3-4小時的時間,然后很多會議都是3小時起步的……
不要悲傷,不要哭泣,因為訊飛開放平臺已經(jīng)上線了訊飛聽見的明星產(chǎn)品——實時語音轉(zhuǎn)寫技術(shù)啦!
1讓信息錄入即時高效
信息爆發(fā)時代,有效率有質(zhì)量地整理視頻、音頻、文字等信息變得尤為重要。會議,培訓(xùn),采訪等場景均需要形成完整的文字記錄材料,音視頻文件也需要配有字幕。
訊飛實時語音轉(zhuǎn)寫技術(shù)通過WebSocket協(xié)議,建立應(yīng)用與語音轉(zhuǎn)寫核心引擎的長連接,將音頻流數(shù)據(jù)實時轉(zhuǎn)換成文字流數(shù)據(jù)結(jié)果。實現(xiàn)即時對語音內(nèi)容的識別,展現(xiàn)對應(yīng)文字內(nèi)容。
同時,訊飛實時語音轉(zhuǎn)寫技術(shù)的識別引擎采用擁有科大訊飛自主研發(fā)全新推出的深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN,Deep Fully Convolutional Neural Network)識別框架。使用大量的卷積層直接對整句語音信號進(jìn)行建模,更好的表達(dá)了語音的長時相關(guān)性,比學(xué)術(shù)界和工業(yè)界最好的雙向遞歸神經(jīng)網(wǎng)絡(luò)(BRNN,Bi-directional Recurrent Neural Network)的語音識別系統(tǒng)識別率提升了15%以上。同時結(jié)合訊飛的HPC平臺和多GPU并行加速技術(shù),訓(xùn)練速度也優(yōu)于傳統(tǒng)的雙向LSTM CTC系統(tǒng)。
借助訊飛聽見實時語音轉(zhuǎn)寫技術(shù),不僅能極大減輕開頭所說的整理會議內(nèi)容的耗時耗力問題,還能應(yīng)用在更多場景中:
學(xué)術(shù)講座:在嘈雜的現(xiàn)場,讓演講者的話可視化;
課程培訓(xùn):重點內(nèi)容隨講隨記,幫助反應(yīng)理解;
電視直播:生成字幕,使得聽障人士可以了解畫面內(nèi)容;
客服電話:記錄客戶話語,幫助服務(wù)人員更好應(yīng)答。
2訊飛實時語音轉(zhuǎn)寫技術(shù)優(yōu)勢
在實時生成文字內(nèi)容的同時,訊飛實時語音轉(zhuǎn)寫技術(shù)還能滿足你的四個愿望:
我希望有更高的準(zhǔn)確率
實時語音轉(zhuǎn)寫基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)框架,語音識別技術(shù)全球領(lǐng)先,在安靜環(huán)境,普通話標(biāo)準(zhǔn)下轉(zhuǎn)寫準(zhǔn)確率可達(dá)95%以上。
我希望轉(zhuǎn)寫結(jié)果表達(dá)清晰
訊飛實時語音轉(zhuǎn)寫技術(shù)具有上下文糾錯功能。在一句話結(jié)束之后,針對上下文進(jìn)行語義理解,將轉(zhuǎn)寫過程中的語音識別結(jié)果進(jìn)行智能糾錯,確保識別的準(zhǔn)確性。
我希望時間和數(shù)字等轉(zhuǎn)寫準(zhǔn)確
訊飛實時語音轉(zhuǎn)寫可以進(jìn)行文法格式智能轉(zhuǎn)換: 對結(jié)果中出現(xiàn)數(shù)字、日期、時間等內(nèi)容,將它們格式化成規(guī)整的文本,例如“五點三十”引擎會識別規(guī)整為“5:30”。
我希望文本斷句和加標(biāo)點更輕松
運(yùn)用超大規(guī)模的語言模型,讓訊飛實時語音轉(zhuǎn)寫技術(shù)可以智能預(yù)測語境,提供智能斷句和標(biāo)點符號的預(yù)測。
訊飛聽見APP實時語音轉(zhuǎn)寫
3訊飛實時語音轉(zhuǎn)寫技術(shù)案例
通過實時語音轉(zhuǎn)寫技術(shù),訊飛聽見為博鰲亞洲論壇、世界制造者大會、全球INS大會等大型會議、論壇的活動內(nèi)容的記錄、整理提供了極大的支持。
訊飛聽見支持“博鰲論壇21世紀(jì)海上絲綢之路島嶼經(jīng)濟(jì)論壇”
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4733瀏覽量
100420 -
語音識別
+關(guān)注
關(guān)注
38文章
1710瀏覽量
112493
發(fā)布評論請先 登錄
相關(guān)推薦
評論