11月15日訊,在第五屆Kaldi技術交流會上,Kaldi之父Daniel Povey博士與來自北京各大互聯(lián)網(wǎng)公司、知名高校的開發(fā)者們深入交流下一代Kaldi社區(qū)未來的發(fā)展。
Daniel Povey博士目前擔任小米集團語音首席科學家,由他開發(fā)和維護Kaldi 集成了多種語音識別模型,是業(yè)界語音識別框架基石。加入小米一年,Daniel Povey設計并開發(fā)出了新一代Kaldi。新一代Kaldi分成三個部分,包括核心算法部分,訓練數(shù)據(jù)準備部分、示例腳本集合部分。
據(jù)介紹,其中,Lhotse(訓練數(shù)據(jù)準備部分)將替代以前Kaldi中所有數(shù)據(jù)準備相關的工作,操作各種音頻和文本的元數(shù)據(jù)。Lhotse除了Kaldi本身,也適用于其他應用。而且Lhotse純Python代碼,方便易用。
Icefall(示例腳本集合部分)將代替Kaldi中的示例腳本集合,并獨立成為一個單獨的子項目。之所以要把示例腳本集合與核心算法分開,是考慮到示例腳本可能會非常龐大,且經(jīng)常變動。
新一代Kaldi的核心部分叫“k2”。k2可以讓開發(fā)者很容易在PyTorch/TensorFlow中實現(xiàn)各種語音識別相關算法,比如CTC、LF—MMI、RNN—T、2nd—pass語言模型等,消除以往語音識別算法中訓練跟解碼不匹配的問題。同時,通過k2可以實現(xiàn)(置信度逐漸提高的)多輪解碼過程。
Daniel Povey博士透露,k2核心代碼已完成。約41000行代碼(主要是C++),本周剛發(fā)布0.1版本。他在本次線下活動中強調(diào):“今天有太多人依托Kaldi在做自己的事業(yè),有很多人為Kaldi社區(qū)一直在做貢獻,Kaldi會始終堅持開源?!?/p>
小米集團副總裁、技術委員會主席崔寶秋指出,擁抱開源是小米工程文化的重要組成部分。崔寶秋在接受藍鯨TMT記者專訪時表示,Kaldi的一些語音技術與代碼已經(jīng)在一些小米的產(chǎn)品線使用,未來其語音技術將在小米的手機、音箱、電視以及更多智能家居與智能穿戴設備中使用,小米非常重視語音技術。
責任編輯:PSY
-
算法
+關注
關注
23文章
4552瀏覽量
92020 -
核心技術
+關注
關注
4文章
625瀏覽量
19514 -
開源
+關注
關注
3文章
3126瀏覽量
42068 -
小米
+關注
關注
69文章
14276瀏覽量
142993
發(fā)布評論請先 登錄
相關推薦
評論