依圖強(qiáng)勢(shì)進(jìn)軍智能語音,聯(lián)合微軟發(fā)布語音開放云平臺(tái),攜手華為發(fā)布軟硬件一體化的智能語音聯(lián)合解決方案。依圖語音識(shí)別算法在全球最大開源中文數(shù)據(jù)庫AISHELL-2上詞錯(cuò)率僅3.71%,比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀(jì)錄。比對(duì)各家語音識(shí)別算法,當(dāng)今智能語音戰(zhàn)場(chǎng),英雄唯訊飛與依圖爾?
2018年底,智能語音市場(chǎng)意外殺入一匹黑馬。
素來被認(rèn)為是“人臉識(shí)別獨(dú)角獸”——或者更寬泛一點(diǎn)說,“計(jì)算機(jī)視覺獨(dú)角獸”的依圖科技,公布了他們中文語音識(shí)別技術(shù)的最新突破,以及令人矚目的產(chǎn)業(yè)布局。
技術(shù)上,在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯(cuò)率(CER)達(dá)到3.71%[1],相比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀(jì)錄。
產(chǎn)業(yè)上,依圖聯(lián)合微軟推出基于Azure云服務(wù)的語音開放平臺(tái),并攜手華為發(fā)布軟硬件一體化的“智能語音聯(lián)合解決方案”,將依圖語音識(shí)別技術(shù)提供給第三方應(yīng)用開發(fā)者。
依圖首席創(chuàng)新官呂昊博士
“語音一直以來都是依圖關(guān)注的課題。作為對(duì)人工智能有著深入理解和推廣應(yīng)用的公司,我們自然而然進(jìn)入語音識(shí)別領(lǐng)域?!币缊D首席創(chuàng)新官呂昊博士表示,依圖是一家“人工智能公司”。
“作為語音行業(yè)的‘新生’,我們還是有很多向‘老生’學(xué)習(xí)的地方,但我們立志推動(dòng)行業(yè)創(chuàng)新與發(fā)展,做世界最好的中文普通話語音識(shí)別技術(shù)?!?/p>
智能語音競(jìng)爭(zhēng)還未開始,依圖要做世界最好的中文語音識(shí)別
萬物互聯(lián),語音為先。
語音識(shí)別是AI理解世界最重要的組成部分,也是AI能聽會(huì)說善理解的必要條件。
近年來,深度學(xué)習(xí)的爆發(fā)驅(qū)動(dòng)了語音識(shí)別技術(shù)的高速發(fā)展,催生了一大批智能語音創(chuàng)業(yè)公司,其中不乏實(shí)力強(qiáng)勁的競(jìng)爭(zhēng)者。
除了中國智能語音“一哥”科大訊飛,百度、阿里、騰訊、京東等企業(yè)紛紛推出了智能語音產(chǎn)品,再加上雄踞國際戰(zhàn)略高點(diǎn)的亞馬遜、谷歌、微軟……2017年底掀起的智能音箱“百箱大戰(zhàn)”硝煙還未褪去,依圖為何選擇這個(gè)時(shí)間點(diǎn)入局?
“我覺得競(jìng)爭(zhēng)都還沒開始,不存在入場(chǎng)的問題?!币缊D科技聯(lián)合創(chuàng)始人林晨曦在2018年1月接受新智元采訪時(shí)說。
智能語音市場(chǎng)看似巨頭林立,但林晨曦認(rèn)為創(chuàng)業(yè)公司大有可為,依圖不僅要做語音和自然語言處理,還要做到像人臉識(shí)別那樣,超越人類水平。
依圖技術(shù)負(fù)責(zé)人表示,盡管一些機(jī)構(gòu)宣傳其語音識(shí)別已經(jīng)達(dá)到乃至超越了人類水平,但多數(shù)情況下,這些結(jié)果都來自安靜、近場(chǎng)等受限場(chǎng)景。
“機(jī)器在語音環(huán)境比較理想的情況下是可以識(shí)別某些生僻詞,或者在專有名詞等識(shí)別方面比人強(qiáng)。但人的魯棒性還是強(qiáng)于機(jī)器,人在熟人且熟悉領(lǐng)域上的語音識(shí)別還是明顯能夠做過算法。”
目前語音識(shí)別仍然存在很多瓶頸,例如在發(fā)音不清楚的情況下,如何結(jié)合更強(qiáng)的上下文語義信息給出準(zhǔn)確的語音識(shí)別;如何在語音識(shí)別的全鏈路上,優(yōu)化遠(yuǎn)場(chǎng)識(shí)別的性能;特殊情況的處理,比如人稱代詞、語氣詞助詞;還有雞尾酒問題(多人同時(shí)說話下,能夠準(zhǔn)確識(shí)別其中一人的語音)、電話場(chǎng)景的識(shí)別(低采樣率下的語音識(shí)別)。
此次依圖科技在語音識(shí)別技術(shù)方面的突破,不僅意味著依圖首次涉足語音識(shí)別領(lǐng)域便已經(jīng)躋身中文語音識(shí)別第一陣營,同時(shí)也說明語音識(shí)別在技術(shù)層面還有足夠的進(jìn)化空間,遠(yuǎn)遠(yuǎn)沒有達(dá)到“超越人類”。
依圖預(yù)計(jì),在未來6個(gè)月到12個(gè)月,語音識(shí)別技術(shù)的算法性能將呈指數(shù)級(jí)增長,更多的場(chǎng)景將被解鎖,為行業(yè)應(yīng)用帶來更大的價(jià)值。
科大訊飛和依圖屬于第一梯隊(duì),BAT差得遠(yuǎn)
作為進(jìn)軍智能語音的第一步棋,依圖發(fā)布了“聽寫大會(huì)”微信小程序,它能將時(shí)長不超過60秒的語音轉(zhuǎn)寫成文字,支持普通話,并且兼容多種口音。
“聽寫大會(huì)”微信小程序:業(yè)界也屬于首次公開透明地比對(duì)各類算法的水平差異
不過,“我們希望大家不要僅僅是關(guān)注在API本身,”依圖首席創(chuàng)新管呂昊表示:“我們希望借助這個(gè)API,讓大家去關(guān)注到整個(gè)語音識(shí)別行業(yè)的發(fā)展情況?!?/p>
呂昊說,一直以來語音識(shí)別業(yè)界都沒有公開透明的語音識(shí)別比對(duì),通過“聽寫大會(huì)”微信小程序,用戶可以直觀感受到各家語音識(shí)別技術(shù)的真實(shí)表現(xiàn),在業(yè)界也屬于首次公開透明地比對(duì)各類算法的水平差異。
訊飛依圖BAT各家算法差異巨大,訊飛依圖位列第一陣營
“目前語音識(shí)別業(yè)界存在兩種認(rèn)知誤區(qū),”呂昊說:“一種是極端的好,也就是各家都好沒有差異;一種是極端的差,認(rèn)為都不能解決問題?!?/p>
實(shí)際情況是,“科大訊飛的語音識(shí)別能力比BAT領(lǐng)先很多。在場(chǎng)景測(cè)試中,除了依圖和科大訊飛之外,大部分廠家的算法字錯(cuò)率抖動(dòng)大,意味著場(chǎng)景的通用性差?!?/p>
依圖此次推出的中文語音識(shí)別算法,與業(yè)內(nèi)原有領(lǐng)先者相比,不僅大幅提升了識(shí)別準(zhǔn)確率,而且在單個(gè)算法模型上,有極為出色的多場(chǎng)景適用性表現(xiàn)。
一般認(rèn)為,中文語音識(shí)別的字錯(cuò)率低于3%時(shí)不會(huì)影響可讀性,而超過15%則毫無可讀性。這是語音識(shí)別的兩條紅線,在不同場(chǎng)景下,不同算法的表現(xiàn)可能會(huì)有很大差異。
在全球最大中文開源數(shù)據(jù)庫AISHELL-2[2] 的三個(gè)測(cè)試子集,以及來自第三方的近場(chǎng)口音測(cè)試集(Accent)、近場(chǎng)安靜聊天測(cè)試集(Chat)、語音節(jié)目測(cè)試集、電話測(cè)試集、遠(yuǎn)場(chǎng)測(cè)試集等測(cè)試場(chǎng)景中,依圖均處于業(yè)界領(lǐng)先水平,而且字錯(cuò)率幾乎全部在15%以下。
其中,在AISHELL2的-2018A-EVAL數(shù)據(jù)集中,依圖的識(shí)別準(zhǔn)確率高達(dá)96.29%,字錯(cuò)率僅為3.71%,領(lǐng)先第二名約20%。
這意味著依圖在語音領(lǐng)域做到了第一梯隊(duì) (甚至是領(lǐng)先) 的水平,在多場(chǎng)景的適用方面,也體現(xiàn)出顯著優(yōu)勢(shì)。
左有微軟,右有華為,用技術(shù)想象力撬動(dòng)語音市場(chǎng)
“依圖的語音API產(chǎn)品和語音開放平臺(tái)剛剛上線,我們歡迎越來越多的開發(fā)者和客戶使用依圖的產(chǎn)品,共同改進(jìn)產(chǎn)品性能,并探討更具突破性的應(yīng)用場(chǎng)景?!眳侮徽f。
關(guān)于未來預(yù)計(jì)推出的語音產(chǎn)品及其功能,呂昊表示,“實(shí)際上,我們認(rèn)為技術(shù)和場(chǎng)景是比產(chǎn)品和功能更關(guān)鍵的要素,推動(dòng)了技術(shù)發(fā)展進(jìn)步,我們才可以領(lǐng)略到以前看不到的更多可能性,解決很多以前想象不到的問題。今天語音識(shí)別跟人類的能力還有巨大的差距,依圖希望能夠攜手業(yè)界共同推動(dòng)行業(yè)進(jìn)步。”
發(fā)布會(huì)上,依圖宣布與微軟Azure云服務(wù)聯(lián)合發(fā)布語音開放平臺(tái),將行業(yè)領(lǐng)先的語音識(shí)別技術(shù)能力開放給第三方應(yīng)用開發(fā)者。此外,依圖還將與微軟在智能語音領(lǐng)域展開更深層次的合作,共建AI生態(tài)。
2018年4月,微軟全球執(zhí)行副總裁沈向洋(右)訪問依圖。依圖科技聯(lián)合創(chuàng)始人、CEO朱瓏(左)曾在微軟亞洲研究院(MSRA)研發(fā)人臉識(shí)別算法,導(dǎo)師就是沈向洋。依圖科技聯(lián)合創(chuàng)始人林晨曦,業(yè)務(wù)技術(shù)副總裁吳岷,研發(fā)總監(jiān)周健等也都來自MSRA。圖片來源:依圖科技
與此同時(shí),依圖也攜手華為聯(lián)合發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺(tái),以及華為全棧全場(chǎng)景 Ascend(昇騰)系列芯片和面向數(shù)據(jù)中心側(cè)的 Atlas 300 AI加速卡,將雙方強(qiáng)大的技術(shù)研發(fā)能力與生態(tài)服務(wù)能力深度結(jié)合,形成軟硬件一體化的聯(lián)合解決方案,進(jìn)一步幫助提升開發(fā)效率。
自2016年成為合作伙伴以來,依圖和華為已形成全方位聯(lián)動(dòng)。今年3月,雙方共同發(fā)布“華為-依圖視頻云人像大數(shù)據(jù)”解決方案,布局全球城市級(jí)公共安全。10月,2018華為全聯(lián)接大會(huì)期間,依圖作為大會(huì)安保唯一AI合作伙伴,與華為聯(lián)合發(fā)布了分支視頻云聯(lián)合解決方案、智慧警務(wù)云解決方案和智慧園區(qū)解決方案,在平安城市、智慧警務(wù)、大數(shù)據(jù)應(yīng)用等方面持續(xù)加深合作。
10月9日,華為輪值董事長徐直軍(左二)、華為安平系統(tǒng)部總裁岳坤、華為企業(yè)BG行業(yè)Marketing與解決方案總裁喻東(左三)等一行到訪依圖。來源:依圖科技
此前,有傳言微軟Azure云服務(wù)在中國的數(shù)據(jù)中心將使用華為的昇騰芯片,這一消息尚未得到證實(shí)。但本次由依圖串接起來的微軟、華為合作鏈,不禁讓人浮想聯(lián)翩。
根據(jù)2018中國語音產(chǎn)業(yè)聯(lián)盟年會(huì)上周發(fā)布的《2017-2018中國智能語音產(chǎn)業(yè)白皮書》,全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長,2014年至2018年,中國智能語音產(chǎn)業(yè)規(guī)模由30億元增長至159.7億元。
左有微軟,右有華為,再加上自身的技術(shù),依圖在智能語音開局便湊齊了一手好牌。
最后要說的是依圖科技的首席創(chuàng)新官呂昊。呂昊今年2月加入依圖,之前是谷歌的研究科學(xué)家。根據(jù)依圖科技官方介紹,呂昊在谷歌期間曾負(fù)責(zé)孵化安卓APP啟動(dòng)推薦系統(tǒng),這是全球首個(gè)移動(dòng)端APP啟動(dòng)推薦系統(tǒng),也是全球首個(gè)基于機(jī)器學(xué)習(xí)的安卓產(chǎn)品。他會(huì)帶領(lǐng)依圖與華為孵化出怎樣的智能語音聯(lián)合解決方案?
林晨曦曾表示好的人才需要對(duì)未來充滿想象力,朱瓏也在文章里寫因?yàn)榭匆?,所以相信——現(xiàn)在這句話基本成了依圖的Slogan。
“99%識(shí)別率的算法和99.99%的算法,區(qū)別在于可解鎖的應(yīng)用場(chǎng)景,對(duì)技術(shù)商業(yè)價(jià)值的想象力將回答AI的場(chǎng)景在哪里以及多快到來?!?/p>
“我們認(rèn)為,目前語音識(shí)別仍處于初步發(fā)展的階段,依圖將始終保持在技術(shù)層面的投入,通過技術(shù)的突破來解鎖更多的可能,也歡迎合作伙伴與我們共同探索語音技術(shù)的行業(yè)應(yīng)用?!眳侮徽f。
注釋
[1] 一般在英文語音識(shí)別中用“詞錯(cuò)率”(WER),因?yàn)樽钚卧窃~;中文語音識(shí)別一般使用“字錯(cuò)率”(CER),因?yàn)樽钚卧亲?
[2] AISHELL-2是AISHELL Foundation和希爾貝殼創(chuàng)建的開源數(shù)據(jù)庫,含有1000小時(shí)中文語音數(shù)據(jù),由1991名來自中國不同口音區(qū)域的說話者參與錄制,經(jīng)過專業(yè)語音校對(duì)人員轉(zhuǎn)寫標(biāo)注,通過了嚴(yán)格質(zhì)量檢驗(yàn),數(shù)據(jù)庫文本正確率在96%以上,錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業(yè)生產(chǎn)等12個(gè)領(lǐng)域.
-
微軟
+關(guān)注
關(guān)注
4文章
6516瀏覽量
103615 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3712瀏覽量
64028 -
智能語音
+關(guān)注
關(guān)注
10文章
771瀏覽量
48597
原文標(biāo)題:依圖做語音了!識(shí)別精度創(chuàng)中文語音識(shí)別新高點(diǎn)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論