0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

依圖強(qiáng)勢(shì)進(jìn)軍智能語音,聯(lián)合微軟發(fā)布語音開放云平臺(tái)

DPVg_AI_era ? 來源:lq ? 2018-12-14 09:43 ? 次閱讀

依圖強(qiáng)勢(shì)進(jìn)軍智能語音,聯(lián)合微軟發(fā)布語音開放云平臺(tái),攜手華為發(fā)布軟硬件一體化的智能語音聯(lián)合解決方案。依圖語音識(shí)別算法在全球最大開源中文數(shù)據(jù)庫AISHELL-2上詞錯(cuò)率僅3.71%,比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀(jì)錄。比對(duì)各家語音識(shí)別算法,當(dāng)今智能語音戰(zhàn)場(chǎng),英雄唯訊飛與依圖爾?

2018年底,智能語音市場(chǎng)意外殺入一匹黑馬。

素來被認(rèn)為是“人臉識(shí)別獨(dú)角獸”——或者更寬泛一點(diǎn)說,“計(jì)算機(jī)視覺獨(dú)角獸”的依圖科技,公布了他們中文語音識(shí)別技術(shù)的最新突破,以及令人矚目的產(chǎn)業(yè)布局。

技術(shù)上,在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯(cuò)率(CER)達(dá)到3.71%[1],相比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀(jì)錄。

產(chǎn)業(yè)上,依圖聯(lián)合微軟推出基于Azure云服務(wù)的語音開放平臺(tái),并攜手華為發(fā)布軟硬件一體化的“智能語音聯(lián)合解決方案”,將依圖語音識(shí)別技術(shù)提供給第三方應(yīng)用開發(fā)者。

依圖首席創(chuàng)新官呂昊博士

“語音一直以來都是依圖關(guān)注的課題。作為對(duì)人工智能有著深入理解和推廣應(yīng)用的公司,我們自然而然進(jìn)入語音識(shí)別領(lǐng)域?!币缊D首席創(chuàng)新官呂昊博士表示,依圖是一家“人工智能公司”。

“作為語音行業(yè)的‘新生’,我們還是有很多向‘老生’學(xué)習(xí)的地方,但我們立志推動(dòng)行業(yè)創(chuàng)新與發(fā)展,做世界最好的中文普通話語音識(shí)別技術(shù)?!?/p>

智能語音競(jìng)爭(zhēng)還未開始,依圖要做世界最好的中文語音識(shí)別

萬物互聯(lián),語音為先。

語音識(shí)別是AI理解世界最重要的組成部分,也是AI能聽會(huì)說善理解的必要條件。

近年來,深度學(xué)習(xí)的爆發(fā)驅(qū)動(dòng)了語音識(shí)別技術(shù)的高速發(fā)展,催生了一大批智能語音創(chuàng)業(yè)公司,其中不乏實(shí)力強(qiáng)勁的競(jìng)爭(zhēng)者。

除了中國智能語音“一哥”科大訊飛,百度、阿里、騰訊、京東等企業(yè)紛紛推出了智能語音產(chǎn)品,再加上雄踞國際戰(zhàn)略高點(diǎn)的亞馬遜、谷歌、微軟……2017年底掀起的智能音箱“百箱大戰(zhàn)”硝煙還未褪去,依圖為何選擇這個(gè)時(shí)間點(diǎn)入局?

“我覺得競(jìng)爭(zhēng)都還沒開始,不存在入場(chǎng)的問題?!币缊D科技聯(lián)合創(chuàng)始人林晨曦在2018年1月接受新智元采訪時(shí)說。

智能語音市場(chǎng)看似巨頭林立,但林晨曦認(rèn)為創(chuàng)業(yè)公司大有可為,依圖不僅要做語音和自然語言處理,還要做到像人臉識(shí)別那樣,超越人類水平。

依圖技術(shù)負(fù)責(zé)人表示,盡管一些機(jī)構(gòu)宣傳其語音識(shí)別已經(jīng)達(dá)到乃至超越了人類水平,但多數(shù)情況下,這些結(jié)果都來自安靜、近場(chǎng)等受限場(chǎng)景。

“機(jī)器在語音環(huán)境比較理想的情況下是可以識(shí)別某些生僻詞,或者在專有名詞等識(shí)別方面比人強(qiáng)。但人的魯棒性還是強(qiáng)于機(jī)器,人在熟人且熟悉領(lǐng)域上的語音識(shí)別還是明顯能夠做過算法。”

目前語音識(shí)別仍然存在很多瓶頸,例如在發(fā)音不清楚的情況下,如何結(jié)合更強(qiáng)的上下文語義信息給出準(zhǔn)確的語音識(shí)別;如何在語音識(shí)別的全鏈路上,優(yōu)化遠(yuǎn)場(chǎng)識(shí)別的性能;特殊情況的處理,比如人稱代詞、語氣詞助詞;還有雞尾酒問題(多人同時(shí)說話下,能夠準(zhǔn)確識(shí)別其中一人的語音)、電話場(chǎng)景的識(shí)別(低采樣率下的語音識(shí)別)。

此次依圖科技在語音識(shí)別技術(shù)方面的突破,不僅意味著依圖首次涉足語音識(shí)別領(lǐng)域便已經(jīng)躋身中文語音識(shí)別第一陣營,同時(shí)也說明語音識(shí)別在技術(shù)層面還有足夠的進(jìn)化空間,遠(yuǎn)遠(yuǎn)沒有達(dá)到“超越人類”。

依圖預(yù)計(jì),在未來6個(gè)月到12個(gè)月,語音識(shí)別技術(shù)的算法性能將呈指數(shù)級(jí)增長,更多的場(chǎng)景將被解鎖,為行業(yè)應(yīng)用帶來更大的價(jià)值。

科大訊飛和依圖屬于第一梯隊(duì),BAT差得遠(yuǎn)

作為進(jìn)軍智能語音的第一步棋,依圖發(fā)布了“聽寫大會(huì)”微信小程序,它能將時(shí)長不超過60秒的語音轉(zhuǎn)寫成文字,支持普通話,并且兼容多種口音。

“聽寫大會(huì)”微信小程序:業(yè)界也屬于首次公開透明地比對(duì)各類算法的水平差異

不過,“我們希望大家不要僅僅是關(guān)注在API本身,”依圖首席創(chuàng)新管呂昊表示:“我們希望借助這個(gè)API,讓大家去關(guān)注到整個(gè)語音識(shí)別行業(yè)的發(fā)展情況?!?/p>

呂昊說,一直以來語音識(shí)別業(yè)界都沒有公開透明的語音識(shí)別比對(duì),通過“聽寫大會(huì)”微信小程序,用戶可以直觀感受到各家語音識(shí)別技術(shù)的真實(shí)表現(xiàn),在業(yè)界也屬于首次公開透明地比對(duì)各類算法的水平差異。

訊飛依圖BAT各家算法差異巨大,訊飛依圖位列第一陣營

“目前語音識(shí)別業(yè)界存在兩種認(rèn)知誤區(qū),”呂昊說:“一種是極端的好,也就是各家都好沒有差異;一種是極端的差,認(rèn)為都不能解決問題?!?/p>

實(shí)際情況是,“科大訊飛的語音識(shí)別能力比BAT領(lǐng)先很多。在場(chǎng)景測(cè)試中,除了依圖和科大訊飛之外,大部分廠家的算法字錯(cuò)率抖動(dòng)大,意味著場(chǎng)景的通用性差?!?/p>

依圖此次推出的中文語音識(shí)別算法,與業(yè)內(nèi)原有領(lǐng)先者相比,不僅大幅提升了識(shí)別準(zhǔn)確率,而且在單個(gè)算法模型上,有極為出色的多場(chǎng)景適用性表現(xiàn)。

一般認(rèn)為,中文語音識(shí)別的字錯(cuò)率低于3%時(shí)不會(huì)影響可讀性,而超過15%則毫無可讀性。這是語音識(shí)別的兩條紅線,在不同場(chǎng)景下,不同算法的表現(xiàn)可能會(huì)有很大差異。

在全球最大中文開源數(shù)據(jù)庫AISHELL-2[2] 的三個(gè)測(cè)試子集,以及來自第三方的近場(chǎng)口音測(cè)試集(Accent)、近場(chǎng)安靜聊天測(cè)試集(Chat)、語音節(jié)目測(cè)試集、電話測(cè)試集、遠(yuǎn)場(chǎng)測(cè)試集等測(cè)試場(chǎng)景中,依圖均處于業(yè)界領(lǐng)先水平,而且字錯(cuò)率幾乎全部在15%以下。

其中,在AISHELL2的-2018A-EVAL數(shù)據(jù)集中,依圖的識(shí)別準(zhǔn)確率高達(dá)96.29%,字錯(cuò)率僅為3.71%,領(lǐng)先第二名約20%。

這意味著依圖在語音領(lǐng)域做到了第一梯隊(duì) (甚至是領(lǐng)先) 的水平,在多場(chǎng)景的適用方面,也體現(xiàn)出顯著優(yōu)勢(shì)。

左有微軟,右有華為,用技術(shù)想象力撬動(dòng)語音市場(chǎng)

“依圖的語音API產(chǎn)品和語音開放平臺(tái)剛剛上線,我們歡迎越來越多的開發(fā)者和客戶使用依圖的產(chǎn)品,共同改進(jìn)產(chǎn)品性能,并探討更具突破性的應(yīng)用場(chǎng)景?!眳侮徽f。

關(guān)于未來預(yù)計(jì)推出的語音產(chǎn)品及其功能,呂昊表示,“實(shí)際上,我們認(rèn)為技術(shù)和場(chǎng)景是比產(chǎn)品和功能更關(guān)鍵的要素,推動(dòng)了技術(shù)發(fā)展進(jìn)步,我們才可以領(lǐng)略到以前看不到的更多可能性,解決很多以前想象不到的問題。今天語音識(shí)別跟人類的能力還有巨大的差距,依圖希望能夠攜手業(yè)界共同推動(dòng)行業(yè)進(jìn)步。”

發(fā)布會(huì)上,依圖宣布與微軟Azure云服務(wù)聯(lián)合發(fā)布語音開放平臺(tái),將行業(yè)領(lǐng)先的語音識(shí)別技術(shù)能力開放給第三方應(yīng)用開發(fā)者。此外,依圖還將與微軟在智能語音領(lǐng)域展開更深層次的合作,共建AI生態(tài)。

2018年4月,微軟全球執(zhí)行副總裁沈向洋(右)訪問依圖。依圖科技聯(lián)合創(chuàng)始人、CEO朱瓏(左)曾在微軟亞洲研究院(MSRA)研發(fā)人臉識(shí)別算法,導(dǎo)師就是沈向洋。依圖科技聯(lián)合創(chuàng)始人林晨曦,業(yè)務(wù)技術(shù)副總裁吳岷,研發(fā)總監(jiān)周健等也都來自MSRA。圖片來源:依圖科技

與此同時(shí),依圖也攜手華為聯(lián)合發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺(tái),以及華為全棧全場(chǎng)景 Ascend(昇騰)系列芯片和面向數(shù)據(jù)中心側(cè)的 Atlas 300 AI加速卡,將雙方強(qiáng)大的技術(shù)研發(fā)能力與生態(tài)服務(wù)能力深度結(jié)合,形成軟硬件一體化的聯(lián)合解決方案,進(jìn)一步幫助提升開發(fā)效率。

自2016年成為合作伙伴以來,依圖和華為已形成全方位聯(lián)動(dòng)。今年3月,雙方共同發(fā)布“華為-依圖視頻云人像大數(shù)據(jù)”解決方案,布局全球城市級(jí)公共安全。10月,2018華為全聯(lián)接大會(huì)期間,依圖作為大會(huì)安保唯一AI合作伙伴,與華為聯(lián)合發(fā)布了分支視頻云聯(lián)合解決方案、智慧警務(wù)云解決方案和智慧園區(qū)解決方案,在平安城市、智慧警務(wù)、大數(shù)據(jù)應(yīng)用等方面持續(xù)加深合作。

10月9日,華為輪值董事長徐直軍(左二)、華為安平系統(tǒng)部總裁岳坤、華為企業(yè)BG行業(yè)Marketing與解決方案總裁喻東(左三)等一行到訪依圖。來源:依圖科技

此前,有傳言微軟Azure云服務(wù)在中國的數(shù)據(jù)中心將使用華為的昇騰芯片,這一消息尚未得到證實(shí)。但本次由依圖串接起來的微軟、華為合作鏈,不禁讓人浮想聯(lián)翩。

根據(jù)2018中國語音產(chǎn)業(yè)聯(lián)盟年會(huì)上周發(fā)布的《2017-2018中國智能語音產(chǎn)業(yè)白皮書》,全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長,2014年至2018年,中國智能語音產(chǎn)業(yè)規(guī)模由30億元增長至159.7億元。

左有微軟,右有華為,再加上自身的技術(shù),依圖在智能語音開局便湊齊了一手好牌。

最后要說的是依圖科技的首席創(chuàng)新官呂昊。呂昊今年2月加入依圖,之前是谷歌的研究科學(xué)家。根據(jù)依圖科技官方介紹,呂昊在谷歌期間曾負(fù)責(zé)孵化安卓APP啟動(dòng)推薦系統(tǒng),這是全球首個(gè)移動(dòng)端APP啟動(dòng)推薦系統(tǒng),也是全球首個(gè)基于機(jī)器學(xué)習(xí)的安卓產(chǎn)品。他會(huì)帶領(lǐng)依圖與華為孵化出怎樣的智能語音聯(lián)合解決方案?

林晨曦曾表示好的人才需要對(duì)未來充滿想象力,朱瓏也在文章里寫因?yàn)榭匆?,所以相信——現(xiàn)在這句話基本成了依圖的Slogan。

“99%識(shí)別率的算法和99.99%的算法,區(qū)別在于可解鎖的應(yīng)用場(chǎng)景,對(duì)技術(shù)商業(yè)價(jià)值的想象力將回答AI的場(chǎng)景在哪里以及多快到來?!?/p>

“我們認(rèn)為,目前語音識(shí)別仍處于初步發(fā)展的階段,依圖將始終保持在技術(shù)層面的投入,通過技術(shù)的突破來解鎖更多的可能,也歡迎合作伙伴與我們共同探索語音技術(shù)的行業(yè)應(yīng)用?!眳侮徽f。

注釋

[1] 一般在英文語音識(shí)別中用“詞錯(cuò)率”(WER),因?yàn)樽钚卧窃~;中文語音識(shí)別一般使用“字錯(cuò)率”(CER),因?yàn)樽钚卧亲?

[2] AISHELL-2是AISHELL Foundation和希爾貝殼創(chuàng)建的開源數(shù)據(jù)庫,含有1000小時(shí)中文語音數(shù)據(jù),由1991名來自中國不同口音區(qū)域的說話者參與錄制,經(jīng)過專業(yè)語音校對(duì)人員轉(zhuǎn)寫標(biāo)注,通過了嚴(yán)格質(zhì)量檢驗(yàn),數(shù)據(jù)庫文本正確率在96%以上,錄音文本涉及喚醒詞、語音控制詞、智能家居無人駕駛、工業(yè)生產(chǎn)等12個(gè)領(lǐng)域.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6516

    瀏覽量

    103615
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3712

    瀏覽量

    64028
  • 智能語音
    +關(guān)注

    關(guān)注

    10

    文章

    771

    瀏覽量

    48597

原文標(biāo)題:依圖做語音了!識(shí)別精度創(chuàng)中文語音識(shí)別新高點(diǎn)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識(shí)別引擎

    恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識(shí)別引擎。本文將探討開發(fā)人員在嵌入式語音控制設(shè)計(jì)中面臨的挑戰(zhàn)、恩智浦新的Speech to Inten
    的頭像 發(fā)表于 01-26 09:15 ?632次閱讀
    恩智浦<b class='flag-5'>發(fā)布</b>新一代<b class='flag-5'>智能</b><b class='flag-5'>語音</b>技術(shù)組合的<b class='flag-5'>語音</b>識(shí)別引擎

    智能語音助手在醫(yī)療行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語音助手在醫(yī)療行業(yè)的應(yīng)用越來越廣泛。語音數(shù)據(jù)集在醫(yī)療智能語音
    的頭像 發(fā)表于 01-19 17:37 ?461次閱讀

    智能語音助手在教育行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語音助手在教育行業(yè)的應(yīng)用越來越廣泛。語音數(shù)據(jù)集在教育智能語音
    的頭像 發(fā)表于 01-19 17:21 ?558次閱讀

    智能語音助手在醫(yī)療行業(yè)的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語音助手在醫(yī)療行業(yè)的應(yīng)用越來越廣泛。語音數(shù)據(jù)集在醫(yī)療智能語音
    的頭像 發(fā)表于 01-18 16:41 ?399次閱讀

    語音數(shù)據(jù)集在智能語音助手中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語音助手已經(jīng)成為了人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?b class='flag-5'>語音數(shù)據(jù)集在智能
    的頭像 發(fā)表于 01-18 15:46 ?290次閱讀

    語音數(shù)據(jù)集在智能語音搜索中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著互聯(lián)網(wǎng)的普及和移動(dòng)設(shè)備的興起,智能語音搜索已經(jīng)成為人們獲取信息的重要方式之一。智能語音搜索通過語音交互的方式,為用戶提供更加便
    的頭像 發(fā)表于 01-18 15:09 ?456次閱讀

    語音數(shù)據(jù)集:智能語音技術(shù)的燃料與推動(dòng)力

    隨著人工智能技術(shù)的不斷進(jìn)步,語音技術(shù)作為人機(jī)交互的重要方式,正在逐漸滲透到我們的日常生活中。而語音數(shù)據(jù)集作為智能語音技術(shù)的“燃料”,對(duì)于推動(dòng)
    的頭像 發(fā)表于 12-29 11:11 ?307次閱讀

    語音數(shù)據(jù)集:開啟智能語音技術(shù)的新篇章

    隨著人工智能技術(shù)的飛速發(fā)展,語音數(shù)據(jù)集在推動(dòng)智能語音技術(shù)的進(jìn)步中發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集是訓(xùn)練和優(yōu)化
    的頭像 發(fā)表于 12-29 11:06 ?463次閱讀

    語音數(shù)據(jù)集:推動(dòng)智能語音技術(shù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力

    隨著人工智能技術(shù)的不斷進(jìn)步,智能語音技術(shù)已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?b class='flag-5'>語音數(shù)據(jù)集作為智能語音
    的頭像 發(fā)表于 12-28 13:46 ?407次閱讀

    語音數(shù)據(jù)集:智能語音技術(shù)的基石與挑戰(zhàn)

    隨著人工智能技術(shù)的飛速發(fā)展,語音技術(shù)已成為人機(jī)交互領(lǐng)域的重要突破口。語音數(shù)據(jù)集作為支撐語音技術(shù)研發(fā)的核心資源,對(duì)于提高語音識(shí)別、合成及自然語
    的頭像 發(fā)表于 12-28 11:28 ?605次閱讀

    離線語音智能床的應(yīng)用

    離線語音技術(shù),顧名思義,就是在沒有網(wǎng)絡(luò)連接的情況下,設(shè)備仍然能夠識(shí)別和處理用戶的語音指令。相比于在線語音技術(shù),離線語音技術(shù)具有響應(yīng)速度快、隱私保護(hù)好、不依賴網(wǎng)絡(luò)等優(yōu)點(diǎn)。在
    的頭像 發(fā)表于 12-22 10:32 ?614次閱讀
    離線<b class='flag-5'>語音</b>在<b class='flag-5'>智能</b>床的應(yīng)用

    語音數(shù)據(jù)集在智能語音助手中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著智能設(shè)備的普及和人工智能技術(shù)的不斷發(fā)展,智能語音助手已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?b class='flag-5'>語音數(shù)據(jù)集在
    的頭像 發(fā)表于 12-14 15:07 ?641次閱讀

    離線語音識(shí)別及控制是怎樣的技術(shù)?

    引言:  隨著人工智能的飛速發(fā)展,離線語音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語音識(shí)別技術(shù)能夠?qū)⑷说?b class='flag-5'>語音轉(zhuǎn)化為可理解的文本,無需依賴網(wǎng)絡(luò)連接,極大地提升了
    發(fā)表于 11-24 17:41

    語音識(shí)別技術(shù)中的實(shí)時(shí)處理與計(jì)算

    語音識(shí)別技術(shù)是一種將人類語音轉(zhuǎn)化為計(jì)算機(jī)可理解數(shù)據(jù)的技術(shù)。隨著人工智能計(jì)算技術(shù)的不斷發(fā)展,語音識(shí)別技術(shù)正朝著實(shí)時(shí)處理和
    的頭像 發(fā)表于 10-19 15:51 ?515次閱讀

    離線語音與IoT結(jié)合:智能家居發(fā)展新增長點(diǎn)

    /BLE芯片,成本更低,使得智能化更加經(jīng)濟(jì)實(shí)惠。 7、可采用啟英泰倫私有,保障數(shù)據(jù)隱私和安全,讓用戶享受智能科技帶來的便利與安心。 8、個(gè)性化體驗(yàn):IoT和離線語音控制結(jié)合可以提供個(gè)
    發(fā)表于 10-17 11:06