AI芯片創(chuàng)企探境科技發(fā)布用于語(yǔ)音識(shí)別降噪的高計(jì)算強(qiáng)度神經(jīng)網(wǎng)絡(luò)(HONN),并提出了增強(qiáng)識(shí)別一體化的端到端識(shí)別流程。HONN在遠(yuǎn)場(chǎng)和高噪聲等環(huán)境下的識(shí)別率明顯優(yōu)于DNN。
此前在今年9月,探境發(fā)布通用型語(yǔ)音AI芯片音旋風(fēng)611,智東西曾對(duì)該芯片及內(nèi)部存儲(chǔ)優(yōu)先架構(gòu)(SFA)做詳細(xì)報(bào)道。(探境推全球首款通用型語(yǔ)音AI芯片,2美元、已量產(chǎn),圖像芯片年底見)
現(xiàn)場(chǎng),探境宣布升級(jí)語(yǔ)音解決方案,實(shí)現(xiàn)在線離線一體化,并展示了探境語(yǔ)音產(chǎn)品全矩陣及端云一體的全棧式平臺(tái)化發(fā)展戰(zhàn)略。
據(jù)介紹,到目前為止,探境語(yǔ)音識(shí)別方案已實(shí)現(xiàn)百萬(wàn)級(jí)產(chǎn)品出貨,今年?duì)I收已經(jīng)破千萬(wàn)元。
探境共有30家合作伙伴,所涉及智能家居品類豐富,從燈具到熱水器、垃圾筒、凈化器應(yīng)有盡有。
一、語(yǔ)音/圖像芯片雙線并行,展示語(yǔ)音產(chǎn)品全矩陣
探境科技2017年成立,去年完成上億元A輪融資,覆蓋芯片、軟件、算法、系統(tǒng)全棧式技術(shù)能力,能提供Turn-key整體方案,既有面向家具、玩具、智能穿戴等場(chǎng)景的語(yǔ)音系列解決方案,也有面向圖像場(chǎng)景下有安防、新零售、輔助駕駛等方面的圖像解決方案。
探境科技目前在全球有6個(gè)研發(fā)中心,分別在北京、上海、深圳、合肥、杭州、美國(guó)硅谷。員工接近200人,其中150人是研發(fā)人員,其骨干研發(fā)人員平均工作經(jīng)驗(yàn)約15年,其中有50人擁有碩士、博士學(xué)歷。
今年9月,探境面向智能家居市場(chǎng)發(fā)布離在線一體語(yǔ)音識(shí)別芯片音旋風(fēng)611,稱它是目前市面上綜合性能最好、性價(jià)比最高的一款離在線語(yǔ)音方案,已在多家客戶的產(chǎn)品中得到應(yīng)用并收獲良好客戶口碑。
音旋風(fēng)611支持多達(dá)200條命令詞,可覆蓋大部分生活場(chǎng)景,喚醒率不低于99%,識(shí)別率超過(guò)97%,誤喚醒率低于24小時(shí)1次,幾乎在眨眼之間就能完成識(shí)別,在10米范圍之內(nèi),都可以正常喚醒與識(shí)別。
探境已構(gòu)建整個(gè)產(chǎn)品矩陣,從低功耗到旗艦產(chǎn)品全面覆蓋,除了單麥和雙麥的611和612,還有支持降噪的631、可用于可穿戴設(shè)備的超低功耗311、可用于智能家居的精簡(jiǎn)命令詞321。
其旗艦產(chǎn)品是711/712,主要面對(duì)高端自然語(yǔ)言識(shí)別的場(chǎng)景,比現(xiàn)在采用命令詞的方式,有更大的體驗(yàn)和升級(jí)。
總體而言,探境打造的全棧式語(yǔ)音解決方案,主要有五個(gè)特點(diǎn):語(yǔ)音識(shí)別體驗(yàn)好、功耗低、超高性價(jià)比、易集成、端云一體化。
由于目前存在一些在線連接的需求,探境會(huì)將離線和在線一起提供給大家,做一個(gè)整體的解決方案。
另外,探境的圖像芯片目前已流片成功,能效比是目前已知全球最高圖像推理性能,達(dá)到800IPS/W。
二、AI算法二次升級(jí),魯棒性和抗噪能力更強(qiáng)
在家居環(huán)境下,語(yǔ)音識(shí)別主要面臨幾個(gè)挑戰(zhàn):一是在遠(yuǎn)場(chǎng)、高噪聲等苛刻場(chǎng)景下信噪比低,二是非穩(wěn)態(tài)的噪聲影響,三是難以處理多聲源問(wèn)題。
如圖是探境語(yǔ)音識(shí)別的的簡(jiǎn)化版框圖,一般包括兩個(gè)環(huán)節(jié):一是降噪處理和語(yǔ)音識(shí)別,二是為語(yǔ)音專門設(shè)計(jì)的高計(jì)算強(qiáng)度神經(jīng)網(wǎng)絡(luò)HONN。
1、基于深度學(xué)習(xí)的降噪算法
不同于傳統(tǒng)降噪算法,探境的降噪算法是基于深度學(xué)習(xí)的AI降噪算法,不僅可以處理常見的穩(wěn)態(tài)噪聲,還能很好地處理一些非穩(wěn)態(tài)的噪聲和突發(fā)性的噪聲。
為驗(yàn)證該算法的識(shí)別有效性,探境將一批信噪比在3dB左右的語(yǔ)音數(shù)據(jù),送到一家知名互聯(lián)網(wǎng)公司的云端識(shí)別引擎做了測(cè)試,降噪后比降噪前的識(shí)別率能夠提升30%以上。
2、設(shè)計(jì)新型語(yǔ)音識(shí)別網(wǎng)絡(luò)
算力決定識(shí)別率的上限,趨向于用復(fù)雜度高的模型做聲學(xué)建模。
參數(shù)數(shù)量相同的條件下,提高計(jì)算強(qiáng)度能提高模型的算力需求,卷積能提取聲音信號(hào)符合人類生理感知的本質(zhì)特征。
參考計(jì)算機(jī)視覺中的最新進(jìn)展,探境科技設(shè)計(jì)了用于語(yǔ)音識(shí)別的高計(jì)算強(qiáng)度神經(jīng)網(wǎng)絡(luò)(HONN),來(lái)對(duì)聲學(xué)建模單元進(jìn)行升級(jí)。
傳統(tǒng)語(yǔ)音識(shí)別算法多使用全連接(DNN/DTNN),探境HONN增加了卷積的操作次數(shù),將每一個(gè)處理單元變成了立體的,減少了DNN/TDNN中全連接的次數(shù),同時(shí)信息量和計(jì)算密度遠(yuǎn)超傳統(tǒng)DNN/DTNN方法。這帶來(lái)更深維度的識(shí)別,從而顯著提升性能。
HONN的參數(shù)量約是傳統(tǒng)DNN算法的五分之一,所需存儲(chǔ)比DNN低,但模型復(fù)雜度幾乎是DNN的4倍。
與存儲(chǔ)的需求剛好相反,高強(qiáng)度計(jì)算神經(jīng)網(wǎng)絡(luò)的算力需求量超過(guò)106MOPS,而DNN只有個(gè)位數(shù)的計(jì)算強(qiáng)度,相差了30倍。
在安靜環(huán)境下,兩種方法的差異并不明顯,但一旦降低信噪比,HONN的在遠(yuǎn)場(chǎng)和高噪聲等環(huán)境下的識(shí)別率明顯優(yōu)于DNN。
3、端到端一體化建模識(shí)別是當(dāng)前的前沿算法
為消除各模塊間的不適配,端到端處理一體化優(yōu)化成發(fā)展方向。
傳統(tǒng)麥克風(fēng)陣列處理+ASR流程存在如下四個(gè)缺點(diǎn):
(1)DOA依賴于單麥喚醒詞檢測(cè),使用場(chǎng)景受限;
(2)兩個(gè)環(huán)節(jié)優(yōu)化目標(biāo)不一致,降噪與識(shí)別可能不適配;
(3)對(duì)硬件要求高,提高BOM成本;
(4)無(wú)法處理干擾源與目標(biāo)聲源方向接近時(shí)的狀況。
為了解決這些問(wèn)題,探境提出了增強(qiáng)識(shí)別一體化的端到端識(shí)別流程。
在這個(gè)流程中,探境放棄用傳統(tǒng)數(shù)字信號(hào)處理算法做語(yǔ)音增強(qiáng),而采用了一套基于神經(jīng)網(wǎng)絡(luò)的AI算法做信號(hào)增強(qiáng),處理算法所有的參數(shù)都是和神經(jīng)網(wǎng)絡(luò)一起訓(xùn)練的,以降低最后的識(shí)別錯(cuò)誤率。
其喚醒、識(shí)別均依賴于增強(qiáng)后的信號(hào),喚醒率高,不會(huì)出現(xiàn)信號(hào)增強(qiáng)依賴于單麥喚醒的情況。
信號(hào)增強(qiáng)與識(shí)別模塊整體的優(yōu)化目標(biāo)也是一致的,是為了降低識(shí)別錯(cuò)誤率,所以不會(huì)出現(xiàn)不適配的情況。
在訓(xùn)練過(guò)程中,探境加入注意力模型和注意力機(jī)制,建模效率高,可增強(qiáng)干擾/目標(biāo)信號(hào)方向接近時(shí)的識(shí)別率。
探境采用FCSP方法處理雙麥數(shù)據(jù),投影矩陣通過(guò)端到端的學(xué)習(xí)得到,降噪識(shí)別完全匹配,整套流程由數(shù)據(jù)驅(qū)動(dòng),訓(xùn)練數(shù)據(jù)中覆蓋了各種距離、角度和麥克風(fēng)配置的數(shù)據(jù),因此不會(huì)出現(xiàn)不匹配的情況,對(duì)硬件的要求更低。
端到端處理算法是當(dāng)前較為前沿的處理算法,最近兩年,國(guó)內(nèi)外一些大廠都在采用基于端到端的方法做增強(qiáng)識(shí)別一體的處理。
例如,亞馬遜可學(xué)習(xí)的空間濾波方法能將識(shí)別錯(cuò)誤率相對(duì)降低15%,谷歌Factored Model in Frequency方法能將識(shí)別錯(cuò)誤率相對(duì)降低16%,而探境的頻域復(fù)數(shù)子空間投影(FCSP)具有超強(qiáng)抗噪性能,可將識(shí)別錯(cuò)誤率相對(duì)降低20%。
在高噪聲環(huán)境下,在信噪比3dB左右,其信噪比依然接近97%;在信噪比接近0dB時(shí),其信噪比依然接近93%。
三、支撐超強(qiáng)算法背后:打破存儲(chǔ)墻問(wèn)題的創(chuàng)新芯片架構(gòu)
相比傳統(tǒng)降噪(Beamforming)+DNN方法,探境的AI信號(hào)處理+HONN方法對(duì)MIC和配套電路的要求更低,同時(shí)在高噪聲環(huán)境下的識(shí)別率和同等參數(shù)量下的算力需求都更高。
為什么探境采用這種算法,而其他友商不這么做呢?主要有兩個(gè)原因:
首先,做這一算法需要熟悉語(yǔ)音、圖像、神經(jīng)網(wǎng)絡(luò)、信號(hào)處理等各模塊,對(duì)算法研發(fā)實(shí)力和實(shí)現(xiàn)能力均有很高的要求。
其次,探境做的是高強(qiáng)度計(jì)算神經(jīng)網(wǎng)絡(luò),國(guó)內(nèi)很多語(yǔ)音識(shí)別芯片是基于DSP或MCU的,算力非常有限,無(wú)法支撐這套算法框架。
探境創(chuàng)造性地研發(fā)了存儲(chǔ)優(yōu)先架構(gòu)(SFA),解決存儲(chǔ)帶寬要求大、存儲(chǔ)功耗高、數(shù)據(jù)復(fù)用等問(wèn)題對(duì)計(jì)算性能的影響。探境SFA架構(gòu)可帶來(lái)超高能效比,數(shù)據(jù)訪問(wèn)可降低10-100倍,存儲(chǔ)子系統(tǒng)功耗下降10倍以上,28nm工藝系統(tǒng)能效超過(guò)2TOPS/W。
SFA不僅是適配于終端,也適配于云端推理和訓(xùn)練,可以組合成各種不同的產(chǎn)品形態(tài)。它具有高能耗比、良好易用性和通用性的特點(diǎn)。
探境科技CEO魯勇表示,SFA的AI芯片架構(gòu)是真正符合商業(yè)應(yīng)用的AI芯片架構(gòu)。
其一,采用成熟設(shè)計(jì)方案。僅在系統(tǒng)層面做架構(gòu)更新,無(wú)需對(duì)底層器件進(jìn)行修改設(shè)計(jì),符合成本結(jié)構(gòu),不會(huì)在芯片內(nèi)部集成大量的存儲(chǔ)以完成高性能。其商業(yè)化路徑也很快。
其二,通用性高。SFA可支持TDNN、CNN和RNN等任意神經(jīng)網(wǎng)絡(luò)的,面向眾多場(chǎng)景。
其三,易用性高。探境提供零基礎(chǔ)用戶可使用的工具鏈,用戶學(xué)習(xí)成本低,模型移植簡(jiǎn)單。
探境音旋風(fēng)611的NPU,本地有效算力非常高,通用性非常好,可以支持CNN、RNN以及HONN等復(fù)雜度高的識(shí)別模型,也可以支持端到端的處理,可以完美支持FCSP+HONN算法框架。
基于雙麥算法,探境對(duì)語(yǔ)音芯片進(jìn)行再升級(jí),推出了音旋風(fēng)612語(yǔ)音識(shí)別方案。
相比傳統(tǒng)語(yǔ)音芯片,探境音旋風(fēng)612有如下三個(gè)特點(diǎn):
(1)降低了對(duì)多麥的信號(hào)處理,無(wú)形中節(jié)省了硬件成本;
(2)在高噪聲環(huán)境下識(shí)別率高;
(3)有效算力更高。
在聲壓超過(guò)85dB的高噪聲環(huán)境下,音旋風(fēng)612的識(shí)別依然毫無(wú)壓力。
結(jié)語(yǔ):語(yǔ)音算法升級(jí)的價(jià)值在于提升用戶體驗(yàn)
語(yǔ)音產(chǎn)品解決方案的價(jià)值與產(chǎn)品用戶體驗(yàn)密切相關(guān),軟硬協(xié)同已經(jīng)成為兼顧高算力、低功耗、低成本所必備的要素,探境通過(guò)研發(fā)創(chuàng)新SFA架構(gòu)解決芯片性能和成本問(wèn)題,通過(guò)算法升級(jí)來(lái)提升用戶體驗(yàn)。
探境科技技術(shù)副總裁李同治表示,做C端消費(fèi)類產(chǎn)品,用戶體驗(yàn)是根本,產(chǎn)品用戶體驗(yàn)好了,消費(fèi)者才買單。探境的這次算法升級(jí),可明顯提升用戶體驗(yàn),讓消費(fèi)者滿意,從而讓合作伙伴、B端客戶、探境一起受益。
評(píng)論
查看更多