電子發(fā)燒友網(wǎng)報道(文/李彎彎)語音識別是人工智能的重要分支之一,早在2010年開始就得到發(fā)展,并且逐漸在各個領(lǐng)域成熟應(yīng)用。不過AI語音芯片和算法的研發(fā)仍然面臨眾多難題,不少企業(yè)為此堅持研究,不斷對技術(shù)和產(chǎn)品進(jìn)行迭代升級,以求取得突破。
啟英泰倫是國內(nèi)領(lǐng)先的AI語音芯片企業(yè),日前,該公司正式發(fā)布了全新的第三代智能語音芯片系列,相比于上一代產(chǎn)品,這款芯片創(chuàng)下了算力更高、高度集成和算法新高的記錄,進(jìn)一步解決了業(yè)界長久以來難以突破的難題。
AI語音芯片研發(fā)面臨哪些難題
近幾年,AI語音芯片在智能家居、智能車載、智能穿戴等領(lǐng)域的滲透率快速提升,未來隨著技術(shù)的不斷迭代,AI語音芯片在各領(lǐng)域的滲透率和市場規(guī)模將會持續(xù)擴(kuò)大。
智能家居方面,當(dāng)前隨著AI語音芯片的價格已經(jīng)大幅下降,越來越多的廠商傾向于采用AI語音芯片,來替代傳統(tǒng)的AP及MCU芯片和IOT芯片,如今AI語音芯片在風(fēng)扇、茶吧機(jī)、取暖桌、空調(diào)、插座等眾多領(lǐng)域已經(jīng)開始大規(guī)模批量應(yīng)用。根據(jù)調(diào)研數(shù)據(jù)預(yù)測,未來5年AI語音芯片在智能家居領(lǐng)域的市場規(guī)模將能達(dá)到每年2.5億顆。
智能汽車方面,目前智能汽車中的語音交互多是在云端進(jìn)行識別處理,然而云端的方式存在無法實時響應(yīng)、網(wǎng)絡(luò)無連接時不能使用等問題,因此業(yè)界認(rèn)為端側(cè)語音芯片將會很好的補(bǔ)充云端芯片的不足,預(yù)計未來端側(cè)AI語音芯片在車載領(lǐng)域的市場需求每年能達(dá)到1億顆左右。
智能穿戴方面,未來隨著芯片尺寸越來越小,成本越來越低,AI語音芯片在穿戴設(shè)備上的應(yīng)用將會越來越多,預(yù)計該市場對AI語音芯片的市場需求每年會在千萬顆左右。
除了上述市場之外,AI語音芯片還可以在醫(yī)療設(shè)備、機(jī)器人、工業(yè)檢測等領(lǐng)域得到應(yīng)用,整體來看,預(yù)計未來幾年AI語音芯片的市場規(guī)模將會快速發(fā)展到每年5到10億顆,隨著應(yīng)用不斷拓寬和滲透率不斷提升,市場規(guī)??赡苓€將持續(xù)不斷提升。
雖然存在較大的市場,然而企業(yè)在AI語音識別芯片和算法的研發(fā)也面臨眾多需要不斷攻克的難題,在此次發(fā)布會上,啟英泰倫創(chuàng)始人兼CEO何云鵬提到了幾點:
1、各種應(yīng)用場景存在復(fù)雜的背景噪聲,會影響識別,比如廚電的煙機(jī)噪聲、炒菜聲,客廳的電視聲、音樂聲,會場的多人聲、賣場的高音喇叭聲等;2、人類語言種類繁多,如果考慮各地的方言口音,幾乎沒辦法通過大數(shù)據(jù)訓(xùn)練模型,來滿足所有地域口音的識別;3、人類語言的表達(dá)非常豐富,要想在設(shè)備端實現(xiàn)對任意語言表達(dá)的意圖理解,也十分困難。
同時,電子設(shè)備的發(fā)展往往要求在性能或價格上,能夠不斷改進(jìn),這些對于AI語音芯片的研發(fā)來說,都是比較大的挑戰(zhàn)。
算法、芯片上不斷升級,攻克一個個難題
如何解決這些難題呢?一直以來,啟英泰倫堅持在芯片和算法兩方面不斷發(fā)力,力求攻克一個個業(yè)內(nèi)難題。截至目前,啟英泰倫的技術(shù)平臺BNPU(腦神經(jīng)網(wǎng)絡(luò)處理器)已經(jīng)迭代三次,從BNPU1.0,BNPU2.0,到BNPU3.0。何云鵬表示,每一代BNPU的問世,都是離線語音芯片和算法的一次突破和語音應(yīng)用的助推。
具體來看,集成BNPU1.0的一代芯片C11006/CI1002,實現(xiàn)的是端側(cè)語音識別,這是行業(yè)首款集成神經(jīng)網(wǎng)絡(luò)處理器的語音AI芯片,是離線語音產(chǎn)業(yè)應(yīng)用興起的標(biāo)志;集成BNPU2.0的二代芯片CI1102/CI1103及CI1122,不僅實現(xiàn)了離線語音識別功能,還實現(xiàn)了離線聲紋識別和命令詞自學(xué)習(xí)等功能。
每顆芯片的迭代,集成度不斷增加,成本快速下降,算法功能不斷提升。據(jù)何云鵬介紹,集成度上,二代系列芯片集成了Audio CODEC、Flash等單元,增加了雙麥陣增強(qiáng)處理能力;成本上,一代芯片CI1006成本價為50到90元,CI1102下降到30到40元,二代芯片CI1102/CI1103為15元到25,CI1122下降到了10元到15元之間;算法上,正常安靜家居環(huán)境下,識別都達(dá)到98%以上,65dB左右中強(qiáng)環(huán)境噪聲下也能實現(xiàn)較好的識別效果。
發(fā)布全新三代芯片,端側(cè)NLP技術(shù)實現(xiàn)自然語音交互
盡管過去幾年在算法和芯片上不斷提升,逐漸解決了業(yè)界面臨的一些難題,然而整個行業(yè)仍然存在極難克服的問題,比如:1、離線語音仍然是以命令詞為主,對于用戶來說,如果命令詞多的話,就會很難記??;2、電視新聞,多人聲環(huán)境,以及噪聲強(qiáng)度達(dá)到75dB以上的復(fù)雜強(qiáng)噪聲環(huán)境的識別存在困難;3、離線命令詞自學(xué)習(xí)的效果,與大數(shù)據(jù)訓(xùn)練模型效果仍然存在明顯差距,這使得方言問題沒有得到徹底解決。
為了攻克這些難題,啟英泰倫經(jīng)過三年時間研發(fā),最終帶來BNPU3.0版本,并基于此發(fā)布了三代兩大系類芯片,一大系列是三代智能語音MCU13;另一大系列是智能語音IOT 23。
相比之前的芯片,三代系列芯片具有更高算力、更高集成度,更高性能。首先看CI13系列芯片,算力方面,該系列內(nèi)置BNPU 3.0,支持DSP指令擴(kuò)展的RISC CPU兩大內(nèi)核,主頻高達(dá)240MHz,具有640KB SRAM,而二代芯片主頻是160MHz,內(nèi)置BNPU2.0,512KB SRAM。
集成度方面,CI13系列芯片集成了Audio Codec模擬MIC接口、數(shù)字PDM麥克DMIC接口、通用ADC及MCU常見串口、PWM、GPIO等接口,還集成了4線NOR Flash、3路LDO PMU、高精度RC振蕩器等。
通過接上MIC,簡單的語音識別應(yīng)用,外圍電路僅需十幾個電阻電容,多數(shù)情況下可以不需要加晶振;通過串口可以擴(kuò)展上位機(jī)MCU,或WiFi、BLE、2.4G等射頻芯片;通過通用ADC或IIC可以輸入溫度、濕度等傳感器信號;通過PWM或其它GPIO,可以實現(xiàn)對開關(guān)控制、電機(jī)控制、SPI屏或段碼屏顯示控制、紅外收發(fā)控制等。這樣,CI13系列芯片既可以作為語音識別或語音信號處理的專用芯片,也可以作為帶語音識別功能的MCU主控芯片。
算法方面,CI13系列芯片幾乎支持全部信號處理和識別技術(shù),包括單麥自適應(yīng)降噪、降混響、回聲消除、DOA、波束形成、盲源分離、語音活動檢測等傳統(tǒng)信號技術(shù)。
除了具有二代芯片的語音識別、聲紋識別外,三代CI13系列芯片還支持基于深度學(xué)習(xí)的降噪技術(shù)(深度降噪)、人聲分離技術(shù)(深度分離)、以及離線NLP技術(shù)。深度降噪技術(shù)能在信噪比-5dB 到-10dB的環(huán)境噪聲下將人聲提取出來,實現(xiàn)良好識別。
端側(cè)NLP技術(shù)在原來的聲學(xué)模型、語言模型的基礎(chǔ)上增加了意圖模型,該意圖模型采用聯(lián)合規(guī)則和統(tǒng)計訓(xùn)練的模型來實現(xiàn)端側(cè)語音識別+語義理解。端側(cè)NLP技術(shù)具備上下文關(guān)聯(lián)、多輪對話、意圖理解等云端NLP的功能,該技術(shù)的突破,使得設(shè)備徹底不需要依賴云端,也可以實現(xiàn)自然隨心的語音交互。
接下來看三代芯片CI23系列CI2305 和CI2306,CI23系列芯片在語音功能和性能與CI13系列芯片相同,主要增加集成了WiFi和BLE,形成語音+WiFi+BLE三合一單芯片,其中CI2305支持離線語音+IOT,CI2306還支持將語音上傳,實現(xiàn)離線語音+在線語音+IOT功能。
何云鵬認(rèn)為對設(shè)備控制交互在本地計算會更好,這樣可以解決云端計算帶來的響應(yīng)延遲太大體驗差,斷網(wǎng)無法使用及用戶隱私泄露風(fēng)險,以及云端建設(shè)和運營成本太高等問題。
除了不斷升級芯片算法性能,降低芯片方案成本,啟英泰倫還持續(xù)提升應(yīng)用開發(fā)平臺和合作生態(tài)建設(shè),努力降低AI語音應(yīng)用的門檻。
據(jù)啟英泰倫介紹,經(jīng)過近7年發(fā)展,公司已經(jīng)積累B端客戶超過5000名,平臺開發(fā)者超過了1萬名,使用啟英泰倫智能語音平臺的在校AI學(xué)員超過10萬名?,F(xiàn)在,離線語音方案的年裝機(jī)量超過2000萬,并正快速向上億年裝機(jī)量發(fā)展。
小結(jié)
經(jīng)過過去這些年的發(fā)展,語音交互逐漸進(jìn)入人們的生活,并帶來極大的便利,然而不可否認(rèn)的是,背景噪聲大影響語音識別的準(zhǔn)確性,命令詞太多容易記不住等問題依然存在,而啟英泰倫發(fā)布的第三代語音芯片,通過算力、集成度、算法的不斷升級,完美解決了這些問題,隨著各項難題的進(jìn)一步突破,預(yù)計未來AI語音芯片將會在更多的場景中得到更好的應(yīng)用。
啟英泰倫是國內(nèi)領(lǐng)先的AI語音芯片企業(yè),日前,該公司正式發(fā)布了全新的第三代智能語音芯片系列,相比于上一代產(chǎn)品,這款芯片創(chuàng)下了算力更高、高度集成和算法新高的記錄,進(jìn)一步解決了業(yè)界長久以來難以突破的難題。
AI語音芯片研發(fā)面臨哪些難題
近幾年,AI語音芯片在智能家居、智能車載、智能穿戴等領(lǐng)域的滲透率快速提升,未來隨著技術(shù)的不斷迭代,AI語音芯片在各領(lǐng)域的滲透率和市場規(guī)模將會持續(xù)擴(kuò)大。
智能家居方面,當(dāng)前隨著AI語音芯片的價格已經(jīng)大幅下降,越來越多的廠商傾向于采用AI語音芯片,來替代傳統(tǒng)的AP及MCU芯片和IOT芯片,如今AI語音芯片在風(fēng)扇、茶吧機(jī)、取暖桌、空調(diào)、插座等眾多領(lǐng)域已經(jīng)開始大規(guī)模批量應(yīng)用。根據(jù)調(diào)研數(shù)據(jù)預(yù)測,未來5年AI語音芯片在智能家居領(lǐng)域的市場規(guī)模將能達(dá)到每年2.5億顆。
智能汽車方面,目前智能汽車中的語音交互多是在云端進(jìn)行識別處理,然而云端的方式存在無法實時響應(yīng)、網(wǎng)絡(luò)無連接時不能使用等問題,因此業(yè)界認(rèn)為端側(cè)語音芯片將會很好的補(bǔ)充云端芯片的不足,預(yù)計未來端側(cè)AI語音芯片在車載領(lǐng)域的市場需求每年能達(dá)到1億顆左右。
智能穿戴方面,未來隨著芯片尺寸越來越小,成本越來越低,AI語音芯片在穿戴設(shè)備上的應(yīng)用將會越來越多,預(yù)計該市場對AI語音芯片的市場需求每年會在千萬顆左右。
除了上述市場之外,AI語音芯片還可以在醫(yī)療設(shè)備、機(jī)器人、工業(yè)檢測等領(lǐng)域得到應(yīng)用,整體來看,預(yù)計未來幾年AI語音芯片的市場規(guī)模將會快速發(fā)展到每年5到10億顆,隨著應(yīng)用不斷拓寬和滲透率不斷提升,市場規(guī)??赡苓€將持續(xù)不斷提升。
雖然存在較大的市場,然而企業(yè)在AI語音識別芯片和算法的研發(fā)也面臨眾多需要不斷攻克的難題,在此次發(fā)布會上,啟英泰倫創(chuàng)始人兼CEO何云鵬提到了幾點:
1、各種應(yīng)用場景存在復(fù)雜的背景噪聲,會影響識別,比如廚電的煙機(jī)噪聲、炒菜聲,客廳的電視聲、音樂聲,會場的多人聲、賣場的高音喇叭聲等;2、人類語言種類繁多,如果考慮各地的方言口音,幾乎沒辦法通過大數(shù)據(jù)訓(xùn)練模型,來滿足所有地域口音的識別;3、人類語言的表達(dá)非常豐富,要想在設(shè)備端實現(xiàn)對任意語言表達(dá)的意圖理解,也十分困難。
同時,電子設(shè)備的發(fā)展往往要求在性能或價格上,能夠不斷改進(jìn),這些對于AI語音芯片的研發(fā)來說,都是比較大的挑戰(zhàn)。
算法、芯片上不斷升級,攻克一個個難題
如何解決這些難題呢?一直以來,啟英泰倫堅持在芯片和算法兩方面不斷發(fā)力,力求攻克一個個業(yè)內(nèi)難題。截至目前,啟英泰倫的技術(shù)平臺BNPU(腦神經(jīng)網(wǎng)絡(luò)處理器)已經(jīng)迭代三次,從BNPU1.0,BNPU2.0,到BNPU3.0。何云鵬表示,每一代BNPU的問世,都是離線語音芯片和算法的一次突破和語音應(yīng)用的助推。
具體來看,集成BNPU1.0的一代芯片C11006/CI1002,實現(xiàn)的是端側(cè)語音識別,這是行業(yè)首款集成神經(jīng)網(wǎng)絡(luò)處理器的語音AI芯片,是離線語音產(chǎn)業(yè)應(yīng)用興起的標(biāo)志;集成BNPU2.0的二代芯片CI1102/CI1103及CI1122,不僅實現(xiàn)了離線語音識別功能,還實現(xiàn)了離線聲紋識別和命令詞自學(xué)習(xí)等功能。
每顆芯片的迭代,集成度不斷增加,成本快速下降,算法功能不斷提升。據(jù)何云鵬介紹,集成度上,二代系列芯片集成了Audio CODEC、Flash等單元,增加了雙麥陣增強(qiáng)處理能力;成本上,一代芯片CI1006成本價為50到90元,CI1102下降到30到40元,二代芯片CI1102/CI1103為15元到25,CI1122下降到了10元到15元之間;算法上,正常安靜家居環(huán)境下,識別都達(dá)到98%以上,65dB左右中強(qiáng)環(huán)境噪聲下也能實現(xiàn)較好的識別效果。
發(fā)布全新三代芯片,端側(cè)NLP技術(shù)實現(xiàn)自然語音交互
盡管過去幾年在算法和芯片上不斷提升,逐漸解決了業(yè)界面臨的一些難題,然而整個行業(yè)仍然存在極難克服的問題,比如:1、離線語音仍然是以命令詞為主,對于用戶來說,如果命令詞多的話,就會很難記??;2、電視新聞,多人聲環(huán)境,以及噪聲強(qiáng)度達(dá)到75dB以上的復(fù)雜強(qiáng)噪聲環(huán)境的識別存在困難;3、離線命令詞自學(xué)習(xí)的效果,與大數(shù)據(jù)訓(xùn)練模型效果仍然存在明顯差距,這使得方言問題沒有得到徹底解決。
為了攻克這些難題,啟英泰倫經(jīng)過三年時間研發(fā),最終帶來BNPU3.0版本,并基于此發(fā)布了三代兩大系類芯片,一大系列是三代智能語音MCU13;另一大系列是智能語音IOT 23。
相比之前的芯片,三代系列芯片具有更高算力、更高集成度,更高性能。首先看CI13系列芯片,算力方面,該系列內(nèi)置BNPU 3.0,支持DSP指令擴(kuò)展的RISC CPU兩大內(nèi)核,主頻高達(dá)240MHz,具有640KB SRAM,而二代芯片主頻是160MHz,內(nèi)置BNPU2.0,512KB SRAM。
集成度方面,CI13系列芯片集成了Audio Codec模擬MIC接口、數(shù)字PDM麥克DMIC接口、通用ADC及MCU常見串口、PWM、GPIO等接口,還集成了4線NOR Flash、3路LDO PMU、高精度RC振蕩器等。
通過接上MIC,簡單的語音識別應(yīng)用,外圍電路僅需十幾個電阻電容,多數(shù)情況下可以不需要加晶振;通過串口可以擴(kuò)展上位機(jī)MCU,或WiFi、BLE、2.4G等射頻芯片;通過通用ADC或IIC可以輸入溫度、濕度等傳感器信號;通過PWM或其它GPIO,可以實現(xiàn)對開關(guān)控制、電機(jī)控制、SPI屏或段碼屏顯示控制、紅外收發(fā)控制等。這樣,CI13系列芯片既可以作為語音識別或語音信號處理的專用芯片,也可以作為帶語音識別功能的MCU主控芯片。
算法方面,CI13系列芯片幾乎支持全部信號處理和識別技術(shù),包括單麥自適應(yīng)降噪、降混響、回聲消除、DOA、波束形成、盲源分離、語音活動檢測等傳統(tǒng)信號技術(shù)。
除了具有二代芯片的語音識別、聲紋識別外,三代CI13系列芯片還支持基于深度學(xué)習(xí)的降噪技術(shù)(深度降噪)、人聲分離技術(shù)(深度分離)、以及離線NLP技術(shù)。深度降噪技術(shù)能在信噪比-5dB 到-10dB的環(huán)境噪聲下將人聲提取出來,實現(xiàn)良好識別。
端側(cè)NLP技術(shù)在原來的聲學(xué)模型、語言模型的基礎(chǔ)上增加了意圖模型,該意圖模型采用聯(lián)合規(guī)則和統(tǒng)計訓(xùn)練的模型來實現(xiàn)端側(cè)語音識別+語義理解。端側(cè)NLP技術(shù)具備上下文關(guān)聯(lián)、多輪對話、意圖理解等云端NLP的功能,該技術(shù)的突破,使得設(shè)備徹底不需要依賴云端,也可以實現(xiàn)自然隨心的語音交互。
接下來看三代芯片CI23系列CI2305 和CI2306,CI23系列芯片在語音功能和性能與CI13系列芯片相同,主要增加集成了WiFi和BLE,形成語音+WiFi+BLE三合一單芯片,其中CI2305支持離線語音+IOT,CI2306還支持將語音上傳,實現(xiàn)離線語音+在線語音+IOT功能。
何云鵬認(rèn)為對設(shè)備控制交互在本地計算會更好,這樣可以解決云端計算帶來的響應(yīng)延遲太大體驗差,斷網(wǎng)無法使用及用戶隱私泄露風(fēng)險,以及云端建設(shè)和運營成本太高等問題。
除了不斷升級芯片算法性能,降低芯片方案成本,啟英泰倫還持續(xù)提升應(yīng)用開發(fā)平臺和合作生態(tài)建設(shè),努力降低AI語音應(yīng)用的門檻。
據(jù)啟英泰倫介紹,經(jīng)過近7年發(fā)展,公司已經(jīng)積累B端客戶超過5000名,平臺開發(fā)者超過了1萬名,使用啟英泰倫智能語音平臺的在校AI學(xué)員超過10萬名?,F(xiàn)在,離線語音方案的年裝機(jī)量超過2000萬,并正快速向上億年裝機(jī)量發(fā)展。
小結(jié)
經(jīng)過過去這些年的發(fā)展,語音交互逐漸進(jìn)入人們的生活,并帶來極大的便利,然而不可否認(rèn)的是,背景噪聲大影響語音識別的準(zhǔn)確性,命令詞太多容易記不住等問題依然存在,而啟英泰倫發(fā)布的第三代語音芯片,通過算力、集成度、算法的不斷升級,完美解決了這些問題,隨著各項難題的進(jìn)一步突破,預(yù)計未來AI語音芯片將會在更多的場景中得到更好的應(yīng)用。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
芯片
+關(guān)注
關(guān)注
452文章
50212瀏覽量
420949 -
啟英泰倫
+關(guān)注
關(guān)注
1文章
47瀏覽量
1415
發(fā)布評論請先 登錄
相關(guān)推薦
成都市科技局局長丁小斌一行調(diào)研啟英泰倫
10月12日,成都市科技局黨組書記、局長丁小斌率隊到啟英泰倫考察調(diào)研,成都市科技局合作處聶宏處長、辦公室主任潘婧陪同調(diào)研。此次調(diào)研旨在深入了解啟
啟英泰倫獲評國家級專精特新“小巨人”企業(yè)!
近日,四川省經(jīng)濟(jì)和信息化廳公示了第六批專精特新“小巨人”企業(yè)名單,啟英泰倫憑借其在人工智能語音技術(shù)領(lǐng)域的卓越表現(xiàn),成功獲評“國家專精特新小巨
成都市經(jīng)信局市新經(jīng)濟(jì)委黨組書記趙春淦一行調(diào)研啟英泰倫
7月2日,成都市經(jīng)信局市新經(jīng)濟(jì)委黨組書記趙春淦率隊,成都市經(jīng)信局副局長蒲斌、機(jī)關(guān)黨委書記丁琴等領(lǐng)導(dǎo)陪同調(diào)研了成都人工智能企業(yè)-啟英泰倫。此次調(diào)研旨在了解
啟英泰倫引領(lǐng)智能語音技術(shù)革新,閃耀2024上海MWC展會
)”為主題,將聚焦“超越5G”、“人工智能經(jīng)濟(jì)”、“數(shù)智制造”三大子主題。啟英泰倫將攜其領(lǐng)先的智能語音芯
啟英泰倫“離線自然說”技術(shù),有了它,智能語音芯片更善解人意
要素,這也是我們一直潛心在做的事——讓人機(jī)語音交互更智能、更簡單”。成都高新區(qū)科技企業(yè)成都啟英泰倫科技有限公司(以下簡稱“
**十萬級口語識別,離線自然說技術(shù),讓智能照明更懂你**
固定詞條等。針對這些問題,啟英泰倫現(xiàn)已推出成熟的可應(yīng)用于照明設(shè)備的離線自然說方案,該方案已在多家智能照明廠商最新產(chǎn)品上實現(xiàn)應(yīng)用落地。
照明
發(fā)表于 04-29 17:09
讓設(shè)備更聰明 |離線自然說,開啟智能語音交互新體驗!
,導(dǎo)致用戶只能使用固定的詞條來控制設(shè)備,大大降低了用戶與設(shè)備之間的語音交互體驗。用戶A通過傳統(tǒng)離線語音交互來打開空調(diào)他只能說:“打開空調(diào)”近日,啟英
評論