“AI語音芯片大致分為云端計算語音識別和端側(cè)計算語音識別兩種。在早期由于算力限制,端側(cè)沒有專用芯片可以解決算力和功耗成本均衡的問題,所以大部分的語音識別功能需要從端側(cè)上傳數(shù)據(jù)到云端完成推斷,再將決策返回端側(cè)。但久而久之,人們發(fā)現(xiàn)云端語音存在一些弊端,只有在端側(cè)實現(xiàn)語音智能計算,才最符合人類日常交流的形態(tài)去使用AI語音,同時擁有完整、自主的設(shè)備使用權(quán)和控制權(quán)……
作者 劉于葦轉(zhuǎn)載自電子工程專輯隨著5G、AIoT等技術(shù)的快速發(fā)展與應(yīng)用融合,人工智能(AI)產(chǎn)業(yè)及相關(guān)業(yè)務(wù)越來越受政府和產(chǎn)業(yè)界的關(guān)注與支持,在國家的“十四五”規(guī)劃中,人工智能技術(shù)已被列為前沿科技領(lǐng)域的“最高優(yōu)先級”,宏觀環(huán)境不斷向好發(fā)展。
AI技術(shù)中,語音識別、自然語義理解(NLP)、機(jī)器學(xué)習(xí)是人機(jī)交互技術(shù)的基礎(chǔ),居于重要地位。語音識別、NLP兩項均與語音交互密切關(guān)聯(lián),而語音識別又是在行業(yè)中落地最早的AI技術(shù)。2010年前后,以神經(jīng)網(wǎng)絡(luò)為代表的AI技術(shù)大大提升智能語音識別效果后,各個領(lǐng)域的應(yīng)用開始了積極嘗試,如今已逐漸走向成熟。
從具體分類來看,AI語音芯片大致分為云端計算語音識別和端側(cè)計算語音識別兩種。在早期由于算力限制,端側(cè)沒有專用芯片可以解決算力和功耗成本均衡的問題,所以大部分的語音識別功能需要從端側(cè)上傳數(shù)據(jù)到云端完成推斷,再將決策返回端側(cè)。
但久而久之,人們發(fā)現(xiàn)云端語音存在一些弊端,例如需要穩(wěn)定的網(wǎng)絡(luò)連接,否則無法做到穩(wěn)定的實時響應(yīng);數(shù)據(jù)上傳云端,用戶有隱私安全的顧慮;需要服務(wù)器等各種運維費用,導(dǎo)致整套方案成本居高不下,并直接傳導(dǎo)給消費者……
全球人工智能芯片分類地圖及代表公司
鑒于此,以啟英泰倫為代表的企業(yè),開始研究如何通過專用的AI語音芯片,將語音智能計算在終端實現(xiàn)。這種方式既保障語音功能應(yīng)用的優(yōu)點,又解決了云端語音的缺點,讓終端用戶能以最符合人類日常交流的形態(tài)去使用AI語音,同時擁有完整、自主的設(shè)備使用權(quán)和控制權(quán)。
01離線方案才是語音識別的最終歸宿?
“多年來,AI語音技術(shù)的發(fā)展經(jīng)歷了很多艱與辛,坎與痛?!?成都啟英泰倫科技有限公司創(chuàng)始人,首席執(zhí)行官何云鵬在接受《電子工程專輯》等媒體采訪時,總結(jié)了之前AI語音方案普遍面對的三大難題——首先是用戶個性化,不同用戶擁有不同的口音與方言,表達(dá)方式也是豐富多彩,這給語音識別和語義理解帶來了難度;其次是客戶的高要求,對機(jī)器而言需要用人甚至超過人的識別標(biāo)準(zhǔn)來要求,同時還要滿足不斷降低成本的預(yù)期;最后是AI語音應(yīng)用場景的復(fù)雜化,在家居、推廣和生產(chǎn)環(huán)境中,存在各種不同的噪聲干擾,給準(zhǔn)確識別帶來了難度。
成都啟英泰倫科技有限公司創(chuàng)始人,首席執(zhí)行官何云鵬
2016年,啟英泰倫發(fā)布國內(nèi)首款離線語音識別芯片Cl1006后,如今已經(jīng)過3個大代和3個半代的產(chǎn)品迭代,總計6次。其中半代是在正數(shù)代基礎(chǔ)上腦神經(jīng)網(wǎng)絡(luò)處理器核(BNPU)平臺不變,通過功能精簡達(dá)到 30%方案成本的下降。第二代產(chǎn)品是2019年的Cl110X系列,第三代產(chǎn)品則分為兩大系列,分別是Cl130X系列智能語音主控(MCU)芯片;Cl230X系列智能語音AIoT芯片。
之所以選擇做離線語音識別芯片,何云鵬給出的理由中有一條是讓“億萬用戶用得起、用得好”。他表示,在語音芯片發(fā)展的早期,限于半導(dǎo)體工藝水平和算法先進(jìn)性等原因,終端用戶對于增加一顆獨立語音芯片是持觀望態(tài)度的,因為額外的數(shù)據(jù)處理器、用于存儲算法的Flash都會增加BoM成本。但隨著摩爾定律的演進(jìn),經(jīng)過6-7年的芯片制造工藝的提升及算法迭代后,獨立AI語音芯片不但性能指數(shù)級提升,成本也以每年30-50%的速度下降。“目前我們的離線語音整體方案成本,最初1代為 50-90 元(CI1006),1.5 代為 30-40 元(CI1102),2 代芯片系列15-25元,來到2.5 代則降低到10-15元之間。高度集成實現(xiàn)單芯片即方案,不再會給端側(cè)帶來成本的負(fù)擔(dān)?!?/p>
反觀云端語音方案,其成本增加是持續(xù)存在的。由于需要每時每刻上傳數(shù)據(jù)、接收指令,網(wǎng)絡(luò)傳輸成本一直存在;云端服務(wù)器建設(shè)的周期長、費用大,通常需要借助第三方平臺,帶來運營成本每年也會攤銷到設(shè)備端,如果不續(xù)費甚至可能造成語音功能停止——這一點用過智能音箱的人深有體會,當(dāng)斷網(wǎng)時,智能音箱立馬變成“智障”音箱。
“這些額外的費用,在采用端側(cè)語音識別方案后都可以省去。” 何云鵬認(rèn)為,“語音識別是一種對實時反饋要求極高的技術(shù),相關(guān)運算應(yīng)該放在線下、端側(cè)來做,而云端則更應(yīng)該專注交易、內(nèi)容服務(wù)、非實時大數(shù)據(jù)運算等協(xié)同操作。這才是一個合理的分工?!?/p>
02第三代語音芯片的AI算法優(yōu)勢
為了更好地滿足用戶需求,啟英泰倫在算法攻關(guān)和芯片研發(fā)兩個方面同時發(fā)力,BNPU是啟英泰倫的核心技術(shù)優(yōu)勢之一,版本也在不斷升級,從BNPU 1.0、BNPU 2.0,一直到今天推出的BNPU 3.0版本。
何云鵬介紹道,第一代BNPU實現(xiàn)的是端側(cè)語音識別,是行業(yè)首款集成神經(jīng)網(wǎng)絡(luò)處理器的語音AI芯片,也是離線語音產(chǎn)業(yè)應(yīng)用興起的標(biāo)志。二代系列芯片CI1102/CI1103及CI1122芯片則集成了第二代BNPU,不僅實現(xiàn)了離線語音識別功能,還能實現(xiàn)離線聲紋識別和命令詞自學(xué)習(xí)等個性化的功能。
前幾代產(chǎn)品在噪音環(huán)境下識別度方面已經(jīng)很不錯,正常安靜家居環(huán)境下識別度達(dá)到98%以上,對于 65dB 左右中強(qiáng)環(huán)境噪聲下也能有較好的識別效果。如今,搭載BNPU 3.0的第三代芯片又將把整個語音識別應(yīng)用推向新的高點實現(xiàn)了更高算力、高集成度和性能新高的“三個新高”。
算法方面,啟英泰倫三代語音芯片支持幾乎全部信號處理和識別技術(shù)。包括單麥自適應(yīng)降噪/降混響/回聲消除/DOA(語音定向)/波束形成/盲源分離/語音活動檢測等傳統(tǒng)信號技術(shù)。BNPU 3.0 除了繼承了 2 代的語音/聲紋識別之外,還支持了基于深度學(xué)習(xí)的降噪(也稱深度降噪)、人聲分離(也稱深度分離)、命令詞自學(xué)習(xí) 2.0 版本以及行業(yè)首次突破的離線 NLP 技術(shù)。
深度降噪技術(shù)能在信噪比-5dB 到 -10dB 的環(huán)境噪聲下將人聲提取出來,實現(xiàn)良好識別。演示視頻中,油煙機(jī)噪聲高達(dá)80dB 時,對于70多dB的人聲依然可以良好識別。
在深度人聲分離技術(shù)演示中,電視噪聲和干擾人聲離語音設(shè)備更近,也就是此時目標(biāo)人聲分貝數(shù)為 0 甚至負(fù)的條件下,通過芯片的深度人聲分離技術(shù),語音模塊仍然可以良好識別到。
命令詞自學(xué)習(xí) 2.0 版本支持離線命令自學(xué)習(xí),在 60 到 65 分貝噪聲條件下依然具備良好的識別表現(xiàn),非常接近大數(shù)據(jù)訓(xùn)練模型的效果。用戶即便帶著方言口音,簡單訓(xùn)練2-3次設(shè)備也能學(xué)會,支持50多條詞條數(shù)。
端側(cè) NLP 技術(shù)包含了語音識別和意圖識別,該意圖模型采用聯(lián)合規(guī)則和統(tǒng)計訓(xùn)練的模型來實現(xiàn)端側(cè)語音識別+語義理解的功能。這使得設(shè)備徹底不需要依賴云端,一樣可以具備上下文關(guān)聯(lián)、多輪對話、意圖理解等云端 NLP 的功能。
此外BNPU 3.0還能運行語義識別模型、端側(cè)離線TS等語音相關(guān)的算法。對于市面上一些競品號稱也能做到端側(cè)離線NLP,何云鵬表示他們有做過對比,發(fā)現(xiàn)“(競品)還是要用比較傳統(tǒng)的命令詞,用自然對話就無法識別了。而我們的芯片能達(dá)到自然語言識別?!?/p>
03硬核技術(shù)及相關(guān)參數(shù)
前面 5 顆芯片的迭代,不僅是上述算法性能功能不斷提升,集成度也在不斷增加。2 代系列相比1代,集成進(jìn)了 Audio CODEC、Flash 等單元,以及雙麥陣增強(qiáng)處理能力。據(jù)悉,啟英泰倫的第三代語音芯片采用40nm工藝制造,主打性能的同時,相對于二代功耗降低了一半僅為10mA左右(低功耗模式做語音運算時)。
芯片算力方面,三代 13 系列芯片內(nèi)置 BNPU 3.0 和支持 DSP 指令擴(kuò)展的 RISC CPU 兩大內(nèi)核,主頻高達(dá) 240MHz,并具有 640KB 系統(tǒng) SRAM。而 2 代主頻是 160MHz,內(nèi)置 BNPU2.0,512KB SRAM。
芯片集成度方面,三代 13 系列芯片集成了 Audio Codec 模擬 MIC 接口、數(shù)字PDM麥克DMIC 接口、通用 ADC及 MCU 常見的串口/PWM/GPIO 等。還進(jìn)一步集成了 4 線 NOR Flash、3 路 LDO PMU和高精度RC 振蕩器等。
成本方面,芯片即方案,除了MIC、喇叭外,板級僅需要阻容和PA芯片,多數(shù)情況下連晶振都不需要加。極大簡化BoM,但可以通過外設(shè)接口擴(kuò)展各種功能。封裝上,前兩代采用QFN封裝,第三代為適應(yīng)不同應(yīng)用及貼片要求,推出了SOP16/SSOP24/QFN40等系列封裝。
23 系列 AIOT 單芯片(CI2305 和 CI2306)在語音功能和性能上與13系列相同,主要增加了 Wi-Fi 和 BLE,形成三合一單芯片。其中CI2305 支持離線語音+IOT,而 CI2306還支持將語音上傳,實現(xiàn)離線語音+在線語音+IOT 功能。
“與一些 Wi-Fi芯片公司推出的用純軟件方式在芯片上跑語音算法低成本方案相比,我們的 23 系列 AIOT 單芯片能夠?qū)崿F(xiàn)優(yōu)異的語音處理和識別表現(xiàn),以及優(yōu)良的 IOT 連接傳輸性能?!焙卧迄i說到。
值得注意的是,啟英泰倫的一二代產(chǎn)品都是采用Arm內(nèi)核,但在2.5代Cl1122這款產(chǎn)品中采用了RISC-V處理器。對于選擇RISC-V還是Arm內(nèi)核,何云鵬認(rèn)為兩者各有優(yōu)點,會在不同產(chǎn)品線上選擇不同的內(nèi)核?!癆rm生態(tài)成熟,而RISC-V的開源特性,帶來了眾人拾柴火焰高的效果。此外RISC-V指令精簡,接口靈活,可以定制加速單元,方便加速設(shè)計?!?/p>
第三代產(chǎn)品的主控能力進(jìn)一步加強(qiáng),擁有更豐富的IO接口,兼容3.3V和5V;主頻更高,SRAM更大,算力可更充分提供給主控應(yīng)用。按照啟英泰倫的說法,這顆語音芯片既可以作為語音識別或語音信號處理的專用芯片,也可以作為帶語音識別功能的 MCU 主控芯片。
那為什么通用MCU不適合做AI語音?何云鵬解釋到,傳統(tǒng)通用MCU嵌入語音算法,還需要滿足語音識別的大Flash存儲、CPU頻率、專用語音通道和Audio Codec等硬件要求,一般只能用于玩具級的機(jī)器學(xué)習(xí)(Tiny ML),無法用于專業(yè)設(shè)備。而啟英泰倫第三代語音芯片提供1/2/4MB三種Flash版本供選擇,更大的Flash,可以存放更大的神經(jīng)網(wǎng)絡(luò)模型,這是做離線NLP自然語言交互必須的;而不需要NLP的應(yīng)用,采用1MB版本的就夠了。
“可能剛開始做語音的同學(xué)無法理解,但要把語音真正做好的同時把成本降下來,就要對芯片和算法極致打磨?!焙卧迄i補(bǔ)充道,“通用MCU要想把語音做到接近我們的水平,在處理器頻率和存儲上要增加大量成本,具體取決于算法的好壞?!?/p>
04哪些終端設(shè)備最需要語音交互技術(shù)?
據(jù)IDC的統(tǒng)計數(shù)據(jù),2021年中國智能家居設(shè)備市場出貨量已超2.2億臺,2022年中國智能家居設(shè)備市場出貨量則將突破2.6億臺,同比增長為17.1%。
由于智能語音技術(shù)和NLP技術(shù)不斷加速發(fā)展,智能語音的市場空間不斷打開。目前,智能語音已在2C消費級的智能家居、智慧生活、智慧辦公、智能駕駛;2B企業(yè)級的智慧醫(yī)療、智能客服等多個領(lǐng)域?qū)崿F(xiàn)場景應(yīng)用。其中家電行業(yè)的滲透率已達(dá)到130多個品類,某些品類的滲透率超過50%。
從目前終端客戶的接受程度看,已經(jīng)從之前大多采用AI語音beside方案(后裝,一般是在電源插座上加裝聲控),轉(zhuǎn)變?yōu)榱薸nside方案(前裝)。據(jù)何云鵬介紹,這一點在智能家居、智慧辦公的房地產(chǎn)客戶和家電設(shè)備客戶上最明顯,“因為用啟英泰倫的語音AIOT芯片,已經(jīng)可以直接替換原來的通用MCU。至于后裝則是通過的加裝一個帶語音識別功能的插座來控制設(shè)備,僅需搭載一顆語音主控芯片,就能把存量的家電設(shè)備通過USB Dongle、2.4G紅外等形式加上語音控制功能?!?/p>
最積極采用語音取代現(xiàn)有操作方式的,首先是使用者和設(shè)備之間有一定距離、傳統(tǒng)上用遙控器的設(shè)備,例如空調(diào)、照明設(shè)備等;其次是雖然人和設(shè)備距離較近,但是雙手無法解放的,用語音控制效果也較好,例如油煙機(jī)、車載操控;最后是功能多、菜單多、組合鍵多的設(shè)備,消費者覺得太復(fù)雜,這時候直接用語音表達(dá)需求更方便,例如微波爐檔位選擇、洗衣機(jī)洗衣方式的選擇等。
何云鵬預(yù)計,接下來所有家電大廠將布局產(chǎn)品機(jī)器人化、智慧化服務(wù)。例如空調(diào)將不只是調(diào)節(jié)溫度,還會實時監(jiān)測空氣溫濕度、氣味、負(fù)氧離子等,并提供山林、海邊、鄉(xiāng)間清晨等虛擬環(huán)境模擬。而這個過程中的很多服務(wù)需要讓機(jī)器理解人,就會用到NLP,讓家電成為服務(wù)的入口。
“這種服務(wù)是時刻發(fā)生,需要實時響應(yīng)的。以往的云上識別方案帶來的傳輸帶寬成本只有抹掉,才能讓這種服務(wù)入口落地。”他說到,“另外一些非實時的功能放在云上,例如固件升級、交易等,實現(xiàn)端云融合?!?/p>
05結(jié)語
據(jù)悉,啟英泰倫目前已經(jīng)有5000多客戶,10000多平臺開發(fā)者,和10萬多在校學(xué)員。整個離線語音及語音AIOT領(lǐng)域應(yīng)用呈現(xiàn)快速崛起之勢。目前已經(jīng)達(dá)到2000萬年裝機(jī)量,正快速向上億年裝機(jī)量發(fā)展。
啟英泰倫的終極目標(biāo)是打造跨設(shè)備、跨時空,用戶專屬,終身守護(hù)的守護(hù)精靈。何云鵬將這一目標(biāo)劃分為三個階段:
第一步,讓人機(jī)交互更自然,更具普適性;
第二步,通過更多的數(shù)據(jù),讓機(jī)器更理解人、更主動地為人類服務(wù);
最終目標(biāo),打造專屬的守護(hù)精靈,它將是用戶全方位的生活管家、健康安全衛(wèi)士、百科知識導(dǎo)師和給予心靈陪伴的知己朋友。
如今整個行業(yè)正處于終端語音交互應(yīng)用走向普及、多感知機(jī)器人技術(shù)芯片和技術(shù)研發(fā)積累的階段。每個階段都需要埋頭苦干,需要多次迭代和至少 5 到 10 年的堅持。為了更快地實現(xiàn)自身目標(biāo),幫助下游客戶實現(xiàn)敏捷開發(fā)、快速落地的目標(biāo),啟英泰倫正加強(qiáng)生態(tài)建設(shè),提升語音AI應(yīng)用開發(fā)平臺,該平臺支持10000用戶同時開發(fā),即時生成NLP模型,提供更自然的語音交互能力。
“在過去20多年的工作時間里,很多人不理解我回國做芯片的選擇,他們認(rèn)為一個人的力太薄弱,不能改變什么。但我的妻子總是無怨無悔的支持我所有的選擇和追求,最近她對我說,你當(dāng)初的選擇是對的,我們國家芯片差點被卡了脖子?!焙卧迄i感慨道, “我覺得,一個人的力量是微薄的,但是為追求那些站在民族和人類立場的美好愿望,多一個人的力量也是好的。一個人這么想,就一定會有更多人這么想,最終匯聚成浩浩蕩蕩一往無前的力量!今天,已經(jīng)有千千萬萬的人投入到了民族的集成電路事業(yè)中,中國集成電路崛起之路已經(jīng)勢不可擋?!?/strong>
-
芯片
+關(guān)注
關(guān)注
453文章
50269瀏覽量
421182 -
nlp
+關(guān)注
關(guān)注
1文章
486瀏覽量
21993
發(fā)布評論請先 登錄
相關(guān)推薦
評論