隨著智能可穿戴設(shè)備的發(fā)展,語音交互正在迎來一個新的拐點(diǎn)。
它其實早已走進(jìn)我們的生活,從可智能對話的機(jī)器人,到有事沒事“嘿 Siri”,再到風(fēng)靡全球的智能音箱,“小度”、“小愛”……這些指令甚至是三歲孩童也能脫口而出。而隨著可穿戴設(shè)備的傳輸、續(xù)航、價格等痛點(diǎn)被逐個擊破,類似 TWS 耳機(jī)這樣的設(shè)備也有望普遍具備 AI 語音功能,讓 AI 能力隨身行走。
不過,語音喚醒——作為語音交互的第一步,在超低功耗場景下的性能、集成度、成本等突破就變得更加重要。
為可穿戴設(shè)備增加語音喚醒,難在哪里?
針對 TWS 等可穿戴設(shè)備,杭州國芯日前專門推出了一款 AI 語音喚醒芯片 GX8002,將 AI 喚醒做到了“微瓦”級別。
為什么要給 TWS 增加專門的語音喚醒能力?主要挑戰(zhàn)有哪些?杭州國芯 AI 事業(yè)部總經(jīng)理凌云告訴《與非網(wǎng)》,語音喚醒需要 Always on 工作狀態(tài),這樣設(shè)備在休眠或鎖屏狀態(tài)下也能檢測到用戶的聲音,一旦接收到喚醒詞,立刻讓設(shè)備進(jìn)入等待指令的狀態(tài),開啟語音交互第一步。
由于需要持續(xù)工作,包含麥克風(fēng)、ADC、語音處理識別等整個鏈路都要工作。因此在可穿戴設(shè)備中增加喚醒功能,最大的挑戰(zhàn)就是功耗,以往一些藍(lán)牙 SoC 芯片做這類應(yīng)用,待機(jī)功耗需要十幾毫瓦,這對產(chǎn)品待機(jī)時間影響非常大。
方寸之間見天地——超低功耗、高集成度的背后
GX8002 采用了 MCU+NPU 架構(gòu),集成了國芯第二代自研神經(jīng)網(wǎng)絡(luò)處理器 gxNPU V200、平頭哥 CK804 處理器等。經(jīng)測試,該芯片在 VAD 待機(jī)模式下功耗低至 70μW,運(yùn)行功耗為 0.6mW,支持多級喚醒,通過 NPU 能力,單芯片可實現(xiàn)語音喚醒、指令識別、AI 降噪、聲紋識別等眾多功能。
據(jù)了解,GX8002 超低功耗的背后,離不開兩大技術(shù)突破——自研神經(jīng)網(wǎng)絡(luò)處理器 gxNPU V200 和自研硬件 VAD。與第一代神經(jīng)網(wǎng)絡(luò)處理器相比,第二代專門針對低功耗進(jìn)行了優(yōu)化,計算能效達(dá)到了普通 DSP 的 10 倍以上。支持 DNN/CNN/RNN 等各種模型,自動實現(xiàn)網(wǎng)絡(luò)量化壓縮,可以和 TensorFlow 等訓(xùn)練平臺直接對接。
同時,國芯設(shè)計了全新的 VAD 模塊,通過增加更多特征分析來判斷人聲,過濾能力更強(qiáng)。凌云表示,傳統(tǒng) VAD 大多是基于聲音的能量來做 VAD 判斷,當(dāng)處于嘈雜環(huán)境時容易失效。為此,國芯設(shè)計了全新的 VAD 模塊,通過對信號進(jìn)行頻譜分析,抽取語音的多個特征信息,進(jìn)行智能判斷。同時會跟蹤環(huán)境的底噪,自動調(diào)整判決的閾值。而所有的 VAD 處理都是通過硬件實現(xiàn)的,不依賴于主系統(tǒng),這對于所有的 AI 語音應(yīng)用都是有效的,對低功耗產(chǎn)品則更加重要。
除了將復(fù)雜邏輯硬件化,提升 VAD 的待機(jī)比例對于整個產(chǎn)品的功耗降低也非常有價值,根據(jù)實際測試,在辦公室、地鐵、馬路、咖啡館等場合,GX8002 可以讓 VAD 待機(jī)的比例平均達(dá)到 70%以上,即 70%以上時間處于 70μW 的 VAD 待機(jī)模式。通過 VAD 的有效過濾,芯片日常使用的平均功耗基本低于 300μW。
“傳統(tǒng)的語音 AI 主要還是以 CPU 軟解為主,在一些功耗成本不敏感的產(chǎn)品可以繼續(xù)使用”,凌云表示,“但是在可穿戴設(shè)備市場,必須要追求極致?!?/p>
為了將喚醒部分所占用的體積盡可能縮減,國芯將喚醒所需的所有部件進(jìn)行了集成,包括音頻 ADC、Flash、電源 LDO 等,甚至還有晶振。單芯片就可以完成所有喚醒工作,無需外圍器件。
GX8002 首批產(chǎn)品采用 QFN20,3mm*3mm 封裝,五月份已量產(chǎn),預(yù)計今年下半年會有相關(guān)產(chǎn)品陸續(xù)上市。據(jù)稱,Q3 還將推出更小的 WLCSP 封裝,尺寸可達(dá) 1.4*2.4mm,滿足更加精密產(chǎn)品的需求。
TWS+語音 AI 是未來趨勢
TWS——已經(jīng)成為智能音箱之后一個新的現(xiàn)象級應(yīng)用。根據(jù) IDC 數(shù)據(jù)顯示,TWS 耳機(jī) 2019 年全球出貨量為 1.705 億臺,與 2018 年的 4860 萬臺相比,增長了 250.5%,占據(jù)整個可穿戴設(shè)備市場的 50.7%。
剖析 TWS“網(wǎng)紅體質(zhì)”的背后,不僅僅是可觀的市場規(guī)模,還有它作為 AIoT 智能連接入口的潛質(zhì)。過去認(rèn)為 AI 多用于機(jī)器人,后來發(fā)現(xiàn)似乎不需要這么復(fù)雜的身軀,智能音箱爆發(fā)了。而僅靠語音喚醒就可以獲得 AI 能力,其實這個載體還可以更小。
在 TWS 第一波市場潮流中,主流的藍(lán)牙音頻供應(yīng)商盆滿缽盈,于是更多的小玩家涌入,試圖切一角蛋糕。但是,正如所有消費(fèi)電子的發(fā)展趨勢一樣,如果沒有差異化賣點(diǎn)和功能創(chuàng)新,市場將很快走向紅海,陷入價格的侵蝕之中。
對于廣大投身于 TWS 的中小品牌來說,突破無線連接、通話體驗的同時,產(chǎn)品本身的創(chuàng)新點(diǎn)也是增加消費(fèi)者粘性的重要因素。國芯最新的語音喚醒芯片,對于這些廠商顯得尤為及時。GX8002 幾乎適配市場上所有的藍(lán)牙方案,它與藍(lán)牙芯片搭配使用,就如同增加了一個語音開關(guān)按鍵,通過共用的麥克風(fēng),實現(xiàn)語音觸發(fā)。
這就極大地方便了那些使用成熟藍(lán)牙方案的設(shè)備商,在不改變原有主體設(shè)計的情況下,疊加 AI 芯片,就可以將藍(lán)牙耳機(jī)升級為智能耳機(jī),滿足了靈活、快速的設(shè)計需求。價格方面,國芯采用了累積采購量的階梯價格模式,起步價 0.65 美元,盡量減輕成本負(fù)擔(dān)。
TWS 加入語音 AI 將成為趨勢。對于品牌耳機(jī)來說,能夠在硬件方面更進(jìn)一步,打通硬件品質(zhì)、軟件服務(wù)的體驗;白牌耳機(jī)則可以在保證高性價比的前提下提供更豐富的功能。
目前,國芯已經(jīng)打通了杰理、恒玄、絡(luò)達(dá)、瑞昱、博通、易兆微、中科藍(lán)訊等藍(lán)牙合作方,這將為設(shè)備商大大節(jié)省具有 AI 語音能力的 TWS 研發(fā)周期。
“國芯盡量通過技術(shù)優(yōu)化提升 AIoT“入口”建設(shè)的便利性,并提升產(chǎn)品的體驗。通過在 AI 語音領(lǐng)域的持續(xù)耕耘,將 AI 技術(shù)應(yīng)用到各種場景,之前已經(jīng)有了高性能的產(chǎn)品應(yīng)用在智能家居和車載領(lǐng)域,GX8002 的推出補(bǔ)齊了低功耗和近場的應(yīng)用”,凌云表示,“目前我們完成了人 - 車 - 家的全場景覆蓋,AI 語音產(chǎn)品可以說是國內(nèi)市場上較為齊全的?!?/p>
當(dāng)前,AI 的兩大應(yīng)用當(dāng)屬語音和視覺,這兩大領(lǐng)域之間也有著一定的傳承性和關(guān)聯(lián)性。語音 AI 仍是一個早期成長中的市場,國芯一方面在擴(kuò)大覆蓋場景,另一方面也在尋找體量較大的細(xì)分市場(例如車載、TWS 等),進(jìn)行更深入、更有針對性地布局。據(jù)凌云透露,未來,國芯會在語音業(yè)務(wù)的基礎(chǔ)上,開拓視覺 AI 業(yè)務(wù),以及語音+視覺的多模態(tài)產(chǎn)品方向。
評論
查看更多