在擁擠的語音 AI 芯片賽道,他們擁有自研的全棧式技術(shù)能力,先將目標瞄準智能家居市場,通過語音芯片打開人機交互的入口,再鋪向更多的應(yīng)用場景。
正在播放電視劇的電視機旁,放著一個電路板,即內(nèi)含探境科技的語音芯片——Voitist 音旋風 611、外圍電路、麥克風,這是一個用于智能家居語音控制的原型系統(tǒng)。
當人對著用于智能家居語音操控的原型系統(tǒng)說話時,該「系統(tǒng)」就會進行回應(yīng),它可以根據(jù)人的指令做出反饋,比如當你說出「最大風量」時,系統(tǒng)就會復述一句,將抽油煙機調(diào)整為最大風量。
在夾雜多聲源的語音環(huán)境下,離線不聯(lián)網(wǎng)的語音控制系統(tǒng)仍能接聽人發(fā)出的指令,并作出反饋。
探境科技副總裁李同治告訴機器之心,家電廠商可以直接使用這個電路板用語音交互來控制家電,比如代替抽油煙機原來需要按按鍵的操作,或者是將板卡與家電廠商的控制模塊,通過串口協(xié)議直接相連,不做其它改變,即可升級為一套語音識別控制的智能家電。
由 Marvell 中國芯片研發(fā)部門前高管魯勇創(chuàng)立的 AI 芯片公司探境科技,想以此切入廣闊的智能家居市場,通過語音芯片打開人機交互的入口。目前為止,搭載語音芯片的探境語音識別方案已實現(xiàn)百萬級產(chǎn)品出貨。今年營收已經(jīng)破千萬元。
1 實現(xiàn)百萬級出貨量
2017 年,擔任 Marvell 中國芯片研發(fā)部門高管魯勇看到了 AI 芯片熱潮背后,存在著龐大的市場需求和落地場景,便創(chuàng)立了探境科技。
探境科技創(chuàng)始人魯勇
兩年時間,探境科技迅速實現(xiàn)芯片量產(chǎn)出貨,且快速實現(xiàn)商業(yè)化落地。
2018 年,探境科技初步完成 SFA 架構(gòu)雛形,實現(xiàn)語音芯片 Voitist 音旋風 611 的流片;2019 年第一季度 611 一次性流片成功,開始合作首個 alpha 客戶,;2019 年中實現(xiàn)量產(chǎn)供貨。
2 年時間,魯勇透露,搭載語音芯片的探境語音識別方案已實現(xiàn)百萬級產(chǎn)品出貨。未來探境還會將語音產(chǎn)品進行二次升級,推出更多在線離線一體化方案。
截至目前,探境已經(jīng)合作約 30 家機構(gòu),合作廠商包括美的、海爾等智能家居制造廠商。
探境科技在全球有 6 個研發(fā)中心,分別是北京、上海、深圳、合肥、杭州、美國硅谷。公司總員工接近 200 人,其中 150 人是研發(fā)人員,其骨干研發(fā)人員平均工作經(jīng)驗約 15 年,其中有 50 人擁有碩士、博士學歷。
2 三大「自研降噪」法寶
AI 降噪技術(shù)+HONN 神經(jīng)網(wǎng)絡(luò)+端到端雙麥
在智能家居細分門類中,智能燈具、抽油煙機、空氣凈化器、垃圾桶、窗簾等家居設(shè)備,均可以通過搭載語音芯片的智能家居語音控制系統(tǒng)實現(xiàn)。
據(jù) Strategy Analytics 發(fā)布的研究報告顯示,擁有語音控制的智能家居設(shè)備 (不包括智能音箱) 的銷量將從 2018 年的 15.4 萬臺躍升至 2025 年的 3230 萬臺。
在火熱的智能家居語音市場,語音芯片在語音交互中扮演著一個關(guān)鍵的角色。因其在語音識別、智能交互等方面的優(yōu)勢,可以為智能家居提供新的控制入口。
但是目前語音控制技術(shù)層面仍面臨諸多挑戰(zhàn)。高噪聲、遠場識別環(huán)境造成低信噪比情況。信噪比,是衡量需要識別的目標聲源與其它干擾聲源強度比值的對數(shù)。一般將信噪比低于 15dB 的稱為噪聲環(huán)境。信噪比越低,識別難度越大。
非穩(wěn)態(tài)噪聲,即干擾人們休息 、學習和工作的聲音,也會對降噪算法產(chǎn)生影響。另外播放電視劇、音樂造成的多聲源也會影響語音識別。
在語音識別的研發(fā)過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結(jié)果輸入四個環(huán)節(jié)。
語音識別研發(fā)流程
為了順利完成語音識別,探境科技提出,首先在降噪處理方面下功夫,通過自研的 AI 降噪算法,對非穩(wěn)態(tài)的突發(fā)性噪聲進行過濾。其次,通過高計算強度神經(jīng)網(wǎng)絡(luò)(HONN)進行語音識別。在這一環(huán)節(jié),神經(jīng)網(wǎng)絡(luò)模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。
在傳統(tǒng)的語音識別算法里,通常采用 DNN 的方法。DNN 即全連接神經(jīng)網(wǎng)絡(luò),最樸素的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)最多,計算量大。高強度神經(jīng)網(wǎng)絡(luò)的參數(shù)量不大,僅為 DNN 的五分之一,用更小的參數(shù)量和存儲,即可實現(xiàn)更好的效果。
相比較于全連接操作,卷積操作能夠提供更高的計算強度,且卷積運算與人類大腦負責感知模塊的處理方法類似,能夠提取滿足大腦認知的本質(zhì)特征。
探境將其計算機視覺中的一些經(jīng)驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設(shè)計了一個高計算強度的神經(jīng)網(wǎng)絡(luò),即 HONN。
結(jié)果顯示,HONN 在遠場和高噪聲等環(huán)境下的識別率明顯優(yōu)于 DNN。
基于 AI 降噪技術(shù)與 HONN 神經(jīng)網(wǎng)絡(luò)還不足以解決語音識別問題。為了提升超強噪音場景下的語音識別率,探境科技開發(fā)了基于 FCSP 的端到端 AI 雙麥算法。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復數(shù)子空間投影算法的簡稱。
通過這個算法直接輸入陣列信號,輸出的是最終的識別結(jié)果,中間部分全部交給基于深度學習的 AI 算法來處理,不再使用傳統(tǒng)的數(shù)字信號處理方法。
李同治表示,在模型訓練期間,采取「注意力增強」的學習方法,能夠靈敏地檢測到喚醒詞和命令詞?!割愃朴谠谝粋€嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應(yīng)過來?!顾扔鞯馈?/p>
探境科技的邏輯是,通過 AI 語音算法+HONN 神經(jīng)網(wǎng)絡(luò)模型來提升識別率,再通過 FCSP「端到端」的雙麥處理算法簡化識別流程,降低最終語音識別的錯誤率。
將這三個「法寶」集結(jié)一體,目的是攻克語音識別難題。結(jié)合這三大條件,探境科技發(fā)布離在線一體的語音識別解決方案,即 Voitist 音旋風 612。
Voitist 音旋風 612 的特點是降低傳統(tǒng)語音設(shè)備對多麥的信號處理,相應(yīng)節(jié)省硬件成本;在高噪聲環(huán)境下識別率高;有效算力更高。
3 自研全棧式「硬底盤」
與其他公司不同,探境科技更強調(diào)自研,在全棧式技術(shù)上,提供芯片、軟件、算法、系統(tǒng)一站式整體方案。
存儲優(yōu)先的芯片架構(gòu) SFA(Storage First Architecture) 則成為探境科技搭建「全?!故椒?wù)的基礎(chǔ)。先用 SFA 解決算力的存儲問題,再借助 AI 降噪算法,通過全棧式的解決方案「殺進」市場。
魯勇表示,SFA 是針對 AI 芯片存儲墻問題而設(shè)置的芯片架構(gòu)。所謂存儲墻問題指的是,與數(shù)據(jù)和存儲相關(guān)的帶寬瓶頸、功耗瓶頸問題。同行業(yè)其他 AI 芯片設(shè)計公司也意識到,AI 芯片的本質(zhì)不是要解決計算問題,而是要解決數(shù)據(jù)問題。
「所有運行的深度學習算法和 AI 芯片都面臨一個問題,并不是要做卷積運算的乘法或加法,這并不是最難解決的問題,難點是在于存儲帶寬要求很大,存儲功耗很高?!顾赋觯罅繑?shù)據(jù)的重復使用,以及數(shù)據(jù)在存儲器里的位置、相對關(guān)系、讀取的性能,會影響到算法運行的性能。
目前常見的芯片類型 CPU、GPU、FPGA、ASIC 都可以運行深度學習算法,都可統(tǒng)稱為 AI 芯片。CPU、GPU 都屬于馮·諾依曼結(jié)構(gòu),指令譯碼執(zhí)行、共享內(nèi)存。用馮·諾依曼結(jié)構(gòu)的處理器處理深度學習算法時,提供算力雖簡單,但當運算部件達到一定的能力,存儲器則無法跟上運算部件消耗的數(shù)據(jù)。
因此,SFA 架構(gòu)以存儲來驅(qū)動計算,推翻馮·諾依曼架構(gòu),設(shè)計不同于之前類 CPU 的計算架構(gòu)。
實測數(shù)據(jù)表明,在同等條件下,SFA 可帶來超高的能效比,數(shù)據(jù)訪問可降低 10~100 倍,存儲子系統(tǒng)功耗下降 10 倍;28nm 工藝測試下,系統(tǒng)能效超過 4T OPS/W,計算資源利用率超過 80%,DDR 帶寬占用率降低 5 倍。
基于 SFA 架構(gòu),探境科技開辟語音和圖像兩條產(chǎn)品線。
在探境科技的語音芯片產(chǎn)品矩陣中,除了支持 AI 雙麥的 Voitist 音旋風 612 之外,還包括在離線一體的 Voitist 音旋風 621、以及語音芯片的旗艦產(chǎn)品——可支持本地 NLP 的音旋風 7 系列。
探境科技語音產(chǎn)品矩陣
2019 年 8 月,探境自主研發(fā)的通用型語音芯片「音旋風」611,能夠支持 200 條的命令詞,能夠做到 99% 的喚醒率和極低的誤喚醒率,已切入智能家居領(lǐng)域,涉及智能空調(diào)、空氣凈化器等多個品類。
Voitist 音旋風 611
另外,探境科技搭載的 SFA 架構(gòu)的圖像芯片 Imagist851 已流片成功,圖像芯片的核心指標 IPS/W 高達 800,瞄準工業(yè)視覺、新零售、安防、輔助駕駛等市場。
魯勇稱,SFA 可實現(xiàn)真正的通用型 AI 芯片架構(gòu),可支持任意神經(jīng)網(wǎng)絡(luò)。
「不僅適配于終端,也適配于云端、推理、訓練,可組成不同類型的產(chǎn)品形態(tài)。」據(jù)魯勇透露,探境的云端 AI 芯片也已提上日程,將于 2020 年推出。
他向機器之心表示,現(xiàn)階段會以智能家居為主基點,而后再逐漸加碼至其他場景。
談及未來的發(fā)展規(guī)劃,他表示,探境科技定位于一家語音、圖像相結(jié)合的 AI 芯片公司,基于語音算法、圖像算法,既有面向家具、玩具、智能穿戴等場景的語音系列解決方案,也有面向安防、新零售、輔助駕駛等圖像解決方案。
目前探境科技選擇做終端 AI 芯片,相對云端芯片投入成本較低,離手機、智能音箱這類產(chǎn)品的設(shè)計和生產(chǎn)較近。在擁擠的語音 AI 芯片賽道,基于自研的全棧式技術(shù)能力,先解決存儲再解決算力,探境走出一條不同尋常的路。
-
人機交互
+關(guān)注
關(guān)注
12文章
1199瀏覽量
55273 -
智能家居
+關(guān)注
關(guān)注
1926文章
9485瀏覽量
183943 -
AI芯片
+關(guān)注
關(guān)注
17文章
1851瀏覽量
34860
發(fā)布評論請先 登錄
相關(guān)推薦
評論