日本新japanese乱熟,亚洲熟妇中文字幕日产无码

“現(xiàn)在切入語音識(shí)別正是好時(shí)機(jī)，更早進(jìn)入也是在教育市場，過去兩年一些公司的出貨量經(jīng)歷了非常殘酷的考驗(yàn)?，F(xiàn)在行業(yè)進(jìn)入拐點(diǎn)時(shí)期，我們進(jìn)入正是最好的時(shí)間點(diǎn)”，探境科技CEO魯勇對<電子發(fā)燒友>表示。

“拐點(diǎn)”之說何來？

根據(jù)Gartner在今年8月底發(fā)布的“人工智能技術(shù)成熟度曲線”可以看到，處于生產(chǎn)力成熟期（Plateau of Productivity）的技術(shù)僅有兩項(xiàng)：語音識(shí)別（Speech Recognition）和GPU加速器（accelerators），且正處于爬升態(tài)勢。來自市場的反饋同樣如此，這兩項(xiàng)技術(shù)是當(dāng)前落地最快、最多的AI項(xiàng)目。

在語音識(shí)別的落地項(xiàng)目中，場景最多的當(dāng)屬智能家居領(lǐng)域，以智能音箱為典型代表。但是，從用戶反饋來看，兩大問題已經(jīng)浮現(xiàn)出來：一是在真實(shí)語音交互場景中，在復(fù)雜的聲場環(huán)境、噪音的影響下，語音識(shí)別準(zhǔn)確率直線下降；二是越來越多安全問題的爆出，讓用戶對于家中的這個(gè)“云耳朵”充滿了擔(dān)憂。

第一批智能音箱在滿足了用戶的好奇心之后，成為非常雞肋的一個(gè)產(chǎn)品，要么在家中落灰，要么需要時(shí)時(shí)警惕，僅在偶爾使用時(shí)才敢接上電源。

在成為爆款這件事上，智能音箱讓業(yè)界失望了。

滿足好奇心過后，語音交互下一波靠什么撬動(dòng)市場？是價(jià)格嗎？

是，也不全是。在巨大的市場痛點(diǎn)面前，誰能抓住用戶需求，真正解決問題，誰才有希望在這條擁擠的賽道上前進(jìn)一小段。

市場正在開始新一輪的篩選。

市場需要什么樣的語音識(shí)別方案？

語音作為人機(jī)交互的重要方式之一，終極目標(biāo)是實(shí)現(xiàn)自然的交互。而當(dāng)前的技術(shù)遠(yuǎn)遠(yuǎn)達(dá)不到，在語音識(shí)別這一環(huán)節(jié)，解決噪音問題、提升遠(yuǎn)場語音識(shí)別率、消除用戶顧慮/提升安全性成為當(dāng)務(wù)之急。

在家居場景下，語音識(shí)別面臨兩大挑戰(zhàn)：

第一是低信噪比。在我們的生活場景中，存在著一些高噪聲的環(huán)境，比如抽油煙機(jī)或者掃地機(jī)器人，這些設(shè)備上噪聲最低也有70分貝。麥克風(fēng)距離這些設(shè)備非常近，而操作者距離麥克風(fēng)會(huì)更遠(yuǎn)些，這些因素疊加，會(huì)導(dǎo)致語音識(shí)別設(shè)備采集到的信噪比非常低，給識(shí)別帶來很大的挑戰(zhàn)。

第二是非穩(wěn)態(tài)的噪聲的影響。傳統(tǒng)降噪算法無法處理，比如電視劇聲音/音樂突然的節(jié)奏變化，或者是做飯時(shí)叮叮咣咣的聲音等，都帶有突發(fā)性和不可預(yù)見性。

為了解決上述挑戰(zhàn)，增強(qiáng)語音信號(hào)質(zhì)量、提升信噪比，業(yè)界通常采用麥克風(fēng)陣列的方式。但是，在干擾信號(hào)和目標(biāo)聲源方向接近的場景下，傳統(tǒng)的麥克風(fēng)陣列增強(qiáng)算法幾乎無法處理。

據(jù)<電子發(fā)燒友>了解，目前市面上的智能語音芯片方案可粗略分為兩種：一種是披著“AI”外衣的DSP，這種方案可實(shí)現(xiàn)輕量級的NN支持，在識(shí)別指令數(shù)量方面有提升，但是通常并無降噪支持；另一種可支持RNN/CNN/DNN等模型、架構(gòu)上通常采用MCU+NN或MCU+DSP+NN。

在魯勇看來，未來用戶體驗(yàn)要求會(huì)越來越高，相應(yīng)地將造成算法越來越復(fù)雜，對算力的要求將更高。只有從底層進(jìn)行顛覆性創(chuàng)新，才能真正解決問題。

揭密探境語音識(shí)別三大核心技術(shù)

AI降噪+HONN神經(jīng)網(wǎng)絡(luò)提升識(shí)別率

在語音識(shí)別的研發(fā)過程中，一個(gè)完整的識(shí)別鏈路可以簡化為麥克風(fēng)輸入、降噪處理、語音識(shí)別、識(shí)別結(jié)果輸入四個(gè)環(huán)節(jié)。想做好識(shí)別，首先要在降噪處理上下功夫。

探境自研的AI降噪算法基于深度學(xué)習(xí)，不僅能夠處理穩(wěn)態(tài)的噪聲，非穩(wěn)態(tài)的突發(fā)性噪聲也能很好的過濾。據(jù)探境科技副總裁李同治介紹，憑借探境AI降噪算法的有效性，他曾將一批信噪比在3dB左右的語音數(shù)據(jù)做了測試，降噪后比降噪前提高30%識(shí)別準(zhǔn)確率。

在對聲音進(jìn)行降噪處理之后，就進(jìn)入到了語音識(shí)別環(huán)節(jié)。在這一環(huán)節(jié)中，神經(jīng)網(wǎng)絡(luò)模型所需的算力決定了模型的描述能力，同時(shí)也決定了模型處理能力和識(shí)別率的上限。

以往的語音識(shí)別算法，用的最多的是全連接的操作DNN/DTNN。據(jù)了解，國內(nèi)多家語音識(shí)別芯片采用的都是DNN的方法。

探境將計(jì)算機(jī)視覺的經(jīng)驗(yàn)遷移到語音識(shí)別中，在語音識(shí)別算法上加入了更多的卷積操作，重新設(shè)計(jì)了一個(gè)高計(jì)算強(qiáng)度的神經(jīng)網(wǎng)絡(luò)，即HONN（High Operation Neural Network）。

圖：DNN與HONN區(qū)別

在高計(jì)算強(qiáng)度神經(jīng)網(wǎng)絡(luò)里，每一個(gè)處理單元變成了立體維度，所能處理的信息量和計(jì)算密度，也遠(yuǎn)遠(yuǎn)超過傳統(tǒng)DNN/DTNN的方法。

由于多了一個(gè)維度的識(shí)別，性能方面得到了顯著提升：DNN需要1.6M的存儲(chǔ)空間，而HONN僅需要350k，這意味著可以使用存儲(chǔ)空間更少、成本更低的芯片來做語音識(shí)別。

同時(shí)，DNN與HONN所需的算力相反。在處理高強(qiáng)度模型單幀時(shí)，HONN需要超過幾百兆OPS，而一般的DNN模型需要個(gè)位數(shù)的算力。兩者相差超過30倍。對于神經(jīng)網(wǎng)絡(luò)來說，模型所需的算力決定了模型的描述能力，同時(shí)也決定了模型處理能力和識(shí)別率的上限，從國內(nèi)外趨勢來看，最近工業(yè)和學(xué)術(shù)界趨向于使用算力需求大的模型來做建模。

據(jù)李同治介紹，就好比動(dòng)物界大腦新皮層的容量決定著物種的智力程度，比如人類的新皮層容量是普通哺乳動(dòng)物的近100倍，相應(yīng)的，人類的智能程度超出普通哺乳動(dòng)物幾個(gè)數(shù)量級。

卷積運(yùn)算與人類大腦負(fù)責(zé)感知模塊的處理方法類似，能夠提取滿足大腦認(rèn)知的本質(zhì)特征。在參數(shù)數(shù)量相同的條件下，HONN通過卷積操作能夠提供更高的計(jì)算強(qiáng)度，提高模型的算力需求。相對安靜的環(huán)境下兩者之間差別不大，但是當(dāng)信噪比進(jìn)一步降低時(shí)，基于HONN的方法識(shí)別優(yōu)勢非常明顯。

端到端FCSP雙麥算法簡化識(shí)別流程

“為了克服傳統(tǒng)分模塊語音增強(qiáng)算法的缺點(diǎn)，我們設(shè)計(jì)出了基于FCSP的端到端AI雙麥算法”，李同治表示。FCSP（Frequency Complex Subspace Projection）是探境自研的頻域復(fù)數(shù)子空間投影算法的簡稱。

據(jù)了解，“端到端”是目前國際前沿的處理算法，亞馬遜、谷歌等都在采用類似的方法。探境基于FCSP的端到端雙麥算法直接輸入陣列信號(hào)，輸出的是最終的識(shí)別結(jié)果，中間部分全部交給基于深度學(xué)習(xí)的AI算法來處理，不再使用傳統(tǒng)的數(shù)字信號(hào)處理方法。信號(hào)增強(qiáng)與識(shí)別模塊整體以降低識(shí)別錯(cuò)誤率為目標(biāo)進(jìn)行優(yōu)化，避免了語音增強(qiáng)與語音識(shí)別模塊錯(cuò)配的問題。在信噪比為0dB時(shí)，相對于傳統(tǒng)的處理算法，相對識(shí)別錯(cuò)誤率降低超過20%。

存儲(chǔ)優(yōu)先的SFA芯片架構(gòu)

魯勇談到，在核心技術(shù)方面，市面上一些玩家像是在跛著腳走路，要么有芯片沒算法，要么有算法沒芯片，這樣在市場上無法形成真正的競爭力。性能優(yōu)異的算法+算力強(qiáng)勁且通用性強(qiáng)的芯片，才能充分發(fā)揮實(shí)力，探境就是要提供全棧式的技術(shù)能力，包括芯片設(shè)計(jì)、算法研究、軟件開發(fā)和系統(tǒng)集成，提供Turn-key整體解決方案。

探境的骨干力量在行業(yè)內(nèi)擁有10-20年的工作經(jīng)驗(yàn)，其中一些曾就職于Marvell、英偉達(dá)、高通、Intel、硅谷數(shù)模等知名公司。基于多年的經(jīng)驗(yàn)和對AI未來的預(yù)判，他們決定推翻馮諾依曼體系，推出了存儲(chǔ)優(yōu)先（SFA）的芯片架構(gòu)。

SFA架構(gòu)以存儲(chǔ)驅(qū)動(dòng)計(jì)算，具有能效比高、資源利用率高、通用性強(qiáng)等特點(diǎn)。在SFA架構(gòu)上實(shí)現(xiàn)深度學(xué)習(xí)時(shí)，只需要一個(gè)較高層次的神經(jīng)網(wǎng)絡(luò)描述。SFA的編譯器首先將這個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行全部融合，然后根據(jù)具體架構(gòu)實(shí)現(xiàn)的規(guī)模產(chǎn)生一個(gè)統(tǒng)一的存儲(chǔ)流圖，再進(jìn)行存儲(chǔ)節(jié)點(diǎn)的時(shí)空映射，最后根據(jù)各個(gè)節(jié)點(diǎn)之間的計(jì)算類型配置計(jì)算單元，組合起來形成一個(gè)統(tǒng)一的固件供SFA控制器使用。

在28nm常規(guī)工藝芯片的對比測試中，SFA架構(gòu)在乘法器數(shù)目相同情況下（DRAM為LPDDR4），結(jié)果如下表，系統(tǒng)能效超過4T OPS/W，甚至超過12nm的芯片方案。

測試網(wǎng)絡(luò)	數(shù)據(jù)訪問量 DSP VS SFA	存儲(chǔ)子系統(tǒng)功耗 DSP/SFA
inceptionv3	32：1	9：1
mobilenetssd	43：1	11：1
resnet50	17：1	6：1
VGG19	108：1	17：1
yolov2	47：1	12：1

注：測試方法為帶有卷積加速器擴(kuò)展指令的DSP模式與SFA架構(gòu)模式的對比

探境有一句宣傳語：NPU的性能，MCU的價(jià)格，背后動(dòng)力主要來源于芯片架構(gòu)的優(yōu)化。設(shè)計(jì)這樣一個(gè)全新的架構(gòu)難度不言而喻，據(jù)魯勇介紹，其中涉及數(shù)學(xué)、計(jì)算機(jī)架構(gòu)、數(shù)據(jù)管理調(diào)度、硬件設(shè)計(jì)經(jīng)驗(yàn)等，是個(gè)復(fù)雜的綜合工程，并且要把這些方法揉在一起發(fā)揮出最大效力，通過算法和調(diào)度方式降低資源的連接復(fù)雜度，從而降低功耗，提高對數(shù)據(jù)本身的使用效率。他強(qiáng)調(diào)，SFA存儲(chǔ)優(yōu)先，不同于存算一體架構(gòu)。后者需要從底層工藝去修改芯片設(shè)計(jì)，而存儲(chǔ)優(yōu)先是算法上的更新，無需修改芯片底層單元庫。在當(dāng)前商業(yè)化節(jié)奏越來越快的潮流之下，這種架構(gòu)更通用、更兼容，大大加快了商業(yè)化落地速度。

探境能否漸入佳境？

依托于獨(dú)有的AI降噪技術(shù)和HONN神經(jīng)網(wǎng)絡(luò)，探境的Voitist音旋風(fēng)611可以覆蓋絕大部分生活場景，量產(chǎn)供貨僅半年，已經(jīng)實(shí)現(xiàn)百萬級出貨。目前，探境擁有約30家合作伙伴，包括美的、海爾等智能家居制造大廠，智能家居制造商阿凡達(dá)智控、渠道商世強(qiáng)科技也剛剛與探境達(dá)成合作。

從探境首次曝光的產(chǎn)品矩陣來看，覆蓋低功耗產(chǎn)品、主流產(chǎn)品、旗艦產(chǎn)品三大系列、六顆AI芯片，對于離在線一體、本地NLP、超低功耗產(chǎn)品等都有布局，希望形成智能家居網(wǎng)絡(luò)的矩陣式入口。

離線智能語音交互是當(dāng)前一個(gè)重要的細(xì)分領(lǐng)域，無需聯(lián)網(wǎng)可在本地實(shí)現(xiàn)語音交互，不僅能夠保護(hù)隱私安全，同時(shí)也可以減少用戶大量數(shù)據(jù)傳送到云端的壓力，當(dāng)前主要應(yīng)用于白電市場?？赏ㄟ^離線智能語音控制的家電產(chǎn)品目前包括：燈控、空調(diào)、電視機(jī)、油煙機(jī)、玩具等。

不過，探境不僅僅滿足于做一家語音方案公司。初嘗到語音市場的甜頭后，探境把觸角伸到了下一個(gè)紅利市場——圖像識(shí)別。據(jù)魯勇介紹，探境的圖像芯片在2019年Q4已經(jīng)流片成功，在某些領(lǐng)域已經(jīng)開始產(chǎn)生營收了。根據(jù)公布的核心指標(biāo)來看，核心能效比IPS/W達(dá)800，是目前全球AI芯片中最高的，而這足以支撐探境去云端推理市場正面PK。

不過，就像魯勇所說，AI芯片像馬拉松長跑，比的是耐力，而不是沖刺速度，在這場比賽中，不是要看誰跑得快，而是要看誰有潛力到達(dá)終點(diǎn)，誰在中途不走岔路。

探境能否從智能家居開始，打穩(wěn)地基，漸入佳境？還需要市場應(yīng)用最后給出答案。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

人機(jī)交互

人機(jī)交互

+關(guān)注

關(guān)注
12

文章
1199

瀏覽量
55269
語音識(shí)別

語音識(shí)別

+關(guān)注

關(guān)注
38

文章
1711

瀏覽量
112495
NPU

NPU

+關(guān)注

關(guān)注
2

文章
256

瀏覽量
18513
探境科技

探境科技

+關(guān)注

關(guān)注
0

文章
4

瀏覽量
1799

物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語音識(shí)別方案_離線語音識(shí)別芯片分析

01 物聯(lián)網(wǎng)系統(tǒng)中為什么要使用離線語音識(shí)別芯片物聯(lián)網(wǎng)系統(tǒng)中使用離線語音識(shí)別芯片的原因主要基于以下幾個(gè)方面： 1、實(shí)時(shí)性與可靠性實(shí)時(shí)性好：離線語音

發(fā)表于 09-26 17:56 ?375次閱讀

WTK6900FC語音識(shí)別模塊

語音識(shí)別

WT-深圳唯創(chuàng)知音電子有限公司
發(fā)布于 :2024年09月25日 17:35:07

唯創(chuàng)知音WT2605C用在離在線語音識(shí)別方案# #語音芯片 #語音識(shí)別 #唯創(chuàng)知音

語音識(shí)別

WT-深圳唯創(chuàng)知音電子有限公司
發(fā)布于 :2024年09月12日 17:24:28

什么是離線語音識(shí)別芯片？與在線語音識(shí)別的區(qū)別

離線語音識(shí)別芯片適用于智能家電等，特點(diǎn)為小詞匯量、低成本、安全性高、響應(yīng)快，無需聯(lián)網(wǎng)。在線語音識(shí)別功能更廣泛、識(shí)別準(zhǔn)確率高，但依賴穩(wěn)定網(wǎng)絡(luò)。

發(fā)表于 07-22 11:33 ?349次閱讀

離線語音識(shí)別與在線語音識(shí)別有什么不一樣？

離線語音識(shí)別與在線語音識(shí)別有什么不一樣？離線語音識(shí)別和在線

發(fā)表于 12-12 14:36 ?1127次閱讀

情感語音識(shí)別的挑戰(zhàn)與未來趨勢

一、引言情感語音識(shí)別是一種通過分析和理解人類語音中的情感信息來實(shí)現(xiàn)智能交互的技術(shù)。盡管近年來取得了顯著的進(jìn)步，但情感語音識(shí)別仍然面臨著諸多

發(fā)表于 11-30 11:24 ?486次閱讀

情感語音識(shí)別的應(yīng)用與挑戰(zhàn)

一、引言情感語音識(shí)別是一種通過分析人類語音中的情感信息實(shí)現(xiàn)智能化和個(gè)性化人機(jī)交互的技術(shù)。本文將探討情感語音識(shí)別的應(yīng)用領(lǐng)域、優(yōu)勢以及所面臨的

發(fā)表于 11-30 10:40 ?602次閱讀

影響語音芯片識(shí)別率的因素概述

語音芯片識(shí)別率是指芯片對人類語音信號(hào)的識(shí)別能力。在實(shí)際應(yīng)用中，語音芯片識(shí)別率的高低直接影響了用戶

發(fā)表于 11-27 10:21 ?525次閱讀

離線語音識(shí)別及控制是怎樣的技術(shù)？

引言：隨著人工智能的飛速發(fā)展，離線語音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語音識(shí)別技術(shù)能夠?qū)⑷说?b class='flag-5'>語音轉(zhuǎn)化為可理解的文本，無需依賴網(wǎng)絡(luò)連接，

發(fā)表于 11-24 17:44 ?1077次閱讀

離線語音識(shí)別及控制是怎樣的技術(shù)？

了對網(wǎng)絡(luò)依賴的程度。　二、離線語音識(shí)別技術(shù)的優(yōu)勢　離線語音識(shí)別的優(yōu)勢主要體現(xiàn)在以下幾個(gè)方面：　1. 隱私保護(hù)：離線

發(fā)表于 11-24 17:41

情感語音識(shí)別：現(xiàn)狀、挑戰(zhàn)與解決方案

一、引言情感語音識(shí)別是人工智能領(lǐng)域的前沿研究課題，它通過分析人類語音中的情感信息，實(shí)現(xiàn)更加智能化和個(gè)性化的人機(jī)交互。然而，在實(shí)際應(yīng)用中，情感語音識(shí)

發(fā)表于 11-23 11:30 ?774次閱讀

情感語音識(shí)別：現(xiàn)狀、挑戰(zhàn)與未來趨勢

一、引言情感語音識(shí)別是近年來人工智能領(lǐng)域的研究熱點(diǎn)，它通過分析人類語音中的情感信息，實(shí)現(xiàn)更加智能化和個(gè)性化的人機(jī)交互。然而，在實(shí)際應(yīng)用中，情感語音

發(fā)表于 11-22 11:31 ?764次閱讀

情感語音識(shí)別的研究方法與實(shí)踐

一、引言情感語音識(shí)別是指通過計(jì)算機(jī)技術(shù)和人工智能算法自動(dòng)識(shí)別和理解人類語音中的情感信息。為了提高情感語音

發(fā)表于 11-16 16:26 ?801次閱讀

語音識(shí)別芯片在產(chǎn)品應(yīng)用上的難點(diǎn)列舉

語音識(shí)別技術(shù)已廣泛應(yīng)用于多個(gè)領(lǐng)域，但實(shí)現(xiàn)依賴于語音識(shí)別芯片，其研發(fā)和應(yīng)用面臨語音信號(hào)復(fù)雜性和差異

發(fā)表于 11-13 11:09 ?379次閱讀

情感語音識(shí)別技術(shù)的應(yīng)用與未來發(fā)展

一、引言隨著科技的飛速發(fā)展，情感語音識(shí)別技術(shù)已經(jīng)成為人機(jī)交互的重要發(fā)展方向。情感語音識(shí)別技術(shù)能夠通過分析人類語音中的情感信息，實(shí)現(xiàn)更加智能

發(fā)表于 11-12 17:30 ?753次閱讀

搜索歷史

語音識(shí)別“拐點(diǎn)”已至，現(xiàn)在切入才是好時(shí)機(jī)？

“拐點(diǎn)”之說何來？

市場需要什么樣的語音識(shí)別方案？

揭密探境語音識(shí)別三大核心技術(shù)

端到端FCSP雙麥算法簡化識(shí)別流程

探境能否漸入佳境？

評論

物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語音識(shí)別方案_離線語音識(shí)別芯片分析

WTK6900FC語音識(shí)別模塊

唯創(chuàng)知音WT2605C用在離在線語音識(shí)別方案# #語音芯片 #語音識(shí)別 #唯創(chuàng)知音

什么是離線語音識(shí)別芯片？與在線語音識(shí)別的區(qū)別

離線語音識(shí)別與在線語音識(shí)別有什么不一樣？

情感語音識(shí)別的挑戰(zhàn)與未來趨勢

情感語音識(shí)別的應(yīng)用與挑戰(zhàn)

影響語音芯片識(shí)別率的因素概述

離線語音識(shí)別及控制是怎樣的技術(shù)？

離線語音識(shí)別及控制是怎樣的技術(shù)？

情感語音識(shí)別：現(xiàn)狀、挑戰(zhàn)與解決方案

情感語音識(shí)別：現(xiàn)狀、挑戰(zhàn)與未來趨勢

情感語音識(shí)別的研究方法與實(shí)踐

語音識(shí)別芯片在產(chǎn)品應(yīng)用上的難點(diǎn)列舉

情感語音識(shí)別技術(shù)的應(yīng)用與未來發(fā)展

搜索歷史

語音識(shí)別“拐點(diǎn)”已至，現(xiàn)在切入才是好時(shí)機(jī)？

“拐點(diǎn)”之說何來？

市場需要什么樣的語音識(shí)別方案？

揭密探境語音識(shí)別三大核心技術(shù)

端到端FCSP雙麥算法簡化識(shí)別流程

探境能否漸入佳境？

評論

語音識(shí)別“拐點(diǎn)”已至，現(xiàn)在切入才是好時(shí)機(jī)？

“拐點(diǎn)”之說何來？