0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

AIoT的語音技術(shù)是如何落地的?

h1654155282.3538 ? 來源:沈苗 ? 2019-08-26 17:52 ? 次閱讀

AIoT融合AI技術(shù)IoT技術(shù),除了實現(xiàn)技術(shù)的革新,其主要技術(shù)的應用和真正落地也是該領域的重點問題。

是新的技術(shù)和生產(chǎn)工藝(例如,早期的汽車)通過被應用和被應用而獲得改善,之后在獲得進一步的應用和采用,進而創(chuàng)造出正反饋或者收益遞增的效用。——《技術(shù)的本質(zhì)》,布萊恩·阿瑟

上篇我們講到了AIoT并非泛泛而談的口號,他是有自身的用戶價值和商業(yè)價值邏輯。從這篇開始我們要講講在AIoT用到的主要技術(shù),也是我入門(keng)以來的梳理和沉淀,若有問題也歡迎交流。

我認識在AI領域這樣強技術(shù)領域,了解其技術(shù)原理和技術(shù)邊界,結(jié)合市場需求,才能更高效地輸出產(chǎn)品服務。

本篇文章核心內(nèi)容有以下幾點:

首先,我們先從AIoT的產(chǎn)業(yè)鏈入手,從宏觀維度對整個AIoT產(chǎn)業(yè)有個宏觀認知;

其次,這篇文章會先聚焦于語音技術(shù)在AIoT領域的技術(shù)原理和落地產(chǎn)品服務方法。

其余幾大個技術(shù)模塊我們會在后續(xù)的文章中陸續(xù)更新。

一、AIoT產(chǎn)業(yè)鏈

AIoT產(chǎn)業(yè)鏈主要包括以下幾個部分:

上游:硬件芯片廠商、通信模塊等;軟件:AI技術(shù)、IoT技術(shù)

中游:操作系統(tǒng)、App、云端服務

下游:渠道(線上 / 線下)

AIoT產(chǎn)業(yè)鏈

從上圖我們可以大致了解整個AIoT產(chǎn)業(yè)全貌,是一個軟硬通吃,涉及模塊最全的行業(yè)。所以作為產(chǎn)品經(jīng)理,在這個領域,有很大的發(fā)揮空間。

二、AIoT產(chǎn)品都做些什么

不同類型的AIoT產(chǎn)品對技術(shù)理解要求不同,如阿里云IoT、騰訊云IoT其業(yè)務目標是要做生態(tài),做水電煤,主打PaaS層的輸出,直接服務開發(fā)者,所以這對產(chǎn)品的技術(shù)能力要求就非常高,一般得有幾年相關(guān)開發(fā)經(jīng)驗。

而做前端交互體驗的,跟用戶直接接觸的體驗層產(chǎn)品對技術(shù)要求就不那么高了,結(jié)合產(chǎn)業(yè)鏈越往下游對產(chǎn)品對技術(shù)要求越低。結(jié)合上面的產(chǎn)業(yè)鏈結(jié)構(gòu)圖可以分為三大塊:

硬件產(chǎn)品:為整個終端硬件體驗負責。需要從硬件定義、設計到最后的量產(chǎn)全鏈路環(huán)節(jié)都有深入理解,這塊在這兒不展開說,后續(xù)講到硬件產(chǎn)品再深入聊;

軟件產(chǎn)品:為整個IoT軟件服務體驗負責。這個是個大模塊,再往細的分有 App產(chǎn)品、系統(tǒng)產(chǎn)品、IoT平臺產(chǎn)品,如果還有線上渠道,那還有電商產(chǎn)品等;

AI算法產(chǎn)品:為整個AI體驗負責。按照技術(shù)鏈路還可以細分為聲學前端產(chǎn)品、ASR產(chǎn)品、NLP產(chǎn)品、TTS產(chǎn)品。關(guān)于這塊的技術(shù),下面我們具體展開來說。

AIoT產(chǎn)品職能與產(chǎn)業(yè)鏈關(guān)系圖

三、AIoT之語音技術(shù)

對于產(chǎn)品經(jīng)理來說,了解語音技術(shù)主要的技術(shù)點,可以:

快速收斂問題,幫助開發(fā)提高定位和修改問題效率;

輸出穩(wěn)定產(chǎn)品,了解技術(shù)原理和邊界,才能快速輸出穩(wěn)定的產(chǎn)品服務。這個無論對于C端用戶或B端客戶來說都是最基本的需求。

我們這里以用戶使用語音中控設備控制燈為例(詳情可見以下流程圖):

語音控制智能家居流程圖

用戶發(fā)出「打開燈」指令,則會經(jīng)過以下幾個步驟:

第一步 拾音

根據(jù)使用場景也分為近場拾音(一般3m以內(nèi))和 遠場拾音(一般3-5m)。這一部分在技術(shù)上稱為聲學前端。

主要原理是通過單mic或mic陣列能準確獲取到用戶語音信息,為下一步ASR(語音識別)做準備,主要包括以下幾個技術(shù)點(但不限于,整個鏈路涉及到很多技術(shù)環(huán)節(jié),下面主要將跟產(chǎn)品體驗比較相關(guān)的主要技術(shù)點抽離出來):

VAD(Voice Activity Detection),語音活性檢測。使用音頻特征等進行分析,確定聲音的開始與結(jié)束點。對于產(chǎn)品來說經(jīng)常會遇到某條指令沒有識別全,比如「打開燈」只識別到了「打」導致最后沒有命中相應技能,無法完成用戶意圖,這時候可能就是VAD異常截斷問題;

AEC(Acoustic Echo Cancellation),回聲消除。如果當前設備在用mic拾音的同時又在播放音樂等音頻內(nèi)容,那mic會將這設備播放出去的聲音再重拾回來,避免再播放出去有回音。對于產(chǎn)品來說這是考核一個有待音頻播放功能的智能語音設備必然考核的體驗點,比如播放音樂時經(jīng)常有回音問題,那可能是AEC算法沒做好;

BF(Beam Forming),波速成形。用于將單個方向的語音進行增強,削弱無關(guān)的聲音,使得聲音聽起來更加干凈。對于產(chǎn)品來說這個是在嘈雜環(huán)境下提高識別的核心技術(shù)點,如果嘈雜環(huán)境里你的產(chǎn)品識別差,可以從這個點入手看看。

第二步 ASR(Automatic Speech Recognition)

這一步主要是將前端拾音的語音信息轉(zhuǎn)化成文本信息,將處理的文本信息丟給下一步NLP(自然語言處理)來做處理。主要考核指標識別率和誤喚醒等。關(guān)于這點hanniman老師有做比較深入的講解,這里就不多做說明。

第三步 NLP(Natural Language Processing)

自然語言處理的目的是主要是將文本信息轉(zhuǎn)化成機器語言,明確用戶意圖,在為下一步,觸發(fā)用戶預期的意圖做準備。在產(chǎn)品運營側(cè)主要會分為下面幾個部分:

Domain,即所屬領域,如 音樂、智能家居分別都算是一個領域。領域相當于類別,比如我想創(chuàng)景一個電視控制技能,就先創(chuàng)建一個電視的Domain;

Intent,即意圖,用戶想要讓機器做的事情。如 以本章節(jié)「打開燈」這個例子為例,「打開燈」即為用戶的行為意圖,但同樣一個控制意圖可能有不同的說法,比如「打開燈」可以說「把燈打開」或「燈被打開」這時需引入一個東西叫Pattern,他是來解決不同說法或句式的問題,產(chǎn)品運營人員可以配置幾個常用的句式或說法,然后通過算法進行枚舉和泛化;

Slot,即詞槽,在本例中,「打開」和「燈」都是詞槽。

第四步 平臺轉(zhuǎn)發(fā)

語音廠商IoT平臺→廠商IoT平臺→廠商設備。因為智能家居領域較為特殊,從用戶維度來看,一個用戶可能會有各種不同品牌的智能家居設備;而從市場維度來看,目前智能家居市場品類繁多,碎片化嚴重。

以天貓精靈為例,目前已接入了600+品牌。單純用技能方式對接,不利于廠商運營管理和用戶端體驗。所以大部分語音廠商還會針對智能家居做一個管理平臺。

經(jīng)過上一步NLP的處理信息傳給語音廠商的IoT平臺,語音廠商的IoT平臺會根據(jù)用戶已經(jīng)綁定智能家居品牌和設備能力,在將這些信息傳給相應的三方廠商IoT平臺,最終將控制信息下達給相應的控制設備,完成整個控制鏈路。

第五步 TTS(Text To Speech)

顧名思義是將文本轉(zhuǎn)成語音,如果你的中控設備帶有Speaker,當整個控制鏈路完成后,可以播報一個結(jié)果語音來提升整個產(chǎn)品體驗,完成體驗閉環(huán)。

四、語音技術(shù)*AIoT

以上各項技術(shù)以排列組合的方式我們很容易算出可以提供給客戶25種不同產(chǎn)品技術(shù)方案,而對于C端用戶產(chǎn)品服務也不計其數(shù)。但對于目前很多公司最大的問題在于:如何在于這「汪洋大?!怪姓业阶约旱囊黄欤ň瓦B空調(diào)都集成語音能力了,很多人都無法理解)。

以下談談我對語音技術(shù)之于AIoT落地的看法(以下方法對C和B端同樣適用):

首先,效率,萬事以高效為先。一切新產(chǎn)品或新技術(shù)的應用的第一優(yōu)先考核指標在于相比原先的服務是否提高效率。什么是高效?高效即做同樣的事情誰花的時間最短。以「打開電視后我想看湖南衛(wèi)視」這個用戶場景為例,以下是三種不同類型的電視操作路徑對比:

傳統(tǒng)電視:遙控器的頻道鍵→左右鍵切換3-4頁數(shù)(除湖南本省外,其他外省可能把忽然衛(wèi)視放到3、4頁后)→上下鍵選擇到湖南衛(wèi)視→點擊確定。大概需要操作5-6步;

智能電視(不帶語音):我的應用→電視貓App→搜索湖南衛(wèi)視→點擊確定。大概要操作4步;

語音電視:一句話「xxx,我要看湖南衛(wèi)視」,甚至可以直接免喚醒詞。只要1步。

其次,成本,要考量在單位時間內(nèi)所消耗的能量和成本?;谏弦稽c「做同樣事情誰花的時間短」除了這一維度還不夠,因為速度快并不代表成本低,所以還要考量在單位時間內(nèi)所消耗的能量和成本。

比如,你花了20塊需要2小時,而花60塊錢只能算短到1.5個小時,明顯性價比不高。

以集成語音能力的智能空調(diào)為例。目前市面上此類空調(diào)價位在¥6999~¥9999之間,主打高端市場。而一個語音模組的價格在幾十塊左右,這個成本完全承擔得起,而且還提升了其議價空間。

而比如在小家電領域,客單價普遍比較低的領域,這個成本可能就有很大的成本壓力了。所以,目前語音模組更廣泛應用于大家電如 電視、空調(diào)等。所以除了用戶場景,成本維度也是重要的考慮因素;

最后,影響力,要考慮做這件事對外部的影響力。即你的產(chǎn)品與用戶/客戶的交互反饋,主要分為積極影響和消極影響:

積極影響力,比如,接近真人的TTS體驗,自然的人機對話體驗;

消極影響力,比如,前幾個月的Amazon的Echo鬼聲事件。

可以從定性(滿意度等)和定量(日活、留存等)角度來衡量,但為了方便下面延展,我們可以簡單的把積極影響力記為正數(shù),消極影響力記為負數(shù)。

AIoT產(chǎn)品服務公式

總結(jié):我把評判一個AIoT產(chǎn)品服務的好壞,結(jié)合三要素,總結(jié)為如圖所示公式:

AIoT產(chǎn)品服務=效率/成本*影響力

通過這個公式我們可以很容易得出:一款好的AIoT產(chǎn)品服務需要具備高效、低成本以及積極影響力,而且這個服務會隨著你的正向影響以乘法疊加的方式增長。

同理,我們也可以很快得到一個差的AIoT產(chǎn)品服務是由什么因素決定的。

為了方便大家理解,我們以上面提到的例子,目前空調(diào)集成語音能力這個是個好的AIoT產(chǎn)品服務嗎?

首先,語音控制相比空調(diào)的物理遙控器確實是更方便,假設切換到制冷模式,物理在初始狀態(tài)下要按兩下「模式」鍵,而語音只要一句話就能解決,效率提高50%;

其次,對于廠商來說,假設一個模組成本是¥50,目前帶語音能力的空調(diào)普遍售價在¥6999~¥¥9999之間,以6999的價格和35%的毛利率(目前幾家空調(diào)大廠毛利在這個水平,高端型號肯定毛利更高)來算差不多只占了1%的成本,完全cover的??;

再來,關(guān)于影響力,先不說語音控制在某些場景效率比遙控器高,用戶買了一個那么貴的空調(diào),還有語音能力(除了控制,還能問問天氣等),雖然可能平時基本不咋用,但是至少還有個炫耀的資本。比如,有客人來,可以很裝13地說「我這空調(diào)可以語音控制哦」,相比不帶語音功能的高端空調(diào),確實有一定的附加值。假設以-5~5來做滿意度打分,至少給個3分吧;

最后,通過公式我們可以算出整個空調(diào)集成語音能力的AIoT產(chǎn)品服務分數(shù)為150分。從這個維度來看,空調(diào)集成語音能力是有積極價值的。

五、小結(jié)

在《技術(shù)的本質(zhì)》中,作者 布萊恩·阿瑟(復雜性科學奠基人) 認為:

技術(shù),是新的技術(shù)和生產(chǎn)工藝(例如,早期的汽車)通過被應用和被應用而獲得改善,之后在獲得進一步的應用和采用,進而創(chuàng)造出正反饋或者收益遞增的效用。

目前AIoT行業(yè)還在早期階段,了解語音技術(shù)這個「新技術(shù)」可以使我們更加從容。祝各位同仁能用這個「新技術(shù)」創(chuàng)造出更多正反饋或者效益遞增的效用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音技術(shù)
    +關(guān)注

    關(guān)注

    2

    文章

    225

    瀏覽量

    21251
  • AIoT
    +關(guān)注

    關(guān)注

    8

    文章

    1350

    瀏覽量

    30383
收藏 人收藏

    評論

    相關(guān)推薦

    基于啟英泰倫語音芯片的語音AIoT應用方案,實現(xiàn)家居聯(lián)控

    啟英泰倫于CI-B03ST01S-BK模組,集成有本地語音芯片和WIFI芯片及天線,可以用于各種家電產(chǎn)品的語音AIoT控制方案。和目前市場上的其他產(chǎn)品相比,該應用方案具有如下特點:1、支持遠場遠距離
    發(fā)表于 11-10 17:06

    AIoT為什么是持續(xù)技術(shù)創(chuàng)新的必備要素?

    作者:Andrew Grant, Imagination Technologies人工智能資深總監(jiān) 隨著許多技術(shù)已經(jīng)在邊緣運行,我們開始看到人工智能(AI)和物聯(lián)網(wǎng)(IoT)的結(jié)合,即人工智能物聯(lián)網(wǎng)
    發(fā)表于 01-29 07:35

    前500名免費,潤和聯(lián)合華為云推出ModelBox AIoT應用開發(fā)訓練營

    自2017年開始,“AIoT”一詞便開始頻頻刷屏,成為物聯(lián)網(wǎng)的行業(yè)熱詞?!?b class='flag-5'>AIoT”即“AI+IoT”,指的是人工智能技術(shù)與物聯(lián)網(wǎng)在實際應用中的落地融合。當前,已經(jīng)有越來越多的人將AI
    發(fā)表于 10-11 15:02

    英碼科技精彩亮相火爆的IOTE 2023,多面賦能AIoT產(chǎn)業(yè)發(fā)展!

    產(chǎn)品,包括覆蓋多層次算力的智能工作站(邊緣計算盒子)、AI加速卡等;同時向大家展示自研的AI技術(shù)服務——“深元”0代碼移植工具鏈和創(chuàng)新性的行業(yè)解決方案,賦能更多AIoT產(chǎn)業(yè)生態(tài)企業(yè)快速具備AI能力
    發(fā)表于 09-25 10:03

    AIoT走向落地的關(guān)鍵

    要說2018年的科技界網(wǎng)紅,當是AIoT莫屬。一邊以騰訊、阿里為代表的傳統(tǒng)行業(yè)巨頭紛紛拿出重要資源高調(diào)投入AIoT的懷抱;一邊以涂鴉智能為代表AIoT的創(chuàng)新企業(yè),不僅逆勢成為資本市場的“香餑餑”,還迎來了公司體量上的爆發(fā)性增長。
    的頭像 發(fā)表于 02-19 13:44 ?3652次閱讀

    小米成立AIoT戰(zhàn)略委員會,5年100億All in AIoT落地

    委員會隸屬于集團技術(shù)委員會,負責促進 AIoT 相關(guān)業(yè)務和技術(shù)部門的協(xié)同,推動戰(zhàn)略落地執(zhí)行。 文件顯示,任命范典為 AIoT 戰(zhàn)略委員會主席
    發(fā)表于 03-26 14:28 ?314次閱讀

    AIOT行業(yè)未來會是怎樣的趨勢

    人工智能技術(shù)和物聯(lián)網(wǎng)技術(shù)的發(fā)展落地共同推動AIoT的發(fā)展和成熟。
    發(fā)表于 10-11 16:51 ?2307次閱讀

    AIOT技術(shù)在智慧社區(qū)落地難的原因是什么

    AIot技術(shù)逐漸滲透,促使智慧社建設需求發(fā)生很大變化。
    發(fā)表于 10-29 16:52 ?1057次閱讀

    智能語音產(chǎn)業(yè)需要什么技術(shù)的推動

    AIoT領域,一項重要的核心技術(shù)就是智能語音,對IoT設備影響最大的產(chǎn)品是智能語音,智能語音助手將對IoT設備帶來巨大的
    發(fā)表于 12-26 11:33 ?837次閱讀

    聲音前處理技術(shù)將推動智能語音產(chǎn)業(yè)的發(fā)展

    AIoT領域,一項重要的核心技術(shù)就是智能語音,對IoT設備影響最大的產(chǎn)品是智能語音,智能語音助手將對IoT設備帶來巨大的
    發(fā)表于 12-30 11:30 ?884次閱讀

    云知聲最佳AIoT語音賦能解決方案破解AIoT之困

    近日,雷鋒網(wǎng)發(fā)布《產(chǎn)業(yè)科技·最具商用價值榜》,云知聲榮獲城市AIoT單元“最佳AIoT語音賦能解決方案”獎項。 “產(chǎn)業(yè)科技 · 最具商用價值榜”前身為“AI最佳成長榜”,于2017年正式發(fā)起,已歷經(jīng)
    的頭像 發(fā)表于 09-21 19:47 ?1217次閱讀

    智能語音落地燈:離線語音控制技術(shù)的優(yōu)勢與應用

    離線語音控制技術(shù)還使得智能語音落地燈的亮度可以自由調(diào)節(jié)。根據(jù)不同的場景和需求,用戶可以通過語音指令對燈的亮度進行調(diào)節(jié),從完全關(guān)閉到最亮,隨時
    的頭像 發(fā)表于 07-13 15:55 ?837次閱讀
    智能<b class='flag-5'>語音</b><b class='flag-5'>落地</b>燈:離線<b class='flag-5'>語音</b>控制<b class='flag-5'>技術(shù)</b>的優(yōu)勢與應用

    離線語音落地燈帶來智能化

    通過離線語音技術(shù)的應用,用戶只需要通過簡單的語音指令,就可以輕松地控制落地燈的開關(guān)、亮度調(diào)節(jié)以及顏色變換等功能
    的頭像 發(fā)表于 08-28 15:43 ?594次閱讀
    離線<b class='flag-5'>語音</b>給<b class='flag-5'>落地</b>燈帶來智能化

    廣和通攜手多家AIoT產(chǎn)業(yè)伙伴推動5G RedCap落地部署

    在世界移動通信大會2024期間,廣和通宣布與亞旭電腦、廣達電腦、普萊德科技等業(yè)界領先的AIoT產(chǎn)業(yè)伙伴展開緊密合作,共同推進RedCap終端的落地部署。這一舉措旨在加速5G技術(shù)在物聯(lián)網(wǎng)領域的應用,為
    的頭像 發(fā)表于 02-27 09:42 ?461次閱讀

    AIOT是什么意思?AIOT的應用場景和作用

    準的決策和更自動化的操作。 AIoT的核心理念是將AI技術(shù)應用于物聯(lián)網(wǎng)設備和系統(tǒng)中,使其具備感知、學習、推理和決策等能力,從而實現(xiàn)更加智能化的服務和應用場景。 AIoT的應用場景 1. 智能家居:通過
    的頭像 發(fā)表于 07-12 15:48 ?328次閱讀
    <b class='flag-5'>AIOT</b>是什么意思?<b class='flag-5'>AIOT</b>的應用場景和作用