作者:Sebastien Christian
簡介
任何深諳設(shè)備維護必要性的人都知道,設(shè)備發(fā)出的聲音和振動有多重要。通過聲音和振動進(jìn)行適當(dāng)?shù)脑O(shè)備健康監(jiān)測,可以將維護成本降低一半,使用壽命延長一倍。實現(xiàn)實時聲學(xué)數(shù)據(jù)和分析是另一種重要的基于狀態(tài)的系統(tǒng)監(jiān)測 (CbM) 方法。
我們可以學(xué)著了解設(shè)備發(fā)出的正常聲音是什么樣的。當(dāng)聲音出現(xiàn)變化時,我們可以確認(rèn)出現(xiàn)異常。然后我們可以了解是什么問題,通過這樣的方式把聲音和特定的問題聯(lián)系在一起。識別異常可能需要進(jìn)行幾分鐘的訓(xùn)練,但將聲音、振動和原因結(jié)合起來實施診斷可能需要一輩子的時間。經(jīng)驗豐富的技工人員和工程師可能具備這種知識,但他們屬于稀缺資源。單單通過聲音本身識別問題可能相當(dāng)困難,即使使用錄音、描述性框架或接受專家親自培訓(xùn)也是如此。
因此,ADI 公司團隊在過去 20 年里一直致力于理解人類是如何解讀聲音和振動的。我們的目標(biāo)是建立一個系統(tǒng),能夠?qū)W習(xí)來自設(shè)備的聲音和振動,破譯它們的含義,以檢測異常行為,并進(jìn)行診斷。本文詳細(xì)介紹了 OtoSense 的體系結(jié)構(gòu),它是一種設(shè)備健康監(jiān)測系統(tǒng),支持我們所說的計算機聽覺,讓計算機能夠理解設(shè)備行為的主要指標(biāo):聲音和振動。
該系統(tǒng)適用于任何設(shè)備,可以實時工作,無需網(wǎng)絡(luò)連接。它已被應(yīng)用于工業(yè)應(yīng)用,支持實現(xiàn)一個可擴展的高效設(shè)備健康監(jiān)測系統(tǒng)。
本文探討了引導(dǎo) 開發(fā)OtoSense 的原則,以及在設(shè)計 OtoSense 期間,人類聽覺所發(fā)揮的作用。然后,本文討論了聲音或振動特性的是如何被設(shè)計出來的、如何從這些特性了解其代表的意義,以及在持續(xù)學(xué)習(xí)中如何不斷改變和改進(jìn) OtoSense,用于執(zhí)行愈加復(fù)雜的診斷,且結(jié)果更為精準(zhǔn)。
指導(dǎo)原則
為了保證耐用、不可知且高效,OtoSense 設(shè)計理念秉持幾個指導(dǎo)原則:
- 從人類神經(jīng)學(xué)中獲得靈感。人類可以以一種非常節(jié)能的方式學(xué)習(xí)和理解他們聽到的任何聲音。
- 能夠?qū)W習(xí)靜態(tài)聲音和瞬態(tài)聲音。這需要不斷調(diào)整功能和持續(xù)實施監(jiān)測。
- 在靠近傳感器的終端進(jìn)行識別。應(yīng)該無需通過網(wǎng)絡(luò)連接遠(yuǎn)程服務(wù)器來做出決策。
- 與專家互動,向他們學(xué)習(xí),前提是盡可能避免干擾他們的日常工作,且過程要盡可能愉悅。
人類聽覺系統(tǒng)和對 OtoSense 的解析
聽覺是一種關(guān)乎生存的感覺。它是對遙遠(yuǎn)的、看不見的事件的整體感覺,在出生前就已成熟。
人類感知聲音的過程可以用四個熟悉的步驟來描述:聲音的模擬獲取、數(shù)字轉(zhuǎn)換、特征提取和解讀。在每個步驟中,我們都會將人耳與 OtoSense 系統(tǒng)比較。
- 模擬獲取和數(shù)字化。中耳中的膜和杠桿捕捉聲音,然后調(diào)整阻抗,將振動傳輸?shù)匠湟呵坏乐?,在那里,另一層膜會根?jù)信號中存在的光譜成分選擇性地移位。這反過來彎曲了彈性單元,這些單元發(fā)出數(shù)字信號,反映出彎曲程度和強度。然后,這些單獨的信號通過按頻率排列的平行神經(jīng)傳遞到初級聽覺皮層。
在 OtoSense 中,這項工作由傳感器、放大器和編解碼器來完成。數(shù)字化過程使用固定的采樣速率,可在 250 Hz 和 196 kHz 之間調(diào)節(jié),波形在 16 位編碼,然后存儲到大小在 128 到 4096 之間的緩沖區(qū)。
- 特性提取發(fā)生在初級皮層:頻率域特性,如主頻率、諧波和頻譜形狀,以及時間域特性,如脈沖、強度變化和在大約 3 秒時間窗內(nèi)的主要頻率成分。
?OtoSense 使用一個時間窗,我們稱之為“塊”,它以固定的步長移動。這個塊的大小和步長范圍為 23 毫秒到 3 秒,具體由需要識別的事件和在終端提取特性的采樣率決定。在下一節(jié)中,我們會就 OtoSense 提取的特性進(jìn)行更詳細(xì)地解釋。
- 解析發(fā)生在聯(lián)絡(luò)皮層,它融合了所有的感知和記憶,并賦予聲音以含義(比如通過語言),在塑造感知期間起著核心作用。解析過程會組織我們對事件的描述,遠(yuǎn)遠(yuǎn)不止是對它們進(jìn)行命名這么簡單。為一個項目、一個聲音或一個事件命名可以讓我們賦予它更大、更多層的含義。對于專家來說,名字和含義能讓他們更好地理解周圍的環(huán)境。
這就是為什么 OtoSense 與人的互動始于基于人類神經(jīng)學(xué)的視覺、無監(jiān)督的聲音映射。OtoSense 利用圖形表示所有聽到的聲音或振動,它們按相似性排列,但不嘗試創(chuàng)建固定分類。這讓專家們能夠組織屏幕上顯示的組,并為它們命名,而無需嘗試人為創(chuàng)建有界線的類別。他們可以根據(jù)自身的知識、感知和對 OtoSense 最終輸出的期望構(gòu)建語義地圖。對于同樣的音景,汽車機械師、航空工程師,或者冷鍛壓力機專家,甚至是研究相同領(lǐng)域,但來自不同公司的人員,都可以按不同的方式進(jìn)行劃分、組織和標(biāo)記。OtoSense 則與塑造語言意義一樣,使用相同的自下而上的方法來給定意義。
從聲音和振動到特性
經(jīng)過一段時間(如之前所示,時間窗或塊),我們會給某個特征分配一個單獨的編號,用于描述該時間內(nèi)聲音或振動的給定屬性/質(zhì)量。OtoSense 平臺選擇特性的原則如下:
- 對于頻率域和時域,特征都應(yīng)該盡可能完整地描述環(huán)境,提供盡可能多的細(xì)節(jié)。它們必須描述靜止的嗡嗡聲,以及咔噠聲、嘩啦聲、吱吱聲和任何瞬間變化的聲音。
- 特征應(yīng)盡可能按正交方式構(gòu)成一個集合。如果一個特征被定義為“塊上的平均振幅”,那么就不應(yīng)該有另一個特征與之高度相關(guān),例如“塊上的總光譜能量”。當(dāng)然,正交性可能永遠(yuǎn)無法實現(xiàn),但不應(yīng)將任何一種表述為其他特征的組合,每種特征都必須包含單一信息。
- 特性應(yīng)該最小化計算量。我們的大腦只知道加法、比較和重置為 0。大多數(shù) OtoSense 特性都被設(shè)計成增量,這樣每個新示例都可以通過簡單的操作修改特性,而不需要在完整的緩沖區(qū),或者更為糟糕的,在塊上重新進(jìn)行計算。最小化計算量還意味著可以忽略標(biāo)準(zhǔn)物理單元。例如,嘗試用值(以 dBA 為單位)表示強度是沒有意義的。如果需要輸出 dBA 值,則可以在輸出時完成(如果必要)。
在 OtoSense 平臺的 2 到 1024 個特性中,有一部分描述了時域。它們要么是直接從波形中提取,要么是從塊上任何其他特性的演化中提取。在這些特性中,有些包括平均振幅和最大振幅、由波形線性長度得到的復(fù)雜度、振幅變化、脈沖的存在與否和其特性、第一個和最后一個緩沖區(qū)之間相似性的穩(wěn)定性、卷積的超小型自相關(guān)或主要頻譜峰值的變化。
在頻域上使用的特性提取自 FFT。FFT 在每個緩沖區(qū)上計算,產(chǎn)生從 128 到 2048 個單獨頻率的輸出。然后,該過程創(chuàng)建一個具有所需維數(shù)的向量,該向量比 FFT 小得多,但仍能細(xì)致地描述環(huán)境。OtoSense 最初使用一種不可知的方法在對數(shù)頻譜上創(chuàng)建大小相同的數(shù)據(jù)桶。然后,根據(jù)環(huán)境和要識別的事件,這些數(shù)據(jù)桶將重點放在信息密度高的頻譜區(qū)域,要么是從能夠熵最大化的無監(jiān)督視角,要么是從使用標(biāo)記事件作為指導(dǎo)的半監(jiān)督視角來判斷。這模擬了我們的內(nèi)耳細(xì)胞結(jié)構(gòu),在語言信息密度最大的地方,語音細(xì)節(jié)更密集。
結(jié)構(gòu):支持終端和本地數(shù)據(jù)
OtoSense 在終端位置實施異常檢測和事件識別,無需使用任何遠(yuǎn)程設(shè)備。這種結(jié)構(gòu)確保系統(tǒng)不會受到網(wǎng)絡(luò)故障的影響,且無需將所有原始數(shù)據(jù)塊發(fā)送出去進(jìn)行分析。運行 OtoSense 的終端設(shè)備是一種自包含系統(tǒng),可以實時描述所鑒聽設(shè)備的行為。
圖1.OtoSense 系統(tǒng)。
運行 AI 和 HMI 的 OtoSense 服務(wù)器一般托管在本地。云架構(gòu)可以將多個有意義的數(shù)據(jù)流聚合成為 OtoSense 設(shè)備的輸出。對于一個專門處理大量數(shù)據(jù)并在一個站點上與數(shù)百臺設(shè)備交互的 AI 來說,使用云托管的意義不大。
從特性到異常檢測
正常/異常評估無需與專家進(jìn)行太多交互。專家只需要幫忙確定表示設(shè)備聲音和振動正常的基線。然后,在推送給設(shè)備之前,先將這個基線在 Otosense 服務(wù)器上轉(zhuǎn)換為異常模型。
然后,我們使用兩種不同的策略來評估傳入的聲音或振動是否正常:
- 第一種策略是我們所說的“常態(tài)性”,即檢查任何進(jìn)入特性空間的新聲音的周圍環(huán)境、它與基線點和集群的距離,以及這些集群的大小。距離越大,集群越小,新的聲音就越不尋常,異常值也就越高。當(dāng)這個異常值高于專家定義的閾值時,相應(yīng)的塊將被標(biāo)記為不尋常,并發(fā)送到服務(wù)器供專家查看。
- 第二種策略非常簡單:任何特性值高于或低于特性定義的基線的最大值或最小值的傳入塊都被標(biāo)記為“極端”,并發(fā)送到服務(wù)器。
異常和極端策略的組合很好地涵蓋了異常的聲音或振動,這些策略在檢測日漸磨損和殘酷的意外事件方面也表現(xiàn)出色。
從特征到事件識別
特征屬于物理領(lǐng)域,含義屬于人類認(rèn)知。要將特征與含義聯(lián)系起來,需要 OtoSense AI 和人類專家之間展開互動。我們花了大量時間研究客戶的反饋,開發(fā)出人機界面 (HMI),讓工程師能夠高效地與 OtoSense 交互,設(shè)計出事件識別模型。這個 HMI 允許探索數(shù)據(jù)、標(biāo)記數(shù)據(jù)、創(chuàng)建異常模型和聲音識別模型,并測試這些模型。
OtoSense So nd Platter(也稱為 splatter)允許通過完整概述數(shù)據(jù)集來探索和標(biāo)記聲音。Splatter 在完整的數(shù)據(jù)集中選擇最有趣和最具代表性的聲音,并將它們顯示為一個混合了標(biāo)記和未標(biāo)記聲音的 2D 相似性地圖。
圖2.OtoSense So nd Platter 中的 2D splatter 聲音地圖。
任何聲音或振動,包括其環(huán)境,都可以通過許多不同的方式進(jìn)行可視化——例如,使用 So nd Widget(也稱為 Swidget)。
圖3.OtoSense so nd widget (swidget)。
在任何時候,都可以創(chuàng)建異常模型或事件識別模型。事件識別模型是一個圓形的混淆矩陣,它允許 OtoSense 用戶探索混淆事件。
圖4.可以基于所需的事件創(chuàng)建事件識別模型。
異常可以通過一個顯示所有異常和極端聲音的界面進(jìn)行考察和標(biāo)記。
圖5.在 OtoSense 異??梢暬缑嬷?,聲音分析隨時間的變化。
持續(xù)學(xué)習(xí)過程——從異常檢測到日益復(fù)雜的診斷
OtoSense 的設(shè)計初衷是向多位專家學(xué)習(xí),并且隨著時間推移,進(jìn)行越來越復(fù)雜的診斷。常見過程是 OtoSense 和專家之間的循環(huán):
- 異常模型和事件識別模型都是在終端運行。這些模型為潛在事件發(fā)生的概率以及它們的異常值創(chuàng)建輸出。
- 超出定義閾值的異常聲音或振動會觸發(fā)異常通知。使用 OtoSense 的技術(shù)人員和工程師可以檢查該聲音和其前后聲音信息。
- 然后,這些專家會對這個異常事件進(jìn)行標(biāo)記。
- 對包含這些新信息的新識別模型和異常模型進(jìn)行計算,并推送給終端設(shè)備。
結(jié)論
ADI 公司提供的 OtoSense 技術(shù)旨在使聲音和振動專業(yè)知識在任何設(shè)備上都持續(xù)可用,且無需連接網(wǎng)絡(luò)來執(zhí)行異常檢測和事件識別。在航空航天、汽車和工業(yè)監(jiān)測應(yīng)用中,該技術(shù)被越來越多地用于設(shè)備健康監(jiān)測,這表示,在曾經(jīng)需要專業(yè)知識,以及涉及嵌入式應(yīng)用的場景中,尤其是對于復(fù)雜設(shè)備而言,該技術(shù)都表現(xiàn)出了不錯的性能。
Sebastien Chistian,“文字如何創(chuàng)造世界?!盩EDxCambridge,2014 年。
Sebastien Chistian [sebastien.christian@analog.com] 熱衷于了解人類如何運用感知來創(chuàng)建內(nèi)在可共享的世界模型,以及如何使用該模型來描述我們生活的世界。
Sebastian 獲得了量子物理學(xué)碩士學(xué)位,隨后獲得神經(jīng)科學(xué)碩士學(xué)位和語義學(xué)第三學(xué)位。他的教育結(jié)合了研究、開發(fā)和現(xiàn)場實驗。作為語言和語言病理學(xué)家,他與精神病和聾啞兒童在一起度過了 10 年時間,這加深了他對基于感覺的意義創(chuàng)造和分享的理解,并重點關(guān)注聽覺。Sebastien 說,他與同樣年輕的病人一起工作了多年,這種經(jīng)歷讓他將所有分散的知識整合成到一起,形成一個統(tǒng)一、連貫的畫面。
同一時期,Sebastien 成為法國衛(wèi)生部的專家并提出聽覺損失政策,此外,他還在巴黎索邦大學(xué)醫(yī)學(xué)院任教。2011 年,他創(chuàng)建了首個獨立的私人研發(fā)實驗室,致力于將受 AI 啟發(fā)的創(chuàng)新技術(shù)帶給存在感覺和認(rèn)知障礙的人。
2013 年,Sebastien 完成了自己的機器聽覺項目的完整原型,并因此獲得了在馬薩諸塞州劍橋市舉辦的 NETVA 科技競賽的冠軍。根據(jù)來自麻省理工學(xué)院 (MIT) 的同事和商界的積極反饋,他在 2014 年初創(chuàng)建了 OtoSense,并開發(fā)出首個專注于理解聲音的 AI。這個機器聽覺平臺能夠很好地適應(yīng)復(fù)雜的環(huán)境,進(jìn)行復(fù)雜的設(shè)備監(jiān)測。
在獲得了 2015 年 GSMA 全球移動大會上的年度最佳應(yīng)用獎等多個獎項之后,OtoSense 將側(cè)重點放在工業(yè)和交通垂直領(lǐng)域的設(shè)備監(jiān)測上,并且其未來潛在的應(yīng)用范圍將會越來越廣。
目前,Sebastien 就職于 ADI 公司,負(fù)責(zé) OtoSense 內(nèi)部產(chǎn)品開發(fā)。
《模擬對話》53-04,2019 年 4 月
此頁面預(yù)覽技術(shù)由永中DCS提供
評論
查看更多