世界上有各種各樣的殘障人士,這些人或不能說話,或聽不見聲音。聾人,是聽力因先天遺傳或后天人為因素而受損的殘疾人,也叫聽力障礙者,簡(jiǎn)稱聽障人。根據(jù)最近的全國(guó)人口普查統(tǒng)計(jì),全中國(guó)大約有2700多萬聽障人,包括弱聽、重聽、老化聾等。因?yàn)楦鞣N不方便讓其在這個(gè)世界上生活極為不方便。比如有人敲門,水龍頭忘關(guān)、孩子在臥室里啼哭,可是“聽障人”他們聽不見。利用人工智能,讓模型學(xué)習(xí)各種聲音,使用開源硬件-行空板采集聲音,通過物聯(lián)網(wǎng)將相應(yīng)文字信息發(fā)送給Arduino主板在顯示屏上顯示并利用燈光提醒,并且利用micro:bit制作的手表進(jìn)行文字、燈光加震動(dòng)提醒,讓“聽障人”看見、感觸到聲音。
聲音以音頻信號(hào)的形式表示,音頻信號(hào)具有頻率、帶寬、分貝等參數(shù),音頻信號(hào)一般可表示為振幅和時(shí)間的函數(shù)。這些聲音有多種格式,因此計(jì)算機(jī)可以對(duì)其進(jìn)行讀取和分析。例如:mp3 格式、WMA (Windows Media Audio) 格式、wav (Waveform Audio File) 格式。
【語譜圖】
語譜圖是二戰(zhàn)時(shí)期發(fā)明的一種語音頻譜圖,一般是通過處理接收的時(shí)域信號(hào)得到頻譜圖。
語譜圖是頻譜分析視圖,如果針對(duì)語音數(shù)據(jù)的話,叫語譜圖。語譜圖的橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語音數(shù)據(jù)能量。由于是采用二維平面表達(dá)三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點(diǎn)的語音能量越強(qiáng)。
語音的時(shí)域分析和頻域分析是語音分析的兩種重要方法,但是都存在著局限性。時(shí)域分析對(duì)語音信號(hào)的頻率特性沒有直觀的了解,頻域特性中又沒有語音信號(hào)隨時(shí)間的變化關(guān)系。而語譜圖綜合了時(shí)域和頻域的優(yōu)點(diǎn),明顯的顯示出了語音頻譜隨時(shí)間的變化情況、語譜圖的橫軸為時(shí)間,縱軸為頻率,任意給定頻率成分在給定時(shí)刻的強(qiáng)弱用顏色深淺來表示。顏色深的,頻譜值大,顏色淺的,頻譜值小。語譜圖上不同的黑白程度形成不同的紋路,稱之為聲紋,不同講話者的聲紋是不一樣的,可用作聲紋識(shí)別。
使用Librosa庫批量生成各類聲音的語譜圖,如敲門聲、水龍頭流水聲、嬰兒啼哭聲、警報(bào)聲等。Librosa是一個(gè)用于音頻、音樂分析、處理的python工具包,一些常見的時(shí)頻處理、特征提取、繪制聲音圖形等功能應(yīng)有盡有,功能十分強(qiáng)大。
【錄制音頻】
使用pyaudio庫這個(gè)可以進(jìn)行錄音,生成wav文件。PyAudio 提供了 PortAudio 的 Python 語言版本,這是一個(gè)跨平臺(tái)的音頻 I/O 庫,使用 PyAudio 你可以在 Python 程序中播放和錄制音頻。為PoTaTudio提供Python綁定,跨平臺(tái)音頻I/O庫。使用PyAudio,您可以輕松地使用Python在各種平臺(tái)上播放和錄制音頻。
【硬件制作過程】
一、行空板主控
按鈕接行空板引腳21(用于關(guān)閉提醒),LED燈接引腳22(用于亮燈提醒)。
二、“掌控板”手表
將震動(dòng)馬達(dá)接“掌控寶”的M2接口,并粘在表帶上。當(dāng)掌控板收到信息后,啟動(dòng)震動(dòng)馬達(dá)開始震動(dòng),提醒“聽障人”查看屏幕提示信息。
【訓(xùn)練模型】
將圖片上傳到“英艻AI訓(xùn)練平臺(tái)”進(jìn)行模型訓(xùn)練。類型有[size=18.6667px]“background”[size=18.6667px]、“door”、“water”。
【行空板推理】
下載模型,放到行空板程序相應(yīng)目錄。
利用行空板板載麥克風(fēng)采集聲音,利用matplotlib變換成圖片,使用keras加載訓(xùn)練好的模型“keras_model.h5”,進(jìn)行預(yù)測(cè)出聲音類型。點(diǎn)亮LED燈并通過物聯(lián)網(wǎng)發(fā)送相關(guān)信息指令。
【掌控板手表程序】
通過物聯(lián)網(wǎng)接收行空板傳來的指令,屏幕顯示相應(yīng)信息,板載LED燈循環(huán)閃爍,并驅(qū)動(dòng)馬達(dá)震動(dòng)。
通過利用人工智能和物聯(lián)網(wǎng)技術(shù),我們可以為聽障人士創(chuàng)造一個(gè)更加便利和包容的世界。通過讓模型學(xué)習(xí)各種聲音,并使用開源硬件采集聲音,我們可以通過文字信息、顯示屏、燈光和震動(dòng)等方式,讓聽障人士能夠看見、感受到聲音的存在。這種技術(shù)的應(yīng)用,不僅可以幫助聽障人士更好地融入社會(huì)和生活,還能提高他們的生活質(zhì)量和安全感。
關(guān)于行空板—“AI助聽器”項(xiàng)目的詳細(xì)實(shí)現(xiàn)過程,請(qǐng)?jiān)L問DF創(chuàng)客社區(qū)了解更多。
上海智位機(jī)器人
上海智位機(jī)器人成立于2010年,是全球領(lǐng)先的從事開源硬件、機(jī)器人產(chǎn)品和科創(chuàng)教育的高科技企業(yè),打造了DFRobot、蘑菇云科創(chuàng)教育等品牌,是國(guó)內(nèi)最早的創(chuàng)客理念引入者和倡導(dǎo)者,創(chuàng)客教育的開拓者和引領(lǐng)者。旗下?lián)碛兄袊?guó)最大的線上DF創(chuàng)客社區(qū)和國(guó)家級(jí)創(chuàng)客空間——蘑菇云創(chuàng)客空間,提供豐富的線上和線下學(xué)習(xí)資源,構(gòu)建了一個(gè)自由、開放和富于創(chuàng)造力的交流空間。其Gravity產(chǎn)品已被全球超過100萬開發(fā)者選用。合作伙伴包括微軟、英特爾、Autodesk、霍尼韋爾、NASA、MIT等知名廠商和機(jī)構(gòu)。
審核編輯 黃宇
-
助聽器
+關(guān)注
關(guān)注
18文章
167瀏覽量
40318 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
模型
+關(guān)注
關(guān)注
1文章
3112瀏覽量
48660
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論