1、聲音是一種波,能被人耳聽(tīng)到,它的振動(dòng)頻率在20~20000Hz之間。
2、語(yǔ)音產(chǎn)生的過(guò)程
語(yǔ)音的形成過(guò)程:空氣由肺部排入喉部,經(jīng)過(guò)聲帶進(jìn)入聲道,最后由嘴輻射出聲波,形成語(yǔ)音。
3、聲音的分類(概念:理解+記憶)
濁音:聲帶繃緊,氣流通過(guò)時(shí)會(huì)使得開(kāi)口變成一開(kāi)一閉的周期性動(dòng)作,造成周期性的激發(fā)氣流,如a,o;
(由聲帶震動(dòng)產(chǎn)生的音),包括所有的元音和一些輔音。
清音:聲帶完全舒展,聲道某部位收縮形成一個(gè)狹窄的通道,產(chǎn)生空氣湍流,如t,d;
(不由聲帶震動(dòng)產(chǎn)生的音)
爆破音:聲帶完全舒展,聲道的某部位完全閉合,一旦閉合點(diǎn)突然開(kāi)啟,空氣壓力快速釋放,如b,p。
4、語(yǔ)音的兩個(gè)重要聲學(xué)特性——基音頻率和共振峰(記憶)
基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力決定,其值等于聲帶張開(kāi)和閉合一次的時(shí)間的倒數(shù)(此處去掉就是基音周期的定義)。人類基音頻率的范圍在80~500Hz左右。
共振峰(Fn,n=1,2,...):聲道是一個(gè)諧振腔,它放大聲音氣流的某些頻率分量而衰減其他頻率分量,被放大的頻率我們稱之為共振峰或共振峰頻率。
5、共振峰特性:(理解)
共振峰是聲道的重要聲學(xué)特性。聲道對(duì)于一個(gè)激勵(lì)信號(hào)的響應(yīng),可以用一個(gè)含有多對(duì)極點(diǎn)的線性系統(tǒng)來(lái)近似描述。每對(duì)極點(diǎn)都對(duì)應(yīng)一個(gè)共振峰頻率。這個(gè)線性系統(tǒng)的頻率響應(yīng)特性稱為共振峰特性,它決定信號(hào)頻譜的總輪廓,或稱譜包絡(luò)。
語(yǔ)音的頻率特性主要是由共振峰決定的。而聲道的共振峰特性決定所發(fā)聲音的頻譜特性,即音色。
元音的音色和區(qū)別特征主要取決于聲道的共振峰特性。共振峰特性可以從語(yǔ)音信號(hào)頻譜分析得到的幅頻特性觀察到。
6、完整的語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型:(會(huì)畫圖+解釋各部分模型原理特點(diǎn))
我們可將語(yǔ)音信號(hào)看成準(zhǔn)周期序列或隨機(jī)噪聲序列作為激勵(lì)的線性非移變系統(tǒng)的輸出,此模型可分為三個(gè)部分:激勵(lì)模型、聲道模型、輻射模型
語(yǔ)音信號(hào)完整的數(shù)字模型(重點(diǎn))
一、激勵(lì)模型
a.濁音激勵(lì):氣流在通過(guò)繃緊聲帶時(shí),沖激聲帶產(chǎn)生振動(dòng),使聲門處形成周期性的脈沖串,并用它去激勵(lì)聲道。
由于脈沖串類似于斜三角形的脈沖,故以基音周期為周期的單位取樣序列串作為激勵(lì)
b.清音激勵(lì):聲帶松弛而不振動(dòng),氣流通過(guò)聲門直接進(jìn)入聲道。
由于發(fā)清音時(shí),聲道被阻礙形成湍流,可將激勵(lì)模擬成隨機(jī)白噪聲
二、聲道模型
a.聲管模型:將聲道視為由多個(gè)不同截面積的管子串聯(lián)而成的系統(tǒng)
b.共振峰模型:聲道視為一個(gè)諧振腔,共振峰就是這個(gè)腔體的諧振頻率
級(jí)聯(lián)型
適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器,用一個(gè)全極點(diǎn)模型
并聯(lián)型
適用于非一般元音及大部分輔音,發(fā)這些音時(shí)發(fā)音腔體具有反諧振特性,必須在模型中加入零點(diǎn)以減弱諧
振強(qiáng)度,故要考慮用零極點(diǎn)模型
混合型
我們可以根據(jù)發(fā)音的需要自動(dòng)切換串聯(lián)或并聯(lián)通路,此外并聯(lián)部分還有一條直通路徑,其幅度控制因子為AB
這是專為一些頻譜特性較為平坦的音素如[f]、[p]、[b]而考慮的,以增強(qiáng)反諧振特性
三、輻射模型
在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來(lái)到達(dá)聽(tīng)者耳朵的這段過(guò)程,聲音信號(hào)會(huì)衰減,而且有高通濾波的特性
常用一個(gè)一階的數(shù)字高通濾波器來(lái)模擬
模型總結(jié):
1. 此模型并非最完備的模型,因?yàn)樗鼘?duì)一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種激勵(lì),而不是簡(jiǎn)單的疊加關(guān)系,對(duì)這些音我們可用更精確的模型來(lái)模擬。
2. 語(yǔ)音產(chǎn)生的數(shù)字模型中增益控制(對(duì)Av或AN)代表了輸出語(yǔ)音的音響強(qiáng)度;
時(shí)變線性系統(tǒng)主要用來(lái)模擬聲道的特性;
3.數(shù)字語(yǔ)音處理中兩個(gè)基本問(wèn)題,即語(yǔ)音分析和語(yǔ)音合成,都是基于這個(gè)模型來(lái)實(shí)現(xiàn)的;
4.此數(shù)字模型的特點(diǎn):
系統(tǒng)參數(shù)固定不變——短時(shí)分析;
全極點(diǎn)性質(zhì)——零點(diǎn)可由多個(gè)極點(diǎn)逼近;
激勵(lì)源和聲道互相獨(dú)立——適用于大多數(shù)數(shù)字語(yǔ)音處理。
7、窄頻帶、寬頻帶語(yǔ)譜圖定義、特點(diǎn)(深刻理解)
語(yǔ)譜圖:即語(yǔ)音信號(hào)的頻譜圖,語(yǔ)譜圖的橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率
窄頻帶語(yǔ)譜圖:語(yǔ)譜圖的產(chǎn)生是用傅里葉轉(zhuǎn)換,當(dāng)我們用較長(zhǎng)的分析窗口(約20ms,對(duì)應(yīng)頻寬約為45Hz)時(shí),得到的頻率分辨率較高,頻譜上可以看到諧振的成分。在語(yǔ)譜圖上呈現(xiàn)等距的黑白相間橫線條,其間距就是基頻(F0)。
寬頻帶語(yǔ)譜圖:若是在轉(zhuǎn)換演算時(shí)用較少的取樣點(diǎn)(分析窗口大約3ms,對(duì)應(yīng)頻寬約300Hz)則頻譜上看不到諧振成分,在語(yǔ)譜圖上看不到等距的黑白相間。頻率分辨率較低,反而是時(shí)軸上的分辨率較高,看到明顯的垂直線條。
共振峰:
在頻域上,能量集中處就是共振峰之所在,在語(yǔ)譜圖上就是顏色較深的位置。
在發(fā)元音時(shí),音強(qiáng)較大,聲帶振動(dòng)而呈現(xiàn)出基頻及其諧振頻率,也可以明顯看到共振峰,能量集中在低頻。
如果是發(fā)輔音,而且聲帶不振動(dòng),就看不到諧振頻率。通常輔音的音強(qiáng)小,顏色看來(lái)就比較淡,而且能量較集中在高頻。
若是在沒(méi)有語(yǔ)音的空檔,則語(yǔ)譜圖上呈現(xiàn)的,就是有一段空白。
-
語(yǔ)音信號(hào)處理
+關(guān)注
關(guān)注
1文章
8瀏覽量
9228
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論