售前電話
135-3656-7657
售前電話 : 135-3656-7657
參數(shù)編碼特又稱聲碼器(Vocoder),它的原理和設(shè)計(jì)思想和波形編碼完全不同。波形編碼的基本思路是忠實(shí)地再現(xiàn)話音的時(shí)域波形,為了降低比特率,可以充分利用相鄰抽樣點(diǎn)之間的信息冗余性,對(duì)差分信號(hào)進(jìn)行編碼,在不影響話音質(zhì)量的前提下,比特率可降至32kbit/s。在話務(wù)過(guò)載的情況下,還可降質(zhì)使用24或16khit/s編碼,但要進(jìn)一步降低比特率就有困難了。
參數(shù)編碼根據(jù)對(duì)聲音形成機(jī)理的分析,著眼于構(gòu)造話音生成模型,該模型以一定精度模擬發(fā)話者的發(fā)聲聲道,接收端根據(jù)該模型還原生成發(fā)話者的音素,在頻域上該模型就對(duì)應(yīng)為具有一定零極點(diǎn)分布的數(shù)字濾波器。編碼器發(fā)送的主要信息就是該模型的參數(shù),相當(dāng)于話音的主要特征,而并非具體的話音波形幅值。而且由于話音信號(hào)變化是緩慢的,一個(gè)音素要持續(xù)相當(dāng)長(zhǎng)一段時(shí)間(相對(duì)于抽樣周期而言),因此模型參數(shù)的更新頻度較低,不但可以利用抽樣值間的相關(guān)性,還可以充分利用幀與幀之間的信息冗余性以及更長(zhǎng)時(shí)間段中的音源信息冗余性,有效地降低編碼比特率。因此,目前小于16kbit/s的低比特率話音編碼都采用參數(shù)編碼。它在移動(dòng)通信、多媒體通信和IP網(wǎng)絡(luò)電話應(yīng)用中起到重要的作用。
需要指出的是,雖然參數(shù)編碼和波形編碼的原理完全不同,但是歸根結(jié)底信息都取自于對(duì)抽樣值的分析計(jì)算,為了去除冗余信息都需對(duì)差分信號(hào)(或稱殘差信號(hào))進(jìn)行處理,因此在技術(shù)上兩者并無(wú)明顯的界線,許多技術(shù),如線性預(yù)測(cè)、自適應(yīng)預(yù)測(cè)、矢量量化等既可用于參數(shù)編碼,也可用于波形編碼。
不難理解,為了掌握參數(shù)編碼原理,首先必需懂得話音特征分析和聲音形成機(jī)理。
聲音形成機(jī)理
話音形成的大致過(guò)程可由圖3.8表示:
從肺部壓出的空氣由氣管到達(dá)聲門(mén),氣流流經(jīng)聲門(mén)時(shí)形成聲音,然后再經(jīng)咽腔,由口腔或鼻腔送出。其中咽腔和口腔、鼻腔構(gòu)成由多節(jié)聲管組成的聲道,當(dāng)腔體呈不同形狀,舌、齒、唇等處于不同位置時(shí),相當(dāng)于形成一個(gè)具有不同零極點(diǎn)分布的濾波器,氣流通過(guò)該濾波器后產(chǎn)生相應(yīng)的頻響輸出,從而發(fā)出不同的音素。
音素可分為兩類。伴有聲帶振動(dòng)的音稱為濁音(VoicedSound),它包括元音、濁輔音、半元音和鼻音。聲帶不振動(dòng)的音稱為清音(unvoicedsound),包括清輔音和氣音。由于聲帶振動(dòng)有不同的頻率,因此濁音就有不同的音調(diào),稱之為基音頻率。男性基音頻率范圍一般為50-250Hz,女性基音頻率一般為100-500Hz。另外氣流壓出的不同強(qiáng)度就對(duì)應(yīng)為聲音的音量大小。
從頻域角度看,濁音氣流流經(jīng)聲道后,其幅頻特性在聲道的濾波作用下將呈現(xiàn)兩個(gè)顯著的特點(diǎn)。一是幅頻頻譜的包絡(luò)有幾個(gè)明顯的局部最大值,稱之為共振峰。在這些頻率點(diǎn)處,反射波相互迭加,聲波能量加強(qiáng)。二是頻譜的精細(xì)結(jié)構(gòu)呈現(xiàn)周期性,即每隔一定頻率間距出現(xiàn)一個(gè)峰值,該間距對(duì)應(yīng)的就是基音頻率。而且頻譜的能量主要集中在低頻段,超過(guò)4kHz后頻譜迅速下降。
圖3.9示出元音[A]的對(duì)數(shù)振幅頻譜:
由圖可見(jiàn),其包絡(luò)有4個(gè)共振峰,其頻率分別為F1=550Hz,F2=1.15kHz,F3=2.45kHz和F4==3.6kHz。另外,該頻譜顯示在0-1500Hz之間大致有12個(gè)峰值,表示基音頻率約為125Hz。分析表明,對(duì)于濁音尤其是元音,頻譜的前3個(gè)共振峰為特征共振峰,據(jù)此可以識(shí)別不同的元音,這一特性可以應(yīng)用于語(yǔ)音識(shí)別和語(yǔ)音壓縮編碼,它表明聲道的基本特性可以用一個(gè)全極點(diǎn)濾波器近似模擬。圖3.10示出[i]:[o:]、[u:]三個(gè)元音的特征共振峰。由于共振峰可以識(shí)別音素,而一個(gè)音素持續(xù)的時(shí)間相對(duì)較短(音節(jié)時(shí)間),因此我們說(shuō)頻譜包絡(luò)反映了話音的短時(shí)相關(guān)性。而發(fā)話者基音頻率的變化則比較緩慢,因此頻譜的精細(xì)結(jié)構(gòu)反映了話音的長(zhǎng)時(shí)相關(guān)性。
清音的頻譜特性和濁音有很大差別。因?yàn)槁晭](méi)有振動(dòng),因此頻譜形狀沒(méi)有周期性,峰值的分布也沒(méi)有明顯的規(guī)律,整個(gè)頻譜相對(duì)比較平坦,反映了清音音源類似于白噪聲。而且清音的頻譜能量集中在高頻區(qū),即使超過(guò)8kHz頻譜也沒(méi)有顯著的下降。