版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、作了一段時(shí)間的語音識別,看到壇子里有人問起MFCC,現(xiàn)在就整理一下有關(guān)MFCC參數(shù)的資料。在語音辨識(SpeechRecognition)和語者辨識(SpeakerRecognition)方面,最常用到的語音特征就是「梅爾倒頻譜系數(shù)」(MelscaleFrequencyCepstralCoefficients,簡稱MFCC),此參數(shù)考慮到人耳對不同頻率的感受程度,因此特別適合用在語音辨識。下面簡單的介紹一下求解MFCC的過程。1.預(yù)強(qiáng)調(diào)
2、(Preemphasis):將語音訊號s(n)通過一個(gè)高通濾波器。H(z)=1a(z1)系數(shù)其中a介于0.9和1.0之間。若以時(shí)域的表達(dá)式來表示,預(yù)強(qiáng)調(diào)后的訊號s2(n)為s2(n)=s(n)as(n1)這個(gè)目的就是為了消除發(fā)聲過程中聲帶和嘴唇的效應(yīng),來補(bǔ)償語音信號受到發(fā)音系統(tǒng)所壓抑的高頻部分。(另一種說法則是要突顯在高頻的共振峰。)2.音框化(Frameblocking):先將N個(gè)取樣點(diǎn)集合成一個(gè)觀測單位,稱為音框(Frame),通常
3、N的值是256或512,涵蓋的時(shí)間約為20~30ms左右。為了避免相鄰兩音框的變化過大,所以我們會(huì)讓兩相鄰因框之間有一段重迭區(qū)域,此重迭區(qū)域包含了M個(gè)取樣點(diǎn),通常M的值約是N的一半或13。通常語音辨識所用的音訊的取樣頻率為8KHz或16KHz,以8KHz來說,若音框長度為256個(gè)取樣點(diǎn),則對應(yīng)的時(shí)間長度是25680001000=32ms。3.漢明窗(Hammingwindow):將每一個(gè)音框(frame)乘上漢明窗,以增加音框左端和右端
4、的連續(xù)性(請見下一個(gè)步驟的說明)。假設(shè)音框化的訊號為S(n)n=0…N1。N為frame的大小,那么乘上漢明窗后為S(n)=S(n)W(n),此W(n)形式如下:W(na)=(1a)acos(2πn(N1)),0≦n≦N1??不同的a值會(huì)產(chǎn)生不同的漢明窗。一般我們都取a=0.46。4.快速傅利葉轉(zhuǎn)換(FastFourierTransfmFFT):由于訊號在時(shí)域(Timedomain)上的變化通常很難看出訊號的特性,所以通常將它轉(zhuǎn)換成頻域
5、(Frequencydomain)上的能量分布來觀察,不同的能量分布,就能代表不同語音的特性。所以在乘上漢明窗后,每個(gè)音框還必需再經(jīng)過FFT以得到在頻譜上的能量分布。乘上漢明窗的主要目的,是要加強(qiáng)音框左端和右端的連續(xù)性,這是因?yàn)樵谶M(jìn)行FFT時(shí),都是假設(shè)一個(gè)音框內(nèi)的訊號是代表一個(gè)周期性訊號,如果這個(gè)周期性不存在,F(xiàn)FT會(huì)為了要符合左右端不連續(xù)的變化,而產(chǎn)生一些不存在原訊號的能量分布,造成分析上的誤差。當(dāng)然,如果我們在取音框時(shí),能夠使音框中
6、的訊號就已經(jīng)包含基本周期的整數(shù)倍,這時(shí)候的音框左右端就會(huì)是連續(xù)的,那就可以不需要乘上漢明窗了。但是在實(shí)作上,由于基本周在此階段加入,這些常用的其它語音特征,包含音高、過零率、共振峰等。)8.差量倒頻譜參數(shù)(Deltacepstrum):雖然已經(jīng)求出13個(gè)特征參數(shù),然而在實(shí)際應(yīng)用于語音辨識時(shí),我們通常會(huì)再加上差量倒頻譜參數(shù),以顯示倒頻譜參數(shù)對時(shí)間的變化。它的意義為倒頻譜參數(shù)相對于時(shí)間的斜率,也就是代表倒頻譜參數(shù)在時(shí)間上的動(dòng)態(tài)變化,公式如下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于MFCC說話人識別算法研究.pdf
- 基于動(dòng)態(tài)MFCC的說話人識別研究.pdf
- 基于MFCC與IMFCC的說話人識別研究.pdf
- 基于MFCC的異常聲音識別技術(shù)研究.pdf
- 基于MFCC的說話人識別系統(tǒng)研究.pdf
- 基于MFCC和GMM語音轉(zhuǎn)換技術(shù)研究.pdf
- 基于MFCC的語音識別加速技術(shù)研究.pdf
- 基于小波mfcc與hmm的列車鳴笛識別算法研究
- 基于MFCC和GMM的異常聲音識別算法研究.pdf
- 基于MFCC和BP神經(jīng)網(wǎng)絡(luò)的樂音主頻識別研究.pdf
- 基于ICA的MFCC特征參數(shù)提取研究及DSP實(shí)現(xiàn).pdf
- 基于改進(jìn)MFCC參數(shù)的語音識別系統(tǒng)的應(yīng)用.pdf
- 噪聲環(huán)境下基于MFCC的魯棒語音識別研究.pdf
- 基于MFCC和矢量量化的說話人識別算法研究.pdf
- 基于MFCC和GMM的說話人識別系統(tǒng)研究.pdf
- 低碼率語音識別特征參數(shù)MFCC提取的模塊設(shè)計(jì).pdf
- 基于改進(jìn)MFCC的語音識別系統(tǒng)研究及設(shè)計(jì).pdf
- 融合LPCC和MFCC特征參數(shù)的語音識別技術(shù)的研究.pdf
- 基于小波MFCC和HMM的列車鳴笛識別方法研究.pdf
- 基于NPC和改進(jìn)的MFCC魯棒語音特征提取研究.pdf
評論
0/150
提交評論