2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  本科生畢業(yè)論文(設(shè)計(jì))任務(wù)書(shū)</p><p>  論文(設(shè)計(jì))題目 語(yǔ)音信號(hào)的采集與分析 </p><p>  學(xué) 院 </p><p>  專 業(yè) </p><p>  班 級(jí) </p>

2、<p>  學(xué) 號(hào) </p><p>  姓 名 </p><p>  語(yǔ)音信號(hào)的采集與分析</p><p><b>  摘 要</b></p><p>  語(yǔ)音信號(hào)的采集與分析技術(shù)是一門涉及面很廣的交叉科學(xué),它的應(yīng)用和發(fā)展與語(yǔ)音學(xué)、聲音測(cè)量學(xué)、電子

3、測(cè)量技術(shù)以及數(shù)字信號(hào)處理等學(xué)科緊密聯(lián)系。其中語(yǔ)音采集和分析儀器的小型化、智能化、數(shù)字化以及多功能化的發(fā)展越來(lái)越快,分析速度較以往也有了大幅度的高。本文簡(jiǎn)要介紹了語(yǔ)音信號(hào)采集與分析的發(fā)展史以及語(yǔ)音信號(hào)的特征、采集與分析方法,并通過(guò)PC機(jī)錄制自己的一段聲音,運(yùn)用Matlab進(jìn)行仿真分析,最后加入噪聲進(jìn)行濾波處理,比較濾波前后的變化。</p><p>  關(guān)鍵詞:語(yǔ)音信號(hào),采集與分析, Matlab</p>

4、<p>  Audio signal acquisition and analysis</p><p><b>  Abstract</b></p><p>  Speech signal acquisition and analysis techniques are a wide range of cross-scientific,Its applic

5、ation and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as close contact。Collection and analysis of voice one of the small-scale equ

6、ipment, intelligence, digital and multi-functional development of more and more quickly, faster than the previous analysis has been substantially high。This paper introduces the voice </p><p>  Keywords:audio

7、 signal, acquisition and analysis,MATLAB </p><p><b>  目 錄</b></p><p><b>  摘 要3</b></p><p>  Abstract4</p><p><b>  目 錄5</b></

8、p><p>  第1章 緒 論6</p><p>  1.1 課題的背景與意義6</p><p>  1.2 國(guó)內(nèi)外研究現(xiàn)狀6</p><p>  1.3 本文主要工作8</p><p>  1.4本文的仿真軟件Matlab8</p><p>  第2章 語(yǔ)音信號(hào)的特點(diǎn)與采集9&

9、lt;/p><p>  2.1 語(yǔ)音信號(hào)的特點(diǎn)9</p><p>  2.2語(yǔ)音信號(hào)的采集9</p><p>  第3章 語(yǔ)音信號(hào)的分析12</p><p>  3.1語(yǔ)音信號(hào)分析技術(shù)12</p><p>  3.2 語(yǔ)音信號(hào)的時(shí)域分析12</p><p>  3.2.1 短時(shí)能量及短時(shí)平

10、均幅度分析13</p><p>  3.2.2短時(shí)過(guò)零率分析13</p><p>  3.3 語(yǔ)音信號(hào)的頻域分析15</p><p>  3.3.1利用短時(shí)博里葉變換求語(yǔ)音的短時(shí)譜15</p><p>  3.4 語(yǔ)音信號(hào)的語(yǔ)譜圖17</p><p>  第4章 語(yǔ)音信號(hào)的綜合仿真分析20</p>

11、;<p><b>  總 結(jié)22</b></p><p><b>  致 謝23</b></p><p>  參 考 文 獻(xiàn)24</p><p><b>  附錄一:25</b></p><p><b>  附錄二:25</b>&l

12、t;/p><p><b>  附錄三:26</b></p><p><b>  附錄四:26</b></p><p><b>  附錄五:27</b></p><p>  第1章 緒 論</p><p>  1.1 課題的背景與意義</p

13、><p>  通過(guò)語(yǔ)音傳遞倍息是人類最重要、最有效、最常用和最方便的交換信息的形式。語(yǔ)言是人類持有的功能.聲音是人類常用的工具,是相互傳遞信息的最主要的手段。因此,語(yǔ)音信號(hào)是人們構(gòu)成思想疏通和感情交流的最主要的途徑。并且,由于語(yǔ)言和語(yǔ)音與人的智力活動(dòng)密切相關(guān),與社會(huì)文化和進(jìn)步緊密相連,所以它具有最大的信息容量和最高的智能水平。現(xiàn)在,人類已開(kāi)始進(jìn)入了信息化時(shí)代,用現(xiàn)代手段研究語(yǔ)音信號(hào),使人們能更加有效地產(chǎn)生、傳輸、存儲(chǔ)

14、、獲取和應(yīng)用語(yǔ)音信息,這對(duì)于促進(jìn)社會(huì)的發(fā)展具有十分重要的意義。</p><p>  讓計(jì)算機(jī)能聽(tīng)懂人類的語(yǔ)言,是人類自計(jì)算機(jī)誕生以來(lái)夢(mèng)寐以求的想法。隨著計(jì)算機(jī)越</p><p>  來(lái)越向便攜化方向發(fā)展,隨著計(jì)算環(huán)境的日趨復(fù)雜化,人們?cè)絹?lái)越迫切要求擺脫鍵盤的束縛而代之以語(yǔ)音輸人這樣便于使用的、自然的、人性化的輸人方式。作為高科鼓應(yīng)用領(lǐng)域的研究熱點(diǎn),語(yǔ)音信號(hào)采集與分析從理論的研究到產(chǎn)品的開(kāi)發(fā)

15、已經(jīng)走過(guò)了幾十個(gè)春秋并且取得了長(zhǎng)足的進(jìn)步。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語(yǔ)音咨詢與管理.工業(yè)生產(chǎn)部門的語(yǔ)聲控制,電話、電信系統(tǒng)的自動(dòng)撥號(hào)、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng)用程序的用戶界面??梢?jiàn),語(yǔ)音信號(hào)采集與分析的研究將是一項(xiàng)極具市場(chǎng)價(jià)值和挑戰(zhàn)性的工作。我們今天進(jìn)行這一領(lǐng)域的研究與開(kāi)拓就是要讓語(yǔ)音信號(hào)處理技術(shù)走人人們的日常生活當(dāng)中,并不斷朝

16、更高目標(biāo)而努力。</p><p>  語(yǔ)音信號(hào)采集與分析之所以能夠那樣長(zhǎng)期地、深深地吸引廣大科學(xué)工作者去不斷地對(duì)其進(jìn)行研究和探討,除了它的實(shí)用性之外,另一個(gè)重要原因是,它始終與當(dāng)時(shí)信息科學(xué)中最活躍的前沿學(xué)科保持密切的聯(lián)系.并且一起發(fā)展。語(yǔ)音信號(hào)采集與分析是以語(yǔ)音語(yǔ)言學(xué)和數(shù)字信號(hào)處理為基礎(chǔ)而形成的一門涉及面很廣的綜合性學(xué)科,與心理、生理學(xué)、計(jì)算機(jī)科學(xué)、通信與信息科學(xué)以及模式識(shí)別和人工智能等學(xué)科都有著非常密切的關(guān)系。

17、對(duì)語(yǔ)音信號(hào)采集與分析的研究一直是數(shù)字信號(hào)處理技術(shù)發(fā)展的重要推動(dòng)力量。因?yàn)樵S多處理的新方法的提出,首先是在語(yǔ)音信號(hào)處理中獲得成功,然后再推廣到其他領(lǐng)域。</p><p>  1.2 國(guó)內(nèi)外研究現(xiàn)狀</p><p>  語(yǔ)音信號(hào)的采集與分析作為一個(gè)重要的研究領(lǐng)域,已經(jīng)有很長(zhǎng)的研究歷史[1]。但是它的快速發(fā)展可以說(shuō)是從1940年前后Dudley的聲碼器(vocoder)和potter等人的可見(jiàn)語(yǔ)

18、音Visible Speech)開(kāi)始的。1952年貝爾(Bell)實(shí)驗(yàn)室的Davis等人首次研制成功能識(shí)別十個(gè)英語(yǔ)數(shù)字的實(shí)驗(yàn)裝置。1956年Olson和Belar等人采用8個(gè)帶通濾波器組提取頻譜參數(shù)作為語(yǔ)音的特征,研制成功一臺(tái)簡(jiǎn)單的語(yǔ)音打字機(jī)。20世紀(jì)60年代初由于Faut和Steven的努力,奠定了語(yǔ)音生成理論的基礎(chǔ),在此基礎(chǔ)上語(yǔ)音合成的研究得到了扎實(shí)的進(jìn)展。 20世紀(jì)60年代中期形成的一系列數(shù)字信號(hào)處理方法和技術(shù),如數(shù)字濾波器、快速

19、博里葉變換(FFT)等成為語(yǔ)音信號(hào)數(shù)字處理的理論和技術(shù)基礎(chǔ)。在方法上,隨著電子計(jì)算機(jī)的發(fā)展,以往的以硬件為中心的研究逐漸轉(zhuǎn)化為以軟件為主的處理研究。然而,在語(yǔ)音識(shí)別領(lǐng)域內(nèi),初期有幾種語(yǔ)音打字機(jī)的研究也很活躍,但后來(lái)已全部停了下來(lái),這說(shuō)明了當(dāng)時(shí)人們對(duì)話音識(shí)別難度的認(rèn)識(shí)得到了加深。所以1969年美國(guó)貝爾研究所的Pierce感嘆地說(shuō)“語(yǔ)音識(shí)別向何處去?”。</p><p>  到了1970年,好似反駁Pierce的批評(píng)

20、,單詞識(shí)別裝置開(kāi)始了實(shí)用化階段,其后實(shí)用化的進(jìn)程進(jìn)一步高漲,實(shí)用機(jī)的生產(chǎn)銷售也上了軌道。此外社會(huì)上所宣傳的聲紋(Voice Print)識(shí)別,即說(shuō)話人識(shí)別的研究也扎扎實(shí)實(shí)地開(kāi)展起來(lái),并很快達(dá)到了實(shí)用化的階段。到了1971年,以美國(guó)ARPA(American Research Projects Agency)為主導(dǎo)的“語(yǔ)音理解系統(tǒng)”的研究計(jì)劃也開(kāi)始起步。這個(gè)研究計(jì)劃不僅在美國(guó)園內(nèi),而且對(duì)世界各國(guó)都產(chǎn)生了很大的影響,它促進(jìn)了連續(xù)語(yǔ)音識(shí)別研究

21、的興起。歷時(shí)五年的龐大的ARPA研究計(jì)劃,雖然在語(yǔ)音理解、語(yǔ)言統(tǒng)計(jì)模型等方面的研究積累了一些經(jīng)驗(yàn),取得了許多成果,但沒(méi)能達(dá)到巨大投資應(yīng)得的成果,在1976年停了下來(lái),進(jìn)入了深刻的反省階段。但是,在整個(gè)20世紀(jì)70年代還是有幾項(xiàng)研究成果對(duì)語(yǔ)音信號(hào)處理技術(shù)的進(jìn)步和發(fā)展產(chǎn)生了重大的影響。這就是20世紀(jì)70年代初由板倉(cāng)(Itakura)提出的動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),使語(yǔ)音識(shí)別研究在匹配算法方面開(kāi)辟了新思路;20世紀(jì)70年代中期線性預(yù)測(cè)技術(shù)(

22、LPC)被用于語(yǔ)音信號(hào)處理,此后隱馬爾可夫模型法(HNMM)也獲得初步成功,該</p><p>  20世紀(jì)80年代,由于矢量量化、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)等相繼被應(yīng)用于語(yǔ)音信號(hào)處理,并經(jīng)過(guò)不斷改進(jìn)與完善,使得語(yǔ)音信號(hào)處理技術(shù)產(chǎn)生了突破性的進(jìn)展。其中,隱馬爾可夫模型作為語(yǔ)音信號(hào)的一種統(tǒng)計(jì)模型,在語(yǔ)音信號(hào)處理的各個(gè)領(lǐng)域中獲得了廣泛的應(yīng)用。其理論基礎(chǔ)是1970年前后,由Baum等人建立起來(lái)的,隨后,由美

23、國(guó)卡內(nèi)基梅隆大學(xué) (CMU)的Baker和美國(guó)IBM公司的Jelinek等人將其應(yīng)用到語(yǔ)音識(shí)別中。由于美國(guó)貝爾實(shí)驗(yàn)室的Babiner等人在20世紀(jì)80年代中期,對(duì)隱馬爾可夫模型深人淺出的介紹,才使世界各國(guó)從事語(yǔ)音信號(hào)處理的研究人員了解和熟悉,進(jìn)而成為一個(gè)公認(rèn)的研究熱點(diǎn),也是目前語(yǔ)音識(shí)別等的主流研究途徑。</p><p>  進(jìn)入20世紀(jì)90年代以來(lái),語(yǔ)音信號(hào)采集與分析在實(shí)用化方面取得了許多實(shí)質(zhì)性的研究進(jìn)展。其中,

24、語(yǔ)音識(shí)別逐漸由實(shí)驗(yàn)室走向?qū)嵱没?。一方面,?duì)聲學(xué)語(yǔ)音學(xué)統(tǒng)計(jì)模型的研究逐漸深入,魯棒的語(yǔ)音識(shí)別、基于語(yǔ)音段的建模方法及隱馬爾可夫模型與人工種經(jīng)網(wǎng)絡(luò)的結(jié)合成為研究的熱點(diǎn)。另一方面,為了語(yǔ)音識(shí)別實(shí)用化的需要,講者自適應(yīng)、聽(tīng)覺(jué)模型、快速搜索識(shí)別算法以及進(jìn)一步的語(yǔ)言模型的研究等課題倍受關(guān)注。 </p><p>  1.3 本文主要工作</p><p>  本文簡(jiǎn)要介紹了語(yǔ)音信號(hào)采集與分析的發(fā)展史以及語(yǔ)

25、音信號(hào)的特征、采集與分析方法,并通過(guò)PC機(jī)錄制自己的一段聲音,運(yùn)用Matlab進(jìn)行仿真分析,最后加入噪聲進(jìn)行濾波處理,比較濾波前后的變化。第2章主要介紹語(yǔ)音信號(hào)的特點(diǎn)與采集,仿真主要是驗(yàn)證奈奎斯特定理。第3章主要是對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)域、頻域上的分析,如短時(shí)功率譜,短時(shí)能量,短時(shí)平均過(guò)零率,語(yǔ)譜圖分析等等。第4章是對(duì)語(yǔ)音信號(hào)的綜合和分析,包括語(yǔ)音信號(hào)的調(diào)制,疊加,和濾波。</p><p>  1.4本文的仿真軟件Ma

26、tlab</p><p>  MATLAB 是美國(guó)MathWorks公司出品的商業(yè)數(shù)學(xué)軟件,用于算法開(kāi)發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語(yǔ)言和交互式環(huán)境,主要包括MATLAB和Simulink兩大部分[4]。</p><p>  MATLAB是矩陣實(shí)驗(yàn)室(Matrix Laboratory)的簡(jiǎn)稱,和Mathematica、Maple并稱為三大數(shù)學(xué)軟件。它在數(shù)學(xué)類科技應(yīng)用軟

27、件中在數(shù)值計(jì)算方面首屈一指。MATLAB可以進(jìn)行矩陣運(yùn)算、繪制函數(shù)和數(shù)據(jù)、實(shí)現(xiàn)算法、創(chuàng)建用戶界面、連接其他編程語(yǔ)言的程序等,主要應(yīng)用于工程計(jì)算、控制設(shè)計(jì)、信號(hào)處理與通訊、圖像處理、信號(hào)檢測(cè)、金融建模設(shè)計(jì)與分析等領(lǐng)域。</p><p>  MATLAB的基本數(shù)據(jù)單位是矩陣,它的指令表達(dá)式與數(shù)學(xué)、工程中常用的形式十分相似,故用MATLAB來(lái)解算問(wèn)題要比用C,F(xiàn)ORTRAN等語(yǔ)言完相同的事情簡(jiǎn)捷得多,并且mathwor

28、k也吸收了像Maple等軟件的優(yōu)點(diǎn),使MATLAB成為一個(gè)強(qiáng)大的數(shù)學(xué)軟件。在新的版本中也加入了對(duì)C,F(xiàn)ORTRAN,C++,JAVA的支持??梢灾苯诱{(diào)用,用戶也可以將自己編寫(xiě)的實(shí)用程序?qū)氲組ATLAB函數(shù)庫(kù)中方便自己以后調(diào)用,此外許多的MATLAB愛(ài)好者都編寫(xiě)了一些經(jīng)典的程序,用戶可以直接進(jìn)行下載就可以用。 </p><p>  第2章 語(yǔ)音信號(hào)的特點(diǎn)與采集</p><p>  2.1

29、語(yǔ)音信號(hào)的特點(diǎn)</p><p>  通過(guò)對(duì)大量語(yǔ)音信號(hào)的觀察和分析發(fā)現(xiàn),語(yǔ)音信號(hào)主要有下面兩個(gè)特點(diǎn):</p><p> ?、僭陬l域內(nèi),語(yǔ)音信號(hào)的頻譜分量主要集中在300~3400Hz的范圍內(nèi)。利用這個(gè)特點(diǎn),可以用一個(gè)防混迭的帶通濾波器將此范圍內(nèi)的語(yǔ)音信號(hào)頻率分量取出,然后按8kHz的采樣率對(duì)語(yǔ)音信號(hào)進(jìn)行采樣,就可以得到離散的語(yǔ)音信號(hào)。</p><p> ?、谠跁r(shí)域內(nèi)

30、,語(yǔ)音信號(hào)具有“短時(shí)性”的特點(diǎn),即在總體上,語(yǔ)音信號(hào)的特征是隨著時(shí)間而變化的,但在一段較短的時(shí)間間隔內(nèi),語(yǔ)音信號(hào)保持平穩(wěn)。在濁音段表現(xiàn)出周期信號(hào)的特征,在清音段表現(xiàn)出隨機(jī)噪聲的特征。</p><p>  下面是一段語(yǔ)音信號(hào)的時(shí)域波形圖(圖2-1)和頻域圖(圖2-2),由這兩個(gè)圖可以看出語(yǔ)音信號(hào)的兩個(gè)特點(diǎn)。</p><p>  圖2-1語(yǔ)音信號(hào)時(shí)域波形圖

31、 圖2-2語(yǔ)音信號(hào)頻域波形圖</p><p>  Figure 2-1Speech signal time-domain waveform Figure 2-2 Frequency-domain speech signal waveform</p><p>  2.2語(yǔ)音信號(hào)的采集</p><p>  在將語(yǔ)音信號(hào)進(jìn)行數(shù)字化前,必須先進(jìn)行防混疊預(yù)濾波,預(yù)

32、濾波的目的有兩個(gè):①抑制輸入信導(dǎo)各領(lǐng)域分量中頻率超出fs/2的所有分量(fs為采樣頻率),以防止混疊干擾。②抑制50Hz的電源工頻干擾。這樣,預(yù)濾波器必須是一個(gè)帶通濾波器,設(shè)其上、下截止顏率分別是fH和fL,則對(duì)于絕人多數(shù)語(yǔ)音編譯碼器,fH=3400Hz、fL=60~100Hz、采樣率為fs=8kHz;而對(duì)丁語(yǔ)音識(shí)別而言,當(dāng)用于電話用戶時(shí),指標(biāo)與語(yǔ)音編譯碼器相同。當(dāng)使用要求較高或很高的場(chǎng)合時(shí)fH=4500Hz或8000Hz、fL=60H

33、z、fs=10kHz或20kHz。</p><p>  為了將原始模擬語(yǔ)音信號(hào)變?yōu)閿?shù)字信號(hào),必須經(jīng)過(guò)采樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語(yǔ)音信號(hào)。采樣也稱抽樣,是信號(hào)在時(shí)間上的離散化,即按照一定時(shí)間間隔△t在模擬信號(hào)x(t)上逐點(diǎn)采取其瞬時(shí)值。采樣時(shí)必須要注意滿足奈奎斯特定理,即采樣頻率fs必須以高于受測(cè)信號(hào)的最高頻率兩倍以上的速度進(jìn)行取樣,才能正確地重建波它是通過(guò)采樣脈沖和模擬信號(hào)相乘來(lái)實(shí)現(xiàn)的

34、。下圖時(shí)一段語(yǔ)音信號(hào)在采樣頻率44.1KHz情況下的頻譜圖。</p><p>  由圖可知,這段語(yǔ)音信號(hào)的頻率主要集中在1KHz左右,當(dāng)采樣頻率為44.1KHz時(shí),由于采樣頻率比較大,所以采樣點(diǎn)數(shù)就越密,所得離散信號(hào)就越逼近于原信號(hào),頻譜也沒(méi)有發(fā)生混疊。</p><p>  對(duì)上述信號(hào)進(jìn)行1/80采樣頻率抽取,即采樣頻率變?yōu)閷⒔?00Hz時(shí),由于采樣頻率比較小,所以采樣點(diǎn)數(shù)就稀疏,所得離散

35、信號(hào)就越偏離于原信號(hào),頻譜也發(fā)生了混疊。</p><p>  在采樣的過(guò)程中應(yīng)注意采樣間隔的選擇和信號(hào)混淆:對(duì)模擬信號(hào)采樣首先要確定采樣間隔。如何合理選擇△t涉及到許多需要考慮的技術(shù)因素。一般而言,采樣頻率越高,采樣點(diǎn)數(shù)就越密,所得離散信號(hào)就越逼近于原信號(hào)。但過(guò)高的采樣頻率并不可取,對(duì)固定長(zhǎng)度(T)的信號(hào),采集到過(guò)大的數(shù)據(jù)量(N=T/△t),給計(jì)算機(jī)增加不必要的計(jì)算工作量和存儲(chǔ)空間;若數(shù)據(jù)量(N)限定,則采樣時(shí)間

36、過(guò)短,會(huì)導(dǎo)致一些數(shù)據(jù)信息被排斥在外。采樣頻率過(guò)低,采樣點(diǎn)間隔過(guò)遠(yuǎn),則離散信號(hào)不足以反映原有信號(hào)波形特征,無(wú)法使信號(hào)復(fù)原,造成信號(hào)混淆。根據(jù)采樣定理,當(dāng)采樣頻率大于信號(hào)的兩倍帶寬時(shí),采樣過(guò)程不會(huì)丟失信息,利用理想濾波器可從采樣信號(hào)中不失真地重構(gòu)原始信號(hào)波形。量化是對(duì)幅值進(jìn)行離散化,即將振動(dòng)幅值用二進(jìn)制量化電平來(lái)表示。量化電平按級(jí)數(shù)變化,實(shí)際的振動(dòng)值是連續(xù)的物理量。具體振值用舍入法歸到靠近的量化電平上。 </p><p&

37、gt;  語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)濾波和采樣后,由A/D變換器變換為二址制數(shù)字碼。這種防混疊濾波通常與模數(shù)轉(zhuǎn)換器做在一個(gè)集成塊內(nèi),因此目前來(lái)說(shuō),語(yǔ)音信號(hào)的數(shù)字化的質(zhì)量還是有保證的。市面上購(gòu)買到的普通聲卡在這方面做的都很好,語(yǔ)音聲波通過(guò)話筒輸入到聲卡后直接獲得的是經(jīng)過(guò)防混疊濾波、A/D變換、量化處理的離散的數(shù)字信號(hào)。</p><p>  在實(shí)際工作中,我們可以利用windows自帶的錄音機(jī)錄制語(yǔ)音文件,圖2-3是基于PC機(jī)的

38、語(yǔ)音信號(hào)采集過(guò)程,聲卡可以完成語(yǔ)音波形的A/D轉(zhuǎn)換,獲得WAVE文件,為后續(xù)的處理儲(chǔ)備原材料。調(diào)節(jié)錄音機(jī)保存界面的“更改”選項(xiàng),可以存儲(chǔ)各種格式的WAVE文件。</p><p>  圖2-3 基于PC機(jī)的語(yǔ)音信號(hào)采集過(guò)程</p><p>  Figure 2-3 Voice PC-based signal acquisition process</p><p>  

39、采集到語(yǔ)音信號(hào)之后,需要對(duì)語(yǔ)音信號(hào)進(jìn)行分析,如語(yǔ)音信號(hào)的時(shí)域分析、頻譜分析、語(yǔ)譜圖分析以及加噪濾波等處理。</p><p>  第3章 語(yǔ)音信號(hào)的分析</p><p>  3.1語(yǔ)音信號(hào)分析技術(shù)</p><p>  語(yǔ)音信號(hào)分析是語(yǔ)音信號(hào)處理的前提和基礎(chǔ),只有分析出可表示語(yǔ)音信號(hào)本質(zhì)特征的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語(yǔ)音通信、語(yǔ)音合成和語(yǔ)音識(shí)別等處理[8]。

40、而且,語(yǔ)音合成的音質(zhì)好壞,語(yǔ)音識(shí)別率的高低,也都取決于對(duì)語(yǔ)音信號(hào)分橋的準(zhǔn)確性和精確性。因此語(yǔ)音信號(hào)分析在語(yǔ)音信號(hào)處理應(yīng)用中具有舉足輕重的地位。</p><p>  貫穿于語(yǔ)音分析全過(guò)程的是“短時(shí)分析技術(shù)”。因?yàn)?,語(yǔ)音信號(hào)從整體來(lái)看其特性及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間而變化的,所以它是一個(gè)非乎穩(wěn)態(tài)過(guò)程,不能用處理乎穩(wěn)信號(hào)的數(shù)字信號(hào)處理技術(shù)對(duì)其進(jìn)行分析處理。但是,由于不同的語(yǔ)音是由人的口腔肌肉運(yùn)動(dòng)構(gòu)成聲道某種形狀而

41、產(chǎn)生的響應(yīng),而這種口腔肌肉運(yùn)動(dòng)相對(duì)于語(yǔ)音頻率來(lái)說(shuō)是非常緩慢的,所以從另一方面看,雖然語(yǔ)音倍號(hào)具有時(shí)變特性,但是在一個(gè)短時(shí)間范圍內(nèi)(一般認(rèn)為在10~30ms的短時(shí)間內(nèi)),其特性基本保持不變即相對(duì)穩(wěn)定,因面可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過(guò)程,即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性。所以任何語(yǔ)音信號(hào)的分析和處理必須建立在“短時(shí)”的基礎(chǔ)上.即進(jìn)行“短時(shí)分析”,將語(yǔ)音信號(hào)分為一段一段來(lái)分析其特征參數(shù),其中每一段稱為一“幀”,幀長(zhǎng)一般取為10~30ms。這樣,對(duì)于整體

42、的語(yǔ)音信號(hào)來(lái)講,分析出的是由每一幀特征參數(shù)組成的特征參數(shù)時(shí)間序列。</p><p>  根據(jù)所分析出的參數(shù)的性質(zhì)的不同,可將語(yǔ)音信號(hào)分析分為時(shí)域分析、頻域分析、倒領(lǐng)域分析等;時(shí)域分析方法具有簡(jiǎn)單、計(jì)算量小、物理意義明確等優(yōu)點(diǎn),但由于語(yǔ)音信號(hào)最重要的感知特性反映在功率譜中,而相位變化只起著很小的作用,所以相對(duì)于時(shí)域分析來(lái)說(shuō)頻域分析更為重要。本文將簡(jiǎn)要介紹時(shí)域分析、頻域分析以及語(yǔ)譜圖分析。</p>&l

43、t;p>  3.2 語(yǔ)音信號(hào)的時(shí)域分析</p><p>  語(yǔ)音信號(hào)的時(shí)域分析就是分析和提取語(yǔ)音信號(hào)的時(shí)域參數(shù)。進(jìn)行語(yǔ)音分析時(shí),最先接觸到并且也是最直觀的是它的時(shí)域波形。語(yǔ)音信號(hào)本身就是時(shí)域信號(hào),因而時(shí)域分析是最早使用,也是應(yīng)用最廣泛的一種分析方法,這種方法直接利用語(yǔ)音信號(hào)的時(shí)域波形。時(shí)域分析通常用于最基本的參數(shù)分析及應(yīng)用,如語(yǔ)音的分割、預(yù)處理、大分類等。這種分析方法的特點(diǎn)是:①表示語(yǔ)音信號(hào)比較直觀、物理意

44、義明確。②實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單、運(yùn)算且少。③可以得到語(yǔ)音的一些重要的參數(shù)。④只使用示波器等通用設(shè)備,使用較為簡(jiǎn)單等。</p><p>  語(yǔ)音信號(hào)的時(shí)域參數(shù)有短時(shí)能量、短時(shí)過(guò)零率、短時(shí)白相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等,這是語(yǔ)音信號(hào)的一組最基本的短時(shí)參數(shù),在各種語(yǔ)音信號(hào)數(shù)字處理技術(shù)中都要應(yīng)用[6]。在計(jì)算這些參數(shù)時(shí)使用的一般是方窗或漢明窗。</p><p>  3.2.1 短時(shí)能量及短時(shí)平均幅度

45、分析</p><p>  設(shè)語(yǔ)音波形時(shí)域信號(hào)為x(l)、加密分幀處理后得到的第n幀語(yǔ)音信號(hào)為 Xn(m),則Xn(m)滿足下式:</p><p><b>  (3-1)</b></p><p><b>  (3-2)</b></p><p>  其中,n=0,1T,2T,…,并且N為幀長(zhǎng),T為幀移長(zhǎng)

46、度。</p><p>  設(shè)第n幀語(yǔ)音信號(hào)Xn(m)的短時(shí)能量用En表示,則其計(jì)算公式如下:</p><p><b>  (3-3)</b></p><p>  En是一個(gè)度量語(yǔ)音信號(hào)幅度值變化的函數(shù),但它有一個(gè)缺陷,即它對(duì)高電平非常敏感(因?yàn)樗?jì)算時(shí)用的是信號(hào)的平方)。為此可采用另一個(gè)度量語(yǔ)音信號(hào)幅度值變化的函數(shù).即短時(shí)平均幅度函數(shù)Mn,它定

47、義為: </p><p><b>  (3-4)</b></p><p>  Mn也是一帕語(yǔ)音信號(hào)能量大小的表征,它與En的區(qū)別在于計(jì)算時(shí)小取樣值和大取樣值不會(huì)因取平方而造成較大差異,在某些應(yīng)用領(lǐng)域呻會(huì)帶來(lái)一些好處。</p><p>  短時(shí)能量和短時(shí)平均幅度函數(shù)的主要用途有:①可以區(qū)分濁音段與清音段,因?yàn)闈嵋魰r(shí)En值比清音時(shí)大的多。②可以用

48、來(lái)區(qū)分聲母與韻母的分界,無(wú)聲與有盧的分界,連字(指字之間無(wú)間隙)的分界等。③作為一種超音段信息,用于語(yǔ)音識(shí)別中。</p><p>  3.2.2短時(shí)過(guò)零率分析</p><p>  短時(shí)過(guò)零率表示一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過(guò)橫軸(零電平)的次數(shù)。過(guò)零分析是語(yǔ)音時(shí)域分析中最簡(jiǎn)單的一種。對(duì)于連續(xù)語(yǔ)音信號(hào),過(guò)零即意味著時(shí)域波形通過(guò)時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值改變符號(hào)則稱為過(guò)零。過(guò)零率就是

49、樣本改變符號(hào)的次數(shù)。定義語(yǔ)音信號(hào)Xn(m)的短時(shí)過(guò)零率Zn為:</p><p><b>  (3-5)</b></p><p>  式中,sgn[ ]是符號(hào)函數(shù),即:</p><p><b> ?。?-6)</b></p><p>  在實(shí)際中求過(guò)零率參數(shù)時(shí),需要十分注意的一個(gè)問(wèn)題是如果輸入信號(hào)中包

50、含有50Hz的工頻干擾或者A/D變換器的工作點(diǎn)有偏移(這等效于輸入信號(hào)有直流偏移),往往會(huì)使計(jì)算的過(guò)零率參數(shù)很不準(zhǔn)確。為了解決前一個(gè)問(wèn)題,A/D變換器前的防混疊帶通濾波器的低端截頻應(yīng)高于50Hz,以有效地抑制電源干擾。對(duì)于后一個(gè)問(wèn)題除了可以采用低直流漂移器件外,也可以在軟件上加以解決,這就是算出每一幀的直流分量并予以濾除。</p><p>  對(duì)語(yǔ)音信號(hào)進(jìn)行分析,發(fā)現(xiàn)發(fā)濁音時(shí),盡管聲道有若干個(gè)共振峰,但由于聲門波

51、引起譜的高頻跌落,所以其話音能量約集中在3kHz以下。而發(fā)清音時(shí),多數(shù)能量出現(xiàn)在較高頻率上。高頻就意味著高的平均過(guò)零率,低頻意味著低的平均過(guò)零率,所以可以認(rèn)為濁音時(shí)具有較低的過(guò)零率,而清音時(shí)具有較高的過(guò)零率。當(dāng)然,這種高低僅是相對(duì)而言,并沒(méi)方精確的數(shù)值關(guān)系。</p><p>  利用短時(shí)平均過(guò)零率還可以從背景噪聲中找出語(yǔ)音信號(hào),可用于判斷寂靜無(wú)聲段和有聲段的起點(diǎn)和終點(diǎn)位置。在孤立詞的語(yǔ)音識(shí)別中,必須要在一連串連續(xù)

52、的語(yǔ)音信號(hào)中進(jìn)行適當(dāng)分割,用以確定一個(gè)一個(gè)單詞的語(yǔ)音信號(hào),即找出每一個(gè)單詞的開(kāi)始和終止位置,這在語(yǔ)音處理中是一個(gè)基本問(wèn)題。此時(shí),在背景噪聲較小時(shí)用平均能量識(shí)別較為有效,而在背景噪聲較大時(shí)用平均過(guò)零率識(shí)別較為有效。但是研究表明,在以某些音為開(kāi)始或結(jié)尾時(shí).如當(dāng)弱摩擦音 (如[f]、[h]等音素)、弱燃破音(如[p]、[t]、[k]等音素)為語(yǔ)音的開(kāi)頭或結(jié)尾;以鼻音(如[n]、 [m]等音素)為語(yǔ)音的結(jié)尾時(shí).只用其中一個(gè)參量來(lái)判別語(yǔ)音的起點(diǎn)和

53、終點(diǎn)是有困難的,必須同時(shí)使用這兩個(gè)參數(shù)。圖3-1是用Mtalab仿真一段語(yǔ)音信號(hào)時(shí)域波形的短時(shí)能量和短時(shí)平均過(guò)零率。</p><p>  圖3-1語(yǔ)音信號(hào)的短時(shí)能量和短時(shí)平均過(guò)零率</p><p>  Figure 3-1 Short-term speech signal energy and zero-crossing rate of the average short-term<

54、/p><p>  3.3 語(yǔ)音信號(hào)的頻域分析</p><p>  語(yǔ)音信號(hào)的頻域分析就是分析語(yǔ)音信號(hào)的頻域持征。從廣義上講,語(yǔ)音信號(hào)的頻域分析包括語(yǔ)音信號(hào)的頻譜、功率譜、倒頻譜、頻譜包絡(luò)分析等,而常用的頻域分析方法有帶通濾波器組法、傅里葉變換法、線件預(yù)測(cè)法等幾種。本文介紹的是語(yǔ)音信號(hào)的傅里葉分析法。因?yàn)檎Z(yǔ)音波是一個(gè)非平穩(wěn)過(guò)程,因此適用于周期、瞬變或平穩(wěn)隨機(jī)信號(hào)的標(biāo)準(zhǔn)傅里葉變換不能用來(lái)直接表示語(yǔ)

55、音信號(hào),而應(yīng)該用短時(shí)傅里葉變換對(duì)語(yǔ)音信號(hào)的頻譜進(jìn)行分析,相應(yīng)的頻譜稱為“短時(shí)譜 ”</p><p>  3.3.1利用短時(shí)博里葉變換求語(yǔ)音的短時(shí)譜</p><p>  對(duì)第n幀語(yǔ)音信號(hào)Xn(m)進(jìn)行傅里葉變換(離散時(shí)域傅里葉變換,DTFT),可得到短時(shí)傅里葉變換,其定義如下:</p><p><b>  (3-7)</b></p>

56、<p>  由定義可知,短時(shí)傅里葉變換實(shí)際就是窗選語(yǔ)音信號(hào)的標(biāo)準(zhǔn)傅里葉變換。這里,窗w(n-m)是一個(gè)“滑動(dòng)的”窗口,它隨n的變化而沿著序列X(n)滑動(dòng)。由于窗口是有限長(zhǎng)度的,滿足絕對(duì)可和條件,所以這個(gè)變換是存在的。當(dāng)然窗口函數(shù)不同,博里葉變換的結(jié)果也將不同。</p><p>  我們還可以將式(3—27)寫(xiě)成另一種形式。設(shè)語(yǔ)音信號(hào)序列和窗口序列的標(biāo)準(zhǔn)傅早葉變換均存在。當(dāng)n取固定值時(shí),w(n-m)的傅

57、里葉變換為:</p><p><b>  (3-8)</b></p><p><b>  根據(jù)卷積定理,有:</b></p><p><b>  (3-9)</b></p><p>  因?yàn)樯鲜接疫厓蓚€(gè)卷積項(xiàng)均為關(guān)于角頻率w的以2π為周期的連續(xù)函數(shù),所以也可將其寫(xiě)成以下的卷積積

58、分形式:</p><p><b> ?。?-10)</b></p><p>  即,假設(shè)x(m)的DTFT是,且的DTFT是,那么是和的的周期卷積。</p><p>  根據(jù)信號(hào)的時(shí)寬帶寬積為一常數(shù)這一基本性質(zhì),可知主瓣寬度與窗口寬度成反比,N越大,的主瓣越窄。由式(3-30)可知,為了使忠實(shí)再現(xiàn)的特性.相對(duì)于來(lái)說(shuō)必須是—個(gè)沖激函數(shù)。所以為了使

59、,需;但是N值太大時(shí),倍號(hào)的分幀又失去了意義。尤其是N大于語(yǔ)音的音素長(zhǎng)度時(shí),已不能反映該語(yǔ)音音素的頻譜了。因此.應(yīng)折衷選擇窗的寬度N。另外,窗的形狀也對(duì)短時(shí)博氏頻譜有影響,如矩形窗,雖然頻率分辨率很高(即主辯狹窄尖銳),但由于第一旁瓣的衰減很小,有較大的上下沖,采用矩形窗時(shí)求得的與的偏差較大,這就是Gibbs效應(yīng),所以不適合用于頻譜成分很寬的語(yǔ)音分析中。而漢明窗在頻率范圍中的分辨率較高,而且旁辯的衰減大,具有頻譜泄漏少的優(yōu)點(diǎn).所以在求短

60、時(shí)頻譜時(shí)一船采用具有較小上下沖的漢明窗[2]。</p><p>  與離散傅里葉變換和連續(xù)博里葉變換的關(guān)系一樣,如令角頻率w=2πk/N,則得離散的短時(shí)博里葉變換(DFT).它實(shí)際上是在頻域的取樣,如下所示:</p><p><b>  (3-11)</b></p><p>  在語(yǔ)音信號(hào)數(shù)字處理中,都是采用的離散博里葉變換(DFT)來(lái)替代并且

61、可以用高效的快速傅里葉變換(FFT)算法完成由至的轉(zhuǎn)換。當(dāng)然,這時(shí)窗長(zhǎng)N必須是2的倍數(shù) (L是整數(shù))。根據(jù)傅里葉變換的性質(zhì),實(shí)數(shù)序列的傅里葉變換的頻譜具有對(duì)稱性,因此,全部頻譜信息包含在長(zhǎng)度為N/2+1個(gè)里。另外,為了使具有較高的頻率分辨率,所取的DFT以及相應(yīng)的FFT點(diǎn)數(shù)應(yīng)該足夠多,但有時(shí)的長(zhǎng)度N要受到采樣率和短時(shí)性的限制,例如,在通常采樣率為8kHz且?guī)L(zhǎng)為20ms時(shí),N=160。而一般取256、512或1024,為了將的點(diǎn)數(shù)從N擴(kuò)

62、大力,可以采用補(bǔ)0的辦法,在擴(kuò)大的部分添若干個(gè)0取樣值,然后再對(duì)添0后的序列進(jìn)行FFT。例如、在10kHz的范圍內(nèi)采樣求頻譜,并要求頻率分辨率在30 Hz以下。由10k/<30,得>333,所以=要取比333大的值,這時(shí)可取==512點(diǎn),不足的部分采用補(bǔ)0的辦法解決,此時(shí)頻率分辨率(即頻率間隔)為10 Hz/512=19.53Hz,采樣后的該幀信號(hào)頻率處在0~2‘x19.53Hz之間,因此,原連續(xù)信號(hào)頻率就處在0~之間(即),所以我們要

63、在0~頻率范圍內(nèi)求其頻譜。FFT的計(jì)算可以在通用計(jì)算機(jī)</p><p>  在語(yǔ)音信號(hào)數(shù)字處理中,功率譜具有重要意義,在一些語(yǔ)音應(yīng)用系統(tǒng)中.往往都是利用語(yǔ)音信號(hào)的功率譜。根據(jù)功率譜定義,可以寫(xiě)出短時(shí)功率譜與短時(shí)傅里葉變換之間的關(guān)系:</p><p><b>  (3-12)</b></p><p>  或者:

64、 (3-13)</p><p>  式中*表示復(fù)共軛運(yùn)算。并且功率譜是短時(shí)自相關(guān)函數(shù)的傅里葉變換。</p><p><b>  (3-14)</b></p><p>  圖3-2是用Matlab中的psdplot命令繪得的同一人兩次說(shuō)同一詞的功率譜比較(窗函數(shù)取窗長(zhǎng)度為256的Hamming窗)。</p>&

65、lt;p>  圖3-2同一人兩次說(shuō)同一詞的功率譜比較</p><p>  Figure 3-2 that the same person twice the power spectrum of the same word comparison</p><p>  可以看出功率譜圖比較好地反映出聲音的個(gè)人特征:在低頻部分(頻率低于6000Hz),同一人說(shuō)同一詞,其功率譜圖中的各個(gè)波峰所

66、對(duì)應(yīng)的頻率基本相同;不同人說(shuō)同一詞,其功率譜圖的出現(xiàn)波峰的頻率比較接近;同一人說(shuō)不同詞時(shí)功率譜的形狀差別較大。在高頻部分,波峰比較密集,特征不明顯。</p><p>  3.4 語(yǔ)音信號(hào)的語(yǔ)譜圖</p><p>  語(yǔ)音的時(shí)域分析和頻域分析是語(yǔ)音分析的兩種重要方法。顯然這兩種單獨(dú)分析的方法均有局限性:時(shí)域分析對(duì)語(yǔ)音信號(hào)的頻率特性沒(méi)有直觀的了解;而頻域分析出的特征中又沒(méi)有語(yǔ)音信號(hào)隨時(shí)間的變化

67、關(guān)系:語(yǔ)音信號(hào)是時(shí)變信號(hào),所以其頻譜也是隨時(shí)間變化的。但是由于語(yǔ)音信號(hào)隨時(shí)間變化是很緩慢的,因而在一段短時(shí)間內(nèi)(如10~30ms之間,即所謂的一幀之內(nèi))可以認(rèn)為其頻譜是固定不變的,這種頻譜又稱為短時(shí)譜。短時(shí)譜只能反映語(yǔ)音信號(hào)的靜態(tài)頻率特性,不能反映語(yǔ)音信號(hào)的動(dòng)態(tài)頻率特性。因此,人們致力于研究語(yǔ)音的時(shí)頻分析特性。</p><p>  把和時(shí)序相關(guān)的傅里葉分析的顯示圖形稱為語(yǔ)譜圖(Sonogram,或者Spectro

68、gram)。語(yǔ)諾圖是一種三維頻譜,它是表示語(yǔ)音頻譜隨時(shí)間變化的圖形,其縱軸為頻率,橫軸為時(shí)間,任一給定頻率成分在給定時(shí)刻的強(qiáng)弱用相應(yīng)點(diǎn)的灰度或色調(diào)的濃談來(lái)表示。用語(yǔ)譜圖分析語(yǔ)音又稱為語(yǔ)譜分析。語(yǔ)譜圖中顯示了大量的與語(yǔ)音的語(yǔ)句特性有關(guān)的信息,它綜合了頻譜圖和時(shí)域波形的特點(diǎn),明顯地顯示出語(yǔ)音頻譜隨時(shí)間的變化情況,或者說(shuō)是一種動(dòng)態(tài)的頻譜;記錄這種頻譜的儀器就是語(yǔ)譜儀。</p><p>  語(yǔ)譜儀實(shí)際上是一個(gè)帶通濾波器組

69、的輸出隨時(shí)間發(fā)生連續(xù)變化,連續(xù)重復(fù)進(jìn)行語(yǔ)音信號(hào)頻率分析的儀器。帶通濾波器有兩種帶寬可供選擇:窄帶為45Hz,寬帶為300Hz。窄帶語(yǔ)譜圖有良好的頻率分辨率,有利于顯示基音頻率及其各次諧波,但它的時(shí)間分辨率較差,不利于觀察共振峰(盧道諧振)的變化;而寬帶語(yǔ)譜圖正相反,具有良好的時(shí)間分辨率及較差的頻率分辨率。寬帶語(yǔ)譜圖能給出語(yǔ)音的共振峰頻率及清輔音的能量匯集區(qū),在話譜圖里共振峰呈現(xiàn)為黑色的條紋。</p><p>  

70、可以利用語(yǔ)譜儀測(cè)量語(yǔ)譜圖的方法來(lái)確定語(yǔ)音參數(shù),例如共振峰頻率及基音頻率。語(yǔ)語(yǔ)圖的實(shí)際應(yīng)用是用于確定出講話人的本性。語(yǔ)譜圖上因其不同的黑白程度,形成了個(gè)同的紋路,稱之為“聲紋”,它因人而異,即不同講話者語(yǔ)譜圖的聲紋是不同的。因而可以利用聲紋鑒別不問(wèn)的講話人。這與不向的人有不同的指紋,根據(jù)指紋可以區(qū)別不同的人是一個(gè)道理。雖然對(duì)采用語(yǔ)譜圖的講活人識(shí)別技術(shù)的可靠性過(guò)存在相當(dāng)人的懷疑,但目前這一技術(shù)已在司法法庭小得到某些認(rèn)可及采用[11]。<

71、;/p><p>  圖3-3是用Mtalab繪制的一個(gè)寬帶語(yǔ)譜圖,其中橫抽坐標(biāo)為時(shí)間,縱軸坐標(biāo)為頻率,語(yǔ)句內(nèi)容為 “河南農(nóng)業(yè)大學(xué)理學(xué)院”,它的發(fā)音在圖下方以音標(biāo)表示。同時(shí)給出了相應(yīng)的語(yǔ)音的時(shí)域波形。語(yǔ)譜圖中的花紋有橫扛(Bar)、亂紋和豎直條等。橫杠是與時(shí)間軸平行的幾條深黑色帶紋,它們相應(yīng)于短時(shí)譜中的幾個(gè)凸出點(diǎn),也就是共振峰。從橫扛對(duì)應(yīng)的頻率和寬度可以確定相應(yīng)的共振峰頻率和帶寬。在一個(gè)語(yǔ)音段的語(yǔ)譜圖中,有沒(méi)有橫扛出現(xiàn)

72、是判斷它是否是濁音的重要標(biāo)志 。豎直條(又叫沖直條)是語(yǔ)譜圖中出現(xiàn)與時(shí)間軸垂直的一條窄黑條。每個(gè)豎直條相當(dāng)于一個(gè)基音,條紋的起點(diǎn)相當(dāng)于聲門脈沖的起點(diǎn),條紋之間的距離表示基音周期。條紋越密表示越音頻率越高。</p><p>  圖3-3“河南農(nóng)業(yè)大學(xué)理學(xué)院”語(yǔ)譜圖</p><p>  Figure 3-3, "College of Henan Agricultural Univer

73、sity" language spectra</p><p>  第4章 語(yǔ)音信號(hào)的綜合仿真分析</p><p> ?、黉浿埔欢巫约旱恼Z(yǔ)音信號(hào),并對(duì)錄制的信號(hào)進(jìn)行采樣;畫(huà)出采樣后語(yǔ)音信號(hào)的時(shí)域波形和頻譜圖;</p><p>  圖4-1原始語(yǔ)音信號(hào)</p><p>  Figure 4-1 the original speech s

74、ignal</p><p>  由圖可知這段語(yǔ)音信號(hào)頻率主要集中在1000hz左右。</p><p> ?、趯?duì)語(yǔ)音信號(hào)進(jìn)行調(diào)制,為了減少在傳輸時(shí)的耗損,人們一般是先對(duì)傳輸信號(hào)進(jìn)行特殊處理,然后再傳遞。把原始的待傳信號(hào)托附到高頻振蕩的過(guò)程稱為調(diào)制。我們知道音頻信號(hào)的頻率在我們的聽(tīng)覺(jué)范圍內(nèi),音頻信號(hào)在無(wú)線傳輸?shù)倪^(guò)程中會(huì)受到各種聲音的干擾而產(chǎn)生能量消耗!因此限制了傳輸?shù)木嚯x!所以在現(xiàn)實(shí)的傳送過(guò)程

75、中要現(xiàn)對(duì)語(yǔ)音信號(hào)進(jìn)行調(diào)制再發(fā)送出去!</p><p>  下面是對(duì)一段語(yǔ)音信號(hào)的調(diào)制仿真圖,載波頻率為fc=20000。</p><p>  圖4-2調(diào)制后的語(yǔ)音信號(hào)</p><p>  Figure 4-2 after the speech signal modulation</p><p>  由圖可知,經(jīng)過(guò)調(diào)制后的語(yǔ)音信號(hào)頻譜都搬移到f

76、c=20000的頻段。</p><p> ?、塾媒?jīng)過(guò)調(diào)制的信號(hào)與原信號(hào)疊加。</p><p>  圖4-3調(diào)制后的語(yǔ)音信號(hào)+原始語(yǔ)音信號(hào)</p><p>  Figure 4-3 voice modulated signal + the original speech signal</p><p>  由圖可知低頻部分是原始信號(hào),高頻部分是經(jīng)

77、過(guò)調(diào)制后的信號(hào)。</p><p> ?、茉O(shè)計(jì)數(shù)字濾波器和畫(huà)出頻率響應(yīng)</p><p>  根據(jù)語(yǔ)音信號(hào)的特點(diǎn)給出有關(guān)濾波器的性能指標(biāo):</p><p>  低通濾波器性能指標(biāo),fp=1000Hz,fc=1200 Hz, As=100dB,Ap=1dB;</p><p>  用雙線性變換法設(shè)計(jì)的低通濾波器的程序如下:</p>&l

78、t;p>  fp=1000;fc=1200;As=100;Ap=1;fs=22050;</p><p>  wc=2*fc/fs;wp=2*fp/fs;</p><p>  [n,wn]=ellipord(wp,wc,Ap,As);</p><p>  [b,a]=ellip(n,Ap,As,wn);</p><p>  freqz(b

79、,a,512,fs); </p><p><b>  濾波器的頻率響應(yīng)</b></p><p>  圖4-4濾波器的頻率響應(yīng)</p><p>  Figure 4-4 Frequency response of the filter</p><p> ?、葸M(jìn)行低通濾波,比較濾波前后語(yǔ)音信號(hào)的波形及頻譜。</p>

80、;<p><b>  總 結(jié)</b></p><p>  通過(guò)這次課程設(shè)計(jì),使我對(duì)語(yǔ)音信號(hào)有了全面的認(rèn)識(shí),對(duì)數(shù)字信號(hào)處理的知識(shí)又有了深刻的理解,在之前數(shù)字信號(hào)與處理的學(xué)習(xí)以及完成課后的作業(yè)的過(guò)程中,已經(jīng)使用過(guò)MATLAB,對(duì)其有了一些基礎(chǔ)的了解和認(rèn)識(shí)。通過(guò)這次練習(xí)是我進(jìn)一步了解了信號(hào)的產(chǎn)生、采樣及頻譜分析的方法。 以及其中產(chǎn)生信號(hào)和繪制信號(hào)的基本命令和一些基礎(chǔ)編程語(yǔ)言。讓我感受

81、到只有在了解課本知識(shí)的前提下,才能更好的應(yīng)用這個(gè)工具;并且熟練的應(yīng)用MATLAB也可以很好的加深我對(duì)課程的理解,方便我的思維。這次設(shè)計(jì)使我了解了MATLAB的使用方法,學(xué)會(huì)分析濾波器的優(yōu)劣和性能,提高了分析和動(dòng)手實(shí)踐能力。同時(shí)我相信,進(jìn)一步加強(qiáng)對(duì)MATLAB的學(xué)習(xí)與研究對(duì)我今后的學(xué)習(xí)將會(huì)起到很大的幫助。</p><p><b>  致 謝</b></p><p>  

82、非常感謝我的導(dǎo)師***老師!在**老師無(wú)微不至的教導(dǎo)下,我才能夠順順利利的完成了畢業(yè)課程的設(shè)計(jì)。從課程設(shè)計(jì)材料的搜集到根據(jù)選題對(duì)素材的提取與整理,從Matlab的簡(jiǎn)易入手到程序的分析與設(shè)計(jì),從理論與算法到程序的編寫(xiě)與仿真,每一步都有*老師的細(xì)心知道與耐心講解。在平易近人學(xué)識(shí)淵博的*老師的熏陶下,使我感覺(jué)到自己知識(shí)的淺薄,在浩瀚的知識(shí)海洋面前,使我感覺(jué)到自己要不斷進(jìn)取。</p><p>  非常感謝我的同學(xué)們,感謝

83、他們給我的幫助與支持,使我在畢業(yè)設(shè)計(jì)的過(guò)程中少走了不少?gòu)澛贰?lt;/p><p>  非常感謝我的家人和朋友們,感謝他們從畢業(yè)設(shè)計(jì)以來(lái)對(duì)我的關(guān)心與支持!</p><p>  最后,再次感謝理學(xué)院所有的老師,感謝他們四年以來(lái)對(duì)我的栽培與教養(yǎng)!</p><p><b>  參 考 文 獻(xiàn)</b></p><p>  [1]胡航.

84、語(yǔ)音信號(hào)處理【M】.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2002.</p><p>  [2]丁玉美.高西全.?dāng)?shù)字信號(hào)處理【M】.西安電子科技大學(xué)出版社,2006.</p><p>  [3]樊昌信.通信原理【M】北京:國(guó)防工業(yè)出版社,2005.</p><p>  [4]張威.MATLAB基礎(chǔ)與編程入門【M】.西安電子科技大學(xué)出版社,2006.</p>&

85、lt;p>  [5]林福宗.多媒體技術(shù)基礎(chǔ)【M】.北京:清華大學(xué)出版社,2000. </p><p>  [6]周淵,王炳和,劉斌勝.基于MATLAB的噪聲信號(hào)采集和分析系統(tǒng)的設(shè)計(jì)【J】.噪聲控制.2004(7):52-54. </p><p>  [7]何強(qiáng),何英.MATLAB擴(kuò)展編程【M】.北京:清華大學(xué)出版社,2002:293-296.</p><p>

86、  [8]朱學(xué)芳,徐建平.計(jì)算機(jī)語(yǔ)音信號(hào)處理與語(yǔ)音識(shí)別系統(tǒng)[J].南京郵電學(xué)院學(xué)報(bào),1998,18(5—6):113—11</p><p>  [9]楊崇林,李雪耀,孫羽.強(qiáng)噪聲背景下漢語(yǔ)語(yǔ)音端點(diǎn)檢測(cè)和音節(jié)分割[J].哈爾濱工程大學(xué)學(xué)報(bào),1997.18(5):28—32.</p><p>  [10] 張雄偉,陳量,楊吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社.2003<

87、;/p><p>  [11]韋曉東,等.應(yīng)用倒譜特征的帶噪語(yǔ)音端點(diǎn)檢測(cè)方法[J].上海交通大學(xué)學(xué)報(bào),2000,34(2):185—188.</p><p>  [12]胡光銳,韋曉東.基于倒譜特征的帶噪語(yǔ)音端點(diǎn)檢測(cè)[J].電子學(xué)報(bào)。2000。28(10):95—97.</p><p><b>  附錄一:</b></p><p&

88、gt;  %語(yǔ)音信號(hào)時(shí)域頻域分析</p><p>  [y,Fs,bits]=wavread('2.wav');%讀出信號(hào),采樣率和采樣位數(shù)。 </p><p>  y=y(:,1);%我這里假設(shè)你的聲音是雙聲道,我只取單聲道作分析,如果你想分析另外一個(gè)聲道,請(qǐng)改成y=y(:,2) </p><p>  sigLength=length(y); &l

89、t;/p><p>  Y = fft(y,sigLength); </p><p>  Pyy = Y.* conj(Y) / sigLength; </p><p>  halflength=floor(sigLength/2); </p><p>  f=Fs*(0:halflength)/sigLength; </p><

90、;p>  figure;plot(f,Pyy(1:halflength+1));xlabel('Frequency(Hz)'); </p><p>  t=(0:sigLength-1)/Fs; </p><p>  figure;plot(t,y);xlabel('Time(s)');</p><p><b>  附

91、錄二:</b></p><p><b>  %抽取的源程序</b></p><p>  [y,fs,bs]=wavread('d:\01.wav',[25000,75000]);</p><p><b>  y=y(:,1);</b></p><p>  lg=lengt

92、h(y);</p><p>  yx=(0:(lg-1))*fs/lg;</p><p>  yx=yx(1:lg/2);</p><p>  % sound(y,fs);</p><p>  figure(1);</p><p>  subplot(211);</p><p><b&g

93、t;  plot(y);</b></p><p>  title('原始信號(hào)');</p><p>  subplot(212);</p><p>  yf=abs(fft(y));</p><p>  yf=yf(1:lg/2);</p><p>  plot(yx,yf);</p&

94、gt;<p>  ycq=zeros(1,lg); %先將抽取后的值全設(shè)為零 </p><p>  for i=1:80:lg; %通過(guò)循環(huán),每隔80個(gè)點(diǎn)將抽取后的值賦值為原函數(shù)的 </p><p>  ycq(i)=y(i); %采樣值 </p><p><b>  end </b></p><p>  

95、sound(ycq,fs);</p><p>  figure(2);</p><p>  subplot(211);</p><p>  plot(ycq);</p><p>  title('抽取后的信號(hào)');</p><p>  subplot(212);</p><p>

96、  ycqf=abs(fft(ycq));</p><p>  ycqf=ycqf(1:lg/2);</p><p>  plot(yx,ycqf);</p><p><b>  附錄三:</b></p><p>  “河南農(nóng)業(yè)大學(xué)理學(xué)院”語(yǔ)譜圖源程序:</p><p>  frmsize = 2

97、56; % 設(shè)置貞大小</p><p>  [x,fs,nbits] = wavread('3.wav'); % 讀取語(yǔ)音文件</p><p>  x = filter([1 -0.95],[1],x); % 高頻預(yù)加重,抵消頻譜傾斜</p><p>  n = length(x); frmcnt = floor(n/frmsize); </p

98、><p>  x = reshape(x(1:frmsize*frmcnt),frmsize,frmcnt); % 分幀</p><p>  xFFT = abs(fft(x)); % 傅里葉譜</p><p>  xFFT = xFFT(1:frmsize/2,1:frmcnt); % 奈奎斯特頻率以內(nèi)是無(wú)效的</p><p>  xFFTdB

99、 = 20*log10(xFFT+eps); % 換算成分貝</p><p>  xFFTdB(xFFTdB>+20) = +20; % 能量太高的截?cái)?lt;/p><p>  xFFTdB(xFFTdB<-40) = -40; % 能量太低的截?cái)?lt;/p><p>  xFFTdB = (xFFTdB+40); % 能量整理到 [0,60] 之間,當(dāng)然你可以

100、整理到[0,255]范圍</p><p>  subplot(2,1,1);plot(x(1:frmsize*frmcnt)); title('河南農(nóng)業(yè)大學(xué)理學(xué)院'); % 畫(huà)波形</p><p>  subplot(2,1,2);image(flipud(xFFTdB)); colormap(jet)% 畫(huà)語(yǔ)譜圖</p><p><b>

101、  附錄四:</b></p><p>  語(yǔ)音信號(hào)的綜合仿真分析程序:</p><p>  [y,fs,bits]=wavread('3.wav');</p><p>  % sound(y,fs,bits);</p><p>  Y=fft(y,40000);%采樣點(diǎn)數(shù)40000</p><p

102、>  figure(1);</p><p>  subplot(211);plot(y);title('原始信號(hào)波形');</p><p>  subplot(212);plot(abs(Y));title('原始信號(hào)頻譜');</p><p>  fc=20000;%載波頻率</p><p>  y1=

103、modulate(y,fc,fs,'fm');%對(duì)原語(yǔ)音信號(hào)調(diào)制</p><p>  Y1=fft(y1,40000);%采樣點(diǎn)數(shù)40000</p><p>  figure(2);</p><p>  subplot(211);plot(y1);title('調(diào)制后信號(hào)波形');</p><p>  subp

104、lot(212);plot(abs(Y1));title('調(diào)制后信號(hào)頻譜');</p><p>  % sound(y1);</p><p><b>  y2=y+y1;</b></p><p>  Y2=fft(y2,40000);%采樣點(diǎn)數(shù)40000</p><p>  figure(3);<

105、/p><p>  subplot(211);plot(y2);title('調(diào)制信號(hào)+原始信號(hào)波形');</p><p>  subplot(212);plot(abs(Y2));title('調(diào)制信號(hào)+原始信號(hào)頻譜');</p><p>  % sound(y2);</p><p>  figure(4);<

106、;/p><p>  fp=1000;fc=1200;As=100;Ap=1;fs1=22050;</p><p>  wc=2*fc/fs1;wp=2*fp/fs1;</p><p>  [n,wn]=ellipord(wp,wc,Ap,As);</p><p>  [b,a]=ellip(n,Ap,As,wn);</p><

107、p>  freqz(b,a,512,fs1); </p><p>  x=filter(b,a,y2);</p><p>  X=fft(x,40000);</p><p>  figure(5);</p><p>  subplot(211);plot(x);title('低通濾波后信號(hào)波形');</p>

108、<p>  subplot(212);plot(abs(X));title('低通濾波后信號(hào)頻譜'); </p><p>  sound(x,40000);</p><p><b>  附錄五:</b></p><p>  %短時(shí)能量,短時(shí)過(guò)零率[7]</p><p&g

109、t;  % function [x1,x2]=vad(x)</p><p>  [x,Fs,bits] = wavread('one')</p><p>  specgram(x,240,8000,80);</p><p>  x=double(x);</p><p>  x=x/max(abs(x));%將幅度歸一化到[-1

110、,1]</p><p>  framelen=240;</p><p>  frameinc=80;%設(shè)定幀長(zhǎng)為240幀移為80</p><p><b>  amp1=10;</b></p><p><b>  amp2=2;</b></p><p><b>  z

111、cr1=10;</b></p><p><b>  zcr2=5;</b></p><p>  maxsilence=3;</p><p>  minlen=15;</p><p><b>  status=0;</b></p><p><b>  co

112、unt=0;</b></p><p>  silence=0;</p><p>  temp1=enframe(x(1:length(x)-1),framelen,frameinc);</p><p>  temp2=enframe(x(2:length(x)),framelen,frameinc);</p><p>  sign

113、s=(temp1.*temp2)<0;</p><p>  diffs=(temp1-temp2)>0.02;</p><p>  zcr=sum(signs.*diffs,2);%計(jì)算過(guò)零率</p><p>  amp=sum(abs(enframe(x(1:length(x)-1),framelen,frameinc)),2); %計(jì)算短時(shí)能量<

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論