基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-11 格式：pdf 頁數(shù)：100 大小：10.11MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩99頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、近年來，深層神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）的崛起在諸多研究領(lǐng)域都引起了強烈的反響，并越來越受到關(guān)注。在語音識別領(lǐng)域，DNN相關(guān)技術(shù)能夠使聲學(xué)模型的識別性能得到顯著性提升，已然成為新的研究熱點。DNN通常以兩種方式被有效地應(yīng)用到聲學(xué)建模當(dāng)中:1）與隱馬爾科夫模型(Hidden Markov Model，HMM)組成混合架構(gòu)模型DNN-HMM，代替高斯混合模型(Gaussian Mixture Model，GMM

2、)進行狀態(tài)輸出概率的計算;2）作為前端的聲學(xué)特征提取器，為傳統(tǒng)的GMM-HMM聲學(xué)建模架構(gòu)提供更有效的聲學(xué)特征。本文將主要圍繞基于DNN的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用展開研究，包括Tandem特征（或叫作概率特征）提取和瓶頸(bottleneck)特征提取兩方面。
　　首先，本文針對中文LVCSR系統(tǒng)提出了一種構(gòu)建音素建模單元集的方法。這里，音素建模單元集的構(gòu)建包括將傳統(tǒng)聲韻母建模單元集中的韻母細化到拼音音素級別、以一

3、些先驗知識為指導(dǎo)對這些單元進行調(diào)整并構(gòu)造相對應(yīng)的詞典，以及首次基于擴展元音三角圖設(shè)計問題集。音素建模單元集的單元數(shù)目相對較少，顯得更為精簡，冗余度和重合性降低，音素單元之間的區(qū)分性增強，在提取Tandem特征時可以有效的減少神經(jīng)網(wǎng)絡(luò)的輸出層節(jié)點數(shù)目，這樣既可以降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度，也更有利于Tandem特征的提取。實驗表明，相比于聲韻母建模單元集，新的音素建模單元集在基線系統(tǒng)和Tandem特征提取兩方面都取得了較優(yōu)的識別性能。
　

4、　其次，本文搭建了基于DNN提取bottleneck特征的基線系統(tǒng)，并結(jié)合一些啟發(fā)式的技術(shù)進行了相應(yīng)的優(yōu)化。為了提取bottleneck特征，我們通常是將DNN中間隱層的節(jié)點數(shù)設(shè)置成一個較小的數(shù)值（往往與基礎(chǔ)MFCC或PLP特征維度一致），這個隱層就被形象地稱作為bottleneck層，而這種具有特殊結(jié)構(gòu)的DNN被稱作為bottleneck DNN，bottleneck層的輸出就是所期望得到的基線bottleneck特征。實驗表明，通過

5、引入一些啟發(fā)式的技術(shù)，比如利用線性變換技術(shù)PCA去相關(guān)、一階差分和二階差分系數(shù)、在解碼過程中使用聲學(xué)規(guī)整因子重新調(diào)整聲學(xué)模型得分和語言模型得分之間的相對重要性等，bottleneck特征取得了較為顯著的性能提升，甚至能與DNN-HMM混合架構(gòu)模型的性能相比擬。其中，引入聲學(xué)規(guī)整因子尤為重要。
　　第三，本文提出了兩種DNN非相干訓(xùn)練(Incoherent Training)算法，即最小化bottleneck層權(quán)重矩陣的相干性和最小

6、化每個mini-batch中數(shù)據(jù)的相關(guān)系數(shù)。算法通過在DNN訓(xùn)練的原始目標(biāo)函數(shù)上增添歸整項，使得bottleneck特征各維之間的相關(guān)性能夠在DNN的訓(xùn)練過程中較為顯式地被直接控制并被自動去除，以便于更好地用于后續(xù)對角化GMM-HMM的建模。實驗結(jié)果表明，兩種非相干訓(xùn)練算法都取得了一定的效果，使得基于bottleneck特征的GMM-HMM模型在識別性能上超越了DNN-HMM。
　　最后，本文引入序貫區(qū)分性訓(xùn)練(Sequentia

7、l Discriminative Training，SDT)算法對bottleneck DNN進行優(yōu)化，從而得到性能更好的bottleneck特征。SDT算法在GMM-HMM建模架構(gòu)中已經(jīng)取得了卓越的效果，其目標(biāo)函數(shù)中包含的語音幀之間的序貫信息對于語音識別問題至關(guān)重要，而這恰恰是傳統(tǒng)的DNN訓(xùn)練算法（主要是基于幀分類的交叉熵算法）所缺少的，因此，我們借助SDT算法來對DNN參數(shù)進一步優(yōu)化，并且采用了兩種新的bottleneckDNN結(jié)構(gòu)

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載