版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著科學(xué)技術(shù)的不斷進(jìn)步,電話(huà)已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。在身份認(rèn)證技術(shù)研究領(lǐng)域,越來(lái)越多的研究人員開(kāi)始關(guān)注如何使用電話(huà)語(yǔ)音進(jìn)行身份認(rèn)證,因?yàn)橄鄬?duì)于其它身份認(rèn)證技術(shù)來(lái)說(shuō),使用電話(huà)語(yǔ)音進(jìn)行身份認(rèn)證所需的設(shè)備簡(jiǎn)單、成本低、易獲取,更重要的是在使用電話(huà)語(yǔ)音進(jìn)行身份認(rèn)證的過(guò)程中,用戶(hù)不需要接觸設(shè)備,只需要簡(jiǎn)單的說(shuō)一句話(huà),便可完成認(rèn)證,大大提高了用戶(hù)的接受率。另外,說(shuō)話(huà)人確認(rèn)技術(shù)還是語(yǔ)音識(shí)別技術(shù)研究領(lǐng)域的一個(gè)重要研究方向,所以說(shuō)話(huà)人確認(rèn)
2、技術(shù)的研究不僅具有重要的理論研究意義而且還具有廣泛的應(yīng)用前景。
目前在說(shuō)話(huà)人確認(rèn)研究領(lǐng)域中,主流的說(shuō)話(huà)人建模方法都是基于概率統(tǒng)計(jì)模型的,其中最具代表性的概率統(tǒng)計(jì)說(shuō)話(huà)人模型當(dāng)屬高斯混合模型(GaussianMixture Model,GMM)。高斯混合模型采用非常多的高斯概率密度函數(shù)分量,對(duì)說(shuō)話(huà)人的語(yǔ)音特征分布進(jìn)行了較好的描述,從而取得了不錯(cuò)的效果;但說(shuō)話(huà)人確認(rèn)是一個(gè)二元分類(lèi)問(wèn)題,而高斯混合模型只是一種概率生成性模型,其區(qū)分能力
3、非常有限,所以需要尋找同時(shí)具有強(qiáng)大表征能力和很強(qiáng)區(qū)分能力的模型進(jìn)行說(shuō)話(huà)人建模。近年來(lái),深度學(xué)習(xí)(Deep Learning,DL)理論在模式識(shí)別領(lǐng)域掀起了一股非常大的研究熱潮,其出發(fā)點(diǎn)是想構(gòu)建一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型來(lái)模擬人腦的思維方式,然后對(duì)數(shù)據(jù)進(jìn)行分析和處理。目前深度學(xué)習(xí)理論所依托的實(shí)現(xiàn)載體是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。深度神經(jīng)網(wǎng)絡(luò)憑借多隱層的結(jié)構(gòu)特點(diǎn),使得其具有很好的表征能力和區(qū)分能力,目前在模式
4、識(shí)別的諸多研究方向都取得了成功應(yīng)用。本文主要研究?jī)?nèi)容就是將具有強(qiáng)大表征能力及區(qū)分能力的深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于說(shuō)話(huà)人確認(rèn)系統(tǒng)中進(jìn)行說(shuō)話(huà)人建模,構(gòu)建基于深度神經(jīng)網(wǎng)絡(luò)的話(huà)者確認(rèn)系統(tǒng),針對(duì)建模過(guò)程中深度神經(jīng)網(wǎng)絡(luò)輸入特征的選擇、網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)訓(xùn)練方法等關(guān)鍵問(wèn)題進(jìn)行了深入的研究,并對(duì)多種基于深度神經(jīng)網(wǎng)絡(luò)的說(shuō)話(huà)人確認(rèn)系統(tǒng)的結(jié)構(gòu)及性能進(jìn)行對(duì)比。
首先,介紹了目前說(shuō)話(huà)人確認(rèn)技術(shù)研究領(lǐng)域最為經(jīng)典的概率統(tǒng)計(jì)模型—高斯混合模型,并對(duì)其原理進(jìn)行了詳細(xì)闡述
5、。針對(duì)其應(yīng)用于說(shuō)話(huà)人確認(rèn)系統(tǒng)中使用的GMM-UBM結(jié)構(gòu)進(jìn)行了深入的討論,并對(duì)GMM-UBM說(shuō)話(huà)人模型訓(xùn)練過(guò)程中使用的MAP算法進(jìn)行介紹,然后通過(guò)實(shí)驗(yàn)分析了混合度的選取對(duì)GMM-UBM說(shuō)話(huà)人確認(rèn)系統(tǒng)整體性能的影響,同時(shí)構(gòu)建了本文研究所需的基線(xiàn)系統(tǒng)。
接著,對(duì)深度神經(jīng)網(wǎng)絡(luò)相關(guān)內(nèi)容展開(kāi)了討論,介紹了深度神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,詳細(xì)闡述了深度神經(jīng)網(wǎng)絡(luò)的原理及其訓(xùn)練算法,并對(duì)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中常出現(xiàn)的問(wèn)題進(jìn)行了重點(diǎn)討論。本文針對(duì)基于G
6、MM-UBM的說(shuō)話(huà)人模型區(qū)分能力差,表征能力不足等問(wèn)題,引入了深度神經(jīng)網(wǎng)絡(luò)進(jìn)行說(shuō)話(huà)人建模,構(gòu)建了基于DNN-SPK說(shuō)話(huà)人確認(rèn)系統(tǒng)。為了進(jìn)一步的減弱語(yǔ)音倒譜中語(yǔ)義信息的干擾,采用GMM對(duì)語(yǔ)音的原始倒譜特征進(jìn)行聚類(lèi)變換,抽取原始倒譜特征的統(tǒng)計(jì)特征參數(shù),從而進(jìn)一步突顯說(shuō)話(huà)人的個(gè)性信息,然后將其與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建基于GMM-DNN說(shuō)話(huà)人確認(rèn)系統(tǒng),大大提高了確認(rèn)的效果。
最后,語(yǔ)音作為一種時(shí)序信號(hào),當(dāng)前時(shí)刻的信息在一定程度上是受
7、其歷史信息影響的。采用DNN進(jìn)行說(shuō)話(huà)人建模時(shí),DNN對(duì)語(yǔ)音歷史信息的記憶是非常有限的,所以引入了能夠記住長(zhǎng)歷史信息的長(zhǎng)短時(shí)記憶(Long Short TermMemory,LSTM)模型,構(gòu)建了基于LSTM-SPK說(shuō)話(huà)人確認(rèn)系統(tǒng),針對(duì)采用LSTM進(jìn)行說(shuō)話(huà)人建模過(guò)程中,模型結(jié)構(gòu)的選擇以及如何選取輸入特征參數(shù)和輸出說(shuō)話(huà)人標(biāo)簽等關(guān)鍵問(wèn)題進(jìn)行詳細(xì)討論。另外,針對(duì)LSTM計(jì)算復(fù)雜度比較高的問(wèn)題,探討了采用LSTMP模型替換LSTM模型進(jìn)行說(shuō)話(huà)人建
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于SVM的文本無(wú)關(guān)話(huà)者確認(rèn)研究.pdf
- 基于話(huà)者統(tǒng)計(jì)特征和SVM的文本無(wú)關(guān)話(huà)者確認(rèn)研究.pdf
- 與文本無(wú)關(guān)話(huà)者識(shí)別算法研究及其DSP系統(tǒng)實(shí)現(xiàn).pdf
- 文本無(wú)關(guān)的多說(shuō)話(huà)人確認(rèn)研究.pdf
- 基于GMM和SVM的文本無(wú)關(guān)的說(shuō)話(huà)人確認(rèn)方法研究.pdf
- 基于矢量量化的與文本無(wú)關(guān)的說(shuō)話(huà)人確認(rèn)系統(tǒng)的研究.pdf
- 文本無(wú)關(guān)說(shuō)話(huà)人確認(rèn)及其應(yīng)用研究.pdf
- 基于區(qū)分性說(shuō)話(huà)人模型的與文本無(wú)關(guān)說(shuō)話(huà)人確認(rèn)研究.pdf
- 與文本無(wú)關(guān)的話(huà)者識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 信道魯棒的與文本無(wú)關(guān)說(shuō)話(huà)人確認(rèn)系統(tǒng).pdf
- 與文本無(wú)關(guān)的說(shuō)話(huà)人確認(rèn)系統(tǒng)的信道魯棒性研究.pdf
- 基于文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別.pdf
- 文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別研究.pdf
- 基于SVM的與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別算法研究.pdf
- 基于文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 與文本無(wú)關(guān)的語(yǔ)種識(shí)別技術(shù)研究.pdf
- 基于文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別技術(shù)的研究.pdf
- 與文本無(wú)關(guān)說(shuō)話(huà)人識(shí)別技術(shù)的研究.pdf
- 基于VQ的文本無(wú)關(guān)說(shuō)話(huà)人識(shí)別研究.pdf
- 基于GMM-SVM和多子系統(tǒng)融合的與文本無(wú)關(guān)的話(huà)者識(shí)別.pdf
評(píng)論
0/150
提交評(píng)論