2023年全國(guó)碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩111頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、說話人識(shí)別是通過目標(biāo)說話人語音中攜帶的說話人個(gè)性信息來識(shí)別說話人的身份,與其它生物信息識(shí)別技術(shù)比較,它具有系統(tǒng)設(shè)備成本低,語音采集方便等優(yōu)點(diǎn)。說話人識(shí)別是最新科學(xué)成果的綜合應(yīng)用,它涉及到聲學(xué)的多個(gè)方面,以及模式識(shí)別,神經(jīng)網(wǎng)絡(luò),核函數(shù)等研究的最新成果。在信用卡,門禁,軍用涉密等方面有著廣泛的應(yīng)用。特別在公安司法領(lǐng)域,說話人識(shí)別方法有取代傳統(tǒng)聲紋儀的趨勢(shì)。盡管說話人識(shí)別不斷在識(shí)別特征和識(shí)別方法等方面取得進(jìn)展,但是實(shí)驗(yàn)室獲取的語音與實(shí)際應(yīng)用環(huán)

2、境獲取的語音差異性較大,因此把在實(shí)驗(yàn)室表現(xiàn)良好的說話人識(shí)別系統(tǒng)應(yīng)用到實(shí)際環(huán)境,效果依然不夠理想。除了在一些特定場(chǎng),說話人識(shí)別系統(tǒng)要應(yīng)用到現(xiàn)實(shí)生活,仍然還有很長(zhǎng)一段路要走。
   本文擬從消除倒譜特征中語義信息的影響,利用倒譜特征的時(shí)序性,進(jìn)行說話人模型合成和特征映射,以及建立不同信道間的特征變換等四個(gè)方面進(jìn)行說話人識(shí)別系統(tǒng)的研究,主要內(nèi)容有:
   實(shí)驗(yàn)表明,盡管GMM作為說話人識(shí)別模型理論上可以實(shí)現(xiàn)與文本無關(guān)的說話人識(shí)

3、別,但是訓(xùn)練和測(cè)試時(shí)的語音上下文內(nèi)容對(duì)識(shí)別結(jié)果還是具有很大的影響。當(dāng)非目標(biāo)說說話人的識(shí)別語音上下文與目標(biāo)說話人訓(xùn)練語音上下文較接近時(shí),則用該語音進(jìn)行目標(biāo)說話人測(cè)試時(shí),錯(cuò)誤接受的概率會(huì)大大提高。由此可知降低語音的語義信息對(duì)識(shí)別率的影響非常重要。本文提出把語音的上下文信息看作某種噪聲,通過在高斯混合背景模型中嵌入自聯(lián)想神經(jīng)網(wǎng)絡(luò)的方法來濾除這種噪聲,神經(jīng)網(wǎng)絡(luò)起到數(shù)據(jù)整形的作用,從而增強(qiáng)了目標(biāo)說話人數(shù)據(jù)的相似性,達(dá)到降低說話人語音上下文對(duì)說話人

4、識(shí)別率影響的目的。
   由于GMM方法只能表示征特征向量的空間分布,對(duì)于說話人識(shí)別這種特征向量具有明顯的時(shí)序性的應(yīng)用并沒有更好的處理。雖然引入差分倒譜對(duì)識(shí)別率有一定提高,但是差分倒譜對(duì)每個(gè)說話人向量序列采用相同的差分系數(shù)是不合理的,不同的說話人差分系數(shù)應(yīng)該是不同的;另外,差分系數(shù)是從數(shù)據(jù)擬合的角度得出的,而不是從增大目標(biāo)說話人GMM模型的似然概率角度得出的。本文提出了一種嵌入時(shí)延神經(jīng)網(wǎng)絡(luò)的高斯混合背景模型說話人確認(rèn)方法來解決上

5、面提到的兩個(gè)問題。該方法利用時(shí)延神經(jīng)網(wǎng)絡(luò)挖掘特征向量集的時(shí)序信息,然后把時(shí)序信息傳遞給GMM,每個(gè)說話人擁有一個(gè)屬于自己的神經(jīng)網(wǎng)絡(luò),并且通過極大化GMM似然概率(ML)的方法來訓(xùn)練時(shí)延網(wǎng)絡(luò)參數(shù),使時(shí)延神經(jīng)網(wǎng)絡(luò)挖掘特征向量的時(shí)序信息的方式更為合理。
   模型合成可以由說話人一個(gè)信道下的識(shí)別模型獲得另一個(gè)信道下的識(shí)別模型,而特征映射則把說話人不同信道下的特征向量映射劍一個(gè)公共空間,這樣只需為每個(gè)目標(biāo)說話人訓(xùn)練一個(gè)識(shí)別模型?;跇O大

6、后驗(yàn)概率方法(MAP)的說話人模型合成和特征映射,變換參數(shù)需要人為指定。我們提出了基于極大似然線性回歸(MLLR)調(diào)整的說話人模型合成和特征映射方法。MLLR調(diào)整首先確定相應(yīng)模型間線性關(guān)系,變換參數(shù)由訓(xùn)練數(shù)據(jù)確定,并且可以只調(diào)整均值向量。模型合成時(shí),通過訓(xùn)練可以獲得通用信道背景模型間的MLLR調(diào)整參數(shù);特征映射時(shí),通過訓(xùn)練可以獲得Root GMM-UBM模型參數(shù)到通用信道背景模型的MLLR調(diào)整參數(shù)。實(shí)驗(yàn)結(jié)果表明,合適選取MLLR回歸類,

7、可以取得比相應(yīng)MAP調(diào)整方法更好的識(shí)別效果。
   除了模型合成和特征映射,學(xué)者們還提出了各種各樣的解決方法來解決信道誤匹配問題,這些方法適合于不同的信道條件。如倒譜減法適合于平緩變化的信道特性,模型合成和特征映射需要知道語音來自哪個(gè)信道,而因子分析由于需要大量語音信號(hào)和處理時(shí)間使其難以應(yīng)用,因此需要尋找更為合適的與信道無關(guān)的說話人識(shí)別方法?;谶@個(gè)想法,我們提出了一種結(jié)合自聯(lián)想神經(jīng)網(wǎng)絡(luò)和GMM的方法,對(duì)不同信道間的特征向量進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論