版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著說(shuō)話(huà)人識(shí)別技術(shù)的日臻成熟,研究人員開(kāi)始專(zhuān)注于實(shí)際應(yīng)用中面臨的各種問(wèn)題,提出合理的解決方案,以不斷的提升系統(tǒng)性能,將說(shuō)話(huà)人識(shí)別技術(shù)真正地推向?qū)嵱没?。而在研究和?yīng)用當(dāng)中,如何獲取體現(xiàn)說(shuō)話(huà)人身份的聲紋信息,以及如何應(yīng)用這些信息進(jìn)行辨識(shí)都是當(dāng)前的熱點(diǎn)研究問(wèn)題。聲紋信息是一種超音段信息,承載這種信息的載體分布于對(duì)應(yīng)說(shuō)話(huà)人所說(shuō)的全部語(yǔ)音數(shù)據(jù)當(dāng)中,但是不同的聲紋信息載體反映說(shuō)話(huà)人信息的能力并不相同。本文將承載說(shuō)話(huà)人身份信息的某種載體所能表征的所有
2、相關(guān)聲紋信息,稱(chēng)為聲紋信息空間。于是在語(yǔ)音數(shù)據(jù)中,就存在若干個(gè)能夠用于說(shuō)話(huà)人識(shí)別技術(shù)的聲紋信息空間。本文將從音素空間,時(shí)域空間,頻率空間,深層特征空間這四個(gè)層面的聲紋信息空間入手,展開(kāi)深入的研究,以求在相應(yīng)的聲紋空間中獲得合適的特征表述,確定合適的建模方法。本論文主要的工作如下:
1.基于音素空間的說(shuō)話(huà)人識(shí)別技術(shù)
音素片段當(dāng)中不僅包含文本信息,同時(shí)也包含有說(shuō)話(huà)人身份的信息,因此音素片段是一種聲紋信息的載體???/p>
3、以通過(guò)這個(gè)載體表征的所有聲紋信息,被稱(chēng)之為音素空間。本文目的在于,在這個(gè)獨(dú)特的聲紋信息空間當(dāng)中,提取并應(yīng)用反映說(shuō)話(huà)人身份特性的信息。首先本文借助音素級(jí)別的譜包絡(luò)模版集合,來(lái)揭示不同說(shuō)話(huà)人之間的身份差異。進(jìn)一步的,為了消除單一譜包絡(luò)模版集合表征的音素空間不完備,造成的聲紋信息遺漏的問(wèn)題,因此本文引進(jìn)了多組譜包絡(luò)模版集合來(lái)刻畫(huà)聲紋信息。使用音素模版集合刻畫(huà)聲紋信息,類(lèi)似于在音素空間中進(jìn)行聲紋信息的編碼過(guò)程,因此我們稱(chēng)這種方法為多語(yǔ)言編碼的說(shuō)
4、話(huà)人識(shí)別系統(tǒng)。為了量化音素模版代表的說(shuō)話(huà)人信息,本文同時(shí)使用最大似然線(xiàn)性回歸準(zhǔn)則估計(jì)出來(lái)的映射矩陣和偏移向量來(lái)體現(xiàn)這些聲紋信息。最后,為了獲取多個(gè)音素空間中譜包絡(luò)模版集合之間的信息互補(bǔ)能力,本文嘗試了多種合理的信息融合策略。實(shí)驗(yàn)表明,在音素空間中,本文提出的方法獲得了系統(tǒng)性能上的提升,達(dá)到了本文的預(yù)期目的。
2.基于時(shí)域空間的說(shuō)話(huà)人識(shí)別技術(shù)
相同說(shuō)話(huà)人在不同的通信環(huán)境下,以及不同的自身狀態(tài)下,產(chǎn)生的語(yǔ)音數(shù)據(jù)在
5、表達(dá)形式上差異很大。而體現(xiàn)說(shuō)話(huà)人特性的聲紋信息,卻蘊(yùn)藏在這些產(chǎn)生在不同時(shí)間點(diǎn)的表達(dá)形式當(dāng)中。本文把蘊(yùn)藏在來(lái)自不同時(shí)間段語(yǔ)音內(nèi)部的聲紋信息,稱(chēng)為時(shí)域空間。常用的說(shuō)話(huà)人識(shí)別系統(tǒng)在這種變化的環(huán)境下,識(shí)別性能會(huì)遭受較大的衰減。傳統(tǒng)的方法使用因子分析或者擾動(dòng)屬性映射來(lái)消除這些不利的影響,而本文試圖用非監(jiān)督自適應(yīng)模型的方法來(lái)解決時(shí)域空間中的這一問(wèn)題。非監(jiān)督自適應(yīng)的方法,在模型訓(xùn)練的過(guò)程中,不停地使用采集自不同時(shí)間段的語(yǔ)音數(shù)據(jù)來(lái)更新模型,這有效的利用
6、了分布在不同時(shí)間段上的聲紋信息。本文首先回顧了非監(jiān)督自適應(yīng)方法在模型域上的實(shí)現(xiàn),介紹了硬判決和軟判決這兩種更新策略。然后提出了非監(jiān)督自適應(yīng)在得分域上的改進(jìn)算法。通過(guò)定義得分先驗(yàn)分布,以及得分置信度,最終得到針對(duì)得分規(guī)整的一種非監(jiān)督算法。這種時(shí)域空間上說(shuō)話(huà)人識(shí)別技術(shù),避免了模型域更新帶來(lái)的大規(guī)模的計(jì)算復(fù)雜度,同時(shí)也可以獲得不錯(cuò)的識(shí)別性能。
3.基于頻域空間的說(shuō)話(huà)人識(shí)別技術(shù)
語(yǔ)音信號(hào)頻譜上的各個(gè)頻帶之間存在著一定
7、的相關(guān)特性,這種相關(guān)特性不僅揭示了語(yǔ)音的文本信息,同時(shí)也反映著說(shuō)話(huà)人身份的信息。這種說(shuō)話(huà)人信息載體所體現(xiàn)的所有聲紋信息被稱(chēng)為頻域空間。為了揭示頻域空間中包含的聲紋信息,以及它們所具有的話(huà)者識(shí)別能力,本文首先通過(guò)實(shí)驗(yàn),證明了協(xié)方差建模對(duì)于描述聲紋信息分布起著的較為重要的作用。由于協(xié)方差矩陣在真實(shí)環(huán)境中,面臨著參數(shù)估計(jì)較為困難的情況,本文提出了兩種穩(wěn)定的參數(shù)估計(jì)方法。在獲得了協(xié)方差估計(jì)之后,通過(guò)構(gòu)造與均值超級(jí)向量相似的信息表達(dá)方式,得到了協(xié)
8、方差超級(jí)矩陣。隨后,本文提出了兩種超級(jí)矩陣的距離度量公式,來(lái)表征頻域空間上的聲紋信息的相似程度。最后通過(guò)合理的分類(lèi)器設(shè)計(jì),在頻域空間獲得了與主流均值超級(jí)向量系統(tǒng)相似的識(shí)別性能,并且與之有一定的互補(bǔ)能力。
4.基于深層特征空間的說(shuō)話(huà)人識(shí)別技術(shù)
傳統(tǒng)的識(shí)別系統(tǒng)中,無(wú)論是建模過(guò)程還是特征提取,均可以使用淺層結(jié)構(gòu)來(lái)解釋。本文試圖利用深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),來(lái)探索蘊(yùn)藏在頻譜信息當(dāng)中,深層特征空間上的聲紋信息。本文首先通過(guò)深層
9、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),來(lái)模擬人類(lèi)對(duì)于聲紋信息的感知。深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練分為兩個(gè)部分:一個(gè)是非監(jiān)督的特征擴(kuò)展操作,在這個(gè)階段中,網(wǎng)絡(luò)結(jié)構(gòu)將原始的語(yǔ)音數(shù)據(jù)映射為具有抽象概括能力的深層特征表示。但是經(jīng)由深層網(wǎng)絡(luò)結(jié)構(gòu)獲得的深層特征表征,并沒(méi)有清楚的分離說(shuō)話(huà)人信息與其他非說(shuō)話(huà)人的信息。于是本文提出了網(wǎng)絡(luò)訓(xùn)練的另一個(gè)重要步驟,即精細(xì)調(diào)節(jié)操作。這個(gè)步驟作用在深層特征空間中,目的是進(jìn)一步提取聲紋信息。為此本文提出了兩個(gè)限制條件,即通過(guò)稀疏編碼限制以及說(shuō)話(huà)人
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于HHT與信息融合的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于GMM的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于特定文本的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于深度學(xué)習(xí)的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 聲紋識(shí)別技術(shù)研究.pdf
- 基于漢語(yǔ)元音映射的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于高斯混合模型的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 多說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 抗噪聲說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于VQ與HMM的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于小波分析的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于GMM的說(shuō)話(huà)人識(shí)別技術(shù)研究與實(shí)現(xiàn).pdf
- 基于矢量量化的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 說(shuō)話(huà)人識(shí)別技術(shù)研究與改進(jìn).pdf
- 基于聲紋識(shí)別的身份認(rèn)證技術(shù)研究.pdf
- 基于GMM-UBM的穩(wěn)健的說(shuō)話(huà)人識(shí)別技術(shù)研究.pdf
- 基于語(yǔ)音分離的聲紋識(shí)別技術(shù)研究.pdf
- 基于融合基頻特征的聲紋識(shí)別技術(shù)研究.pdf
- 基于多信息融合的說(shuō)話(huà)人識(shí)別.pdf
評(píng)論
0/150
提交評(píng)論