動態(tài)貝葉斯網(wǎng)絡及其在說話人識別中的應用.pdf_第1頁
已閱讀1頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、動態(tài)貝葉斯網(wǎng)絡(DBN)是以概率網(wǎng)絡為基礎,綜合原來的靜態(tài)網(wǎng)絡結構和時間信息而形成的具有處理時序特征數(shù)據(jù)能力的新的隨機模型,具有可解釋性、非線性、可擴展性等特性,能較容易的融合新的知識,具有對事物進行完整的表達、推導和學習的能力.DBN本身的理論也尚未完全成熟,現(xiàn)在的應用也非常少,但是它的優(yōu)越特性以及模型的一般性,已經(jīng)引起了越來越多的研究者的關注,尤其是在時序數(shù)據(jù)處理領域.該文針對動態(tài)貝葉斯網(wǎng)絡本身的理論框架及其在說話人識別中的應用,主

2、要做了下面這些工作:該文系統(tǒng)地研究和實現(xiàn)了動態(tài)貝葉斯網(wǎng)絡框架內(nèi)所必須具備的基礎算法,包括靜態(tài)概率網(wǎng)絡下的拓撲轉換、交叉樹的生成、以及全局概率擴散的算法;同時研究了動態(tài)網(wǎng)絡推導中的邊界算法和鄰接算法,實現(xiàn)了動態(tài)網(wǎng)絡推導的前向后向遍歷算法;該文還討論了DBN中的參數(shù)學習和結構學習的幾種情況,實現(xiàn)了用于語音處理中的拓撲已知,觀測未完全的EM算法.該文對DBN和HMM進行了拓撲結構上的對比,在介紹幾種典型的HMM基礎上,討論了DBN和HMM互相

3、轉換的可能性以及如何進行轉換的過程,同時比較了兩種方法在推導和學習上的差別以及各自算法復雜度的差別,最后給出了實驗的證明,說明DBN為什么適合處理語音這類具有很強時序性,而且數(shù)據(jù)量大的數(shù)據(jù)集.該文提出了基于DBN的說話人識別框架,論述了如何通過DBN,對說話人識別的應用進行系統(tǒng)的訓練和測試最后,我們通過YOHO語料集的實驗測試,把我們的方法跟常規(guī)的向量量化(VQ)、單高斯(Single Gaussion)、高斯混合模型(GMM)、隱馬爾

4、可夫模型(HMM)進行對比,說明了我們的框架在說話人識別中的優(yōu)越性,同時也說明了DBN用于說話人這個特定領域的可行性.最后,該文提出了在數(shù)據(jù)層、特征層和決策層上,進行基于DBN的信息融合框架.特別的,我們把基音信息和聲學特征進行了多種方式的融合,相比于常規(guī)的把基音信息和聲學特征進行簡單組合的方法,性能得到了很大的提高.盡管作者一直致力于動態(tài)貝葉斯網(wǎng)絡的研究,但該文的工作僅僅是一個初步,仍有很多東西值得繼續(xù)探討.后續(xù)工作可以包括研究DBN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論