基于cuda的gmm模型快速訓(xùn)練方法及應(yīng)用_第1頁
已閱讀1頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于基于CUDA的GMM模型快速訓(xùn)練方法及應(yīng)用模型快速訓(xùn)練方法及應(yīng)用?吳奎,宋彥,戴禮榮(中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系,安徽合肥,230027)摘要由于能夠很好地近似描述任何分布,GMM在模式在識別領(lǐng)域得到了廣泛的應(yīng)用。GMM模型參數(shù)通常使用迭代的EM算法訓(xùn)練獲得,當(dāng)訓(xùn)練數(shù)據(jù)量非常龐大及模型混合數(shù)很大時(shí),需要花費(fèi)很長的訓(xùn)練時(shí)間。NVIDIA公司推出的CUDA技術(shù)通過在GPU并發(fā)執(zhí)行多個(gè)線程能夠?qū)崿F(xiàn)大規(guī)模并行快速計(jì)算。由此,本文提

2、出一種基于CUDA,適用于特大數(shù)據(jù)量的GMM模型快速訓(xùn)練方法,包括用于模型初始化的Kmeans算法的快速實(shí)現(xiàn)方法,以及用于模型參數(shù)估計(jì)的EM算法的快速實(shí)現(xiàn)方法。文中還將這種訓(xùn)練方法應(yīng)用到語種GMM模型訓(xùn)練中。實(shí)驗(yàn)結(jié)果表明,與IntelDualCePentiumⅣ3.0GHzCPU的一個(gè)單核相比,在NVIDIAGTS250GPU上語種GMM模型訓(xùn)練速度提高了26倍左右。關(guān)鍵詞:關(guān)鍵詞:GMM模型;語種識別;圖形處理單元;統(tǒng)一計(jì)算設(shè)備架構(gòu)C

3、UDAbasedFastGMMModelTrainingMethoditsApplicationWuKui,SongYan,DaiLiRong(DepartmentofElectronicEngineeringInfmationScience,UniversityofScienceTechnologyofChina,Hefei,230027,China)Abstract:Duetoitsgoodpropertytoprovideanap

4、proximationtoanydistributionGMMhasbeenwidelyappliedinthefieldofpatternrecognition.UsuallytheiterativeEMalgithmisappliedtoestimateGMMparameters.Thecomputationalcomplexityatmodeltrainingprocedurewillbecomeveryhighwhenlarge

5、amountsoftrainingdatalargemixturenumberareengaged.TheCUDAtechnologyprovidedbyNVIDIACpationcanperfmfastparallelcomputationbyrunningthoussofthreadssimultaneouslyonGPU.InthispaperafastGMMmodeltrainingimplementationusingCUDA

6、ispresentedwhichisespeciallyapplicabletolargeamountsoftrainingdata.ThefasttrainingimplementationcontainstwopartstheKmeansalgithmfmodelinitializationtheEMalgithmfparameterestimation.Furthermethisfasttrainingmethodhasbeena

7、ppliedinlanguageGMMstraining.TheexperimentalresultsshowthatlanguagemodeltrainingusingGPUisabout26timesfasteronNVIDIAGTS250whencomparedtotraditionalimplementationononeofthesingleceofIntelDualCePentiumⅣ3.0GHzCPU.Keywds:GMM

8、modelLanguageidentificationGPUCUDA1引言引言由于能夠很好地近似描述任何分布,高斯混合模型(GaussianMixtureModel,GMM)在模式識別領(lǐng)域得到了廣泛的應(yīng)用。GMM模型參數(shù)通常使用迭代的EM(ExpectationMaximization)算法[1]訓(xùn)練獲得。EM算法是一個(gè)迭代算法需要對模型初始化,一般采用Kmeans算法實(shí)現(xiàn)EM算法的初始化。當(dāng)訓(xùn)練數(shù)據(jù)量非常龐大及模型混合數(shù)很大時(shí),模型訓(xùn)

9、練需要花費(fèi)很長的時(shí)間。例如,在GMMUBM(GaussianMixtureModelUniverseBackgroundModel)模型的語種識別系統(tǒng)[2]中,語種訓(xùn)練樣本數(shù)非常龐大(如:NISTLRE2007包含14個(gè)大語種,對應(yīng)的SDC[2]訓(xùn)練矢量特征總數(shù)為68281155),模型混合高斯數(shù)多(一般為2048)計(jì)算量巨大。如果用一個(gè)CPU的單核訓(xùn)練模型,那么訓(xùn)3.1EM算法的矩陣表示算法的矩陣表示首先用矩陣的形式描述EM算法,以更

10、好的介紹EM算法在GPU上的實(shí)現(xiàn)過程?;旌蠑?shù)為的GMM模型的密度函數(shù)表示M為????1||iMiiiipxpx???????其中是參數(shù)集合,??1212MM??????????,,,分別是第個(gè)高斯分??iii??μ?i?i?i?i量的權(quán)重、均值向量和協(xié)方差矩陣,且,第個(gè)高斯的密度函數(shù)為:11Mii????i??????1121221|2TiiiiDipxe???????xμxμ??將所有訓(xùn)練樣本集表示成矩陣形式X,樣本數(shù)為,維數(shù)為,其?

11、?1TN??XxxND中。??1212TiiiiDxxxiN??x??上述形式的GMM模型的EM算法迭代公式[6]如下??11|NnewgliiplN?????x(1)????11||NgiinewilNgiiplpl???????xxμx(2)????????11||NTgiiiiinewilNgiiplxxpl?????????xuux?(3)其中是已知的當(dāng)前模??11gggggMM????????型參數(shù)估計(jì)值,,稱??????1|

12、p||gglilgiMggkikkplp????????xxx為高斯分量對訓(xùn)練樣本的占有率。實(shí)lix際應(yīng)用中,協(xié)方差矩陣通常取對角陣,所以式(3)又可寫為(4)??????11||NgTTiiinewnewnewilllNgiipldiagpl????????????????xxxμμx?將個(gè)高斯分量的參數(shù)表示成矩陣形式:M權(quán)重矩陣;??12M?????W均值矩陣;1TTTD??????MEANuu協(xié)方差矩陣,1TTTD????????

13、?是第個(gè)高斯分量的對角協(xié)??22212iiiiD??????i方差矩陣中對角線上的元素構(gòu)成的向量。估計(jì)模型的參數(shù),也就是去估計(jì)上面三個(gè)矩陣。定義三個(gè)統(tǒng)計(jì)累積量矩陣:權(quán)重累積量矩陣,均??12accaccaccMacc?????W值累積量矩陣,方1TTTaccaccDacc??????MEANuu差累積量矩陣及1TTTaccaccDacc?????????階占有率矩陣,NM?O其中,??1|Nglaccnnapl????x????11|N

14、glacclacclDaccnnnpl????????xx?????22211|NglacclacclDaccnnnpl????????xx?,??2221TnnnDxx??x????|gnnlpl??Ox1nN??1lM??寫成矩陣形式:??111acc???WO(5)Tacc?MEANOX(6)2Tacc?ΣOX(7)其中??2221TN??Xxx根據(jù)式(1、2、4)可以得到參數(shù)矩陣更新公式:(8)laccnewlN???laccn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論