版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著生物數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),產(chǎn)生了新的交叉學(xué)科--計(jì)算生物學(xué),由此給數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)等領(lǐng)域帶來(lái)了新的挑戰(zhàn)。計(jì)算生物學(xué)中的研究?jī)?nèi)容之一就是從蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),從計(jì)算機(jī)技術(shù)角度看,這是一個(gè)分類(lèi)預(yù)測(cè)問(wèn)題,而如何為分類(lèi)問(wèn)題建立一個(gè)有效并且高效的預(yù)測(cè)模型一直以來(lái)是數(shù)據(jù)挖掘領(lǐng)域,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域研究的熱點(diǎn)。 本論文的主要工作是從海量數(shù)據(jù)的處理、預(yù)測(cè)的可解釋性和提高預(yù)測(cè)精度等主要方面入手,對(duì)計(jì)算生物學(xué)中面向蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)
2、的模型、方法和關(guān)鍵技術(shù)進(jìn)行系統(tǒng)地研究,在結(jié)合本文提出的基于粒計(jì)算預(yù)測(cè)模型的基礎(chǔ)上,試圖將數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí)理論中針對(duì)分類(lèi)預(yù)測(cè)的優(yōu)勢(shì)方法和技術(shù)有機(jī)地融合起來(lái),以期形成一種新的生物數(shù)據(jù)分類(lèi)預(yù)測(cè)綜合系統(tǒng)框架,基于此框架未來(lái)發(fā)展出一種可適應(yīng)強(qiáng)、可解釋性好以及計(jì)算效率高的新型智能預(yù)測(cè)系統(tǒng)。論文工作的主要成果表現(xiàn)在以下幾個(gè)方面: 1.針對(duì)海量數(shù)據(jù)的復(fù)雜生物數(shù)據(jù)分類(lèi)預(yù)測(cè),本論文提出了一個(gè)新型的基于粒計(jì)算的支持向量機(jī)預(yù)測(cè)模型(SVM
3、GC)。該模型利用粒計(jì)算理論、聚類(lèi)算法和先進(jìn)的統(tǒng)計(jì)學(xué)習(xí)方法,在由聚類(lèi)算法所智能分割的信息粒上建立各個(gè)SVM-GC模型,使得各個(gè)SVM-GC模型更簡(jiǎn)單與專(zhuān)一,并易于并行化,從而分解海量數(shù)據(jù)的處理,同時(shí)有效地解決了海量數(shù)據(jù)的多分類(lèi)問(wèn)題。 2.在生物計(jì)算的可解釋性方面,本文提出了規(guī)則生成模型SVM-DT,將支持向量機(jī)和決策樹(shù)結(jié)合進(jìn)行規(guī)則抽取,應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)結(jié)果解釋。這樣,既可發(fā)揮支持向量機(jī)泛化能力強(qiáng)的優(yōu)勢(shì),又利用了決策樹(shù)可解釋
4、性好的特點(diǎn)。實(shí)驗(yàn)結(jié)果表明,SVM-DT的可理解性高于SVM,其泛化能力優(yōu)于決策樹(shù)。更重要的是這些規(guī)則顯示了重要的生物學(xué)意義,能有效地指導(dǎo)“濕實(shí)驗(yàn)”。 3.面對(duì)產(chǎn)生的數(shù)量巨大的規(guī)則集,研究者難于解釋與分析。為此,本論文提出了規(guī)則聚集與超級(jí)規(guī)則生成算法(C-SuperRule)。利用k-mean聚類(lèi)算法,基于規(guī)則相似度對(duì)大量規(guī)則進(jìn)行聚類(lèi),然后對(duì)各個(gè)簇的規(guī)則進(jìn)行聚集以產(chǎn)生新的超級(jí)規(guī)則。這些超級(jí)規(guī)則代表了規(guī)則的摘要和潛在的分類(lèi)關(guān)系,并具
5、有較高的預(yù)測(cè)精度。由于這些超級(jí)規(guī)則來(lái)自于聚類(lèi),研究者易于理解總的趨勢(shì),而忽略單個(gè)規(guī)則可能引起的噪音。同時(shí),不僅可以關(guān)注超級(jí)規(guī)則所代表的領(lǐng)域關(guān)鍵方面,而且可以有選擇性地查看對(duì)應(yīng)的原始規(guī)則的細(xì)節(jié),從而方便了研究者對(duì)規(guī)則的分析與使用。 4.為了降低生物數(shù)據(jù)中的噪音和孤立點(diǎn)對(duì)預(yù)測(cè)的影響,本文提出了基于遺傳算法和驚奇模式的加權(quán)主動(dòng)學(xué)習(xí)模型。根據(jù)樣本數(shù)據(jù)的驚奇模式對(duì)輸入樣本點(diǎn)加權(quán),從而使不同的數(shù)據(jù)點(diǎn)在訓(xùn)練學(xué)習(xí)時(shí)產(chǎn)生不同的貢獻(xiàn);利用遺傳算法進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)
- 蛋白質(zhì)-蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè).pdf
- 融合計(jì)算智能的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究.pdf
- 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型研究.pdf
- 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法研究.pdf
- 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型的研究.pdf
- 25175.基于計(jì)算智能技術(shù)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法研究
- 苦瓜籽蛋白質(zhì)的提取與生物學(xué)活性研究.pdf
- 基于蛋白質(zhì)網(wǎng)絡(luò)與蛋白質(zhì)功能的關(guān)鍵蛋白質(zhì)預(yù)測(cè)研究.pdf
- 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的噪聲算法研究.pdf
- 基于運(yùn)動(dòng)學(xué)的蛋白質(zhì)LOOP結(jié)構(gòu)預(yù)測(cè).pdf
- 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法學(xué)研究.pdf
- 無(wú)序蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法研究.pdf
- 基于智能計(jì)算的蛋白質(zhì)功能預(yù)測(cè)研究.pdf
- 基于計(jì)算智能的蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè).pdf
- 13828.蛋白質(zhì)生物功能的預(yù)測(cè)
- 蛋白質(zhì)柔性對(duì)接中計(jì)算技術(shù)研究.pdf
- 肺腺癌的放射生物學(xué)特性及蛋白質(zhì)組學(xué)研究.pdf
- 痢疾桿菌效應(yīng)蛋白調(diào)節(jié)宿主蛋白質(zhì)泛素化信號(hào)途徑的結(jié)構(gòu)生物學(xué)研究.pdf
- 面向蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的特征提取方法研究.pdf
評(píng)論
0/150
提交評(píng)論