版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物信息學(xué)研究表明蛋白質(zhì)只有轉(zhuǎn)運(yùn)到正確的部位才能參與細(xì)胞的各種生命活動(dòng),如果定位發(fā)生偏差,將會(huì)對(duì)細(xì)胞功能甚至生命產(chǎn)生重大影響。另外,蛋白質(zhì)在細(xì)胞里不是靜止不動(dòng)的,它們?cè)诩?xì)胞里常常通過(guò)在個(gè)亞細(xì)胞環(huán)境里運(yùn)動(dòng)發(fā)揮作用。了解蛋白質(zhì)的亞細(xì)胞定位信息,可以為我們推斷蛋白質(zhì)的生物學(xué)功能提供必要的幫助,同時(shí)對(duì)蛋白質(zhì)的其他研究如相互作用、進(jìn)化等也能提供必要的信息。反過(guò)來(lái),對(duì)同一亞細(xì)胞區(qū)域的蛋白質(zhì)功能的研究也有利于更為深刻的理解該亞細(xì)胞結(jié)構(gòu)。蛋白質(zhì)亞細(xì)胞定
2、位信息的日漸重要,傳統(tǒng)的亞細(xì)胞實(shí)驗(yàn)技術(shù)雖然能提供了比較精確的亞細(xì)胞定位數(shù)據(jù),但這些技術(shù)多是昂貴、耗時(shí)的,并且重復(fù)性比較差。近年來(lái),生物信息學(xué)在這方面開(kāi)展了廣泛的研究并且取得一系列很有意義的成果,數(shù)據(jù)庫(kù)的構(gòu)建和亞細(xì)胞定位分析及預(yù)測(cè)加速了蛋白質(zhì)結(jié)構(gòu)和功能的研究。而蛋白質(zhì)的亞細(xì)胞定位是蛋白質(zhì)的一個(gè)關(guān)鍵功能特征。對(duì)于日漸增長(zhǎng)的亞細(xì)胞數(shù)據(jù),數(shù)據(jù)的分析顯得越來(lái)越重要,從中找到亞細(xì)胞定位的生物學(xué)規(guī)律并確定蛋白質(zhì)功能才是我們真正關(guān)心的問(wèn)題。因此,尋找一
3、種快速而準(zhǔn)確的方法來(lái)預(yù)測(cè)蛋白質(zhì)亞細(xì)胞成為人們研究的熱點(diǎn)問(wèn)題,這也是論文研究的主要內(nèi)容。 分析和亞細(xì)胞定位相關(guān)的蛋白質(zhì)序列特征可以為計(jì)算預(yù)測(cè)提供相關(guān)特征信息,是亞細(xì)胞定位預(yù)測(cè)的基礎(chǔ)。利用這一基本原理,論文設(shè)計(jì)了一種基于融合算法的亞細(xì)胞定位點(diǎn)預(yù)測(cè)的方法。首先,建立數(shù)據(jù)集,抽取出一個(gè)高質(zhì)量的亞細(xì)胞定位數(shù)據(jù)集并分為訓(xùn)練集和測(cè)試集;其次,從這些蛋白質(zhì)數(shù)據(jù)中抽取出特征信息向量;然后,采用本文提出的基于融合思想的亞細(xì)胞定位點(diǎn)預(yù)測(cè)方法,綜合利用
4、前面的特征信息向量作出預(yù)測(cè);最后,用檢驗(yàn)數(shù)據(jù)集對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。 這里需要解決兩個(gè)關(guān)鍵的問(wèn)題:一是如何有效的表征蛋白質(zhì)特征;二是如何有效地進(jìn)行亞細(xì)胞定位點(diǎn)的預(yù)測(cè),特別是多定位的情況。論文對(duì)以上兩個(gè)問(wèn)題進(jìn)行了較為深入的研究。 對(duì)于第一個(gè)問(wèn)題,論文對(duì)氨基酸組成特征信息,氨基酸之間的物理化學(xué)特性,Gene Ontology,模體(motif)等做了詳細(xì)分析,力圖找到有效的表征特征量。 第二個(gè)問(wèn)題是論文的核心內(nèi)容,論文
5、研究的是亞細(xì)胞定位點(diǎn)預(yù)測(cè)。由于蛋白質(zhì)功能的復(fù)雜性,亞細(xì)胞定位點(diǎn)的預(yù)測(cè)一直是一個(gè)難點(diǎn),利用機(jī)器學(xué)習(xí)的方法來(lái)提高預(yù)測(cè)準(zhǔn)確率便成為一個(gè)研究熱點(diǎn)。本文在利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)亞細(xì)胞定位點(diǎn)領(lǐng)域做了三方面的工作。其一,建立了包含多細(xì)胞位置信息的人類細(xì)胞數(shù)據(jù)集;其二,本文提出了基于改進(jìn)的Dempster-Shafer融合算法的亞細(xì)胞定位點(diǎn)預(yù)測(cè)算法,利用多種信息源表征特征,通過(guò)融合上述特征,得到更精確的預(yù)測(cè)結(jié)果;其三,本文對(duì)同時(shí)存在多個(gè)細(xì)胞位置的有趣現(xiàn)象
6、做了研究,以往的亞細(xì)胞定位點(diǎn)預(yù)測(cè)沒(méi)有包含多定位點(diǎn)情況。本文所闡述的方法因其將多重特征綜合考慮,能夠挖掘出多亞細(xì)胞位置信息,能夠預(yù)測(cè)蛋白所屬于的多個(gè)亞細(xì)胞位置。 論文的主要?jiǎng)?chuàng)新點(diǎn)有以下幾點(diǎn): 1.在最新發(fā)布的Swiss-Prot數(shù)據(jù)庫(kù)的基礎(chǔ)上,建立了包含多細(xì)胞位置信息的人類細(xì)胞數(shù)據(jù)集,且該數(shù)據(jù)集是嚴(yán)格的。 2.本文采用了最新發(fā)展起來(lái)的(Gene Ontology)GO數(shù)據(jù)庫(kù)離散模型來(lái)表達(dá)一蛋白序列,通過(guò)本文大量的試
7、驗(yàn)證明,GO離散模型是比AA、PseAA更高一層次的表達(dá),因此能大大提高蛋白亞細(xì)胞位置預(yù)測(cè)的精度; 3. 本文提出了基于改進(jìn)的Dempster-Shafer融合算法的亞細(xì)胞定位點(diǎn)預(yù)測(cè)算法,利用全局和局部偽氨基酸組成、GO離散模型以及motif四種信息源表征特征,通過(guò)融合上述特征,得到更精確的預(yù)測(cè)結(jié)果。 4. 本文對(duì)同時(shí)存在多個(gè)細(xì)胞位置的有趣現(xiàn)象做了研究,本文所闡述的方法因其將多重特征綜合考慮,能夠挖掘出多亞細(xì)胞位置信息,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 蛋白質(zhì)亞細(xì)胞定位的序列分析和理論預(yù)測(cè)算法研究.pdf
- 基于支持向量機(jī)的數(shù)據(jù)挖掘預(yù)測(cè)算法的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘中空缺值預(yù)測(cè)算法的研究與實(shí)現(xiàn).pdf
- 基于機(jī)器學(xué)習(xí)的多定位點(diǎn)蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法研究.pdf
- 數(shù)據(jù)流頻繁模式挖掘及數(shù)據(jù)預(yù)測(cè)算法研究.pdf
- 數(shù)據(jù)挖掘預(yù)測(cè)算法在商務(wù)交易領(lǐng)域中的應(yīng)用.pdf
- 基于機(jī)器學(xué)習(xí)的蛋白亞細(xì)胞定位預(yù)測(cè).pdf
- 農(nóng)業(yè)數(shù)據(jù)分類預(yù)測(cè)算法的研究.pdf
- 基于約束關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的入侵檢測(cè)算法研究.pdf
- 基于機(jī)器學(xué)習(xí)的凋亡蛋白亞細(xì)胞定位預(yù)測(cè)研究.pdf
- 基于CAN總線的公交車輛定位技術(shù)及到站時(shí)間預(yù)測(cè)算法研究.pdf
- 基于物流數(shù)據(jù)的流預(yù)測(cè)算法研究與實(shí)現(xiàn).pdf
- 數(shù)據(jù)流實(shí)時(shí)預(yù)測(cè)算法的研究.pdf
- 面向稅收預(yù)測(cè)的數(shù)據(jù)挖掘算法研究.pdf
- 基于失衡數(shù)據(jù)挖掘的藥物靶點(diǎn)預(yù)測(cè)方法研究.pdf
- 數(shù)據(jù)挖掘中的離群點(diǎn)檢測(cè)算法研究.pdf
- 無(wú)粗定位亞像素邊緣檢測(cè)算法研究.pdf
- 數(shù)據(jù)挖掘中孤立點(diǎn)檢測(cè)算法的研究.pdf
- 基于數(shù)據(jù)挖掘技術(shù)的軸承壽命預(yù)測(cè)的研究.pdf
- 基于數(shù)據(jù)挖掘技術(shù)的股票預(yù)測(cè)與研究.pdf
評(píng)論
0/150
提交評(píng)論