基于數(shù)據(jù)挖掘技術(shù)的亞細胞定位點預測算法研究.pdf_第1頁
已閱讀1頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、生物信息學研究表明蛋白質(zhì)只有轉(zhuǎn)運到正確的部位才能參與細胞的各種生命活動,如果定位發(fā)生偏差,將會對細胞功能甚至生命產(chǎn)生重大影響。另外,蛋白質(zhì)在細胞里不是靜止不動的,它們在細胞里常常通過在個亞細胞環(huán)境里運動發(fā)揮作用。了解蛋白質(zhì)的亞細胞定位信息,可以為我們推斷蛋白質(zhì)的生物學功能提供必要的幫助,同時對蛋白質(zhì)的其他研究如相互作用、進化等也能提供必要的信息。反過來,對同一亞細胞區(qū)域的蛋白質(zhì)功能的研究也有利于更為深刻的理解該亞細胞結(jié)構(gòu)。蛋白質(zhì)亞細胞定

2、位信息的日漸重要,傳統(tǒng)的亞細胞實驗技術(shù)雖然能提供了比較精確的亞細胞定位數(shù)據(jù),但這些技術(shù)多是昂貴、耗時的,并且重復性比較差。近年來,生物信息學在這方面開展了廣泛的研究并且取得一系列很有意義的成果,數(shù)據(jù)庫的構(gòu)建和亞細胞定位分析及預測加速了蛋白質(zhì)結(jié)構(gòu)和功能的研究。而蛋白質(zhì)的亞細胞定位是蛋白質(zhì)的一個關(guān)鍵功能特征。對于日漸增長的亞細胞數(shù)據(jù),數(shù)據(jù)的分析顯得越來越重要,從中找到亞細胞定位的生物學規(guī)律并確定蛋白質(zhì)功能才是我們真正關(guān)心的問題。因此,尋找一

3、種快速而準確的方法來預測蛋白質(zhì)亞細胞成為人們研究的熱點問題,這也是論文研究的主要內(nèi)容。 分析和亞細胞定位相關(guān)的蛋白質(zhì)序列特征可以為計算預測提供相關(guān)特征信息,是亞細胞定位預測的基礎(chǔ)。利用這一基本原理,論文設計了一種基于融合算法的亞細胞定位點預測的方法。首先,建立數(shù)據(jù)集,抽取出一個高質(zhì)量的亞細胞定位數(shù)據(jù)集并分為訓練集和測試集;其次,從這些蛋白質(zhì)數(shù)據(jù)中抽取出特征信息向量;然后,采用本文提出的基于融合思想的亞細胞定位點預測方法,綜合利用

4、前面的特征信息向量作出預測;最后,用檢驗數(shù)據(jù)集對預測結(jié)果進行評價。 這里需要解決兩個關(guān)鍵的問題:一是如何有效的表征蛋白質(zhì)特征;二是如何有效地進行亞細胞定位點的預測,特別是多定位的情況。論文對以上兩個問題進行了較為深入的研究。 對于第一個問題,論文對氨基酸組成特征信息,氨基酸之間的物理化學特性,Gene Ontology,模體(motif)等做了詳細分析,力圖找到有效的表征特征量。 第二個問題是論文的核心內(nèi)容,論文

5、研究的是亞細胞定位點預測。由于蛋白質(zhì)功能的復雜性,亞細胞定位點的預測一直是一個難點,利用機器學習的方法來提高預測準確率便成為一個研究熱點。本文在利用機器學習方法預測亞細胞定位點領(lǐng)域做了三方面的工作。其一,建立了包含多細胞位置信息的人類細胞數(shù)據(jù)集;其二,本文提出了基于改進的Dempster-Shafer融合算法的亞細胞定位點預測算法,利用多種信息源表征特征,通過融合上述特征,得到更精確的預測結(jié)果;其三,本文對同時存在多個細胞位置的有趣現(xiàn)象

6、做了研究,以往的亞細胞定位點預測沒有包含多定位點情況。本文所闡述的方法因其將多重特征綜合考慮,能夠挖掘出多亞細胞位置信息,能夠預測蛋白所屬于的多個亞細胞位置。 論文的主要創(chuàng)新點有以下幾點: 1.在最新發(fā)布的Swiss-Prot數(shù)據(jù)庫的基礎(chǔ)上,建立了包含多細胞位置信息的人類細胞數(shù)據(jù)集,且該數(shù)據(jù)集是嚴格的。 2.本文采用了最新發(fā)展起來的(Gene Ontology)GO數(shù)據(jù)庫離散模型來表達一蛋白序列,通過本文大量的試

7、驗證明,GO離散模型是比AA、PseAA更高一層次的表達,因此能大大提高蛋白亞細胞位置預測的精度; 3. 本文提出了基于改進的Dempster-Shafer融合算法的亞細胞定位點預測算法,利用全局和局部偽氨基酸組成、GO離散模型以及motif四種信息源表征特征,通過融合上述特征,得到更精確的預測結(jié)果。 4. 本文對同時存在多個細胞位置的有趣現(xiàn)象做了研究,本文所闡述的方法因其將多重特征綜合考慮,能夠挖掘出多亞細胞位置信息,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論