2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基因本體主要用于描述基因和基因產(chǎn)物的屬性,包括分子功能、生物過程和細胞組件三個方面?;虮倔w的術(shù)語相似度計算及術(shù)語擴展對基因功能分析、比較和預(yù)測等生物學(xué)研究熱門領(lǐng)域具有非常重要的意義?,F(xiàn)有相似度算法只考慮了基因本體中的部分信息或者受基因本體自身不完整性的影響,并不能夠準(zhǔn)確地衡量基因本體術(shù)語之間的相似度以及進一步衡量基因之間的相似度。此外,針對基因本體的不完整性,急需一個能夠準(zhǔn)確、自動地擴展基因本體術(shù)語的算法,來完善基因本體,從而滿足生物

2、數(shù)據(jù)爆炸式增長帶來的構(gòu)建和更新本體的需求。本文針對基因本體的術(shù)語相似度計算和術(shù)語擴展問題進行深入研究,主要內(nèi)容如下:
 ?。?)基因本體是由領(lǐng)域科學(xué)家通過收集實驗數(shù)據(jù)、文獻資料等手工構(gòu)建而成,基因本體本身并不完整,只包含已發(fā)現(xiàn)的部分基因功能注釋信息,導(dǎo)致基因本體同分支中術(shù)語相似度計算的不準(zhǔn)確。針對這一問題,本文提出了基于基因功能網(wǎng)絡(luò)的基因本體同分支術(shù)語相似度算法NETSIM,在考慮基因本體所包含的信息的基礎(chǔ)上,利用基因功能網(wǎng)絡(luò)中包

3、含的基因互作信息來彌補基因本體不完整性對術(shù)語相似度計算造成的影響。為了測試NETSIM算法的性能并同已有的同類算法進行比較,本文使用酵母、擬南芥和人類代謝反應(yīng)網(wǎng)絡(luò)三個數(shù)據(jù)集進行測試。結(jié)果表明,與現(xiàn)有的同類算法相比,NETSIM算法在具有不同基因本體注釋密度的物種上都具有較高的準(zhǔn)確性和魯棒性。
 ?。?)基因本體包括分子功能、生物過程和細胞組件三個分支,不同分支術(shù)語之間的的關(guān)聯(lián)關(guān)系不但能夠為基因注釋提供非常有用的證據(jù),而且能夠幫助解

4、釋生物學(xué)現(xiàn)象和提出生物學(xué)假設(shè)。目前的大部分術(shù)語相似度算法解決的是同分支術(shù)語相似度問題而忽略了跨分支術(shù)語相似度問題。僅有的跨分支術(shù)語相似度算法也只是簡單地考慮術(shù)語名稱之間的文本相似性或術(shù)語注釋基因的重合度,并不能準(zhǔn)確地計算跨分支術(shù)語之間的相似度。針對這一問題,本文提出了基因本體跨分支術(shù)語相似度算法CroGO,利用具有物種特異性的基因功能網(wǎng)絡(luò)發(fā)現(xiàn)基因本體跨分支術(shù)語之間的關(guān)聯(lián)關(guān)系,同時利用向上傳遞的方法衡量跨分支術(shù)語對的信息量解決了術(shù)語對層次

5、定位的問題。本文在標(biāo)準(zhǔn)數(shù)據(jù)集上比較CroGO和同類算法的跨分支相似度計算結(jié)果。結(jié)果表明CroGO算法的相似度計算準(zhǔn)確性最高。本文還基于CroGO算法建立了具有物種特異性的酵母和人類術(shù)語關(guān)聯(lián)網(wǎng)絡(luò)。富集分析測試表明,基于CroGO算法建立的網(wǎng)絡(luò)的準(zhǔn)確性和覆蓋率遠遠優(yōu)于基于其他方法建立的網(wǎng)絡(luò)。
 ?。?)基于基因本體的術(shù)語相似度,進一步計算基因之間的功能相似度是當(dāng)前基因本體相關(guān)研究的熱點領(lǐng)域,即利用基因本體中包含的豐富信息(包括注釋信息

6、,結(jié)構(gòu)信息,最低公共祖先等)來比較基因之間的功能相似度。盡管目前已經(jīng)有數(shù)十個基于基因本體衡量基因功能相似度的算法,但是這些算法一般都僅考慮了基因本體中某一種或幾種類型的關(guān)系而忽略了其他有意義的信息,因此只能準(zhǔn)確的衡量部分基因之間的功能相似度。針對上述問題,本文提出了基于多方法整合的基因功能相似度算法InteGO2,旨在全面利用基因本體中包含的各種信息。InteGO2算法能夠自動選擇合適的候選方法,然后基于啟發(fā)式搜索方法整合這些候選方法。

7、在基因本體分子功能分支和生物過程分支中的實驗結(jié)果表明,InteGO2算法的性能顯著優(yōu)于現(xiàn)有的基于基因本體的基因功能相似度算法。同時,InteGO2算法對于不同輸入的待整合算法集具有較好的魯棒性,逐一去掉所有被整合算法中性能最好的4個算法,InteGO2算法仍然具有較好的性能;加入一個基因相似度為隨機生成的算法,InteGO2算法仍然具有較好的性能。
  (4)目前的基因本體主要依賴于領(lǐng)域?qū)<沂止?gòu)建,但是由于生物知識和數(shù)據(jù)的爆炸式

8、增長,領(lǐng)域?qū)<液茈y將其充分轉(zhuǎn)化為基因本體中的術(shù)語和注釋信息。為了提高基因本體術(shù)語擴展的效率,迫切需要自動化擴展基因本體術(shù)語的方法,輔助領(lǐng)域?qū)<覕U展基因本體術(shù)語。針對這一需求,本文提出了基于基因網(wǎng)絡(luò)聚類分析的基因本體術(shù)語擴展算法GOExtender,該算法能夠通過整合與分析多個生物網(wǎng)絡(luò)數(shù)據(jù),從已有基因本體中選取可擴展術(shù)語,通過預(yù)測選取術(shù)語的子孫節(jié)點術(shù)語擴展現(xiàn)有基因本體。本文選取了4個不同版本(2007、2009、2011和2013)的基因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論