2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩66頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、啟動(dòng)子的識(shí)別是基因識(shí)別的重要組成部分。對(duì)啟動(dòng)子區(qū)的認(rèn)識(shí),不僅有助于實(shí)驗(yàn)室分析研究,而且還可以為人類(lèi)認(rèn)識(shí)全基因組功能、基因表達(dá)調(diào)控機(jī)制以及人類(lèi)疾病與啟動(dòng)子多態(tài)性或突變的關(guān)系提供很大的幫助。 本文旨在對(duì)人類(lèi)RNA聚合酶(POL)II啟動(dòng)子數(shù)據(jù)進(jìn)行識(shí)別分類(lèi)并提高識(shí)別的準(zhǔn)確率。我們將創(chuàng)新的編碼方法應(yīng)用在人類(lèi)啟動(dòng)子序列編碼中,建立并使用合適的共識(shí)模型,使用支持向量機(jī)(SVM)的方法對(duì)啟動(dòng)子數(shù)據(jù)進(jìn)行分類(lèi)并提高了啟動(dòng)子識(shí)別的準(zhǔn)確率。

2、 首先,我們從真核生物啟動(dòng)子數(shù)據(jù)庫(kù)(EPD)以及非啟動(dòng)子數(shù)據(jù)庫(kù)中得到用于分類(lèi)研究的DNA啟動(dòng)子序列數(shù)據(jù)及非啟動(dòng)子序列數(shù)據(jù)。正、負(fù)數(shù)據(jù)集均分別被分成5份和10份,用于5重(5-fold)及10重(10-fold)交叉驗(yàn)證。另外,我們還從轉(zhuǎn)錄起始位點(diǎn)數(shù)據(jù)庫(kù)(DBTSS)中得到了由實(shí)驗(yàn)得出的人類(lèi)染色體啟動(dòng)子數(shù)據(jù),準(zhǔn)備用于后續(xù)的研究。 然后,在對(duì)數(shù)據(jù)進(jìn)行處理后(包括保證數(shù)據(jù)的非冗余性等),對(duì)堿基數(shù)據(jù)進(jìn)行編碼、選擇合適的參數(shù)及編碼方法

3、。這是本研究的重點(diǎn)和難點(diǎn)。根據(jù)采用編碼方式的不同,將之分為三步。 第一步,本文采用了基于知識(shí)的統(tǒng)計(jì)編碼方法,并將此方法進(jìn)一步擴(kuò)展成六種子編碼方式,分別是:?jiǎn)螇A基統(tǒng)計(jì)特征編碼、相鄰雙堿基統(tǒng)計(jì)特征編碼、隔一位的雙堿基統(tǒng)計(jì)特征編碼、隔兩位的雙堿基統(tǒng)計(jì)特征編碼、隔三位的雙堿基統(tǒng)計(jì)特征編碼以及相鄰三堿基統(tǒng)計(jì)特征編碼。編碼后在SVM中進(jìn)行啟動(dòng)子識(shí)別,使用10-fold交叉驗(yàn)證的準(zhǔn)確率達(dá)到了89.68%,靈敏性在86.24%~90.11%,

4、特異性在85.91%~98.35%,與其他利用SVM進(jìn)行啟動(dòng)子識(shí)別的工具相比,均有5%左右的提高。 第二步,本文采用了CpG編碼和五聯(lián)體(Pentamers)編碼,從不同的角度對(duì)人類(lèi)RNA POL II啟動(dòng)子序列進(jìn)行編碼,提取變量信息,找出預(yù)報(bào)結(jié)果最佳及搭配最合理的編碼方式用于后面的研究。 第三步,本文還嘗試了一種新的編碼方法——模式字典(Pattem Dictionary)的編碼方法(由本實(shí)驗(yàn)室開(kāi)發(fā)),并且針對(duì)啟動(dòng)

5、子數(shù)據(jù)的特點(diǎn),將ATCG四堿基兩兩結(jié)合,擴(kuò)展成十六種字符進(jìn)行編碼,以增加數(shù)據(jù)的特征變量。 再次,基于上述編碼方法的識(shí)別結(jié)果,根據(jù)編碼方式的不同、樣本選擇的不同、核函數(shù)選擇的不同等等,我們建立出不同類(lèi)型成員子模型的共識(shí)模型,并用雙層SVM進(jìn)行識(shí)別分析。由于共識(shí)模型考慮了各子模型的獨(dú)立性和模型之間的差異性,發(fā)揮了各模型之間的互補(bǔ)優(yōu)勢(shì),從而提高了最終的識(shí)別準(zhǔn)確率。 最后,我們將優(yōu)秀的識(shí)別模型及共識(shí)模型的思想應(yīng)用到人類(lèi)22號(hào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論