2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩67頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、自從20世紀(jì)90年代以來,美國率先啟動的人類基因組計(jì)劃(HumanGenomeProject,簡稱HGP)帶來了前所未有的數(shù)據(jù)爆炸,然而數(shù)據(jù)并不等于信息和知識,僅是信息和知識的源泉,對科學(xué)家而言,最關(guān)鍵的問題在于如何從數(shù)據(jù)中找到揭示生命奧秘的鑰匙。如此偉大的動力就誕生了一門新興的交叉科學(xué),這就是生物信息學(xué)。通過對生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的獲取、加工、存儲、檢索與分析,生物信息學(xué)成為解開生物數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義的強(qiáng)大工具。同時(shí),隨著人類基因組計(jì)劃

2、進(jìn)一步的快速發(fā)展,生物信息學(xué)在人類疾病與功能基因的發(fā)現(xiàn)與識別、基因與蛋白質(zhì)的表達(dá)與功能研究方面都發(fā)揮著關(guān)鍵的作用。尤其在疾病診斷領(lǐng)域,生物信息學(xué)方法結(jié)合90年代中期發(fā)展起來的一項(xiàng)前沿生物技術(shù)——生物基因芯片,通過對全基因表達(dá)圖譜進(jìn)行數(shù)據(jù)挖掘,成功地將臨床表征不明或容易誤診的惡性腫瘤準(zhǔn)確、快速地區(qū)分開,從而為癌癥的早期診斷與及時(shí)治療做出了重要的貢獻(xiàn)。 本課題的重點(diǎn)就是利用基因芯片數(shù)據(jù)產(chǎn)生的基因表達(dá)圖譜和生物信息學(xué)中的模式識別方法,

3、對不同種類的癌癥樣本加以分類。針對基于芯片數(shù)據(jù)的復(fù)雜性和各種分類方法的特點(diǎn),文中使用了兩種不同的模式識別體系,其基本思想均為先降維再分類最后預(yù)報(bào)。第一種是分別使用t檢驗(yàn)、方差分析進(jìn)行變量選擇或使用核函數(shù)進(jìn)行數(shù)據(jù)重組完成降維,再與人工神經(jīng)網(wǎng)絡(luò)算法——自組織映射結(jié)合完成分類預(yù)報(bào);第二種是核映射(KernelTrick)方法與偏最小二乘聯(lián)用構(gòu)成的非線性偏最小二乘作為分類器。通過對急性白血病、肺癌、前列腺癌以及擴(kuò)散大B細(xì)胞淋巴癌等四套基因芯片數(shù)

4、據(jù)的實(shí)驗(yàn),證明了本文提出的分類方法具有很高的正確率和較好的穩(wěn)定性。此外,借助LeaveOneOut(LOO)和5-fold交叉驗(yàn)證以及方差分析等統(tǒng)計(jì)學(xué)分析方法,對不同降維方法的降維效果以及數(shù)據(jù)集特點(diǎn)進(jìn)行了討論。 本文最大創(chuàng)新之處為將核映射引入降維操作中,使通常處理多樣本少變量的核函數(shù)巧妙地應(yīng)用于少樣本多變量的問題中。由于樣本采集難度大,一般進(jìn)行基因芯片實(shí)驗(yàn)的樣本個(gè)數(shù)在200以內(nèi),大多100左右,而基因個(gè)數(shù)均在5000以上。這種變

5、量數(shù)遠(yuǎn)大于樣本數(shù)的體系,對降維有非常高的要求以及敏感性。傳統(tǒng)基因選擇方法,即通過計(jì)算不同規(guī)則下的重要性大小指標(biāo)值,繼而排序,最后確定重要基因的方法,往往具有比較大的“主觀性”;并且不同方法產(chǎn)生的重要基因也不盡相同,往往是非常不同。因此,在線性分類器之前,利用核函數(shù)將高維的復(fù)雜體系映射至特征空間,使新生成的數(shù)據(jù)矩陣的維數(shù)等同于原數(shù)據(jù)的樣本維數(shù),無形中實(shí)現(xiàn)了降維,并大大提高了分類的正確性同時(shí)降低了計(jì)算復(fù)雜度。為了使特征映射滿足不同數(shù)據(jù)集的要

6、求,文中采用了多項(xiàng)式核函數(shù)、ANOVA核函數(shù)、二級多項(xiàng)式核函數(shù),多項(xiàng)式-ANOVA核函數(shù)等四種不同形式的核函數(shù),并借助比對系數(shù)(AlignmentIndex,AI)和特征向量聚類指數(shù)(ClusterIndex,CI),針對不同數(shù)據(jù)確定不同的核函數(shù),以達(dá)到最好的分類效果。論文最后,以預(yù)報(bào)正確率為標(biāo)準(zhǔn),給出了所有降維方法對與每套芯片數(shù)據(jù)處理結(jié)果的綜合評價(jià)。 基因芯片數(shù)據(jù),在癌癥診斷領(lǐng)域的應(yīng)用得到越來越多的關(guān)注,各種化學(xué)、物理、生物、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論