2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩139頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基因表達(dá)水平是衡量基因功能活動的重要指標(biāo)?;虮磉_(dá)的信息是理解基因功能和基因調(diào)控的潛在機(jī)制的一個(gè)重要線索?;蛐酒ㄎ㈥嚵校┚哂性趩我坏膶?shí)驗(yàn)中并行地檢測任何細(xì)胞或組織類型中成千上萬個(gè)基因的表達(dá)水平的能力,已經(jīng)成為生物學(xué)和醫(yī)學(xué)研究領(lǐng)域中常用的技術(shù)。隨著微陣列的成熟和大量使用,產(chǎn)生了大量的基因表達(dá)數(shù)據(jù)。基因表達(dá)數(shù)據(jù)不同于常見的科研數(shù)據(jù),有其獨(dú)特的特點(diǎn):小樣本、超高維、高噪音、變異性、基因間高冗余和高度關(guān)聯(lián)、基因的知識不精確和不完全。這些特點(diǎn)

2、使得對基因表達(dá)數(shù)據(jù)的分析和處理成為生物信息學(xué)領(lǐng)域中的一個(gè)重要挑戰(zhàn)之一。本文針對基因表達(dá)數(shù)據(jù)的分析和處理技術(shù)進(jìn)行了研究,主要研究成果如下:
  由于多種原因,基因表達(dá)數(shù)據(jù)(微陣列數(shù)據(jù))中經(jīng)常出現(xiàn)缺失值,對缺失數(shù)據(jù)的處理是基因表達(dá)數(shù)據(jù)處理和分析中的一個(gè)重要的步驟。本文提出一個(gè)基于偏最小二乘方法的缺失數(shù)據(jù)估計(jì)方法,并且針對應(yīng)用偏最小二乘方法是為了預(yù)測缺失數(shù)據(jù)這唯一目的,提出了一個(gè)快速的缺失數(shù)據(jù)估計(jì)算法。由于偏最小二乘方法有兩個(gè)顯著的優(yōu)點(diǎn)

3、:一對變量和樣本的數(shù)目沒有限制,二可以有效地減少相似基因間的多重相關(guān)性對預(yù)測能力的負(fù)面影響,本文所提出的方法適合處理微陣列數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明所提出的方法是一個(gè)有效的穩(wěn)健的缺失數(shù)據(jù)估計(jì)方法。
  在基因表達(dá)數(shù)據(jù)分析中,鑒別基因是后續(xù)研究中非常重要的信息基因,有很多研究致力于從基因表達(dá)數(shù)據(jù)中選出信息基因這一挑戰(zhàn)性工作。然而這些方法都沒有考慮不同樣本類別中樣本大小的不平衡性問題??紤]樣本不平衡性和基因選擇方法的穩(wěn)定性,提出兩個(gè)全新的與數(shù)

4、據(jù)分布模型無關(guān)的基因選擇方法。在類內(nèi)變化小和類間差別大的策略下,選擇敏感的度量函數(shù)提高方法的鑒別能力;同時(shí),利用類內(nèi)變化和類間差別的一致性來增加方法的穩(wěn)定性和適用性。這一方法不但可以應(yīng)用于兩個(gè)類別的情況,也可以應(yīng)用于多個(gè)類別的情況。最后,使用兩組真實(shí)的基因表達(dá)數(shù)據(jù)對所提出的方法進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,這一方法比其他方法具有更高的有效性和穩(wěn)健性。
  精確可靠的樣本分類是基因表達(dá)數(shù)據(jù)分析中的一個(gè)重要問題。利用支持向量機(jī)方法在解決小

5、樣本、非線性、高維模式識別問題中的優(yōu)勢,同時(shí)利用樹型結(jié)構(gòu)的層次關(guān)系克服支持向量機(jī)方法本身沒有生物學(xué)意義的缺陷,本文提出了基于類別樹和支持向量機(jī)的多類分類算法,完全不同于單獨(dú)考慮每個(gè)類的方法。這一方法考慮類別樣本間的相互關(guān)系,充分利用類別標(biāo)簽這一先驗(yàn)知識構(gòu)建一棵樣本類別樹,然后沿著樹進(jìn)行基因選擇。最后由類別樹和選出的基因訓(xùn)練基于支持向量機(jī)的分類器。我們的算法要處理的樣本少,時(shí)間復(fù)雜性低,分類精度更高,選出的基因子集具有更好的針對性,結(jié)合樹

6、的層次關(guān)系,提供了更強(qiáng)的生物學(xué)意義。本文提出的算法用一個(gè)公共可得到的真實(shí)數(shù)據(jù)集進(jìn)行了測試,結(jié)果表明分類能力優(yōu)于先前證實(shí)表現(xiàn)最好的OVA方法。
  識別差異表達(dá)基因是基因表達(dá)數(shù)據(jù)分析中的一個(gè)核心問題,很多研究人員提出了多個(gè)差異表達(dá)基因的識別方法,然而沒有一個(gè)方法考慮了樣本不平衡問題,也沒有研究和數(shù)量化的方法來調(diào)查樣本不平衡對差異表達(dá)基因檢測的影響。事實(shí)上,樣本不平衡經(jīng)常出現(xiàn)在基因表達(dá)數(shù)據(jù)中。本文提出一個(gè)新穎的問題,即樣本不平衡對識別

7、差異表達(dá)基因的影響。本文給出兩個(gè)基于統(tǒng)計(jì)抽樣的評價(jià)模型來研究這一問題,并且在真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)上比較六個(gè)典型的方法性能。研究結(jié)果表明,隨著不平衡程度的增加,差異表達(dá)基因的識別效果越來越差,并且不同的方法受樣本不平衡的影響的差異程度很大,差異表達(dá)基因的研究中有必要考慮樣本不平衡問題。所提出的評價(jià)模型和研究結(jié)果可以用來幫助設(shè)計(jì)微陣列實(shí)驗(yàn),也可以用來選擇合適的方法來處理樣本不平衡的數(shù)據(jù)。
  樣本個(gè)體中生物學(xué)和遺傳學(xué)的變異性會影響基因的

8、表達(dá)水平,進(jìn)而導(dǎo)致這個(gè)基因在樣本中不穩(wěn)定的表達(dá)。這種表達(dá)不穩(wěn)定的基因是探索潛在的生物學(xué)奧秘和癌癥起因的重要線索。本文提出一個(gè)新穎的問題,即通過集成分析來自相同研究問題的不同數(shù)據(jù)集來識別表達(dá)不穩(wěn)定的基因。我們把這一問題形式化為一個(gè)非線性整數(shù)(0-1)規(guī)劃問題,優(yōu)化目標(biāo)是最大化所構(gòu)造的多維目標(biāo)函數(shù),其優(yōu)化解是一個(gè)多維二元向量,其中每個(gè)維度對應(yīng)于一個(gè)特定的基因。三個(gè)近似的算法被提出來求解這一非線性整數(shù)優(yōu)化問題,進(jìn)一步地我們設(shè)計(jì)了一個(gè)統(tǒng)計(jì)量來度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論