基于基因表達(dá)數(shù)據(jù)的腫瘤亞型多類別分類與分析.pdf_第1頁
已閱讀1頁,還剩100頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、腫瘤是人類面臨的一大災(zāi)難,任何有關(guān)腫瘤的檢測、診斷和治療的研究,毫無疑問都具有重要的意義。不同腫瘤亞型具有不同的特征,從基因水平上觀測,它們分別由單種或多種基因表達(dá)及其相互作用所控制,具有不同的基因表達(dá)特征,但它們往往難于用臨床特征進(jìn)行區(qū)分?;蛐酒夹g(shù)的出現(xiàn),為科學(xué)家在分子水平上研究腫瘤現(xiàn)象提供了一個(gè)強(qiáng)有力的工具,比如可以用來研究正常組織與腫瘤組織的區(qū)別。基于基因表達(dá)數(shù)據(jù)的腫瘤亞型多類別分類與分析,正是試圖從基因水平上對不同的腫瘤或亞

2、型進(jìn)行分類和分型。 由于基因芯片表達(dá)數(shù)據(jù)具有高維、高噪音、高相關(guān)性等特點(diǎn),使得基于基因芯片表達(dá)數(shù)據(jù)的模式分類問題仍然面臨許多困難。例如,檢測基因的數(shù)目相對于樣本的數(shù)目非常大,其中大量與疾病組織樣本無關(guān)的基因的表達(dá)不僅降低分類器的性能,還會(huì)增加機(jī)器學(xué)習(xí)的時(shí)間和空間復(fù)雜度。本文圍繞著這些問題,充分利用已有的基因表達(dá)數(shù)據(jù),從基因水平上研究對腫瘤多類別進(jìn)行分類的方法,主要開展了以下兩方面有新意的研究工作: 1.特征基因選擇方法的

3、研究用特征選擇的方法對基因進(jìn)行篩選來剔除無關(guān)基因,減少基因指標(biāo)的個(gè)數(shù),不僅可以提高分類器的性能,而且還為尋找對疾病有鑒別力的特征基因排除了大量無關(guān)基因的干擾,因此選擇出來的特征基因可以更有效地用來對疾病進(jìn)行珍斷。一個(gè)較優(yōu)的算法選擇出的特征基因子集,不僅應(yīng)該對疾病類別有較強(qiáng)的鑒別力,還應(yīng)該對不同的分類器算法具有較強(qiáng)的魯棒性。從這個(gè)原則出發(fā),本文提出了一種基于標(biāo)準(zhǔn)差分布差異(Standard Deviation Error Distribu

4、tion,SDED)的特征基因選擇算法。該算法基于一個(gè)直觀的假設(shè):即特征基因表達(dá)水平在不同類間和相同類內(nèi)具有不同的概率分布,類間標(biāo)準(zhǔn)差相對較大,而類內(nèi)標(biāo)準(zhǔn)差則盡可能小。結(jié)合基因在類內(nèi)和類間表達(dá)標(biāo)準(zhǔn)差分布差異情況,即可對基因進(jìn)行打分,從而選擇出具有生物學(xué)意義及有利于分類判別的特征基因。通過對比GS2和CHO算法對4個(gè)不同白血病基因表達(dá)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)分類結(jié)果,表明SDED算法能選擇出有利于分類預(yù)測結(jié)果的特征基因,預(yù)測精度分別比GS2和CH

5、O算法高出0.8-4.2%和1.6-8.4%。同時(shí)通過統(tǒng)計(jì)所選特征基因在OMIM和KEGG兩大數(shù)據(jù)庫中的注釋情況,說明SDED算法可以選擇出的具有重要生物學(xué)意義的腫瘤相關(guān)特征基因的數(shù)量,要比這兩種算法高出4.0%和6.1%左右。 2.腫瘤亞型多類別分類方法研究利用支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)和決策樹等模式分類方法對基因表達(dá)數(shù)據(jù)進(jìn)行疾病及疾病亞型的識(shí)別已取得了一定的成果。對于雙類別的研究已取得很好的進(jìn)展,但在多類別分類問題上,存在預(yù)測

6、精度不高,實(shí)驗(yàn)效率不夠理想,所選特征基因生物學(xué)意義不明顯等問題。針對多類別分類問題,主要有兩種策略:一種是將多類別問題分解為雙類別,該類型算法的主要弊端是隨著類別數(shù)的增加,分類器的數(shù)目指數(shù)增長,計(jì)算量也因此大大增加。第二種類型的分類器則可以自然的擴(kuò)展到多類別分類問題,如判別式方法。判別式是基于數(shù)據(jù)標(biāo)準(zhǔn)正態(tài)分布的假設(shè),其數(shù)學(xué)計(jì)算并不復(fù)雜,但主要針對線性關(guān)系的問題。針對判別式方法的局限性以及基因表達(dá)數(shù)據(jù)噪聲強(qiáng),波動(dòng)大,在大量數(shù)據(jù)的背后還有很

7、多相關(guān)變量不能被直接觀測到等特點(diǎn),本文提出了一種基于簡單高斯混合模型(Simple Gaussian Mixture Model,SGMM)的多類別判別方法,該方法結(jié)合了判別式算法以及高斯混合模型的優(yōu)點(diǎn),從而保留了更多有利多類別分類的信息。通過用4個(gè)不同的白血病基因表達(dá)數(shù)據(jù)集進(jìn)行測試,并用留一法交叉驗(yàn)證得到的分類結(jié)果表明,利用簡單高斯混合模型的分類器,能夠取得比最近鄰算法高2%左右的預(yù)測精度,同時(shí)與支持向量機(jī)的分類效果相當(dāng),但其計(jì)算復(fù)雜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論