特征選擇及其在生物信息處理中的應用研究.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著系統(tǒng)生物學的發(fā)展,基因組學、蛋白組學、代謝組學等在疾病診斷、藥物療效等方面應用日益廣泛。基因、蛋白、代謝等生物信息學數(shù)據(jù)通常是高維,而特征選擇技術能從高維數(shù)據(jù)中過濾掉噪音和無關變量,從而有效的降維。本文對特征選擇技術及其在生物信息處理中的應用進行研究。
  生物信息學時間序列數(shù)據(jù)分析有助于探尋疾病的發(fā)生發(fā)展過程,尋找疾病發(fā)生的前瞻性標志物。傳統(tǒng)的處理時間序列方法常用來處理某種監(jiān)測變量在相對較短的時間間隔下的連續(xù)測量值,主要用于

2、預測、異常點檢測及分類等。而生物信息學中的時間序列通常是多樣本及高維數(shù)據(jù)在時間維度上的序列,且時間點少。本文對生物信息學中時間序列數(shù)據(jù)處理方法進行研究,為從大量變量中篩選反應疾病發(fā)生的前瞻性標志信息,提出了一種利用相對偏差思想來對時間序列特征選擇的方法wRDA。為了反應不同時間點在疾病發(fā)生發(fā)展過程中的所處的階段不同,wRDA方法采用各個時間點上加權的相對偏差并累加來尋找疾病的前瞻性標志信息。為驗證wRDA方法的有效性,本文將其分別應用到

3、一個動物肝病實驗和一個人群肝病的代謝時間序列數(shù)據(jù)處理中,同時,結合臨床時間序列數(shù)據(jù)處理的特點,兼顧樣本儲藏時間的影響,本文對同一時間點的不同采樣時間加權,將wRDA擴展為w2RDA方法。動物時間序列代謝組學的數(shù)據(jù)分析實驗結果表明,wRDA能夠發(fā)現(xiàn)已知的重要的反映肝病不同病程的代謝物,同時所選變量能夠較好的區(qū)分有病與無病、肝癌和非肝癌樣本。在人群肝病的時間序列代謝數(shù)據(jù)處理中,發(fā)現(xiàn)篩選的特征子集中血清膽汁酸在癌前階段具有長期升高的現(xiàn)象,因此

4、本文推測膽汁酸為肝癌發(fā)生的風險因子。
  針對生物信息學數(shù)據(jù)具有變量維度高、樣本少的特點,本文提出了一種特征選擇算法ReliefF-WS,用來過濾噪聲及降低維度。算法首先利用類重疊的思想對樣本進行度量并賦予一定的權值,質量好的樣本將獲得較高的權值,質量差的樣本得到較低的權值。ReliefF算法是一種快速有效的過濾式特征選擇算法,將類重疊樣本加權的思想應用到ReliefF算法中對其進行改進,可以降低ReliefF算法在特征權值更新過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論