SKAT與懲罰回歸模型聯(lián)合分析策略在遺傳關(guān)聯(lián)研究中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩108頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、背景:
  全基因組關(guān)聯(lián)研究(Genome-Wide Association Studies,GWAS)成功鑒定出許多與人類各種疾病關(guān)聯(lián)的常見遺傳變異,但能解釋的疾病遺傳風(fēng)險(xiǎn)比例仍然很低。稀有變異由于在人類進(jìn)化過程中通常新近發(fā)生,尚未經(jīng)受選擇壓力,更傾向于包含功能性致病位點(diǎn)。隨著近年來二代測序技術(shù)的快速發(fā)展,涌現(xiàn)出大量含稀有變異的遺傳關(guān)聯(lián)研究數(shù)據(jù);然而稀有變異在人群中頻率很低,導(dǎo)致常規(guī)統(tǒng)計(jì)方法效能低下,給統(tǒng)計(jì)分析方法的發(fā)展帶來新的

2、挑戰(zhàn)。
  早期的基因組關(guān)聯(lián)分析中,單遺傳變異關(guān)聯(lián)性檢驗(yàn)受限于多重校正后的顯著性水平,要求較為苛刻,效能極低。考慮到大部分疾病相關(guān)基因里存在多個(gè)有潛在功能的遺傳變異,特別是稀有變異,將基因內(nèi)變異聚集以增加其效應(yīng)的負(fù)擔(dān)檢驗(yàn)是處理稀有變異較為常用的一種分析策略。另一方面,以SKAT(sequence Kernel associationtest)為代表的基于個(gè)體間遺傳變異相似性的方差分量檢驗(yàn)成功地解決了遺傳變異間存在的連鎖不平衡及基因

3、內(nèi)變異效應(yīng)方向不同等問題。但SKAT僅針對(duì)單個(gè)基因或者感興趣區(qū)域(Region ofInterest,ROI)內(nèi)遺傳變異進(jìn)行分析,忽略了其他基因或基因外圍所包括的信息。
  基因組遺傳關(guān)聯(lián)數(shù)據(jù)呈現(xiàn)高維狀態(tài),噪音大,共線性嚴(yán)重,在傳統(tǒng)最小二乘與似然估計(jì)基礎(chǔ)上引入懲罰函數(shù)是解決此類問題的有效工具之一。1996年Tibshirani提出基于懲罰思想的LASSO(least absolute shrinkage and selection

4、 operator)。Zou等在2005年提出將嶺估計(jì)和LASSO凸結(jié)合,稱為“彈性網(wǎng)(Elastic Net)”。2009年和2012年 Breheny等和 Huang等進(jìn)一步提出兩水平懲罰模型cMCP(composite Minimax Concave Penalty)和Gel(The group exponential lasso),在基因和遺傳變異兩個(gè)水平上進(jìn)行變量選擇,但其理論和應(yīng)用仍需進(jìn)一步研究。
  由于基于基因或R

5、OI的SKAT法只在組水平上進(jìn)行統(tǒng)計(jì)推斷,而無法估計(jì)單個(gè)變異的效應(yīng),而常規(guī)懲罰模型(LASSO和EN)雖可估計(jì)變異效應(yīng),但不做統(tǒng)計(jì)推斷,因此本研究提出兩階段聯(lián)合分析策略,將SKAT與LASSO和EN聯(lián)合應(yīng)用,優(yōu)勢互補(bǔ),并與成組懲罰模型進(jìn)行比較,評(píng)價(jià)各類方法及策略的性能,為遺傳關(guān)聯(lián)研究提供方法學(xué)選擇的依據(jù)和指導(dǎo)。
  方法:
  本研究統(tǒng)計(jì)方法選用SKAT,LASSO,EN三種方法、兩階段聯(lián)合應(yīng)用策略(SKAT+EN,SKAT

6、+LASSO,EN+SKAT,LASSO+SKAT)及兩水平懲罰模型(cMCP,Gel),比較它們?cè)诨蚪M關(guān)聯(lián)分析、候選基因關(guān)聯(lián)分析研究中的應(yīng)用性能,并將研究方法應(yīng)用于lncRNA H19,HOTAIR,MALAT1和MEG3與肝癌的病例對(duì)照遺傳關(guān)聯(lián)研究實(shí)例,以說明各類方法的實(shí)際應(yīng)用。
  在基因組關(guān)聯(lián)分析中,模擬數(shù)據(jù)源自遺傳分析工作組18(Genetic Analysis Workshop18,GAW18),共包括849個(gè)個(gè)體,

7、以50次模擬舒張壓作為結(jié)局變量,選取第3號(hào)染色體的遺傳變異數(shù)據(jù)(含1141個(gè)基因的532092個(gè)SNPs)作為自變量;評(píng)價(jià)指標(biāo)主要有靈敏、和特異度、約登指數(shù)、選出率、相關(guān)關(guān)系的P值與相關(guān)系數(shù)
  在候選基因關(guān)聯(lián)分析中,仍采用GAW18數(shù)據(jù),以849個(gè)個(gè)體的200次模擬舒張壓作為結(jié)局變量,以模擬數(shù)據(jù)集中與舒張壓實(shí)際關(guān)聯(lián)的35個(gè)基因119個(gè)SNPs作為自變量,評(píng)價(jià)各類方法的效能;以與這些基因完全無關(guān)聯(lián)的聯(lián)系性狀Q1做為結(jié)局變量,評(píng)價(jià)各

8、類方法的I類錯(cuò)誤。評(píng)價(jià)指標(biāo)在基因組關(guān)聯(lián)分析指標(biāo)的基礎(chǔ)上增加了絕對(duì)誤差與相對(duì)誤差。
  實(shí)證研究中,采用本課題組在廣東順德地區(qū)人群中研究lncRNA H19,HOTAIR,MALAT1和MEG3與肝癌關(guān)聯(lián)的病例對(duì)照數(shù)據(jù),共包含604病例和614對(duì)照的4個(gè)基因共15個(gè)SNPs的信息。
  結(jié)果:
  1.基因組關(guān)聯(lián)研究結(jié)果顯示,在基因水平上評(píng)價(jià),SKAT的平均靈敏度最高,為0.595;SKAT+LASSO的特異度最高,平均

9、值為0.906。SKAT的約登指數(shù)最高,為0.112,其次是SKAT+EN,為0.086。在SNP水平上。EN靈敏度最高,SKAT+LASSO特異度最高,EN+SKAT的約登指數(shù)最高,為0.016。對(duì)舒張壓效應(yīng)貢獻(xiàn)最大的實(shí)際關(guān)聯(lián)基因MAP4在各種統(tǒng)計(jì)分析策略的選出率均為最高,值與基因內(nèi)的SNPs數(shù)和對(duì)DBP的解釋方差比例存在一定的統(tǒng)計(jì)學(xué)關(guān)聯(lián)。選出次數(shù)最多的SNP為48040283與47957996,位點(diǎn)均屬于MAP4,效應(yīng)真值分別為-6

10、.22與-4.64,效應(yīng)強(qiáng)度排名分別為第1與第5。
  2.候選基因關(guān)聯(lián)分析中,在基因水平上,EN的效能最高,為0.638;其次為LASSO,為0.616;SKAT及其聯(lián)合策略的I類錯(cuò)誤最低。在SNP水平上EN效能最高,其次為LASSO。SKAT+EN與SKAT+LASSO的I類錯(cuò)誤最低。此外,無論是基因水平還是SNP水平,EN+SKAT的效能雖然略低于EN法與LASSO法,但是在一類錯(cuò)誤上遠(yuǎn)低于二者。MAP4是各模型選出率最高的

11、基因,選出率與基因包含SNPs個(gè)數(shù)、解釋方差比例存在一定的統(tǒng)計(jì)學(xué)關(guān)聯(lián)。效應(yīng)真值位列前3的SNPs在各模型中的選出率均屬前列,選出率與MAF值、效應(yīng)真值普遍不存在統(tǒng)計(jì)學(xué)關(guān)聯(lián),但與解釋的方差比例存在關(guān)聯(lián)。不同統(tǒng)計(jì)策略的絕對(duì)誤差與相對(duì)誤差和 MAF值與方差解釋比例之間并無相關(guān)關(guān)系,而絕對(duì)誤差與系數(shù)真值均存在相關(guān)關(guān)系
  3.lncRNA與肝癌病例對(duì)照遺傳關(guān)聯(lián)研究結(jié)果顯示,傳統(tǒng)的logistic回歸僅在單因素分析時(shí)挖掘到rs1511912

12、49可能與肝癌存在關(guān)聯(lián),SKAT沒有得到有統(tǒng)計(jì)關(guān)聯(lián)的基因,而EN和LASSO分別篩選出11和10個(gè)與肝癌關(guān)聯(lián)的SNPs,其中包含rs151191249。
  結(jié)論:
  1.在樣本量不足900人的基因組關(guān)聯(lián)研究中,EN+SKAT結(jié)合的兩階段統(tǒng)計(jì)分析策略能夠從數(shù)百萬SNP中把與疾病關(guān)聯(lián)度較高的基因和SNP篩選出
  來,該策略靈敏度較高,同時(shí)假陽性錯(cuò)誤的概率較低,為復(fù)雜性狀基因組關(guān)聯(lián)研究提供了一種有效的統(tǒng)計(jì)分析策略。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論