核苷酸配對差異分析與中性檢驗_第1頁
已閱讀1頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十章 古DNA數(shù)據(jù)分析,主要內(nèi)容,系統(tǒng)發(fā)育分析遺傳多維尺度分析 主成分分析 群體遺傳學(xué)分析,系統(tǒng)發(fā)育分析,系統(tǒng)發(fā)育(phylogeny)是指一群有機(jī)體發(fā)生或進(jìn)化的歷史。系統(tǒng)發(fā)育樹(phylogenetic tree),也稱為譜系發(fā)育樹、譜系樹、系統(tǒng)發(fā)生樹、系統(tǒng)樹)就是描述這一群有機(jī)體發(fā)生或進(jìn)化順序的拓?fù)浣Y(jié)構(gòu) 。系統(tǒng)發(fā)育分析(phylogenetic analysis)就是指利用現(xiàn)有生物的形態(tài)或分子生物學(xué)數(shù)據(jù)重建(recon

2、struction)系統(tǒng)發(fā)育樹推斷系統(tǒng)發(fā)生的過程。,系統(tǒng)發(fā)育樹,系統(tǒng)發(fā)育樹形式,有根樹(rooted tree)和無根樹(unrooted tree),當(dāng)n=10時,有根樹的數(shù)目是34 459 425、無根樹是2 027 025。,系統(tǒng)發(fā)育樹形式,標(biāo)度樹和非標(biāo)度樹,系統(tǒng)發(fā)育樹形式,基因樹和物種樹,圖(a)基因的分歧時間早于物種的分歧時間 (b)基因的分歧時間晚于物種的分歧時間,基因樹與物種樹之間的不同,系統(tǒng)發(fā)生樹的構(gòu)建,(1)序列比對與

3、排序;(2)系統(tǒng)發(fā)育樹的重建;(3)結(jié)果的檢驗。,序列比對與排序,序列比對與排序是構(gòu)建系統(tǒng)發(fā)育樹、進(jìn)行系統(tǒng)發(fā)育分析的前提和必要條件。在古DNA研究中,序列比對的目的就是建立起所檢測序列與其他序列的同源關(guān)系,提取系統(tǒng)發(fā)育分析數(shù)據(jù)集。序列比對有各種不同的方法,這些方法都是將同源序列位點上相同或相似殘基(稱匹配位點)與不相似殘基(稱不匹配位點)按一定的記分規(guī)則轉(zhuǎn)化成序列之間相似性或差異性(距離)數(shù)值進(jìn)行比較。 ClustalX (Cl

4、ustalW) 是進(jìn)行此項工作的經(jīng)典程序。,系統(tǒng)發(fā)育樹的重建,在古DNA研究中,主要的系統(tǒng)發(fā)育樹重建方法有3類: 距離法 簡約法 似然法,,距離法,距離法(distance method)首先根據(jù)距離模型估算出分類群間的進(jìn)化距離,然后根據(jù)不同的聚類算法,從進(jìn)化距離最短的開始依次聚類,利用距離值矩陣計算出最優(yōu)樹,或?qū)⒖偟臉渲﹂L度最小化而優(yōu)化出進(jìn)化樹 。計算個體間遺傳距離的替代模

5、型有很多,最基本的核苷酸序列替代模型是P-距離模型、Jukes—Cantor單參數(shù)模型(JC69)、Kimura雙參數(shù)模型(K2P,也稱為K80),在此基礎(chǔ)上衍生出其它一系列模型,如Tajima-Nei模型、Tamura模型、Tamura-Nei模型等。,P-距離模式最簡單的距離模型,將2個序列間核苷酸差異率作為彼此間的遺傳距離,其計算公式為: 式中nd和n分別為所檢測的兩序列間的核苷酸差異數(shù)和配對總數(shù)。,P距離,,Jukes

6、-cantor距離模型,Jukes-cantor模型假定任一位點的4種核苷酸A、T、G和C間的替代頻率都是相同的,其遺傳距離為:,,式中P為兩個序列間核苷酸的差異率。,Kimura雙參數(shù)距離模型,事實上,在DNA 序列中4種核苷酸的替代頻率是不同的,通常核苷酸轉(zhuǎn)換的比率要高于顛換,Kimura雙參數(shù)模型考慮了轉(zhuǎn)換和顛換速率的不同,其遺傳距離為:,,式中P 和Q 分別為序列中核苷酸轉(zhuǎn)換和顛換的比率,群體之間的遺傳距離,對于群體之間的遺傳距

7、離,常用以下公式計算: 其中 dij 是指種群i和j間的平均配對差異(raw mean nucleotide pairwise difference),而d i和 dj則分別為種群i和j內(nèi)的平均配對差異。,,距離模型的選擇,當(dāng)序列分歧比較大時,不同距離測度獲的結(jié)果差異比較大;但序列分歧比較小時,各種模型所得的數(shù)據(jù)十分相近。目前古DNA研究的對象多為10萬年內(nèi)的人、動植物等,其序列分歧度都不是很大,因此無論選擇哪種距離模型,對

8、實驗的分析結(jié)果影響都比較小。在古DNA研究中一般選用Kimura雙參數(shù)距離模型,在實際應(yīng)用中,此遺傳距離模型和其它模型相差不大。,距離法常用的聚類算法,算術(shù)平均不加權(quán)的組對法(unweighted pair group method with arithmatic mean, UPGMA)、FM法(Fitch-Margoliash)、最小進(jìn)化法(minimum evolution, ME)鄰接法(neighbor-joining

9、, NJ),NJ法,NJ法在系統(tǒng)發(fā)育樹構(gòu)建中應(yīng)用最為廣泛,其原理是逐步尋找新的近鄰種類(序列),使最終生成的分子樹的遺傳距離總長度為最小。所謂“近鄰”是指在譜系樹上兩個分類單元只通過一個內(nèi)部節(jié)點相連。對于古DNA研究來說,通常選用NJ法構(gòu)樹。,簡約法,簡約法(parsimony methods)中最有影響的是最大簡約法(Maximum Parsimony, MP),該方法源于形態(tài)性狀的研究,運用最相近的生物間性狀變化量最少的演化原理確

10、定最短的進(jìn)化樹,該樹僅需要最少的進(jìn)化步驟就能解釋所有DNA序列之間的變異 。構(gòu)建最簡約譜系樹的位點被稱為簡約信息點(informative site)當(dāng)無論有多少條序列進(jìn)行比對后,如果一個位點是信息位點,那么在這個位點上它至少要包含兩種不同的核苷酸,而且每種核苷酸至少在兩個序列中出現(xiàn)。,最大簡約樹的構(gòu)建,最大簡約法應(yīng)用于序列數(shù)據(jù)構(gòu)建包括以下幾個步驟: ⑴ 確定所有的信息位點, ⑵ 對所有可能的樹型,計算每個信息位點上的

11、發(fā)生核苷酸替代的最低次數(shù),并對所有信息位點的最低替代數(shù)目求和, ⑶ 選擇核苷酸替代次數(shù)總和最小的樹作為最簡約譜系樹。,一致樹consensus tree,在簡約法中會產(chǎn)生多顆等價的簡約樹是很常見的,大量近源序列組成的數(shù)據(jù)集有時會產(chǎn)生成百上千棵樹,無法得到準(zhǔn)確的系統(tǒng)發(fā)育信息。此時最好的辦法是將所有的譜系樹合成為一個譜系樹,即一致樹。一致樹可分為: 嚴(yán)格一致樹(strict consensus tree) 多數(shù)一致

12、樹(majority-rule consensus tree),似然法,似然法(likelihood methods)中最常用的是最大似然法(Maximum Likelihood, ML),這類方法首先要確定一個序列進(jìn)化模型,例如Kimura雙參數(shù)模型等。然后在該模型下尋找可能的系統(tǒng)樹,最后通過比較系統(tǒng)樹的似然函數(shù)值,將具有最大似然值的系統(tǒng)樹視為最佳的系統(tǒng)樹。實際上,似然值是從比對的每一個堿基位點衍生出來的。如果以核苷酸替代模型為基礎(chǔ)

13、,最大似然法需要確定每個分支在一定時間間隔內(nèi)核苷酸發(fā)生特定替代變化的概率。,中介網(wǎng)絡(luò)法(median network),mtDNA控制區(qū)序列系統(tǒng)發(fā)育信息位點少,受頻發(fā)突變影響而出現(xiàn)多系或網(wǎng)狀結(jié)構(gòu),上述這些傳統(tǒng)構(gòu)樹方法往往最后只使用一棵分子系統(tǒng)樹, 很難反映單倍型序列間的真實系統(tǒng)發(fā)育關(guān)系。此外, 這些方法在構(gòu)建分子系統(tǒng)樹時,不考慮單倍型的頻率及其地理來源的信息。 Bandelt等提出一種新的構(gòu)樹方法—中介網(wǎng)絡(luò)法,可以構(gòu)建中介網(wǎng)絡(luò)圖,該圖

14、包含所有最簡約的樹,而且可顯示序列的信息(如同質(zhì)性位點的位置、突變熱點以及分辨單倍型類群等),在聚類簇中節(jié)點之間的距離越近,它們的單倍型就越相近。,不同構(gòu)樹方法的評估和比較,在研究實際問題的過程中,不同譜系構(gòu)樹方法獲得的結(jié)果不盡相同。目前還沒有一種構(gòu)樹方法可以適合于所有的數(shù)據(jù)和條件。在構(gòu)建系統(tǒng)發(fā)育樹時,最好同時使用多種方法構(gòu)建系統(tǒng)樹,多種方法所獲系統(tǒng)樹的一致,將大大提高結(jié)果的可靠性。當(dāng)然無論使用何種方法重建系統(tǒng)樹,都必須對其分支格局的

15、統(tǒng)計置信度進(jìn)行檢驗。,系統(tǒng)發(fā)育樹的檢驗,當(dāng)一個系統(tǒng)樹建成后,確定其可靠性十分重要。因此在構(gòu)建系統(tǒng)發(fā)育樹之后,應(yīng)當(dāng)對所建立的系統(tǒng)樹的準(zhǔn)確度加以評估。一個系統(tǒng)樹一般會有兩類誤差:拓?fù)浣Y(jié)構(gòu)誤差和分支長度誤差。 在檢驗分子系統(tǒng)樹的精確性時一般首先檢驗分支拓?fù)浣Y(jié)構(gòu)存在的誤差,而分枝長度估計的可靠性可以通過自展法來檢驗。,自展法(bootstrap method),自展法根據(jù)從原始數(shù)據(jù)集中隨機(jī)抽樣產(chǎn)生的自展數(shù)據(jù)集構(gòu)建多個系統(tǒng)發(fā)育樹,然后檢驗這些譜

16、系樹對一致樹各個支系的支持率。自展法可以對距離構(gòu)樹方法、最大簡約建樹方法、最大似然構(gòu)樹方法以及衍生出的其它任何方法進(jìn)行評估。典型的自展檢驗分析結(jié)果是一個數(shù)字,這個數(shù)字同一個系統(tǒng)發(fā)育進(jìn)化樹的一個特定分支相關(guān),而這個系統(tǒng)發(fā)育進(jìn)化樹則給出了支持單源進(jìn)化分支的自展的重復(fù)比例。如果自展值大于70%,那么所得到的系統(tǒng)發(fā)育進(jìn)化樹能夠反映真實的系統(tǒng)發(fā)生史的可能性要大于95%。,遺傳多維尺度分析,對于親緣關(guān)系較近的群體,用構(gòu)建系統(tǒng)發(fā)育樹的方法分析其

17、遺傳關(guān)系有一定的局限性。當(dāng)親緣關(guān)系很近時,不同方法所得到的系統(tǒng)發(fā)育樹在分支上總是或多或少存在差別,而在理論上無法判定哪種譜系更為合理。 多維尺度分析基于對象間的相似性或不相似性,它從原始變量中得到一系列經(jīng)過簡化的新變量,并以新變量為基礎(chǔ),對對象進(jìn)行縮放,用圖形表示對象在多維空間(Muti—dimensionaL space,MDS)中的關(guān)系的。,遺傳多維尺度分析,在遺傳多維尺度分析過程中,它以兩個群體間的遺傳距離作為尺度,在多維圖上遺

18、傳距離接近的群體會聚在一起,從而直觀形象的推斷出群體間遺傳距離的遠(yuǎn)近。但是,MDS法僅僅以兩兩亞群體間的遺傳距離作為尺度,缺乏對整個群體進(jìn)化發(fā)育關(guān)系的宏觀考慮,同時在數(shù)據(jù)轉(zhuǎn)化為一個二維平面或三維空間的尺度問題上也存在一定的局限。因此在分析古DNA數(shù)據(jù)時,宜將MDS法和構(gòu)建系統(tǒng)發(fā)育樹這兩種方法結(jié)合起來考慮,這樣可以得到更合理的結(jié)果。,圖 契丹與7個現(xiàn)代對比人群的多維度分析OM=外蒙古、IM=內(nèi)蒙古、DAU=達(dá)斡爾、N H=北方漢族、U

19、IG=維吾爾、KAZ=哈薩克、UZB=烏茲別克,主成分分析,在多數(shù)實際問題中,當(dāng)我們對同一個體進(jìn)行多項觀察時,必定涉及多個隨機(jī)變量。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性,勢必增加分析問題的復(fù)雜性。我們希望有一個或幾個較好的綜合指標(biāo)(即主成分)來概括信息,而且希望綜合指標(biāo)互相獨立地各代表某一方面的性質(zhì)。主成分分析的實質(zhì)是將樣本的多個指標(biāo)化為少數(shù)的幾個指標(biāo)的一種多元統(tǒng)計方法。,群體遺傳學(xué)分析,群體遺傳學(xué)主要研究基因頻率在群體中的變化規(guī)律以及

20、如何保持遺傳多樣性。群體遺傳結(jié)構(gòu)動態(tài)分析主要這主要包括:遺傳多樣性指度分析、核苷酸不配對差異分析、中性檢驗和分子差異性分析以及基因混合度分析等。,群體遺傳多樣性指度分析,遺傳多樣性指度分析主要指: 基因多樣性(gene diversity) 核苷酸多樣性(nucleotide diversity) 平均配對差異數(shù)(mean number of pairwise differences)。,,基因多樣性,當(dāng)一個基

21、因座上有兩個或兩個以上的等位基因存在時,我們就稱該基因座具有基因多態(tài)性(genetic polymorphism)。在群體中一個基因座的基因多樣性計算公式如下:,n 是基因拷貝在樣本中的數(shù)目,對于單倍體來說 n 就是樣本的數(shù)量,對于二倍體來說 n 是標(biāo)本數(shù)的2倍。K 是等位基因的數(shù)目,Pi是第i個等位基因的群體頻率。,核苷酸多樣性,一個不依賴于樣本大小的DNA多態(tài)性的測度是兩個序列間每個位點上核苷酸差異的平均值或核苷酸多態(tài)性,計算公式如

22、下:,,dij是第i個等位基因和第j個等位基因間的核苷酸差異數(shù),L是序列的長度。,平均配對差異數(shù),平均配對差異數(shù)指所有序列比對差異數(shù)的平均數(shù),計算公式如下 :,n是樣本的數(shù)量,其他參數(shù)與上面相同。,核苷酸配對差異分析與中性檢驗,一般來說,群體是否經(jīng)受擴(kuò)張、瓶頸效應(yīng)或保持群體大小恒定等會影響到群體間的遺傳距離。因此,當(dāng)我們分析群體間的親緣關(guān)系時,也需考察群體的歷史動態(tài),核苷酸配對差異分布分析和中性檢驗就是兩個有力的檢驗工具。,核苷酸配對差

23、異分布分析,核苷酸配對差異分布分析(Mismatch distribution)是將一個或多個群體的任意兩個序列進(jìn)行兩兩比較得出的各序列間配對差異的分布情況。通過觀察群體的核苷酸配對差異分布曲線,可以推測群體的歷史動態(tài)。當(dāng)分布曲線呈現(xiàn)單峰泊松分布時,表明群體在過去經(jīng)受過擴(kuò)張或持續(xù)增長。,中性檢驗,通過中性檢驗也可以推斷群體的歷史動態(tài)。在古DNA研究中應(yīng)用最為廣泛的是Tajima’s 和 Fu’s Fs中性檢驗,當(dāng)Tajima’s D值

24、和Fu’s Fs值呈現(xiàn)較大的負(fù)值,顯著偏離中性突變時,可以作為一個古代群體擴(kuò)張的證明。,中國古代馬群體擴(kuò)張,Fu’s Fs負(fù)值(-14.21,P=0.0000),分子差異分析,分子差異性分析(analysis of molecular variance, AMOVA) 主要以分子單倍型之間的突變數(shù)目為基礎(chǔ),通過對所研究群體進(jìn)行不同層次的歸類和劃分,可界定不同的遺傳結(jié)構(gòu)并進(jìn)行統(tǒng)計學(xué)檢驗,從而估計出群體間、群體內(nèi)以及個體間不同層次所表現(xiàn)的差

25、異占總變異的多少,可以討論不同海拔高度、不同語系、以及地理群體間是否存在相應(yīng)的遺傳變異,尤其在比較不同群體之間遺傳相關(guān)性大小時十分有用。,基因混合度計算,一個生物類群或種群的來源往往是多元的,而祖先類群對新類群形成的貢獻(xiàn)率很可能是不相等的,要定量地刻劃每個祖先類群對新類群的基因貢獻(xiàn)的大小,就須借助基因混合度的計算。在假設(shè)兩個祖先人群A,B和混合人群M進(jìn)化速率相同的情況下,由A人群貢獻(xiàn)給M人群的基因的比例可表示為:M = 1/2 +(f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論