版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、生物信息學(xué)Bioinformatics,,Species Phylogeny,Orangutan,Gorilla,Chimpanzee,Human,From the Tree of the Life Website,University of Arizona,Global Phylogeny of Fully Sequenced Organisms,Science. 2006 ; 311(5765):1283-7Toward au
2、tomatic reconstruction of a highly resolved tree of life,生物學(xué)家:We have a dream…,Tree of Life: 重建所有生物的進(jìn)化歷史并以系統(tǒng)樹的形式加以描述,夢想走進(jìn)現(xiàn)實(shí):How?,最理想的方法:化石!—— 零散、不完整,比較形態(tài)學(xué)和比較生理學(xué):確定大致的進(jìn)化框架 —— 細(xì)節(jié)存很多的爭議,比較形態(tài)學(xué)證據(jù) (Comparative morphology),
3、普適性 由4種核酸組成 ? 分子水平的進(jìn)化表現(xiàn)為:DNA序列的演化、氨基酸序列演化、蛋白質(zhì)結(jié)構(gòu)的演化 可比較性 比較不同物種的有關(guān)DNA序列 ? 建立DNA序列的演化模型、氨基酸序列的演化模型(數(shù)學(xué)模型) 蛋白質(zhì)結(jié)構(gòu)的演化模型 (形態(tài)、性狀的演化模型?) 基因組編碼信息的豐富 與形態(tài)、性狀包含的信息相比,基因組序列包含更多、更復(fù)雜的信息結(jié)構(gòu),第三種方案 進(jìn)化學(xué)的分子
4、途徑,,分子系統(tǒng)發(fā)育學(xué)Molecular Phylogenetics分子系統(tǒng)學(xué)Molecular Systematics,What can we do for molecular evolution?序列比較:源于同一祖先DNA/氨基酸序列的兩條DNA/氨基酸序列,考察二者的差異。序列差異:進(jìn)化過程中分子突變的痕跡分子進(jìn)化:以累計(jì)在DNA/氨基酸分子上的歷史信息為基礎(chǔ),研究分子水平的生物進(jìn)化過程和機(jī)制。,分子系統(tǒng)學(xué)為生
5、物分類問題提供了許多嶄新的見解。,基因突變,1、核苷酸替代、插入/缺失、重組2、基因轉(zhuǎn)換,,固定在生物個(gè)體以及物種內(nèi),遺傳漂變,自然選擇,,傳遞給后代,產(chǎn)生新的形態(tài)、性狀,分子系統(tǒng)學(xué)是研究進(jìn)化機(jī)制的一個(gè)重要工具。,生物進(jìn)化的分子機(jī)制,,性狀改變,DNA分子的改變,核苷酸替代substitution,核苷酸缺失deletion,核苷酸插入insertion,核苷酸倒位invertion,DNA序列的突變,從物種的一些分子特性出發(fā)
6、,構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系 —— tree of life; 物種分類大分子功能與結(jié)構(gòu)的分析:同一家族的大分子,具有相似的三級(jí)結(jié)構(gòu)及生化功能,通過序列同源性分析,構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)行相關(guān)分析;功能預(yù)測進(jìn)化速率分析:例如,HIV的高突變性;哪些位點(diǎn)易發(fā)生突變?,分子進(jìn)化研究的目的,Tsar Nicholas IIEstablishing the identity of Anna Anderson Ma
7、nahan,《真假公主》—— 1917年俄國末代王朝被推翻,貴族與侍衛(wèi)全部逃走,而沙皇可憐的兒子老少一個(gè)都沒走脫,并于1918年被全部處決。但民間卻流傳著沙皇的小女兒死里逃生,遠(yuǎn)走他鄉(xiāng)的故事。為了得到俄國沙皇的一千萬遺產(chǎn),許多人絞盡腦汁尋找安娜公主,終無所獲。俄國貴族后裔布丁將軍終于找到一位外貌氣質(zhì)酷似安娜公主的女子,于是訓(xùn)練她皇室的各種禮儀及相關(guān)的人和事,安娜公主過關(guān)斬將。順利和皇太后相認(rèn),就在太后要宣布安娜公主為遺產(chǎn)繼承人并與保羅定
8、婚時(shí),安娜公主與布丁悄然消失,結(jié)局出人意料……,Contents,第1節(jié) 基本概念第2節(jié) 距離法第3節(jié) 常用分子進(jìn)化與系統(tǒng)發(fā)育分析的軟件第4節(jié) 生物進(jìn)化理論與分子進(jìn)化的討論,第一節(jié) 基本概念,基本概念:系統(tǒng)發(fā)生(phylogeny)——是指生物形成或進(jìn)化的歷史系統(tǒng)發(fā)生學(xué)(phylogenetics)——研究物種(遺傳學(xué)特征)之間的進(jìn)化關(guān)系,認(rèn)為特征相似的物種在遺傳學(xué)上接近.系統(tǒng)發(fā)生的結(jié)果常以系統(tǒng)發(fā)生樹表示; 系統(tǒng)發(fā)生樹(
9、phylogenetic tree)——表示形式,描述物種(遺傳學(xué)特征: 形態(tài), 基因序列, 蛋白質(zhì)序列等等) 之間進(jìn)化關(guān)系,,系統(tǒng)發(fā)生樹: 物種(遺傳特征)之間的關(guān)系; 進(jìn)化樹: 從低等到高等, 有始有終,,經(jīng)典系統(tǒng)發(fā)生學(xué) 主要是物理或表型特征 如生物體的大小、顏色、觸角個(gè)數(shù)即通過表型比較來推斷生物體的基因型(genotype),研究物種之間的進(jìn)化關(guān)系.有時(shí)候親緣關(guān)系遠(yuǎn)的物種也能進(jìn)化出相似的表
10、型,所謂的趨同進(jìn)化(convergent evolution).所以表型為依據(jù)的進(jìn)化分析有時(shí)候并不正確.如是否有眼睛?,現(xiàn)代系統(tǒng)發(fā)生學(xué) 利用從遺傳物質(zhì)中提取的信息作為物種特征 具體地說就是核酸序列或蛋白質(zhì)分子,根據(jù)現(xiàn)有生物基因或物種多樣性重建生物的進(jìn)化史是一個(gè)非常重要的問題。根據(jù)核酸和蛋白質(zhì)的序列信息,可以推斷物種之間的系統(tǒng)發(fā)生關(guān)系.基本原理: 從一條序列變?yōu)榱硪粭l序列所需要的變換越多,兩條序列的相關(guān)
11、性就越小,從共同祖先分歧的時(shí)間越早,進(jìn)化距離越大;反之,兩個(gè)序列越相似,它們之間的進(jìn)化距離可能越小.,所有的生物都可以追溯到共同的祖先,生物的產(chǎn)生和分化就象數(shù)一樣地生長, 分叉, 以樹的形式來表示生物之間的進(jìn)化關(guān)系是非常自然的事.,系統(tǒng)發(fā)生樹是一種二叉樹(每個(gè)節(jié)點(diǎn)最多有兩個(gè)子節(jié)點(diǎn)), 由一系列的節(jié)點(diǎn)(nodes)和分支(branches)組成, 每個(gè)節(jié)點(diǎn)代表一個(gè)分類單元(物種或序列), 節(jié)點(diǎn)之間的連線表示物種之間的進(jìn)化關(guān)系。枝長bran
12、ch length 通常代表在該分枝中曾發(fā)生過的變化數(shù)。,,,,,,,,,,,,,,系統(tǒng)樹可以是有根的rooted 也可以是無根的(unrooted). 在有根樹中存在一個(gè)被稱為根特殊節(jié)點(diǎn)由此導(dǎo)向任何別的節(jié)點(diǎn)都只有唯一圖. 每一途徑中的方向與進(jìn)化時(shí)間相對(duì)應(yīng).而根則是所有正被研究的的共同祖先. 無根樹是一種只將各間的關(guān)系具體化而未定義進(jìn)化途徑的樹圖.,系統(tǒng)發(fā)生樹性質(zhì): (1)如果是一棵有根樹,則樹根代表在進(jìn)化歷史上是最早的、并
13、且與其它所有分類單元都有聯(lián)系的分類單元; (2)如果找不到可以作為樹根的單元,則系統(tǒng)發(fā)生樹是無根樹; (3)從根節(jié)點(diǎn)出發(fā)到任何一個(gè)節(jié)點(diǎn)的路徑指明進(jìn)化時(shí)間或者進(jìn)化距離。,直系同源(orthologs): 同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的.旁系同源(paralogs): 同源的基因是由于基因復(fù)制產(chǎn)生的.,直系同源與旁系同源,必須了解的概念:,,,,paralogs,,,orthologs,,paralogs,,,,o
14、rthologs,思考: 用于分子進(jìn)化的序列必須是直系 or 旁系同源才能真實(shí)反映進(jìn)化過程?,,,,,,,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,,,,,,,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Euk
15、aryote 2,Phylograms show branch order and branch lengths進(jìn)化樹,有分支和支長信息,進(jìn)化分支圖,進(jìn)化樹,Cladograms show branching order - branch lengths are meaningless進(jìn)化分支圖,只用分支信息,無支長信息。,Rooted by outgroup,archaea,archaea,archaea,bacteria ou
16、tgroup,,root,,eukaryote,eukaryote,eukaryote,eukaryote,無根樹,archaea,archaea,archaea,,,有根樹,無根樹,外圍群,有根樹,外圍群,,,,,,a,b,c,d,,,,,,a,c,b,d,,,,,,a,d,b,c,考慮4個(gè)分類群時(shí),共有3種可能的無根樹,考察類群數(shù)為 m ( m ? 3 )的系統(tǒng)樹,其可能的拓?fù)浣Y(jié)構(gòu)數(shù)目為:,有根樹,無根樹,m=10:34,459,
17、425種,m=10: 2,027,025種,當(dāng) m較大時(shí),選出真實(shí)樹的拓?fù)浣Y(jié)構(gòu)十分困難。,分支數(shù)目:,有根樹,無根樹,內(nèi)部分支數(shù)目:,有根樹,無根樹,內(nèi)部節(jié)點(diǎn)數(shù)目:,有根樹,無根樹,無根樹和有根樹:潛在的數(shù)目,#Taxa 無根樹 有根樹,3 1 34 3
18、 155 15 1056 105 9457 945 10,395…30 ~3.58X1036 ~2.04X1038,Taxa增多,計(jì)算量急劇增加,因此,目前算法都為優(yōu)化算法
19、,不能保證最優(yōu)解,物種樹: 代表一個(gè)物種或群體進(jìn)化歷史的系統(tǒng)發(fā)育樹 兩個(gè)物種分歧的時(shí)間:兩個(gè)物種發(fā)生生殖隔離的時(shí)間 基因樹: 由來自各個(gè)物種的一個(gè)基因構(gòu)建的系統(tǒng)發(fā)育樹(不完全等同于物種樹),表示基因分離的時(shí)間。,系統(tǒng)發(fā)育樹的種類——基因樹、物種樹,期望樹: 一個(gè)用無限長的序列或每一分支的期望替代數(shù)構(gòu)建的樹,理論上:假設(shè)所研究的序列無限長,從中隨機(jī)抽樣進(jìn)行統(tǒng)計(jì)分析。,實(shí)際情況:
20、所研究的序列是短序列,統(tǒng)計(jì)得到的替代數(shù)目存在大量隨機(jī)誤差。,現(xiàn)實(shí)樹: 建立在實(shí)際替代數(shù)基礎(chǔ)上的樹,,,重建樹,,,構(gòu)樹方法,系統(tǒng)發(fā)育樹的種類——期望樹、現(xiàn)實(shí)樹和重建樹,構(gòu)建系統(tǒng)發(fā)育樹的數(shù)據(jù)1、特征數(shù)據(jù)(character data): 提供了基因、個(gè)體、群體或物種的信息2、距離數(shù)據(jù)(distance data)或相似性數(shù)據(jù)(similarity data): 涉及的則是成對(duì)基因、個(gè)體、
21、群體或物種的信息。 ? 距離矩陣,距離數(shù)據(jù)可以由特征數(shù)據(jù)計(jì)算得到。反之?,系統(tǒng)發(fā)育樹的構(gòu)建,構(gòu)造系統(tǒng)發(fā)育樹的主要方法,基于距離的構(gòu)建方法Fitch-Margoliash法 鄰接法(Neighbor Joining Method) 非加權(quán)組平均法 最小進(jìn)化方法 基于離散特征的構(gòu)建方法最大簡約法 最大似然法 進(jìn)化簡約法 相容性方法,構(gòu)建系統(tǒng)發(fā)育樹的主要過程拓?fù)浣Y(jié)構(gòu)的
22、判別(從大量的拓?fù)浣Y(jié)構(gòu)中搜尋、判別)一個(gè)既定拓?fù)浣Y(jié)構(gòu)的分支長度的估計(jì),,最優(yōu)原則,構(gòu)建進(jìn)化樹的一般原則,第二節(jié) 系統(tǒng)發(fā)育樹的構(gòu)建方法之一距離法,1 Fitch-Margoliash方法 (FM法)2 鄰接法(Neighbor Joining Method)3 非加權(quán)分組平均法(Unweighted Pair Group Method with Arithmetic mean, UPGMA)3 最大簡約法(Maximum
23、 Parsimony Method)4 最大似然法(Maximum Likelihood Method),首先要獲得所有分類群之間的進(jìn)化距離。系統(tǒng)發(fā)育樹的構(gòu)建是基于進(jìn)化距離之間的關(guān)系。,如何獲得所有分類群之間的進(jìn)化距離選定分類群共同的特征序列——氨基酸序列、核苷酸序列 例:人、馬、牛、袋鼠、蠑螈、鯉魚的血紅蛋白?鏈的氨基酸序 列(140aa); 人、獼猴、黑猩猩的線粒體DNA中細(xì)胞色素
24、b基因的核苷酸序列(1,125bp);比較兩兩序列之間的差異p (序列比對(duì)算法),根據(jù)不同的概率統(tǒng)計(jì)模型,由兩條序列的差異p值構(gòu)建它們的進(jìn)化距離 氨基酸序列:PC(Poisson校正)距離、?距離 核苷酸序列:Jukes-Cantor模型、Kimura模型、HKY模型等……,簡單的距離矩陣,1. Fitch-Margoliash方法 (FM法),D和E最接近!,分成三組:D, E, 以及ABC,DE
25、距離=d+e (1)D到ABC間的平均距離=d+m (2)E到ABC間的平均距離=e+m (3)(2)-(3)+(1)d=4,e=6,C最接近DE!,分成三組:C, DE, 以及AB,c+g+(e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (2)(1)+(2)-(3)得:c=9,c+g+(e+d)/2=19(e+d)/2=5,c=9
26、,則g=5,由:(a+b)/2+f+g+(d+e)/2=41 得:f=20由:a+f+c=39 得:a=10,則b=12,2. 鄰接法(Neighbor Joining Method),最小進(jìn)化(ME)思想:在所有可能的拓?fù)浣Y(jié)構(gòu)中,選擇分支長度和S最小作為最優(yōu)樹。(全局優(yōu)化思想)(Edwards & Cavalli-Sforza,1963)Saitou & Nei (1987):在每一階段應(yīng)用最小進(jìn)化原理,是ME
27、方法的簡化。,其中X為連接類群i, j的節(jié)點(diǎn),LiX為類群i到X的分支長度。,定義:鄰居(neighbors) 無根樹中,一個(gè)節(jié)點(diǎn)所連接的兩個(gè)分類群互為鄰居 (1, 2); (5, 6); (1-2, 3); (1-2-3, 4) ……,其中X為連接互為鄰居的類群i, j的內(nèi)部節(jié)點(diǎn),LiX為類群i到X的分支長度。,例子已知距離矩陣: 6個(gè)分類群的距離矩陣dij
28、,,,,,,初始系統(tǒng)樹的拓?fù)浣Y(jié)構(gòu)為星狀樹,其分支長度總和為:,已知m個(gè)分類群,以及它們的距離矩陣dij(m?m),定義:Sij表示類群i和j為鄰居時(shí)的分支長度總和。如,其中:,S12=29.5,Sij的計(jì)算公式:,其中:,分支長度的計(jì)算公式:,確定一個(gè)內(nèi)部節(jié)點(diǎn)A (連接鄰居i, j)后,計(jì)算A與其它分類群k距離:,得到新的距離矩陣(維數(shù)減1)……,CommentsNJ法本質(zhì)上是一種尋找最優(yōu)拓?fù)浣Y(jié)構(gòu)的譜系聚類算法。同時(shí)給出系統(tǒng)發(fā)育樹的
29、拓?fù)浣Y(jié)構(gòu)以及分支的長度。優(yōu)點(diǎn):1、可以較快地構(gòu)建系統(tǒng)樹;2、適用于分析較大的數(shù)據(jù)集;3、能夠較方便地進(jìn)行自展(Bootstrap)檢驗(yàn)。,NJ/鄰接法,與FM方法非常類似, 保證總的支長最短,總支長:a+b+c+d+e=314/4=78.5,找到距離最近的兩個(gè)點(diǎn),1.任意兩個(gè)節(jié)點(diǎn)選為相鄰序列的總支長計(jì)算公式:,2.計(jì)算SAB, SBC, SCD, SDE…等所有可能的組合數(shù)值,3.該例中, SAB最小,把A、B看成一個(gè)新的復(fù)合
30、序列,構(gòu)建一個(gè)新的距離表,重復(fù)以上過程,,計(jì)算A, B的分支長度,AB組合出現(xiàn)3次,DE組合出現(xiàn)3次,CD、AC、BC組合各一次,則AB和DE各為兩對(duì)關(guān)系最近的鄰居。(關(guān)系最近的鄰居作為鄰居的次數(shù)最多),將鄰居看成一個(gè)新的復(fù)合序列,重復(fù)這個(gè)過程,3 非加權(quán)分組平均法(Unweighted Pair Group Method with Arithmetic mean, UPGMA),在非加權(quán)分組平均法中,在計(jì)算新分類到其它分類之間的平均
31、距離時(shí)按照各分類中分類單元的數(shù)目進(jìn)行加權(quán)處理。,方法原理:譜系聚類,譜系聚類法的基本步驟首先將t個(gè)樣本各自視為一類:得到初始的分類G(1) (含有t類),計(jì)算t個(gè)樣本兩兩之間的距離,它們等價(jià)于初始的類間距離,得到初始的距離矩陣D(1) ; 將距離最近的兩類合并為一新類,得到新的分類G(2)(含有t-1類),并計(jì)算新類與其它類的類間距離,得到新的類間距離矩陣D(2) ,再按照最小距離準(zhǔn)則并類,得到G(3)(含有t-2類)、D(
32、3),… 。直到所有樣本都并成一類 ; 畫出譜系聚類圖,決定分類的個(gè)數(shù)及各類的成員。,譜系聚類結(jié)果示意圖:,在基因替代速率恒定假設(shè)成立時(shí),UPGMA方法比較適用;UPGMA方法適用于具有較小變異系數(shù)的距離測度;UPGMA是一種既構(gòu)建拓?fù)浣Y(jié)構(gòu)又計(jì)算分支長度的方法;UPGMA方法既可以得到有根樹,也可以得到無根樹。,d=e=10/2=5,UPGMA法,,c=19/2=9.5g=c-d=9.5-5=4.5,a=b=22/
33、2=11,f1+a=f2+c=40.5/2=20.25f1=9.25 , f2=11.75,選擇外類群(Outgroup),選擇一個(gè)或多個(gè)已知與分析序列關(guān)系較遠(yuǎn)的序列作為外類群外類群可以輔助定位樹根外類群序列必須與剩余序列關(guān)系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。,bacteria outgroup,eukaryote,eukaryote,eukaryote,eukaryote,archaea,ar
34、chaea,archaea,外圍群,,可靠性分析,自展法,通過系統(tǒng)發(fā)生分析推斷出來的樹的不同部分可能有不同的置信度, 造成統(tǒng)計(jì)誤差的一個(gè)原因是數(shù)據(jù)采樣誤差.因此對(duì)分析的對(duì)象多次采樣,比較不同樣本得到的估計(jì)值. 具體做法:從原始數(shù)據(jù)中采集部分?jǐn)?shù)據(jù)組新的數(shù)據(jù)集, 構(gòu)建系統(tǒng)發(fā)生樹,重復(fù)該過程,產(chǎn)生千百的重采樣數(shù)據(jù)集,并同時(shí)生成對(duì)應(yīng)的自展樹, 檢驗(yàn)自展樹對(duì)最終系統(tǒng)發(fā)生樹各分支的支持率.最后計(jì)算出來的數(shù)值為自展值(Bootstrap value)
35、.,進(jìn)化樹的可靠性分析,自展法(Bootstrap Method),將最終系統(tǒng)樹與各個(gè)自展樹進(jìn)行比較,其中在各個(gè)自展樹中都出現(xiàn)或大量出現(xiàn)的那些部分將具有高的置信度.比較耗時(shí).,4 最大簡約法(Maximum Parsimony Method),MP算法基本思想(Fitch, 1971; Hartigan, 1973)考慮m個(gè)核苷酸(或氨基酸)序列(m ? 4),假定4種核苷酸(或20種氨基酸)可突變?yōu)榕c自身不同的任何一種。
36、1)對(duì)于任一給定的拓?fù)浣Y(jié)構(gòu),可以推斷每個(gè)位點(diǎn)的祖先狀態(tài);2)對(duì)于該拓?fù)浣Y(jié)構(gòu),可以計(jì)算出用來解釋整個(gè)進(jìn)化過程所需的核苷酸(或氨基酸)的最小替代數(shù)目;3)對(duì)所有可能正確的拓?fù)浣Y(jié)構(gòu)計(jì)算它們的最小替代數(shù)目,選擇其中最小的作為最優(yōu)拓?fù)浣Y(jié)構(gòu)。,1)對(duì)于任一給定的拓?fù)浣Y(jié)構(gòu),計(jì)算它的樹長(即所有位點(diǎn)的最小替代數(shù)目之和)L;2)選取具有最短樹長的拓?fù)浣Y(jié)構(gòu)為最大簡約樹。,不變位點(diǎn):在所有分類群中相同核苷酸或氨基酸的位點(diǎn)。
37、 不變位點(diǎn)不提供任何信息。,計(jì)算所有結(jié)構(gòu)樹并選取最短樹長,信息位點(diǎn)、趨同進(jìn)化,進(jìn)化通徑:考慮任意兩個(gè)密碼子之間變換的可能路徑,MP法決定系統(tǒng)樹的分支長度,進(jìn)化通徑:考慮任意兩個(gè)密碼子之間變換的可能路徑,分支長度估計(jì)通過考慮每個(gè)非不變位點(diǎn)的所有進(jìn)化通徑,并計(jì)算每個(gè)內(nèi)部分支或外部分支的平均替代數(shù)來估計(jì)MP樹的分支長度。(具體算法略),1. 信息位點(diǎn),必須在至少2個(gè)taxa中具有相同的序列性狀2. 信息位點(diǎn)是指那些
38、至少存在2個(gè)不同堿基/氨基酸且每個(gè)不同堿基/氨基酸至少出現(xiàn)兩次的位點(diǎn),信息位點(diǎn) (Sites are informative),,,上例,1. Position 5, 7, 9為信息位點(diǎn)2. 基于position 5的三個(gè)MP樹: Tree 1長度1,Tree 2 & 3長度23. Tree 1更為簡約:總長:4 Tree 2長5;Tree 3長64. 計(jì)算結(jié)果:MP tree的最優(yōu)結(jié)果為tree 1,MP法評(píng)述
39、,MP法適用的問題理論基礎(chǔ)為奧卡姆剃刀 (Ockham)原則:計(jì)算所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹在分析的序列位點(diǎn)上沒有回復(fù)突變或平行突變,且被檢驗(yàn)的序列位點(diǎn)數(shù)很大的時(shí)候,最大簡約法能夠推導(dǎo)獲得一個(gè)很好的進(jìn)化樹優(yōu)點(diǎn):不需要在處理核苷酸或者氨基酸替代的時(shí)候引入假設(shè) (替代模型)缺點(diǎn):分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候,可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹推導(dǎo)結(jié)果,5 最大似然法
40、(Maximum Likelihood Method),ML算法基本思想(Felsenstein, 1981; Kishino, 1990)以一個(gè)特定的替代模型分析一組給定的核苷酸(或氨基酸)序列數(shù)據(jù),使獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率均為最大,挑選其中最大似然率最大的拓?fù)浣Y(jié)構(gòu),選為最終系統(tǒng)樹。ML法考察的既可以是拓?fù)浣Y(jié)構(gòu),也可以是既定拓?fù)浣Y(jié)構(gòu)的分支長度。ML法采用了標(biāo)準(zhǔn)的統(tǒng)計(jì)方法,以建立進(jìn)化的概率模型。計(jì)算量非常大。
41、詳細(xì)內(nèi)容請參考《分子進(jìn)化與系統(tǒng)發(fā)育》(高等教育出版社),最大似然法 (ML),1. 最大似然法(maximum likelihood, ML): 最早應(yīng)用于對(duì)基因頻率數(shù)據(jù)的分析上2. 選取一個(gè)特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個(gè)拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹3. 在最大似然法的分析中,所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個(gè)拓?fù)浣Y(jié)構(gòu)的枝長,并對(duì)似然率求最大值來估計(jì)枝長4. 缺
42、點(diǎn):費(fèi)時(shí),每個(gè)步驟都要考慮內(nèi)部節(jié)點(diǎn)的所有可能性5. 改進(jìn):啟發(fā)式算法,第3節(jié) 常用分子進(jìn)化與系統(tǒng)發(fā)育分析的軟件,MEGA 5.0: www.megasoftware.net/,,,例1流程: 1)ClustalX多序列比較; 2)用ClustalX程序直接繪制NJ樹; 3)用Treeview程序打開.,例2流程:1)ClustalX多序列比較; 2)用MEGA程序轉(zhuǎn)換格式;
43、 3)選擇構(gòu)建方法; 4)MEGA查看.,For sequences:>OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFR
44、CNAPRDSGTEV>OsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGAIVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVK>OsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEA
45、KLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVD>AtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGGPA
46、MFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSF>AtSRZ2MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDWYCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNF
47、ASRSECFRCNAPKELATEPPY>AtSRZ3MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVDVSTYLYNRTEVMAGDWYCGALNCGSHNYASRTSCYRCGMIKVEYTEQYYGAQMVAYGNDGAACPPGWKTGDWVCPRVGCGVHNYASRAECFKCKTTRDYGGV,Step OK?,Step OK?,Step OK?,生成.phb文件,,操作….,Part
48、II流程:1)ClustalX多序列比較; 2)用MEGA程序轉(zhuǎn)換格式; 3)選擇構(gòu)建方法; 4)MEGA查看.For example…,方法(2) 仍然進(jìn)行多序列比對(duì),獲得.aln文件,,方法(2),,生成.MEG文件,方法(2),,方法(2),方法(2),,,方法(2),,方法(2),程序流程:1) 獲得FASTA格式文件 2) ClustalX多序列比
49、較; 3)用ClustalX程序直接繪制NJ樹; 4)用Treeview程序打開.,II流程: 1)獲得FASTA格式文件 2)ClustalX多序列比較; 3)用MEGA程序轉(zhuǎn)換格式; 4)選擇構(gòu)建方法; 5)MEGA查看.,For sequences:>OsSRZ1MNRKPGDWDCRACQHLNFSRRDLCQRCGG
50、PRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNSGGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEV>OsSRZ2MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASR
51、ASCFKCGAIVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVK>OsSRZ3METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYASRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCN
52、FPRYYVD>AtSRZ1MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGGPAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSF>AtSRZ2MNRPGDWNCRLCSHLNFQRRDSC
53、QRCREPRPGGISTDLLSGFGGRPVSSSFGFNTGPDVRPGDWYCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNFASRSECFRCNAPKELATEPPY>AtSRZ3MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVDVSTYLYNRTEVMAGDWYCGALNCG
54、SHNYASRTSCYRCGMIKVEYTEQYYGAQMVAYGNDGAACPPGWKTGDWVCPRVGCGVHNYASRAECFKCKTTRDYGGV,Step OK?,自動(dòng)生成.aln文件,打開MEGA軟件,仍然進(jìn)行多序列比對(duì),獲得.aln文件,,,生成.MEG文件 注意:一定要保存,,,,,,,,,第4節(jié)生物進(jìn)化理論與分子進(jìn)化的討論,1、分子進(jìn)化的兩個(gè)特點(diǎn),生物大分子進(jìn)化速率的相對(duì)恒定分子進(jìn)化速率 生物大
55、分子隨時(shí)間的改變主要表現(xiàn)為核苷酸、蛋白質(zhì)的一級(jí)結(jié)構(gòu)的改變,即分子序列中核苷酸、氨基酸的替換不同物種同源大分子的分子進(jìn)化速率大體相同 例子:比較不同物種血紅蛋白氨基酸序列差異 人、馬——0.8?10-9/AA.a 人、鯉魚——0.6?10-9/AA.a分子進(jìn)化速率遠(yuǎn)遠(yuǎn)比表型進(jìn)化速率穩(wěn)定原因? 序列的核苷酸或氨基酸替換是否隨機(jī)過程?…,生物大分子進(jìn)化的保守性保守
56、性 功能上重要的大分子或大分子的局部在進(jìn)化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。 (引起表型發(fā)生顯著改變的突變發(fā)生的頻率要低于無明顯表型發(fā)生顯著改變得突變發(fā)生的頻率。)氨基酸 例:血紅蛋白分子的外區(qū)的功能要次于內(nèi)區(qū)的功能,外區(qū)的進(jìn)化速率是內(nèi)區(qū)進(jìn)化速率的10倍。核苷酸 例:DNA密碼子的同義替代頻率高于非同義替代頻率;內(nèi)含子上的核苷酸替代頻率較高。
57、生物大分子進(jìn)化并非完全隨機(jī) 存在某種制約因素,存在某種機(jī)制……?,2、分子進(jìn)化中性論,Neutral theory of molecular evolution(Kimura & Ohta, 1968, 1971) (King & Jukes, 1969)提出分子層次上的“non-Darwinian evolution”“在生物分子層次上的進(jìn)化改變不是由自然選擇作用于有利突變而引起的,而是在連續(xù)
58、的突變壓之下由選擇中性或非常接近中性的突變的隨機(jī)固定造成的。中性突變是指對(duì)當(dāng)前適應(yīng)度無影響的突變?!敝行酝蛔?、連續(xù)突變壓、隨機(jī)固定否認(rèn)自然選擇在分子進(jìn)化中的作用,認(rèn)為生物大分子的進(jìn)化主要因素是機(jī)會(huì)和突變壓力。,分子進(jìn)化中性論的若干依據(jù)分子層次上的大多數(shù)變異是選擇中性的 蛋白質(zhì)和核苷酸分子的進(jìn)化速率高且相對(duì)恒定 突變壓在分子進(jìn)化中的作用得到研究證實(shí)按照群體遺傳學(xué)的數(shù)學(xué)模型,自然選擇的
59、代價(jià)太高,分子進(jìn)化中性論的討論1、中性論是解釋分子層次的進(jìn)化現(xiàn)象 自然選擇只作用于表型,并不直接作用于分子。 衡量尺度的區(qū)別:分子的顯著性改變并不意味著表型的顯著性改變。 中性論只涉及生物大分子一級(jí)結(jié)構(gòu)單元的替換,并不包含和解釋分子層次的全部改變(如蛋白質(zhì)三級(jí)結(jié)構(gòu)、功能的改變)2、分子進(jìn)化的保守性表明選擇仍然起作用 可能之一——負(fù)選擇的存在:任何
60、發(fā)生在重要功能的大分子或大分子保守區(qū)的突變,由于造成適應(yīng)度的下降而被選擇淘汰。(隨機(jī)作用) 可能之二——存在某種機(jī)制阻止功能重要的大分子或大分子保守區(qū)的突變產(chǎn)生。(非隨機(jī)作用),3、選擇中性突變的復(fù)雜調(diào)控系統(tǒng) 中性突變的可能原因:復(fù)雜的調(diào)控機(jī)制?;虮磉_(dá)受到內(nèi)外因素的制約。 決定中性突變的調(diào)控系統(tǒng)受到自然選擇的影響。 4、選擇在分子的適應(yīng)進(jìn)化中起作用
61、 在分子層次上可能存在兩種進(jìn)化形式: 中性進(jìn)化(導(dǎo)致分子多樣性) 適應(yīng)進(jìn)化(通過選擇實(shí)現(xiàn),導(dǎo)致分子適應(yīng)),能否打倒的Darwinian進(jìn)化論,?,3、分子鐘(Molecular Clock),分子鐘 根據(jù)分子系統(tǒng)學(xué)研究與古生物學(xué)資料相結(jié)合,建立推論生物進(jìn)化事件發(fā)生的時(shí)間表。,假定分子進(jìn)化速率r恒定,則分子進(jìn)化改變量(替代數(shù)目或替代率)與進(jìn)化時(shí)間成正比。以兩條序列為例:d =
62、 2 r t其中,t是進(jìn)化時(shí)間,d是這兩條序列每個(gè)位點(diǎn)的替代數(shù)目。,分子鐘成立的先決條件:分子進(jìn)化速率恒定。,分子鐘成立的證據(jù):1、至少某些生物大分子(如珠蛋白)的進(jìn)化速率在相當(dāng)長的地質(zhì)時(shí)間內(nèi)的相對(duì)穩(wěn)定、均勻;2、許多不同物種的多種同源大分子在相當(dāng)長時(shí)間內(nèi)的平均進(jìn)化速率近似恒定。,建立分子鐘的大致步驟1、選擇所要比較的生物大分子種類 根據(jù)具體研究目標(biāo)和已掌握的資料,選擇進(jìn)化速率相對(duì)恒定、速率大小合適、分布范圍
63、能涵蓋各待比較物種的生物大分子。2、選擇所要比較的物種,確定各比較組合及其所代表的進(jìn)化事件3、獲得生物大分子一級(jí)結(jié)構(gòu)的資料4、獲得有關(guān)的代表性進(jìn)化事件發(fā)生的地質(zhì)時(shí)間數(shù)據(jù)5、通過比較大分子一級(jí)結(jié)構(gòu),選擇合適的數(shù)學(xué)模型,計(jì)算得到進(jìn)化產(chǎn)生的分子差異d,通過回歸分析等統(tǒng)計(jì)方法得到大分子的進(jìn)化速率r(t)6、由此可以推斷未知進(jìn)化事件的發(fā)生時(shí)間,,關(guān)于分子鐘的討論和爭議1、對(duì)長期進(jìn)化而言,不存在以恒定速率替換的生物大分子一級(jí)
64、結(jié)構(gòu);(基因功能的改變、基因數(shù)目的增加)2、不存在通用的分子鐘;3、爭議: 分子鐘的準(zhǔn)確性 中性理論(分子鐘成立的基礎(chǔ)),課堂練習(xí):下列哪些位點(diǎn)是信息位點(diǎn)? 位點(diǎn)1 2 3 4 5 6序列1 C A G G T A序列2 C A
65、 G A C A序列3 C G G C T A序列4 T G G T C G,課堂練習(xí):2) 下列系統(tǒng)發(fā)生樹建立的方法中,基于序列特征分析的是? 基于距離的是?A. neighbor-joining methodB. UPGMAC.Maximum pari
66、smonyD.Maximum likelihood,課堂練習(xí):3)給定一個(gè)距離距陣, 請用UPGMA法構(gòu)建系統(tǒng)發(fā)生樹.,A B C D E,A - 8 4 6 8B - - 8 8 4C - - - 6 8D - - -
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
評(píng)論
0/150
提交評(píng)論