版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、7、比對的統(tǒng)計學(xué)顯著性、比對的統(tǒng)計學(xué)顯著性對于任何序列比對,我們可以計算其相似性得分,但重要的是需要判定這個分值是否足夠高,是否具有顯著意義(KarlinAltschul,1990;AlexrovSolovyev,1998),是否能夠提供進化同源性的證據(jù)。由于隨機因素的影響,非同源的序列也可能具有較高的相似性得分。不幸的是,沒有一種數(shù)學(xué)理論方法描述全局序列比對的期望得分的分布,無法直接分析統(tǒng)計顯著性,需進行間接分析。下面介紹幾種顯著性檢
2、驗的方法(王槐春,1994)。序列相似的顯著性檢驗的典型方法是將兩條待比較的序列分別隨機打亂,再使用相同的程序與打分函數(shù)(或打分矩陣)進行比對,計算這些隨機序列的相似性得分。重復(fù)這一過程(通常為50?100次),得到隨機序列比對得分的正態(tài)分布曲線,用?和?分別表示其平均值與標準差。設(shè)原來兩條序列的比對得分為x,利用下式計算大于或等于x的比對得分概率:z=(x?)?(332)z值的單位為SD。根據(jù)正態(tài)分布,當z值為3.1、4.3和5.2時
3、,相似性得分為x的隨機出現(xiàn)概率分別為103、105和107??梢愿鶕?jù)z值判斷兩個序列相似得分的顯著性。一般假定當z值大于5時,兩條被比較的序列在進化上是相關(guān)的;當z值在3?5之間時,如果兩者有其他方面相似的證據(jù)(如功能相似),則兩條序列也是同源的;如果z值小于3,則表示兩條序列不同源。許多序列比較軟件都帶有計算z值的程序,可直接用于評價序列比對的顯著性。判斷兩條序列比對顯著性的另一個常用方法是分析其中的一條序列(稱為靶序列)對數(shù)據(jù)庫檢索
4、的相似性得分的分布情況,即所檢測出的其他類似序列的個數(shù)與得分大小,并根據(jù)結(jié)構(gòu)域或功能的有無設(shè)立陽性對照和陰性對照。如果靶序列所檢出序列的分布狀態(tài)與陽性對照序列的檢測結(jié)果相近,而陰性對照序列不能或僅檢出很少有關(guān)的序列,則可以斷定要比較的那兩條序列的比對結(jié)果是有統(tǒng)計意義的。這種方法稱為相似性得分分布分析方法,常用于數(shù)據(jù)庫相似性檢索的顯著性評價,可以確定一些微弱的序列相似性的顯著性。karlin和Altschul(KarlinAltschul
5、1990)提出一種基于概率論的顯著性分析方法,他們推導(dǎo)出一個精確的公式,計算兩條序列比對得分大于兩條隨機序列比對得分的概率。根據(jù)這一公式,比對得分是將第一條序列的任意一個片段與第二條序列的任意一個片段進行比對的最高得分(比較過程中不引入空位),稱為最大片段得分,比對的片段稱為高得分片段對(HSP)。HSP通常用改進得Smithwaterman算法或簡單地使用大的空位罰分方法獲得。KarlinAltschul的計算公式如下:P(Sx)=1
6、exp(Ke?x)(333)其中P(Sx)是最大片段得分大于x的概率,K和?是兩個參數(shù),它們的值取決于打分函數(shù)和序列中各種字符出現(xiàn)的頻率。該方法只限于不引入空位的序列比較得分的顯著性計算。把一個已知得比對分值S同預(yù)期的分布相關(guān)聯(lián)可以計算出P值,從而給出這個分值的比對顯著性。通常,P值越趨近于零,分值越有意義。把比對局限于沒有空位的基礎(chǔ)之上,使問題大大簡化,但是卻脫離分子生物學(xué)的實際情況。要建立一個插入和缺失的精確模型需要引入空位,但如果
7、空位相對較少,在這些空位之間仍然可以獲得高分值區(qū)域,有代表性的是可能會獲得緊密相鄰的HSP。在這種情況下,從總體上去評估它的顯著性是較為合理的,也許,每個片段并不顯得很重要,但是幾個片段同時出現(xiàn)就不太像是偶然事件了。KarlinAltschul加和統(tǒng)計學(xué)可以計算N個HSP的統(tǒng)計值,這個方法的實質(zhì)是把N個最佳片段的分值進行加總,從而計算事件偶然發(fā)生的可能性,其它一些論據(jù)也被用來確認這些分值只是在片段與比對一致的情況下進行加總。雖然加總的分
8、值分布與HSP分值最大值有差異,仍然可以得到解析解。上述幾種方法需要經(jīng)過計算才能進行顯著性的判斷,有經(jīng)驗的專家往往能夠直接進行顯著性判斷。Doolitter(Doolittle1987)提出如下的經(jīng)驗法則:①如果兩個序列的長度都大于100,在適當?shù)丶尤肟瘴恢?,它們配對的相同率達到25%以上,字母表中的字符組成,k大于2,通過插入操作,使得各序列s1s2...sk的長度一樣,從而形成這些序列的多重比對。如果將各序列在垂直方向排列起來,則
9、可以根據(jù)每一列觀察各序列中字符的對應(yīng)關(guān)系,如圖313。通過序列的多重比對,可以得到一個序列家族的序列特征。當給定一個新序列時,根據(jù)序列特征,判斷這個序列是否屬于該家族。對于多序列比對,現(xiàn)有的大多數(shù)算法都基于漸進的比對的思想,在序列兩兩比對的基礎(chǔ)上逐步優(yōu)化多序列比對的結(jié)果。進行多序列比對后可以對比對結(jié)果進行進一步處理,例如構(gòu)建序列模式的profile,將序列聚類構(gòu)建分子進化樹等等。1、SP(SumofPairs)模型)模型在多重比對中,首
10、先要對所得到的比對進行評價,以確定其優(yōu)劣。例如,對圖313中的8個序列進行比對,可以得到另外兩種結(jié)果,如圖3.14所示。那么,這樣的三個多重比對,哪一個更好呢?這就需要有一種方法來評價一個多重比對。評價一個多重序列比對比評價序列兩兩比對結(jié)果更復(fù)雜。這里,我們假設(shè)得分(代價)函數(shù)具有加和性,即多重比對的得分是各列得分總和。因此,我們首先考慮如何給比對的每一列打分,然后將各列的和加起來,成為一個總得分。在處理每一列時,自然的處理方式是尋找一
11、個具有k個變量的打分函數(shù)(k是參與多重比對的序列的個數(shù)),而每一個變量或者是一個來自特定字母表中的字符,或者是一個空白。我們很難得到這樣一種具有k個變量的表達式函數(shù)。另一方面,這種隱式函數(shù)不具有統(tǒng)一的形式,隨著k的變化,函數(shù)的表現(xiàn)形式也發(fā)生變化,不利于計算機處理??梢钥紤]使用顯式函數(shù),在實現(xiàn)時,用一個k維數(shù)組來表示該顯式函數(shù)(類似于打分矩陣),指定對應(yīng)于k個變量各種組合的函數(shù)值。這帶來一個問題,即所需的數(shù)組空間很大,而且隨著k的變化,數(shù)
12、據(jù)結(jié)構(gòu)也要隨之動態(tài)變化。我們所期望的函數(shù)在形式上應(yīng)該簡單,具有統(tǒng)一的形式,不隨序列的個數(shù)而發(fā)生形式變化。根據(jù)得分函數(shù)的意義,函數(shù)值應(yīng)獨立于各參數(shù)的順序,即與待比較的序列先后次序無關(guān)。另外,對相同的VTISCTGSSSNIGAGNHVKWYQQLPGVTISCTGSSSNIGAG?NHVKWYQQLPGVTISCTGTSSNIGSITVNWYQQLPGVTISCTGTSSNIGS??ITVNWYQQLPGLRLSCSSSGFIFSSYAM
13、YWVRQAPGLRLSCSSSGFIFSS?YAMYWVRQAPGLSLTCTVSGTSFDDYYSTWVRQPPGLSLTCTVSGTSFDD??YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDGPEVTCVVVDVSHEDPQVKFNWYVDG??ATLVCLISDFYPGAVTVAWKADSATLVCLISDFYPGA??VTVAWKADS??AALGCLVKDYFPEPVTVSWNSGAALGCLVKDY
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑空間序列類型分析及比較.pdf
- 19413.生物序列比較算法的研究
- 生物序列的比對算法比較研究.pdf
- 異同比較中的序列效應(yīng).pdf
- 基于編碼序列、基因間序列和氨基酸序列構(gòu)建的系統(tǒng)發(fā)生關(guān)系比較.pdf
- 金融時間序列聚類研究方法比較探究
- 水文時間序列幾種預(yù)測方法比較研究.pdf
- 混沌PN序列的性能分析與比較.pdf
- 腰椎間關(guān)節(jié)軟骨MRI多序列比較研究.pdf
- 生物序列相似性比較算法的研究.pdf
- 中西方動態(tài)景觀空間序列設(shè)計比較.pdf
- 云計算中序列比較的外包方案的研究
- 幾種水文時間序列周期分析方法的比較研究.pdf
- 3.0mri腕關(guān)節(jié)多序列成像比較研究
- 生物序列數(shù)據(jù)比較與模體發(fā)現(xiàn)算法研究.pdf
- 季節(jié)調(diào)整方法比較研究——基于中國月度CPI序列.pdf
- 云計算中序列比較的外包方案的研究.pdf
- 33060.時間序列單位根檢驗方法比較
- 膝關(guān)節(jié)損傷的多序列MR成像比較.pdf
- 基于繭絲纖度序列的多總體分類判別及其比較.pdf
評論
0/150
提交評論