版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、序列分析,一、堿基組成,DNA序列一個(gè)顯而易見(jiàn)的特征是四種堿基類型的分布。盡管四種堿基的頻率相等時(shí)對(duì)數(shù)學(xué)模型的建立可能是方便的,但幾乎所有的研究都證明堿基是以不同頻率分布的。,表1包含了9個(gè)完整DNA分子序列的資料,表2的數(shù)據(jù)來(lái)自兩個(gè)胎兒球蛋白基因(Gr和Ar),每個(gè)基因具有三個(gè)外顯子和兩個(gè)內(nèi)含子(shen等1981)。這兩個(gè)例子說(shuō)明序列內(nèi)和序列間堿基具有不同的頻率。在基因每一側(cè)的500 個(gè)任意堿基區(qū)域被稱為“側(cè)翼”,基因間區(qū)域是指兩個(gè)
2、基因間的其余序列。,表1 九種完整DNA序列的堿基組成,表2 人類胎兒球蛋白基因不同區(qū)段的堿基組成,二.堿基相鄰頻率,分析DNA序列的主要困難之一是堿基相鄰的頻率不是獨(dú)立的。堿基相鄰的頻率一般不等于單個(gè)堿基頻率的乘積,例:雞血紅蛋白β鏈的mRNA編碼區(qū)的438個(gè)堿基,圖1 雞β球蛋白基因編碼區(qū)的DNA序列 (GenBank:CHKHBBM,記錄號(hào)J00860),表3 圖1雞β球蛋白基因序列的相鄰堿基分布,在編碼區(qū),存在某種約束
3、來(lái)限制DNA序列編碼氨基酸。在密碼子水平上,這一約束與堿基相鄰頻率有關(guān)。 表4列出了遺傳密碼和圖1序列中各密碼子數(shù)量。盡管數(shù)目很小,難以作出有力的統(tǒng)計(jì)結(jié)論,但編碼同一氨基酸的不同密碼子(同義密碼子)好像不是等同存在的。這種密碼子偏倚必定與兩堿基相鄰頻率水平有關(guān)。 表4還清楚地表明,由于密碼子第3位置上堿基的改變常常不會(huì)改變氨基酸的類型,因而對(duì)第3位置上堿基的約束要比第 2位堿基小得多。,表4 64種可能的堿基三聯(lián)體密碼子
4、及相應(yīng)的氨基酸數(shù)(據(jù)圖1序列),相鄰堿基之間的關(guān)聯(lián)將導(dǎo)致更遠(yuǎn)堿基之間的關(guān)聯(lián),這些關(guān)聯(lián)延伸距離的估計(jì)可以從馬爾科夫鏈(Markov chain)理論得到(Javare和Giddings,1989),三.同向重復(fù)序列分析,除了分析整個(gè)序列堿基關(guān)聯(lián)程度的特征外,我們常對(duì)尋找同向重復(fù)序列(direct repeats)之類的問(wèn)題感興趣。Karlin等(1983)給出了完成這一分析的有效算法。該法采用由特定的幾組堿基字母組成的不同亞序列或稱為字碼
5、(word)。只需要對(duì)整個(gè)序列搜索一次。給一堿基賦以值α,例如A、C、G、T的值為0、1、2、3。由X1、X2、…、Xk 共k個(gè)字母組成的每一種不同的字碼按:,計(jì)算字碼值。這些值的取值范圍為1到4k,例如:5字碼TGACC的值為1+3×44+2×43+0×42+1×41+1×40=459??上葟牡蚹值的字碼開(kāi)始搜索。記錄序列中每一個(gè)位置k字碼的字碼值。只有在發(fā)現(xiàn)k字碼長(zhǎng)度重復(fù)的那些位置考
6、慮進(jìn)行長(zhǎng)度大于k的字碼搜索。,序列TGGAAATAAAACGTAAGTAG中所有堿基2字碼(k=2)的初始位置和字碼值。對(duì)于完全重復(fù)、長(zhǎng)度大于2的同向重復(fù)或亞序列的搜索可只限于2字碼重復(fù)的初始位置?!≡诒纠兄挥?個(gè)重復(fù)的2堿基重復(fù)序列。例如,在位置4、5、8、9、10和15均發(fā)現(xiàn)了字碼值為1的堿基重復(fù)序列?!挠兄貜?fù)的2堿基為起點(diǎn)的3字碼值中發(fā)現(xiàn)字碼值為1、45和49的序列有重復(fù);以每一重復(fù)的3堿基為起點(diǎn)的4字碼搜索未能發(fā)現(xiàn)更長(zhǎng)的
7、重復(fù)序列。,表5 序列TGGAAATAAAACGTAAGTAG的3字碼值和位置(Karlin, 1983),四、RNA二級(jí)結(jié)構(gòu)預(yù)測(cè),盡管現(xiàn)有一些RNA折疊程序可以預(yù)測(cè)RNA二級(jí)結(jié)構(gòu),但這類分析仍然是一門(mén)藝術(shù)。RNA折疊有助于找出RNA分子中可能的穩(wěn)定莖區(qū),但對(duì)給定的RNA分子來(lái)說(shuō),這一結(jié)果的生物學(xué)意義究竟有多大,還是一個(gè)未知數(shù)。即使有此局限性,二級(jí)結(jié)構(gòu)的預(yù)測(cè)還是有助于找出mRNA控制區(qū)以及RNA分子中可能形成穩(wěn)定折疊結(jié)構(gòu)的區(qū)段。,五、
8、從序列中尋找基因,1.基因及基因區(qū)域預(yù)測(cè),基因按其功能可分為結(jié)構(gòu)基因和調(diào)控基因:結(jié)構(gòu)基因可被轉(zhuǎn)錄形成mRNA,并進(jìn)而轉(zhuǎn)譯成多肽鏈;調(diào)控基因是指某些可調(diào)節(jié)控制結(jié)構(gòu)基因表達(dá)的基因。在DNA鏈上,由蛋白質(zhì)合成的起始密碼開(kāi)始,到終止密碼子為止的一個(gè)連續(xù)編碼序列稱為一個(gè)開(kāi)放閱讀框(Open Reading Frame,ORF)。結(jié)構(gòu)基因多含有插入序列,除了細(xì)菌和病毒的DNA中ORF是連續(xù)的,包括人類在內(nèi)的真核生物的大部分結(jié)構(gòu)基因?yàn)閿嗔鸦?,即其?/p>
9、碼序列在DNA分子上是不連續(xù)的,或被插入序列隔開(kāi)。斷裂基因被轉(zhuǎn)錄成前體mRNA,經(jīng)過(guò)剪切過(guò)程,切除其中非編碼序列(即內(nèi)含子),再將編碼序列(即外顯子)連接形成成熟mRNA,并翻譯成蛋白質(zhì)。假基因是與功能性基因密切相關(guān)的DNA序列,但由于缺失、插入和無(wú)義突變失去閱讀框而不能編碼蛋白質(zhì)產(chǎn)物。,一種典型的真核蛋白質(zhì)編碼基因的結(jié)構(gòu)示意圖。其編碼序列(外顯子)是不連續(xù)的,被非編碼區(qū)(內(nèi)含子)隔斷。,所謂基因區(qū)域預(yù)測(cè),一般是指預(yù)測(cè)DNA序列中編碼蛋
10、白質(zhì)的部分,即外顯子部分。 不過(guò)目前基因區(qū)域的預(yù)測(cè)已從單純外顯子預(yù)測(cè)發(fā)展到整個(gè)基因結(jié)構(gòu)的預(yù)測(cè)。這些預(yù)測(cè)綜合各種外顯子預(yù)測(cè)的算法和人們對(duì)基因結(jié)構(gòu)信號(hào)(如TATA盒等)的認(rèn)識(shí),預(yù)測(cè)出可能的完整基因,基因區(qū)域的預(yù)測(cè)是一個(gè)活躍的研究領(lǐng)域,先后有一大批預(yù)測(cè)算法和相應(yīng)程序被提出和應(yīng)用,其中有的方法對(duì)編碼序列的預(yù)測(cè)準(zhǔn)確率高達(dá)90%以上,而且在敏感性和特異性之間取得了很好的平衡,預(yù)測(cè)方法中,最早是通過(guò)序列核苷酸頻率、密碼子等特性進(jìn)行預(yù)測(cè)(如最長(zhǎng)OR
11、F法等),隨著各類數(shù)據(jù)庫(kù)的建立和完善,通過(guò)相似性列線比對(duì)也可以預(yù)測(cè)可能的基因。同時(shí),一批新方法也被提了出來(lái),如隱馬爾可夫模型(Hidden Markov Model,HMM)、動(dòng)態(tài)規(guī)劃法(dynamic programming)、法則系統(tǒng)(ruled-based system)、語(yǔ)言學(xué)(linguistic)方法、線性判別分析(Linear Discriminant Analysis,LDA)、決策樹(shù)(decision tree)、拼接
12、列線(spliced alingment)、博利葉分析(Fourier analysis)等。 下表列出了claverie(1997)對(duì)部分程序預(yù)測(cè)基因區(qū)域能力的比較結(jié)果,表中同時(shí)列出了相應(yīng)算法和程序的網(wǎng)址。,目前基因區(qū)域預(yù)測(cè)的各種算法均存在以下2個(gè)問(wèn)題,(1)目前算法對(duì)基因中的非編碼區(qū)和基因間序列不加任何區(qū)別,所以預(yù)測(cè)出的基因仍然是不完全的,對(duì)5‘和3‘非編譯區(qū)(UTR,untranslated region)的預(yù)測(cè)基本上還是空白;
13、,(2)目前大多數(shù)算法都是基于已知基因序列。如相似性列線比較算法是完全依賴于已知的序列,而象HMM之類的算法都需要對(duì)已知的基因結(jié)構(gòu)信號(hào)進(jìn)行學(xué)習(xí)或訓(xùn)練,由于訓(xùn)練所用的序列畢竟是有限的,所以對(duì)那些與學(xué)習(xí)過(guò)的基因結(jié)構(gòu)不太相似的基因,這些算法的預(yù)測(cè)效果就要大打折扣了,要解決以上兩個(gè)問(wèn)題,需要對(duì)基因結(jié)構(gòu)進(jìn)行更深入的研究,尋找隱藏在基因不同結(jié)構(gòu)中的內(nèi)在統(tǒng)計(jì)規(guī)律。,2.發(fā)現(xiàn)基因的一般過(guò)程,從序列中發(fā)現(xiàn)基因可以理解為基因區(qū)域預(yù)測(cè)和基因功能預(yù)測(cè)2個(gè)層次,
14、第一步:獲取DNA目標(biāo)序列,① 如果你已有目標(biāo)序列,可直接進(jìn)入第2步;,② 可通過(guò)PubMed查找你感興趣的資料;通過(guò)GenBank或EMBL等數(shù)據(jù)庫(kù)查找目標(biāo)序列,第二步:查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列,利用相應(yīng)工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并將DNA序列翻譯成蛋白
15、質(zhì)序列,第三步:在數(shù)據(jù)庫(kù)中進(jìn)行序列搜索,可以利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索,第四步:進(jìn)行目標(biāo)序列與搜索得到的相似序列的整體列線(global alignment),雖然第三步已進(jìn)行局部列線(local alignment)分析,但整體列線有助于進(jìn)一步加深目標(biāo)序列的認(rèn)識(shí),進(jìn)行多序列列線(multiple sequence alignment)和獲得列線區(qū)段的可視信息??煞謩e在AMAS(Oxford Univ
16、ersity)和BOXSHADE(ISREC,Switzerland)等服務(wù)器上進(jìn)行,第五步:查找基因家族,第六步:查找目標(biāo)序列中的特定模序,① 分別在Procite、BLOCK、Motif數(shù)據(jù)庫(kù)進(jìn)行profile、模塊(block)、模序(motif)檢索;,② 對(duì)蛋白質(zhì)序列進(jìn)行統(tǒng)計(jì)分析和有關(guān)預(yù)測(cè),第七步:預(yù)測(cè)目標(biāo)序列結(jié)構(gòu),可以利用PredictProtein(EMBL)、NNPREDICT(University of Califor
17、nia)等預(yù)測(cè)目標(biāo)序列的蛋白質(zhì)二級(jí)結(jié)構(gòu),第八步:獲取相關(guān)蛋白質(zhì)的功能信息,為了了解目標(biāo)序列的功能,收集與目標(biāo)序列和結(jié)構(gòu)相似蛋白質(zhì)的功能信息非常必要。可利用PubMed進(jìn)行搜索,第九步:把目標(biāo)序列輸入“提醒”服務(wù)器,如果有與目標(biāo)序列相似的新序列數(shù)據(jù)輸入數(shù)據(jù)庫(kù),提醒(alert)服務(wù)會(huì)向你發(fā)出通知。可選用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服務(wù)器,3.解讀序列(making sen
18、se of the sequence),大致有2條途徑可以發(fā)現(xiàn)基因:(1)基于同源性的方法,包括已知mRNA序列的應(yīng)用;(2)基因家族和特殊序列間的比較。最初的方法包括利用各種計(jì)算機(jī)手段分析外顯子和其它序列信號(hào),如酶切位點(diǎn),六、基于編碼區(qū)特性:最長(zhǎng)ORF法,基因區(qū)域或蛋白質(zhì)編碼區(qū)的識(shí)別,特別是對(duì)高等真核生物基因組DNA序列中編碼區(qū)的識(shí)別仍未能實(shí)現(xiàn)完全自動(dòng)化。將每條鏈按6個(gè)讀框全部翻譯出來(lái),然后找出所有可能的不間斷開(kāi)放閱讀框(ORF
19、)往往有助于基因的發(fā)現(xiàn),預(yù)測(cè)基因組的全部編碼區(qū)或稱為開(kāi)放閱讀框的方法概括來(lái)說(shuō)也可以分為三類:,一類是基于編碼區(qū)所具有的獨(dú)特信號(hào),如始起密碼子、終止密碼子等;,二是基于編碼區(qū)的堿基組成不同于非編碼區(qū),這是由于蛋白質(zhì)中20種氨基酸出現(xiàn)的概率、每種氨基酸的密碼子兼并度和同一種氨基酸的兼并密碼子使用頻率不同等原因造成的;,三是通過(guò)同源性比較搜尋蛋白質(zhì)庫(kù)或dbEST庫(kù)尋找編碼區(qū)。前二類方法主要是利用編碼區(qū)的特性來(lái)尋找,下面對(duì)這二類方法做簡(jiǎn)單描述,
20、最長(zhǎng)ORF法:在細(xì)菌基因組中,蛋白質(zhì)編碼基因從起始密碼ATG到終止密碼平均有100bp,而300bp長(zhǎng)度以上的ORF平均每36Kb才出現(xiàn)一次,所以只要找出序列中最長(zhǎng)的ORF(>300bp)就能相當(dāng)準(zhǔn)確地預(yù)測(cè)出基因,利用編碼區(qū)與非編碼區(qū)密碼子選用頻率的差異進(jìn)行編碼區(qū)的統(tǒng)計(jì)學(xué)鑒別方法:由于內(nèi)含子的進(jìn)化不受約束,而外顯子則受到選擇壓力,因此內(nèi)含子的序列要比外顯子更隨機(jī)。這是目前各種預(yù)測(cè)程序中被廣泛應(yīng)用的一種方法,如GCG(Genetic
21、 Computer Group 研制,一種通用核酸、蛋白質(zhì)分析軟件包)的TestCode、美波士頓大學(xué)GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了這一方法,CpG島:CpG島(CpG island)一詞是用來(lái)描述哺乳動(dòng)物基因組DNA中的一部分序列,其特點(diǎn)是胞嘧啶(C)與鳥(niǎo)嘌呤(G)的總和超過(guò)4種堿基總和的50%,即每10個(gè)核苷酸約出現(xiàn)一次雙核苷酸序列CG。具有這種特點(diǎn)的序列僅占
22、基因組DNA總量的10%左右。從已知的DNA序列統(tǒng)計(jì)發(fā)現(xiàn),幾乎所有的管家基因(House-Keeping gene)及約占40%的組織特異性基因的5‘末端含有CpG島,其序列可能包括基因轉(zhuǎn)錄的啟動(dòng)子及第一個(gè)外顯子。因此,在大規(guī)模DNA測(cè)序計(jì)劃中,每發(fā)現(xiàn)一個(gè)CpG島,則預(yù)示可能在此存在基因。另外,AT含量也可以作為編碼區(qū)的批示指標(biāo)之一,七、序列比對(duì),相似性和同源性,局部相似性和整體相似性,相似性分?jǐn)?shù)矩陣,概念:,數(shù)據(jù)庫(kù)的搜索,FastA,
23、BLAST,數(shù)據(jù)庫(kù)搜索的基礎(chǔ)是序列的相似性比對(duì),而尋找同源序列則是數(shù)據(jù)庫(kù)搜索的主要目的之一。 所謂同源序列,簡(jiǎn)單地說(shuō),是指從某一共同祖先經(jīng)趨異進(jìn)化而形成的不同序列。同源性可以用來(lái)描述染色體—“同源染色體”、基因—“同源基因”和基因組的一個(gè)片斷—“同源片斷” 必須指出,相似性(similarity)和同源性(homology)是兩個(gè)完全不同的概念。,相似性和同源性,相似性是指序列比對(duì)過(guò)程中用來(lái)描述檢測(cè)序列和目標(biāo)序列之間相同D
24、NA堿基或氨基酸殘基順序所占比例的高低。相似性本身的含義,并不要求與進(jìn)化起源是否同一,與親緣關(guān)系的遠(yuǎn)近、甚至于結(jié)構(gòu)與功能有什么聯(lián)系。 當(dāng)相似程度高于50%時(shí),比較容易推測(cè)檢測(cè)序列和目標(biāo)序列可能是同源序列;而當(dāng)相似性程度低于20%時(shí),就難以確定或者根本無(wú)法確定其是否具有同源性。 總之,不能把相似性和同源性混為一談。所謂“具有50%同源性”,或“這些序列高度同源”等說(shuō)法,都是不確切的,應(yīng)該避免使用。,而同源又有兩種不同的情況即垂
25、直方向的(orthology)與水平方向的(paralogy)。,直系同源(orthology)是比較基因組學(xué)中最重要的定義。直系同源的定義是: (1)在進(jìn)化上起源于一個(gè)始祖基因并垂直傳遞(vertical descent)的同源基因; (2)分布于兩種或兩種以上物種的基因組; (3)功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換; (4)結(jié)構(gòu)相似; (5)組織特異性與亞細(xì)胞分布相似,鑒定直系同源的實(shí)際操作標(biāo)準(zhǔn)(p
26、ractical criteria)為: 如基因組Ⅰ中的A基因與基因組Ⅱ中的A‘基因被認(rèn)為是直系同源,則要求: (1)A‘的產(chǎn)物比任何在基因組Ⅱ中所發(fā)現(xiàn)的其它基因產(chǎn)物都更相似于A產(chǎn)物; (2)A‘與A的相似程度比在任何一個(gè)親緣關(guān)系較遠(yuǎn)的基因組中的任一基因都要高; (3)A編碼的蛋白與A‘編碼的蛋白要從頭到尾都能并排比較,即含有相似以至于相同的模序(motif),旁系同源(paralogy)基因是指同一基因組(或同系物種的基因組)
27、中,由于始祖基因的加倍而橫向(horizontal)產(chǎn)生的幾個(gè)同源基因。,直系與旁系的共性是同源,都源于各自的始祖基因。其區(qū)別在于:在進(jìn)化起源上,直系同源是強(qiáng)調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對(duì)功能上沒(méi)有嚴(yán)格要求,可能相似,但也可能并不相似(盡管結(jié)構(gòu)上具一定程度的相似),甚至于沒(méi)有功能(如基因家族中的假基因)。旁系同源的功能變異可能是橫向加倍后的重排變
28、異或進(jìn)化上獲得了另一功能,其功能相似也許只是機(jī)械式的相關(guān)(mechanistically related),或非直系同源基因取代新產(chǎn)生的非親緣或遠(yuǎn)緣蛋白在不同物種具有相似的功能。,局部相似性和整體相似性,序列比對(duì)的基本思想,是找出檢測(cè)序列和目標(biāo)序列的相似性。比對(duì)過(guò)程中需要在檢測(cè)序列或目標(biāo)序列中引入空位,以表示插入或刪除(圖2)。,圖2 序列比對(duì),圖中“-”表示插入和刪除,用字符表示相同的殘基,“+”表示相似殘基,序列比對(duì)的最終實(shí)現(xiàn),必
29、須依賴于某個(gè)數(shù)學(xué)模型。不同的模型,可以從不同角度反映序列的特性,如結(jié)構(gòu)、功能、進(jìn)化關(guān)系等。很難斷定,一個(gè)模型一定比另一個(gè)模型好,也不能說(shuō)某個(gè)比對(duì)結(jié)果一定正確或一定錯(cuò)誤,而只能說(shuō)它們從某個(gè)角度反映了序列的生物學(xué)特性。此外,模型參數(shù)的不同,也可能導(dǎo)致比對(duì)結(jié)果的不同。,序列比對(duì)的數(shù)學(xué)模型大體可以分為兩類,一類從全長(zhǎng)序列出發(fā),考慮序列的整體相似性,即整體比對(duì);第二類考慮序列部分區(qū)域的相似性,即局部比對(duì)。 局部相似性比對(duì)的生物學(xué)基礎(chǔ)是蛋白質(zhì)
30、功能位點(diǎn)往往是由較短的序列片段組成的,這些部位的序列具有相當(dāng)大的保守性,盡管在序列的其它部位可能有插入、刪除或突變。此時(shí),局部相似性比對(duì)往往比整體比對(duì)具有更高的靈敏度,其結(jié)果更具生物學(xué)意義。,區(qū)分這兩類相似性和這兩種不同的比對(duì)方法,對(duì)于正確選擇比對(duì)方法是十分重要的。應(yīng)該指出,在實(shí)際應(yīng)用中,用整體比對(duì)方法企圖找出只有局部相似性的兩個(gè)序列之間的關(guān)系,顯然是徒勞的;而用局部比對(duì)得到的結(jié)果也不能說(shuō)明這兩個(gè)序列的三維結(jié)構(gòu)或折疊方式一定相同。
31、 BLAST和FastA等常用的數(shù)據(jù)庫(kù)搜索程序均采用局部相似性比對(duì)的方法,具有較快的運(yùn)行速度,而基于整體相似性比對(duì)的數(shù)據(jù)庫(kù)搜索程序則需要超級(jí)計(jì)算機(jī)或?qū)S糜?jì)算機(jī)才能實(shí)現(xiàn)。,有2種經(jīng)典方法可以計(jì)算兩條序列間的最適聯(lián)配。Needleman-Wunsch算法是一種整體聯(lián)配(global alignment)算法,最佳聯(lián)配(兩條蛋白質(zhì)序列具有最多匹配殘基)中包括了全部的最短匹配序列。 Smith-Wateman算法是在Needleman-
32、Wunsch算法基礎(chǔ)上發(fā)展而來(lái)的,它是一種局部聯(lián)配(Local alignment)算法。 這二種算法均可以用于核酸和蛋白質(zhì)序列。在給定空位罰值和替換矩陣情況下,它們總是能給出具有最高聯(lián)配值的聯(lián)配。但是,這個(gè)聯(lián)配并不需要達(dá)到生物學(xué)意義上的顯著水平。,許多程序可通過(guò)匿名ftp服務(wù)用于兩條序列的聯(lián)配計(jì)算。GCG軟件包中,BESFIT和GAP程序便是用于兩對(duì)序列的聯(lián)配。在一些網(wǎng)站可以進(jìn)行兩條序列的聯(lián)配分析,例如:ALIGN(http:
33、//genome.eerie.fr/fasta/alignquery.html)/Align(http://www.mips.biochem.mpg.de/mips.de/mips/programs/align.html)。ALIGN允許用戶提供序列進(jìn)行聯(lián)配,允許選擇替換矩陣,但不能設(shè)置空位罰值。Align只能進(jìn)行數(shù)據(jù)庫(kù)中已有序列間的聯(lián)配分析。,從整體上分析兩個(gè)序列的關(guān)系,即考慮序列總長(zhǎng)的整體比較,用類似于使整體相似 (global s
34、imilarity)最大化的方式,對(duì)序列進(jìn)行聯(lián)配。兩個(gè)不等長(zhǎng)度序列的聯(lián)配分析必需考慮在一個(gè)序列中圈掉一些堿基或在另一序列作空位(gap)處理。 Needleman 和Wunsch(1970)的法則為這些步驟提供了實(shí)例。這一算法是為氨基酸序列發(fā)展的,但也可以用于核苷酸序列。算法最初尋求的是使兩條序列間的距離最小。盡管這類距離的元素是以一種特定的方式定義的,但該算法的良好特性在于它確定了最短距離。這是一個(gè)動(dòng)態(tài)規(guī)劃(dynamic p
35、rogramming)的方法。,Needleman-Wunsch算法,Needleman-Wunsch算法,將兩條聯(lián)配的序列沿雙向表的軸放置。從任一堿基對(duì),即表中的任一單元開(kāi)始,聯(lián)配可延三種可能的方式延伸:如果堿基不匹配,則每一序列加上一個(gè)堿基,并給其增加一個(gè)規(guī)定的距離權(quán)重;或在一個(gè)序列中增加一個(gè)堿基而在另一序列中增加一個(gè)空位或反之亦然。引入一個(gè)空位時(shí)也將增加一個(gè)規(guī)定的距離權(quán)重。,Needleman-Wunsch算法,因此,表中的一個(gè)單
36、元可以從(至多)三個(gè)相鄰的單元達(dá)到。我們把到左上角單元距離最小的方向看作相似序列延伸的方向。等距離時(shí)意味著存在兩種可能的方向。將這些方向記錄下來(lái),并在研究了所有的單元之后,沿著記錄的方向就有一條路徑可從右下角(兩個(gè)序列的末端)追蹤到左上角 (兩個(gè)序列的起點(diǎn))。由此所產(chǎn)生的路徑將給出具有最短距離的序列聯(lián)配。,Needleman-Wunsch算法,以兩個(gè)短序列CTGTATC和CTATAATCCC為例:,設(shè)堿基錯(cuò)配時(shí)距離權(quán)重為1,引入一個(gè)空位
37、時(shí)距離權(quán)重為3。該圖邊緣的行和列作為起始條件增加到表中。在單元5行3列,即相應(yīng)較短序列(第二序列)的第2個(gè)T堿基和較長(zhǎng)序列(第一序列)的第1個(gè)T堿基位置,有三種可能的距離增量。設(shè)在各序列中增加堿基T時(shí) (從4行2列移動(dòng))對(duì)距離的貢獻(xiàn)為0。從5行2列的位置作水平移動(dòng)(等價(jià)于增加第二序列的堿基T而在第一序列引入一個(gè)空位),在本例中增加一個(gè)罰值3。從3列4行向該單元作垂直移動(dòng),使第一序列增加堿基T而第二序列引入一個(gè)空位,結(jié)果也得到一個(gè)罰值3。
38、因此從該單元(5行3列)所得到的最小距離的延伸方向是沿對(duì)角線和水平方向。在表中這兩個(gè)方向用箭頭表示。這兩種最短方向都使從左上角到該單元的距離為6。沿箭頭所指方向在表中從右下角向左上角追蹤,得到6種可能的聯(lián)配:,在上述6種聯(lián)配中,距離均為10,即在較短序列中有6個(gè)匹配堿基、1個(gè)錯(cuò)配堿基和3個(gè)空位,Needleman-Wunsch算法,當(dāng)兩個(gè)序列被聯(lián)配時(shí),通過(guò)計(jì)算其重排序列(shuffed version)的聯(lián)配距離,可以得到這兩個(gè)序列間的
39、最小距離估計(jì)。如果實(shí)際得到的聯(lián)配距離小于重排序列距離的95%,則表明實(shí)際的聯(lián)配距離達(dá)到了5%的顯著水平,是不可能由機(jī)誤造成的。,Smith-Waterman算法,由于親緣關(guān)系較遠(yuǎn)的蛋白質(zhì)序列可能只有一些相互獨(dú)立的相同片段,所以進(jìn)行局部相似性分析有時(shí)可能比整體相似性分析更合理。 Smith和Waterman描述了一種查找具有最高相似性片段的算法。對(duì)于序列A=(a1,a2,…,am)和 B=(b1,b2,…,bn),Hij被定義為以a
40、i和bj 堿基對(duì)結(jié)束的片段(亞序列)的相似性值。 與Needle-Wunsch算法一樣,Smith-Waterman算法也要利用遞推關(guān)系來(lái)確定,相似性計(jì)算中包括2個(gè)統(tǒng)計(jì)量:堿基對(duì)(序列因子) 的相似性值和空位權(quán)重 (k 為空位長(zhǎng)度)?!mith-Waterman算法可以給出2條序列的最大相似性值。,Smith-Waterman算法,相似性分?jǐn)?shù)矩陣,在對(duì)蛋白質(zhì)數(shù)據(jù)庫(kù)搜索時(shí),可采用不同的相似性分?jǐn)?shù)矩陣,以提高搜索的靈敏度和準(zhǔn)確率。
41、常用的相似性矩陣有突變數(shù)據(jù)矩陣(Mutation Data Matrix,簡(jiǎn)稱MD)和模塊替換矩陣(BLOcks Substitution Matrix,簡(jiǎn)稱BLOSUM)。,在序列比對(duì)中,通常希望使用能夠反映一個(gè)氨基酸發(fā)生改變的概率與兩個(gè)氨基酸隨機(jī)出現(xiàn)的概率的比值的矩陣。這些比值可以用相關(guān)幾率(relatedness odds)矩陣表示。這就是突變數(shù)據(jù)相似性分?jǐn)?shù)矩陣產(chǎn)生的基礎(chǔ),在序列比對(duì)過(guò)程中,兩個(gè)序列從頭到尾逐個(gè)殘基進(jìn)行比對(duì),所得幾
42、率值的乘積就是整個(gè)比對(duì)的分值。 在實(shí)際使用時(shí),通常取幾率值的對(duì)數(shù)以簡(jiǎn)化運(yùn)算。因此,常用的突變數(shù)據(jù)矩陣PAM250實(shí)際上是幾率值的對(duì)數(shù)矩陣(圖3)。矩陣中值大于0的元素所對(duì)應(yīng)的兩個(gè)殘基之間發(fā)生突變的可能性較大,值小于0的元素所對(duì)應(yīng)的兩個(gè)殘基之間發(fā)生突變的可能性較小,圖3 突變數(shù)據(jù)相似性分?jǐn)?shù)矩陣PAM250,突變數(shù)據(jù)矩陣PAM即可接受點(diǎn)突變(Point Accepted Mutation,簡(jiǎn)稱 PAM)。1個(gè)PAM的進(jìn)化距離表示10
43、0個(gè)殘基中發(fā)生一個(gè)殘基突變的概率。對(duì)應(yīng)于一個(gè)更大進(jìn)化距離間隔的突變概率矩陣,可以通過(guò)對(duì)初始矩陣進(jìn)行適當(dāng)?shù)臄?shù)學(xué)處理得到[Dayhoff等,1978],如常用的PAM250矩陣,PAM250相似性分?jǐn)?shù)矩陣相當(dāng)于在兩個(gè)序列之間具有20%的殘基匹配(圖3)。,主對(duì)角線上分?jǐn)?shù)值是指兩個(gè)相同殘基之間的相似性分?jǐn)?shù)值,有些殘基的分值較高,如色氨酸W為17、半胱氨酸C為12,說(shuō)明它們比較保守,不易突變;有的殘基的分值較低,如絲氨酸S、丙氨酸A、門(mén)冬酰氨N
44、三種氨基酸均為2,這些氨基酸則比較容易突變。不同氨基酸之間的分?jǐn)?shù)值越高,它們之間的相似性越高,進(jìn)化過(guò)程中容易發(fā)生互相突變,如苯丙氨酸F和酪氨酸Y,它們之間的相似性分?jǐn)?shù)值是7。而相似性分?jǐn)?shù)值為負(fù)數(shù)的氨基酸之間的相似性則較低,如甘氨酸和色氨酸之間為-7,它們?cè)谶M(jìn)化過(guò)程中不易發(fā)生互相突變。此外,表中把理化性質(zhì)相似的氨基酸按組排列在一起,如堿性氨基酸組氨酸H、精氨酸R和賴氨酸K。,突變數(shù)據(jù)矩陣的產(chǎn)生基于相似性較高(通常為85%以上)的序列比對(duì),
45、那些進(jìn)化距離較遠(yuǎn)的矩陣(如PAM250)是從初始模型中推算出來(lái)而不是直接計(jì)算得到的,其準(zhǔn)確率受到一定限制。而序列分析的關(guān)鍵是檢測(cè)進(jìn)化距離較遠(yuǎn)的序列之間是否具有同源性,因此突變數(shù)據(jù)矩陣在實(shí)際使用時(shí)存在著一定的局限性。,而模塊替換矩陣BLOSUM則以序列片段為基礎(chǔ),它是基于蛋白質(zhì)模塊數(shù)據(jù)庫(kù)BLOCKS,Henikoff夫婦(Henikoff和Henikoff,1992)從蛋白質(zhì)模塊數(shù)據(jù)庫(kù)BLOCKS中找出一組替換矩陣,用于解決序列的遠(yuǎn)距離相
46、關(guān)。在構(gòu)建矩陣過(guò)程中,通過(guò)設(shè)置最小相同殘基數(shù)百分比將序列片段整合在一起,以避免由于同一個(gè)殘基對(duì)被重復(fù)計(jì)數(shù)而引入的任何潛在的偏差。在每一片段中,計(jì)算出每個(gè)殘基位置的平均貢獻(xiàn),使得整個(gè)片段可以有效地被看作為單一序列。,通過(guò)設(shè)置不同的百分比,產(chǎn)生了不同矩陣。由此,例如高于或等于80%相同的序列組成的串可用于產(chǎn)生BLOSUM80矩陣(BlOcks SUbstitution Matrix 發(fā)音為blossom);那些有62%或以上相同的串用于產(chǎn)生
47、BLOSUM62矩陣,依此類推。 BLOSUM與BLOCKS對(duì)于同樣的序列比對(duì)產(chǎn)生的結(jié)果在局部有所不同,可能是一個(gè)認(rèn)為不相似不可以替換而另一個(gè)認(rèn)為相似可以替換。必須說(shuō)明,如果比對(duì)這兩個(gè)序列高度相似,這些細(xì)微的差別對(duì)整個(gè)序列比對(duì)結(jié)果的影響不大,但在序列比對(duì)的邊界區(qū)可能產(chǎn)生顯著影響,此時(shí)增強(qiáng)微弱信號(hào)以探測(cè)遠(yuǎn)距離相關(guān)變得十分重要。,數(shù)據(jù)庫(kù)的搜索簡(jiǎn)介,數(shù)據(jù)庫(kù)查詢?yōu)樯飳W(xué)研究提供了一個(gè)重要工具,在實(shí)際工作中經(jīng)常使用。然而,在分子生物學(xué)研究中
48、,對(duì)于新測(cè)定的堿基序列或由此翻譯得到的氨基酸序列,往往需要通過(guò)數(shù)據(jù)庫(kù)搜索,找出具有一定相似性的同源序列,以推測(cè)該未知序列可能屬于哪個(gè)基因家族,具有哪些生物學(xué)功能。對(duì)于氨基酸序列來(lái)說(shuō),有可能找到已知三維結(jié)構(gòu)的同源蛋白質(zhì)而推測(cè)其可能的空間結(jié)構(gòu)。因此,數(shù)據(jù)庫(kù)搜索與數(shù)據(jù)庫(kù)查詢一樣,是生物信息學(xué)研究中的一個(gè)重要工具。,數(shù)據(jù)庫(kù)搜索的基礎(chǔ)是序列的相似性比對(duì),即雙序列比對(duì)(pairwise alignment)。 新測(cè)定的、希望通過(guò)數(shù)據(jù)庫(kù)搜索確
49、定其性質(zhì)或功能的序列稱作檢測(cè)序列(probe sequence);通過(guò)數(shù)據(jù)庫(kù)搜索得到的和檢測(cè)序列具有一定相似性的序列稱目標(biāo)序列(subject sequence)。 為了確定檢測(cè)序列和一個(gè)已知基因家族之間的進(jìn)化關(guān)系,在通過(guò)數(shù)據(jù)庫(kù)搜索得到某些相似序列后,還需要判斷其序列相似性程度。如果檢測(cè)序列和目標(biāo)序列的相似性程度很低,還必須通過(guò)其它方法或?qū)嶒?yàn)手段才能確定其是否屬于同一基因家族,比對(duì)統(tǒng)計(jì)學(xué)意義的評(píng)價(jià)--E值(E-Value),P值
50、(P-Value)(概率值),BLAST程序中使用了E值而非P值,這主要是從直觀和便于理解的角度考慮。比如E值等于5和10,總比P值等于0.993和0.99995更直觀。但是當(dāng)E<0.01時(shí),P值與E值接近相同,參數(shù)K和λ可分別被簡(jiǎn)單地視為搜索步長(zhǎng)(search spacesize)和計(jì)分系統(tǒng)(scoring system)的特征數(shù),BLAST和FASTA數(shù)據(jù)庫(kù)搜索策略,一種思路是把數(shù)據(jù)庫(kù)中的所有蛋白序列與待查序列的關(guān)系都視為相同
51、重要,也就是說(shuō)對(duì)于E值均較低的短和長(zhǎng)序列,它們是等同重要的。FASTA程序近期版本便是采用這一策略 另一種思路是把長(zhǎng)序列視為比短序列更重要,因?yàn)殚L(zhǎng)序列往往包括更多的特異功能域(domain)。如果對(duì)序列長(zhǎng)度上進(jìn)行相關(guān)優(yōu)先處理,則在計(jì)算數(shù)據(jù)庫(kù)序列長(zhǎng)度為n的E值時(shí),將乘以N/n,其中N為數(shù)據(jù)庫(kù)中序列的總長(zhǎng)度。E值的計(jì)算可簡(jiǎn)單地把整個(gè)數(shù)據(jù)庫(kù)序列視為長(zhǎng)度為N的單條序列。BLAST程序采用了這一策略 FASTA策略中E值的計(jì)算還需再乘上
52、數(shù)據(jù)庫(kù)的序列條數(shù)。如果考慮到核酸數(shù)據(jù)庫(kù)的序列長(zhǎng)度變化更大,則在DNA序列相似性搜索時(shí),BLAST的策略可能會(huì)是合理的選擇,BLAST僅通過(guò)部分而不是全部無(wú)關(guān)序列計(jì)算最適聯(lián)配值,這贏得了搜索速度。因此,對(duì)于某一選定的替換矩陣和空位罰值,必須進(jìn)行K和λ參數(shù)的預(yù)先估計(jì),估計(jì)中使用真實(shí)序列,而非通過(guò)隨機(jī)序列模型產(chǎn)生的模擬序列。這一估計(jì)的結(jié)果看來(lái)非常準(zhǔn)確。,一些數(shù)據(jù)庫(kù)搜索程序,例如FASTA或其它基于Smith-Waterman算法的程序,在進(jìn)行
53、序列搜索時(shí),會(huì)對(duì)數(shù)據(jù)庫(kù)中的每條序列進(jìn)行聯(lián)配并給出聯(lián)配值,這些值大部分與未知序列無(wú)關(guān),但它們被用于了K和λ參數(shù)的估計(jì)。這一方法避免了隨機(jī)序列模型因使用真實(shí)序列(real sequence)造成的隨意性,但同時(shí)產(chǎn)生了使用相關(guān)序列估計(jì)參數(shù)的難題,表6 數(shù)據(jù)庫(kù)相似性搜索程序BLAST和FASTA程序清單,注:n:核酸序列或核酸序列庫(kù);p:蛋白質(zhì)序列或蛋白質(zhì)序列庫(kù),搜索實(shí)例,FastA和BLAST程序是目前最常用的基于局部相似性的數(shù)據(jù)庫(kù)搜索程序
54、,它們都基于查找完全匹配的短小序列片段,并將它們延伸得到較長(zhǎng)的相似性匹配。它們的優(yōu)勢(shì)在于可以在普通的計(jì)算機(jī)系統(tǒng)上運(yùn)行,而不必依賴計(jì)算機(jī)硬件系統(tǒng)而解決運(yùn)行速度問(wèn)題。,BLAST是目前常用的數(shù)據(jù)庫(kù)搜索程序,它是Basic Local Alignment Search Tool的縮寫(xiě),意為“基本局部相似性比對(duì)搜索工具”[Altschul, 1990, 1997]。國(guó)際著名生物信息中心都提供基于Web的BLAST服務(wù)器。BLAST程序之所以使用
55、廣泛,主要因?yàn)槠溥\(yùn)行速度比FastA等其它數(shù)據(jù)庫(kù)搜索程序快,而改進(jìn)后的BLAST程序允許空位的插入??梢栽L問(wèn)NCBI的網(wǎng)站在線進(jìn)行BLAST和FastA的搜索,BLAST搜索,BLAST算法本身很簡(jiǎn)單,它的基本要點(diǎn)是序列片段對(duì)(segment pair)的概念。所謂序列片段對(duì)是指兩個(gè)給定序列中的一對(duì)子序列,它們的長(zhǎng)度相等,且可以形成無(wú)空位的完全匹配。 BLAST算法首先找出代查序列和目標(biāo)序列間所有匹配程度超過(guò)一定閾值的序列片
56、段對(duì),然后對(duì)具有一定長(zhǎng)度的片段對(duì)根據(jù)給定的相似性閾值延伸,得到一定長(zhǎng)度的相似性片段,稱高分值片段對(duì)(high-scoring pairs, HSPs)。這就是無(wú)空位的BLAST比對(duì)算法的基礎(chǔ),也是BLAST輸出結(jié)果的特征。,BLAST軟件包實(shí)際上是綜合在一起的一組程序,不僅可用于直接對(duì)蛋白質(zhì)序列數(shù)據(jù)庫(kù)和核酸序列數(shù)據(jù)庫(kù)進(jìn)行搜索,而且可以將檢測(cè)序列翻譯成蛋白質(zhì)或?qū)?shù)據(jù)庫(kù)翻譯成蛋白質(zhì)后再進(jìn)行搜索,以提高搜索結(jié)果的靈敏度(表7)。,表7 BLA
57、ST程序檢測(cè)序列和數(shù)據(jù)庫(kù)類型,BLAST程序是免費(fèi)軟件,可以從美國(guó)國(guó)家生物技術(shù)信息中心NCBI等文件下載服務(wù)器上獲得,安裝在本地計(jì)算機(jī)上,包括UNIX系統(tǒng)和WINDOWS系統(tǒng)的各種版本。但必須有BLAST格式的數(shù)據(jù)庫(kù),可以從NCBI下載,也可以利用該系統(tǒng)提供的格式轉(zhuǎn)換工具由其它格式的核酸或蛋白質(zhì)序列數(shù)據(jù)庫(kù)經(jīng)轉(zhuǎn)換后得到。對(duì)核酸序列數(shù)據(jù)庫(kù)而言,不論用哪種方式,都需要很大的磁盤(pán)空間;而程序運(yùn)行時(shí),需要有較大的內(nèi)存和較快的運(yùn)算速度,因此必須使用
58、高性能的服務(wù)器。,對(duì)一般用戶來(lái)說(shuō),目前常用的辦法是通過(guò)NCBI、EBI等國(guó)際著名生物信息中心的BLAST服務(wù)器進(jìn)行搜索。北京大學(xué)生物信息中心也提供了BLAST數(shù)據(jù)庫(kù)搜索服務(wù)。需要說(shuō)明的是,各生物信息中心BLAST用戶界面有所不同,所提供的數(shù)據(jù)庫(kù)也可能不完全相同,使用前最好先進(jìn)行適當(dāng)?shù)倪x擇,歐洲生物信息研究所BLAST服務(wù)器的用戶界面(圖4)比較簡(jiǎn)潔,提供的數(shù)據(jù)庫(kù)和參數(shù)很多,用戶可以根據(jù)不同要求,選擇不同的數(shù)據(jù)庫(kù)和各種參數(shù)。一般情況下,可
59、以先按照系統(tǒng)給定的缺省參數(shù)進(jìn)行初步搜索,對(duì)結(jié)果進(jìn)行分析后再適當(dāng)調(diào)整參數(shù),如改變相似性矩陣、增加或減少空位罰分值、調(diào)節(jié)檢測(cè)序列滑動(dòng)窗口大小等。對(duì)于核酸序列數(shù)據(jù)庫(kù),一般選擇重復(fù)序列屏蔽功能,而對(duì)于蛋白質(zhì)序列,特別是球蛋白,通常不必選擇重復(fù)序列屏蔽功能。,圖4 歐洲生物信息學(xué)研究所的BLAST服務(wù)器的用戶界面,圖5是BLAST程序運(yùn)行結(jié)果實(shí)例。這里,檢測(cè)序列是與細(xì)胞凋亡有關(guān)的人自噬基因氨基酸序列,通過(guò)歐洲生物信息學(xué)研究所的BLAST服務(wù)器對(duì)包
60、括SwissProt和TrEMBL數(shù)據(jù)庫(kù)在內(nèi)的蛋白質(zhì)數(shù)據(jù)庫(kù)進(jìn)行搜索。輸出結(jié)果中包括程序名稱、版本號(hào)以及文獻(xiàn)引用出處,以及檢索序列的名稱、數(shù)據(jù)庫(kù)名稱;列出相似性值較高的序列條目,以及它們?cè)跀?shù)據(jù)庫(kù)中的編號(hào)和簡(jiǎn)要說(shuō)明。每個(gè)條目后面給出相似性分?jǐn)?shù)值Score和期望頻率值E,以相似性分?jǐn)?shù)值大小為序排列,分?jǐn)?shù)越高,相似性越大。而E值則表示隨機(jī)匹配的可能性,E值越大,隨機(jī)匹配的可能性也越大。最后給出檢測(cè)序列和目標(biāo)序列的比對(duì)結(jié)果(限于篇幅,圖中只給出檢
61、測(cè)序列和一個(gè)目標(biāo)序列的比對(duì)結(jié)果)。,圖5 BLAST程序運(yùn)行結(jié)果實(shí)例,最初的BLAST程序只能用于無(wú)空位的比對(duì)。經(jīng)驗(yàn)表明比對(duì)結(jié)果通常會(huì)出現(xiàn)一些無(wú)空位但不連續(xù)的區(qū)域,不難想象,有些高分值片段對(duì)可以通過(guò)一些相似性較低且有空位的片段連接起來(lái),組成了一些更長(zhǎng)的或許更具實(shí)際生物學(xué)意義的比對(duì)。基于上述思路,BLAST算法經(jīng)過(guò)改進(jìn)允許空位插入(Altshul等,1997)。為縮短對(duì)數(shù)據(jù)庫(kù)初始搜索的時(shí)間,新的算法只找出一個(gè)最好的高分值片段,并以此為基
62、礎(chǔ)運(yùn)用動(dòng)態(tài)規(guī)劃方法將這一片段向兩端延伸,最終產(chǎn)生的比對(duì)結(jié)果可能有空位插入。由于免去了查找所有高分值片段對(duì)的步驟,新的算法比原算法快3倍。對(duì)BLAST算法的進(jìn)一步擴(kuò)充,可以考慮雙序列比對(duì)和多序列比對(duì)的有效結(jié)合,允許空位的 BLAST,位點(diǎn)特異性BLAST疊代搜索,位點(diǎn)特異性BLAST(Position-Specific Iterated BLAST,簡(jiǎn)稱PSI-BLAST)疊代搜索(Altschul等,1997),是一種將雙序列比對(duì)和多序
63、列比對(duì)結(jié)合在一起的數(shù)據(jù)庫(kù)搜索方法。,位置特異性疊代BLAST (Position-Specific Iterated BLAST,簡(jiǎn)稱PSI-BLAST)則是對(duì)蛋白質(zhì)序列數(shù)據(jù)庫(kù)進(jìn)行搜索的改進(jìn),其主要思想是通過(guò)多次疊代找出最佳結(jié)果。 具體做法是利用第一次搜索結(jié)果構(gòu)建位置特異性分?jǐn)?shù)矩陣,并用于第二次的搜索,第二次搜索結(jié)果用于第三次搜索,依此類推,直到找出最佳搜索結(jié)果。此外,BLAST不僅可用于檢測(cè)序列對(duì)數(shù)據(jù)庫(kù)的搜索,還可用于兩個(gè)序列
64、之間的比對(duì)。,盡管以下事實(shí)已經(jīng)基本得到認(rèn)同:基于序列模式的數(shù)據(jù)庫(kù)搜索靈敏度較高、特異性較好,因而可以發(fā)現(xiàn)一些距離較遠(yuǎn)但卻具有生物學(xué)意義的相似序列;它的不足之處也不能予以忽視。除了需要大量的計(jì)算資源這一缺點(diǎn)外,對(duì)于搜索結(jié)果的分析解釋常常相當(dāng)困難。這些制約因素限制了它的實(shí)際使用范圍。 PSI-BLAST的基本思路在于根據(jù)最初的搜索結(jié)果,依照預(yù)先定義的相似性閾值將序列分成不同的組,構(gòu)建一個(gè)位點(diǎn)特異性的序列譜,并通過(guò)多次疊代不斷改進(jìn)這一序
65、列譜以提高搜索的靈敏度。,和其它疊代算法一樣,PSI-BLAS方法既有不少長(zhǎng)處,也有它的弊病。例如,如果在比對(duì)前不把膠原蛋白、同源多聚體等低復(fù)雜度的重復(fù)序列屏蔽掉,自動(dòng)疊代搜索過(guò)程會(huì)因?yàn)檫@些重復(fù)序列的干擾而失?。℉olm,1998)。假如第一輪的搜索結(jié)果出現(xiàn)一個(gè)錯(cuò)誤序列,那么最終搜索結(jié)果中將會(huì)出現(xiàn)許多不期望的無(wú)關(guān)序列。因此,為了盡量去除大量的錯(cuò)誤匹配,仔細(xì)分析搜索結(jié)果給出的同源關(guān)系變得非常重要。,BLAST算法,算法:做任何事情都有一定
66、的步驟。為解決一個(gè)問(wèn)題而采取的方法和步驟,就稱為算法。BLAST算法:快速高效的保證。 將查詢序列分為多個(gè)短片段及相似片段; 篩選數(shù)據(jù)庫(kù)以發(fā)現(xiàn)具備以上片段的序列; 將匹配序列進(jìn)行延伸,插入和延伸gap,根據(jù)突變矩陣(BLOSUM62)計(jì)分排序; 返回分值最高的匹配序列,NCBI,BLAST結(jié)果的評(píng)價(jià),比對(duì)好壞的評(píng)價(jià):Bit分值 考慮了比對(duì)中相同和相似基團(tuán)、gap、替代矩陣,并經(jīng)過(guò)標(biāo)化; Bit分值越
67、高,比對(duì)越好比對(duì)統(tǒng)計(jì)學(xué)意義的評(píng)價(jià):E值(E-value) E值越低,則比對(duì)就更有可能具有顯著性其他:比對(duì)的長(zhǎng)度也是一個(gè)關(guān)鍵因素,解讀BLAST的結(jié)果,header。給出查詢序列的信息和查詢的數(shù)據(jù)庫(kù)名稱。每一條匹配序列的描述。包括圖形化方式和在線的文字描述。每個(gè)匹配序列與查詢序列的比對(duì)情況。,BLAST程序的選擇,蛋白:BLASTP-tBLASTN核酸:blastn-blastx-tblastx數(shù)據(jù)庫(kù)的選擇:nr最為常用
68、;month跟蹤每個(gè)月新增數(shù)據(jù);swissprot蛋白庫(kù)注釋詳盡,比對(duì)結(jié)果是否有意義的判定,統(tǒng)計(jì)學(xué)顯著性一致性:蛋白序列>25%,核酸序列>70%(參考)長(zhǎng)度,FastA搜索,FastA算法是由Lipman和Pearson于1985年發(fā)表的(Lipman和Pearson,1985)。FastA的基本思路是識(shí)別與代查序列相匹配的很短的序列片段,稱為k-tuple。,蛋白質(zhì)序列數(shù)據(jù)庫(kù)搜索時(shí),短片段的長(zhǎng)度一般是1-2個(gè)殘基長(zhǎng);
69、DNA序列數(shù)據(jù)庫(kù)搜索時(shí),通常采用稍大點(diǎn)的值,最多為6個(gè)堿基。通過(guò)比較兩個(gè)序列中的短片段及其相對(duì)位置,可以構(gòu)成一個(gè)動(dòng)態(tài)規(guī)劃矩陣的對(duì)角線方向上的一些匹配片段。 FastA程序采用漸進(jìn)(heuristic approach)算法將位于同一對(duì)角線上相互接近的短片段連接起來(lái)。也就是說(shuō),通過(guò)不匹配的殘基將這些匹配殘基片段連接起來(lái),以便得到較長(zhǎng)的相似性片段。這就意味著,F(xiàn)astA輸出結(jié)果中允許出現(xiàn)不匹配殘基。這和BLAST程序中的成對(duì)片段類似
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 如何進(jìn)行崗位分析
- 如何進(jìn)行試卷分析
- 如何進(jìn)行財(cái)務(wù)分析
- 如何進(jìn)行考試分析
- 如何進(jìn)行考試分析
- 如何進(jìn)行財(cái)務(wù)分析
- 如何進(jìn)行并購(gòu)財(cái)務(wù)分析
- 如何進(jìn)行培訓(xùn)需求分析
- 如何進(jìn)行財(cái)務(wù)報(bào)表分析
- 如何進(jìn)行財(cái)務(wù)報(bào)表分析
- 如何進(jìn)行試卷質(zhì)量分析
- 如何進(jìn)行swot分析(帶案例)
- 如何進(jìn)行 精準(zhǔn)數(shù)據(jù)分析
- 如何進(jìn)行產(chǎn)業(yè)鏈分析
- 如何進(jìn)行胎教
- 如何進(jìn)行理念識(shí)別
- 如何進(jìn)行劃線提問(wèn)
- 如何進(jìn)行績(jī)效面談
- 如何進(jìn)行寫(xiě)字教學(xué)
- 女性如何進(jìn)行保健
評(píng)論
0/150
提交評(píng)論