版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著高通量測序技術(shù)的快速發(fā)展,基因組測序的通量更高、測序時間和成本不斷下降,使得其被廣泛應用于微生物的基因組學研究。目前已經(jīng)完成基因組測序的微生物主要是模式微生物、特殊微生物和醫(yī)用微生物。后基因組學研究為從本質(zhì)上認識微生物及改造微生物帶來質(zhì)的飛躍。然而,高通量測序數(shù)據(jù)的爆發(fā)式增長給數(shù)據(jù)的分析,尤其是全序的組裝帶來了困難。如何從海量的數(shù)據(jù)中分析出需要的信息是當前最大的挑戰(zhàn)。
基因組研究包括兩個方面的內(nèi)容:以全基因組測序為目標的結(jié)
2、構(gòu)基因組學和以基因功能鑒定為目標的功能基因組學,也即后基因組研究。高通量測序能夠完成包括全基因組、轉(zhuǎn)錄組、宏基因組在內(nèi)的多種測序,并為后基因組學的分析帶來新的方法。
目前主流的高通量測序平臺有:Roche454、Illumina的Hiseq及Miseq、Life的IonTorrent。Illumina的高通量測序系統(tǒng)是市場上占有率最高的,其優(yōu)點是準確度高,通量大,而缺點是運行時間長、讀長短。Roche454以其讀長最長而著稱,
3、但是準確度不夠高,測序成本高。IonTorrent測序速度最快。
全基因組測序?qū)θ媪私庖粋€物種的分子進化、基因組成和基因調(diào)控等有著非常重要的意義。但是目前成熟的高通量測序都是以隨機打斷基因組然后測短片段為主。要獲得全基因組就必須對高通量測序的數(shù)據(jù)進行組裝,即將測序數(shù)據(jù)用計算機程序按照重疊部分進行重構(gòu),還原出基因組的全序。目前已有大量的組裝軟件被開發(fā)出來。這些軟件根據(jù)不同測序平臺的數(shù)據(jù)特點使用不同的算法。由于重復序列的干擾,現(xiàn)
4、在的組裝軟件往往只能得到部分大的片段而不是基因組全長。即便是測序時采用了雙端測序,往往也不能通過組裝軟件一步獲得全序。如何將這些片段組裝得到全基因組是高通量測全序領(lǐng)域的一大難點。雖然現(xiàn)在也有報道一些專門用于填補序列g(shù)ap的軟件,但是往往不具有普遍適用性。各種功能的軟件魚龍混雜,且沒有權(quán)威的評價報告。有些文獻對填補gap提出了許多方法,主要分為四類:
(1)綜合不同組裝軟件對同一數(shù)據(jù)的組裝結(jié)果;
(2)結(jié)合從頭組裝和依
5、賴參考序列組裝方法的結(jié)果,兩者互補填補gap;
(3)利用多個測序平臺的數(shù)據(jù)進行組裝并填補gap;
(4)在gap兩端設(shè)計特異引物,使用PCR擴增法獲得中間的序列。
此外還有預先確定重復序列法、局部拼接法等?,F(xiàn)在還沒有一個萬能的程序能夠處理任何復雜程度的數(shù)據(jù)。往往不同的數(shù)據(jù)需要進行個性化組裝。這給非沒有拼接經(jīng)驗的科研人員無疑增加了額外的難度。
因此,高通量測序后如何獲得全序以及基因組學的新的分析方
6、法是目前研究的瓶頸。本文以現(xiàn)有的高通量測序數(shù)據(jù)分析為背景,著重講述了全基因組的組裝,提出了幾種填補gap的方法,并都使用了Perl語言編程實現(xiàn)。此外還對基因組分析中遇到的序列注釋及提交問題、MLVA分型問題提出了新的方法并輔助以編寫的程序。
在組裝方法方面,首先介紹了3種常用軟件的使用方法(Velvet、SOAPdenovo、Newbler)。這三種軟件在處理不同數(shù)據(jù)方面具有代表性。本文以實際數(shù)據(jù)為例,分析了每個軟件中不同參數(shù)
7、的意義及其對結(jié)果的影響。結(jié)合實際經(jīng)驗,給出了這些軟件的參數(shù)經(jīng)驗值,為科研工作者提供參考。然后,針對現(xiàn)有組裝軟件只能初步拼接并得到一系列片段而無法獲得全序的問題,我們提出了3種組裝方法。這3種方法都是用于將大的片段串聯(lián)成全序,因此屬于現(xiàn)有組裝軟件的補充。它們分別為:片段定位(包括基于參考序列的定位和使用雙端測序數(shù)據(jù)定位)、末端延伸法填補gap、基于參考序列填補gap。這幾種方法理論簡單易懂,容易實現(xiàn)。為實現(xiàn)這些方法,我們使用Perl語言進
8、行了編程。其中有:
1、使用配對數(shù)據(jù)尋找contig關(guān)聯(lián)的程序,用于確認contigs間的上下游關(guān)系;
2、末端延伸程序,用于填補片段內(nèi)部的gap;
3、用大片段補gap程序,主要用于綜合從頭組裝和基于參考序列組裝兩者的結(jié)果,互相填補gap。
在基因組分析方面,由于基因組學的內(nèi)容很廣,我們只針對實際工作中遇到的問題提出了解決的方法,包括基因組的注釋和提交方法,以及MLVA分型方法。在基因組的注釋和
9、提交方面給出了基因組注釋的常用方法和流程,并根據(jù)在序列提交中遇到的5列表問題編寫了Perl程序,簡化了工作。另外針對現(xiàn)有MLVA分型中的缺點(基于PCR擴增子的長度),提出了基于序列的MLVA分型法,從而避免傳統(tǒng)方法中的缺點。同時編寫了專門用于從全序中提取各個MLVA位點序列的程序。
本文介紹的方法都具有實際應用價值,成果主要以程序的形式展示。這些程序使用簡單,理論通俗易懂,對非高通量數(shù)據(jù)專業(yè)分析人員具有易用性,適合用于做個性
10、化的微生物分析。為了驗證這些方法的可靠性,文中每個方法都介紹了一個實際案例(如立克次體、摩根式摩根菌、類鼻疽、炭疽桿菌、噬菌體等微生物的組裝)。實踐證明這些組裝方法能夠使用已有數(shù)據(jù)有效的填補上大量的gap(不用再次測序),為測全序節(jié)省時間和實驗成本。第二部分介紹的基于序列的分型法相比傳統(tǒng)MLVA分型具有更高的準確度,在高通量測序不斷深入的將來具有廣闊的應用前景。
生物信息學是一門偏應用的學科,大量的方法蘊藏在不同的分析任務中。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于比較基因組學和mRNA高通量測序的可變剪接外顯子進化研究.pdf
- 基于高通量測序的Klebsiella pneumoniae基因組拼接的研究.pdf
- 基于高通量測序的石刁柏基因組SSR標記的開發(fā).pdf
- 基于高通量測序技術(shù)的全基因組甲基化研究.pdf
- 基于高通量DNA測序的鄱陽湖微生物生態(tài)研究.pdf
- 乙肝肝硬化患者腸道微生物宏基因組學的研究.pdf
- 純培養(yǎng)微生物全基因組深度測序研究.pdf
- 宏基因組文庫高通量篩選古鹽井中嗜鹽微生物耐鹽基因.pdf
- 基于宏基因組學的豬-腸道微生物互作靶點發(fā)掘及其微生物源追溯(MST)研究.pdf
- 面向高通量DNA檢測技術(shù)的微生物基因識別及基因組分析.pdf
- 高通量組學方法在海綿共生微生物研究中的應用.pdf
- 基因、基因組和基因組學
- 基于高通量測序技術(shù)下土壤微生物群落結(jié)構(gòu)的研究.pdf
- 臨床分離的Janibacter全基因組從頭測序及比較基因組學研究.pdf
- 宏基因組學方法在環(huán)境微生物生態(tài)及基因查找中的應用研究.pdf
- 川牛膝全基因組高通量測序及初步數(shù)據(jù)分析.pdf
- 長遠航作業(yè)人員頰粘膜和臍周微生物宏基因組學研究.pdf
- 基于第二代高通量測序的荷花玉蘭葉綠體全基因組研究.pdf
- 廣東桑和魯桑葉綠體基因組高通量測序及基因注釋分析.pdf
- 基于高通量測序半夏珠芽轉(zhuǎn)錄組研究.pdf
評論
0/150
提交評論