基于reads引導(dǎo)的基因組序列拼接.pdf_第1頁(yè)
已閱讀1頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因組序列拼接是生物信息學(xué)領(lǐng)域的核心問(wèn)題,測(cè)序產(chǎn)生的讀取片段 reads經(jīng)過(guò)序列拼接組裝,生成基因組的堿基序列。新一代測(cè)序技術(shù)的快速發(fā)展,為生命科學(xué)重大問(wèn)題的研究提供巨大幫助的同時(shí),其數(shù)據(jù)海量、讀取片段 reads長(zhǎng)度短、精確度低等特點(diǎn)也為全基因組序列拼接提出了相當(dāng)嚴(yán)峻的挑戰(zhàn),而傳統(tǒng)的序列拼接算法已不再適用。針對(duì)新一代測(cè)序的數(shù)據(jù)特點(diǎn),研發(fā)能滿足實(shí)際應(yīng)用需要的基因組序列拼接軟件,已顯得極為迫切。
  本文首先簡(jiǎn)要介紹了新一代測(cè)序技術(shù)

2、的產(chǎn)生背景、測(cè)序策略及技術(shù)特點(diǎn)等,認(rèn)真分析了基因組序列拼接所面臨的主要挑戰(zhàn),比如大量重復(fù)片段的存在,reads數(shù)據(jù)海量、長(zhǎng)度短及含有測(cè)序錯(cuò)誤等,深入探討了當(dāng)前基因組序列拼接所采用的主要策略,即貪心策略,交疊-排序-生成共有序列(OLC)策略和De Bruijn圖策略等,總結(jié)了不同算法的優(yōu)勢(shì)及不足,并提出了序列拼接算法的改進(jìn)方向。
  接著,本文提出了基于reads引導(dǎo)的基因組序列拼接算法,以整條reads為拼接的基本單位,并率先在

3、拼接算法中提出了基于信息累計(jì)和數(shù)據(jù)特征相結(jié)合的評(píng)分方法。該算法分為reads拼接和contigs組裝兩個(gè)階段,contigs是由reads拼接生成的長(zhǎng)序列片段。reads拼接階段主要包括數(shù)據(jù)預(yù)處理、De Bruijn圖的建立、contigs構(gòu)建等,而contigs組裝階段則主要有contigs相對(duì)位置的確定、交疊overlap檢測(cè)、contigs連接及空隙gaps填充等過(guò)程,其中在確定contigs的相對(duì)位置時(shí)首次提出了配對(duì)數(shù)目數(shù)組PE

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論