基于二代測序數(shù)據(jù)的SNP發(fā)現(xiàn)策略及其初步應(yīng)用.pdf_第1頁
已閱讀1頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、近期二代測序在生物醫(yī)學(xué)、基因組學(xué)、轉(zhuǎn)錄組學(xué)、系統(tǒng)生物學(xué)等多個學(xué)科得到廣泛應(yīng)用,推動了諸如疾病基因定位、作物遺傳育種、表觀遺傳等研究從單一基因到全基因組范圍的研究尺度。目前二代測序一方面提供了快速、低廉的大規(guī)模并行DNA測序手段,也因其產(chǎn)生的海量數(shù)據(jù)給數(shù)據(jù)分析帶來了很大的挑戰(zhàn)。本文從二代測序基本原理出發(fā),結(jié)合多態(tài)性分析處理的重點,難點,利用一套切實可行的處理流程成功應(yīng)用在酵母全基因組中以及得到了較好的結(jié)果;另外系統(tǒng)的評價了Ion Torr

2、ent測序質(zhì)量及其初步改善和討論。
   針對基因組已知的大腸桿菌Ion Torrent重測序數(shù)據(jù),經(jīng)統(tǒng)計分析知其錯誤概率隨著同聚核苷酸長度的增加而有明顯增加的趨勢,并且存在測序堿基和參考序列互換的情況。在去除同聚核苷酸長度大于2和Swap型的Mismatch形成的錯誤后統(tǒng)計得Insertion,Deletion,Mismatch的錯誤率分別為0.13%,0.12%,0.05%,錯誤率均為原來的一半左右,無錯誤的序列比例從48.

3、30%上升為67.90%。而去除的堿基比例僅占堿基數(shù)量的1.13%,由此可見,去除數(shù)量較少的高錯誤率的測序堿基可顯著提高其整體的測序準(zhǔn)確率。因此,Ion Torrent儀器讀取信息時的相位錯誤,測序錯誤在同聚物邊緣發(fā)生的概率比其他位置高,過濾后的Mismatch的Q值明顯低于準(zhǔn)確情況下的值等分析結(jié)果和趨勢均可有助于達(dá)到進(jìn)一步改善其測序質(zhì)量的目的。
   將22種酵母菌454焦磷酸測序數(shù)據(jù)(測序深度平均約18x)經(jīng)過序列比對、堿基

4、質(zhì)量校準(zhǔn)、區(qū)域重比對、SNP calling和基因分型以及結(jié)果篩查過濾(可選)步驟后,得到397382個SNP位點,頻率為30bp/SNP,其中轉(zhuǎn)換次數(shù)為276925,顛換次數(shù)為128467,Ti/Tv值為2.156,非常符合全基因組SNP類型比例。經(jīng)LOF分析可得,346647(87.23%)個SNP位點處于外顯子區(qū)域,42911個位點處于內(nèi)含子區(qū)域,200個位點處于UTR區(qū)域;造成的非同義SNP位點數(shù)119537個。所有的SNP位點

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論