1、可轉(zhuǎn)座元件(TE)存在于幾乎所有真核生物中,是許多基因組,特別是植物基因組的重要甚至主要成分。LTR反轉(zhuǎn)錄轉(zhuǎn)座子是一類通過“復(fù)制-粘貼”模式進(jìn)行轉(zhuǎn)座的TE。它們的活動(dòng)提供了植物基因組結(jié)構(gòu)與功能進(jìn)化的重要機(jī)制:已經(jīng)知道,它們參與塑造基因組的組織結(jié)構(gòu)與大小,影響基因的調(diào)控與變異和引起新基因的起源,同時(shí)它們還是分子生物學(xué)突變誘導(dǎo)的重要工具。研究LTR反轉(zhuǎn)錄轉(zhuǎn)座子在理論和應(yīng)用方面都有重大意義。
隨著測(cè)序技術(shù)的發(fā)展,一個(gè)迫切的問題是
2、如何有效地從未經(jīng)注釋的基因組序列數(shù)據(jù)中發(fā)現(xiàn)LTR反轉(zhuǎn)錄轉(zhuǎn)座子。本文首次建立起一套全基因組LTR反轉(zhuǎn)錄轉(zhuǎn)座子注釋的框架。該框架整合了從頭算起,比較基因組學(xué)和同源搜索-拷貝數(shù)驗(yàn)證三個(gè)獨(dú)立的功能模塊,形成了完整的LTR反轉(zhuǎn)錄轉(zhuǎn)座子預(yù)測(cè)流程。
從頭算起模塊稱為L(zhǎng)TR_FINDER,該程序利用LTR反轉(zhuǎn)錄轉(zhuǎn)座子的一般結(jié)構(gòu)特征,在單個(gè)基因組上搜索滿足這些特征的區(qū)域。該程序通過四步來發(fā)現(xiàn)一個(gè)全長(zhǎng)LTR反轉(zhuǎn)錄轉(zhuǎn)座子:第一步采用后綴矩陣數(shù)據(jù)
3、結(jié)構(gòu)來定位和存貯基因組中的所有精確匹配序列對(duì);第二步以精確匹配序列對(duì)為種子,通過連接相鄰種子來構(gòu)造可能的LTR區(qū)域;第三步通過序列聯(lián)配發(fā)現(xiàn)最可能的轉(zhuǎn)座子邊界;第四步利用LTR轉(zhuǎn)座子內(nèi)部的結(jié)構(gòu)特征序列確認(rèn)全長(zhǎng)轉(zhuǎn)座子的存在。
第二個(gè)模塊LTR_INSERT引入比較基因組學(xué)方法,同時(shí)分析轉(zhuǎn)座子復(fù)制插入在基因組上留下的序列信號(hào)和轉(zhuǎn)座子的結(jié)構(gòu)特征,在兩個(gè)基因組之間實(shí)現(xiàn)可靠的LTR反轉(zhuǎn)錄轉(zhuǎn)座子預(yù)測(cè)。首先,LTR_INSERT構(gòu)造全基因
4、組聯(lián)配并將聯(lián)配分為同源區(qū)集合和增刪區(qū)集合兩個(gè)部分;第二步分析增刪區(qū)及其鄰域,發(fā)現(xiàn)基因組分化后插入的全長(zhǎng)LTR轉(zhuǎn)座子;第三步則分析同源區(qū)以預(yù)測(cè)分化前插入的LTR轉(zhuǎn)座子。
在以上兩個(gè)模塊的基礎(chǔ)上,我們還發(fā)展了同源搜索-拷貝數(shù)驗(yàn)證模塊,該模塊以LTR_FINDER或LTR_INSERT的結(jié)果為輸入,在全基因組上注釋與之相關(guān)的LTR轉(zhuǎn)座子序列。該模塊實(shí)現(xiàn)對(duì)LTR轉(zhuǎn)座子的邊界修正、轉(zhuǎn)座子內(nèi)部非相關(guān)序列的識(shí)別和去除、多拷貝數(shù)的確認(rèn)及對(duì)
5、LTR反轉(zhuǎn)錄轉(zhuǎn)座子分類等功能。LTR_FINDER與LTR_INSERT分別與同源搜索-拷貝數(shù)驗(yàn)證模塊配合使用,可以分別達(dá)到對(duì)單基因組與對(duì)兩個(gè)近緣物種基因組中LTR反轉(zhuǎn)錄轉(zhuǎn)座子進(jìn)行有效注釋的目的??傊齻€(gè)模塊分別提供結(jié)構(gòu),插入和拷貝數(shù)三項(xiàng)獨(dú)立證據(jù)來預(yù)測(cè)LTR轉(zhuǎn)座子,每一個(gè)由此流程預(yù)測(cè)的LTR轉(zhuǎn)座子都有至少兩項(xiàng)支持。
隨后我們將所發(fā)展的注釋方法應(yīng)用在水稻兩個(gè)亞種基因組的比較研究中。采用比較基因組模塊與同源搜索-拷貝數(shù)驗(yàn)證模
6、塊相結(jié)合的途徑,通過構(gòu)造和搜索亞洲栽培稻秈粳兩個(gè)亞種的全基因組序列聯(lián)配,我們共預(yù)測(cè)到993個(gè)全長(zhǎng)LTR反轉(zhuǎn)錄轉(zhuǎn)座子并在兩個(gè)基因組中注釋了15916條與之相關(guān)的拷貝;發(fā)現(xiàn)80個(gè)水稻LTR轉(zhuǎn)座子的新家族,其中16個(gè)與目前已報(bào)道的所有家族沒有任何匹配。通過對(duì)全長(zhǎng)LTR轉(zhuǎn)座子的分子進(jìn)化分析,我們發(fā)現(xiàn)水稻兩亞種之間在相當(dāng)近的時(shí)期(5萬3千年)內(nèi)存在較大規(guī)模的跨亞種遺傳物質(zhì)交流,并證明這種交流是通過亞種間同源非可往復(fù)重組(ISNR)實(shí)現(xiàn)的。然后,我
7、們對(duì)基因組的其它功能或非功能區(qū)域作了大規(guī)模采樣以驗(yàn)證這一事實(shí),并估計(jì)此類重組事件涉及占水稻基因組總量至少15.3%的區(qū)域。此外,LTR轉(zhuǎn)座子還提供兩重獨(dú)立證據(jù)表明秈粳稻基因組的分化發(fā)生在距今60萬年前。我們還研究了水稻中的LTR轉(zhuǎn)座子家族的進(jìn)化模式,發(fā)現(xiàn)如下特點(diǎn):1)水稻中反轉(zhuǎn)錄轉(zhuǎn)座子在兩亞種基因組“背景”分離后仍然處于活躍狀態(tài),并且在兩個(gè)基因組上的活躍程度大致相當(dāng);2)絕大部分LTR反轉(zhuǎn)錄復(fù)制事件是由相當(dāng)少的家族完成的;3)秈粳分化事
8、件并沒有對(duì)高活性LTR家族的活動(dòng)造成顯著的影響;4)LTR反轉(zhuǎn)錄轉(zhuǎn)座子在基因組上的分布是非隨機(jī)的,傾向于在著絲粒附近集中。此工作第一次從比較基因組學(xué)的角度出發(fā),在全基因組的規(guī)模上對(duì)水稻亞種間的基因流動(dòng)與滲入的規(guī)模作出了估計(jì)與分析。
結(jié)合從頭算起模塊與同源搜索-拷貝數(shù)驗(yàn)證模塊,我們?cè)谑澜缟鲜紫葘?duì)豆科的模式植物蒺藜苜?;蚪M序列做了LTR反轉(zhuǎn)錄轉(zhuǎn)座子的大規(guī)模描述和分析。在可公開使用的、約占苜蓿基因組總量近一半的序列中,我們發(fā)現(xiàn)
9、526個(gè)全長(zhǎng)LTR反轉(zhuǎn)錄轉(zhuǎn)座子和與之相關(guān)的17421個(gè)拷貝;發(fā)現(xiàn)苜?;蚪MLTR反轉(zhuǎn)錄轉(zhuǎn)座子至少可分為85個(gè)家族,其中66個(gè)為本研究首次報(bào)道。我們研究了各個(gè)家族的PBS使用偏好和內(nèi)部區(qū)域蛋白質(zhì)組織方式,并討論了LTR反轉(zhuǎn)錄轉(zhuǎn)座子的進(jìn)化親緣關(guān)系。苜蓿中的全長(zhǎng)LTR反轉(zhuǎn)錄轉(zhuǎn)座子主要分為Copia和Gypsy兩個(gè)超家族,后者盡管在家族數(shù)量上僅為前者的1/3,但在基因組中卻更為活躍。我們分析了LTR反轉(zhuǎn)錄轉(zhuǎn)座子的復(fù)制和刪除并估計(jì)了刪除對(duì)基因組的
10、影響,發(fā)現(xiàn):絕大部分可見的全長(zhǎng)轉(zhuǎn)座子都是在近50萬年內(nèi)插入的;全長(zhǎng)結(jié)構(gòu)的半衰期為26萬年,顯著快于在水稻中的79萬年;LTR轉(zhuǎn)座子的刪除曾經(jīng)引起基因組中至少10Mb數(shù)量級(jí)序列被刪除。我們還分析了若干特別活躍的LTR反轉(zhuǎn)錄轉(zhuǎn)座子新家族的結(jié)構(gòu),保守性和家族復(fù)制的時(shí)空模式。這些結(jié)果表明,LTR反轉(zhuǎn)錄轉(zhuǎn)座子的活動(dòng)是苜?;蚪M進(jìn)化的重要力量。最后,我們還對(duì)這些家族在同科的百脈根與大豆中的同源LTR序列作了比較研究,結(jié)果發(fā)現(xiàn):1)Copia超家族比
11、Gypsy超家族在另兩個(gè)基因組上活躍得多;2)LTR反轉(zhuǎn)錄轉(zhuǎn)座子的活動(dòng)在科內(nèi)看是支系高度特異的;3)它們?cè)诙箍戚^大基因組的尺寸進(jìn)化中可能起到重要作用。
總之,本研究創(chuàng)建了一套LTR反轉(zhuǎn)錄轉(zhuǎn)座子全基因組注釋的流程,并開發(fā)了使用LTR轉(zhuǎn)座子研究近緣物種的短期進(jìn)化的新方法。在水稻和蒺藜苜?;蚪M上使用這些方法獲得了新的結(jié)果。在水稻中的研究使得我們?cè)谶z傳物質(zhì)的橫向傳遞對(duì)馴化作物基因組的影響方面有了新的認(rèn)識(shí);同時(shí),對(duì)蒺藜苜蓿IXR反