973 2012 基于新一代測序的生物信息學(xué)理論與方法

上傳人：奔*** IP屬地：河北更新時間：2024-03-01 格式：doc 頁數(shù)：25 大小：268.00KB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩24頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、　　一、關(guān)鍵科學(xué)問題及研究內(nèi)容　　解讀生物細(xì)胞復(fù)雜的信息調(diào)控系統(tǒng)是理解各種復(fù)雜生命現(xiàn)象機理的關(guān)鍵。新一代測序技術(shù)為我們提供了從多個角度觀測這個復(fù)雜調(diào)控系統(tǒng)的可能，但要從數(shù)量巨大、類型復(fù)雜的測序數(shù)據(jù)中挖掘出規(guī)律性的知識、并通過整合這些知識形成對系統(tǒng)的整體認(rèn)識，需要解決一系列生物信息學(xué)理論與方法問題。　　本項目擬結(jié)合基因組、表觀基因組、轉(zhuǎn)錄

2、組、調(diào)控組、宏基因組等各個生物層面上的應(yīng)用，從數(shù)據(jù)產(chǎn)生的源頭、數(shù)據(jù)處理的各個環(huán)節(jié)和對復(fù)雜生物機理的解析等方面入手，系統(tǒng)研究新一代測序相關(guān)的一系列生物信息學(xué)問題。這些問題包括：怎樣建立各種新一代測序數(shù)據(jù)產(chǎn)生和誤差的數(shù)學(xué)模型？能否通過對數(shù)據(jù)模型和后續(xù)應(yīng)用的研究指導(dǎo)測序的實驗設(shè)計和技術(shù)改進(jìn)？怎樣通過算法、軟件、硬件和系統(tǒng)的策略有效應(yīng)對超海量測序數(shù)據(jù)帶來的存儲、傳輸與計算問題？如何通過信號處理、模式識別等手段準(zhǔn)確有效地從ChIP-seq、bis

3、ulfite-seq、3C、RNA-seq、CLIP-seq等類型的測序數(shù)據(jù)中提取各種有效信號？怎樣建立比較各種信號的統(tǒng)計模型？怎樣通過高分辨率基因組和表觀基因組數(shù)據(jù)識別各種調(diào)控元件、構(gòu)建調(diào)控系統(tǒng)？如何通過對RNA測序數(shù)據(jù)的處理精細(xì)繪制轉(zhuǎn)錄組、精確構(gòu)建編碼和非編碼基因的轉(zhuǎn)錄譜和剪接加工模式？如何在沒有參考序列的情況下非監(jiān)督地組裝和識別宏基因組和宏轉(zhuǎn)錄組中的有效功能單位、進(jìn)而對微生物群落的功能進(jìn)行刻畫？如何對細(xì)胞分化和癌癥發(fā)生發(fā)展等復(fù)雜生

4、物過程動態(tài)地構(gòu)建調(diào)控網(wǎng)絡(luò)、解讀這些過程中的調(diào)控程序？怎樣將不同層次、不同尺度上的組學(xué)　　這些問題是緊密聯(lián)系的，概括起來，可以總結(jié)為兩類科學(xué)問題，我們稱之為新一代測序數(shù)據(jù)的計算問題和推理問題。所謂計算問題，主要包括通過對數(shù)據(jù)模型的認(rèn)識改進(jìn)數(shù)據(jù)處理質(zhì)量，通過對算法、軟件、存儲和計算機體系結(jié)構(gòu)、服務(wù)模式等的研究提高數(shù)據(jù)處理效率和能力等；所謂推理問題，則是指通過對生物問題和測序數(shù)據(jù)特點兩方面的深入研究，

5、對于多種類型的新一代測序數(shù)據(jù)，提出和發(fā)展有效提取生物學(xué)信息的理論和方法，提出和發(fā)展整合多種組學(xué)數(shù)據(jù)的理論和方法，提出和發(fā)展定量描述復(fù)雜生物網(wǎng)絡(luò)、系統(tǒng)及動態(tài)演化的理論與方法，并將這些理論與方法應(yīng)用到細(xì)胞分化、癌癥發(fā)生發(fā)展等復(fù)雜生物過程調(diào)控系統(tǒng)的解析和建模上，獲得新的生物學(xué)認(rèn)識。換句話說，這里的計算問題就是怎樣改進(jìn)和提高超大規(guī)模測序數(shù)據(jù)的處理方法和處理能力，推理問題就是怎樣從復(fù)雜的測序數(shù)據(jù)中獲取知識和規(guī)律。對這兩類問題的研究相輔相成，構(gòu)成了

6、我們擬研究的新一代生物信息學(xué)理論與方法。　　圍繞這些關(guān)鍵科學(xué)問題，按照新一代測序數(shù)據(jù)產(chǎn)生、處理、解析、應(yīng)用的主要環(huán)節(jié)，本項目擬開展的主要研究內(nèi)容可歸納為10項，分別針對上述兩方面的科學(xué)問題、按十個主意研究內(nèi)容展開研究：　　超大規(guī)模測序數(shù)據(jù)的處理方法與處理能力　?。?）對新一代測序數(shù)據(jù)產(chǎn)生模型和特點的數(shù)學(xué)描述，以及

7、在此基礎(chǔ)上的新一代測序?qū)嶒炘O(shè)計理論與方法。深入理解數(shù)據(jù)產(chǎn)生過程中可能影響數(shù)據(jù)質(zhì)量的各個因素，建立數(shù)據(jù)產(chǎn)生的數(shù)學(xué)模型，是更好地處理和應(yīng)用新一代測序數(shù)據(jù)的基礎(chǔ)。新一代測序的發(fā)展主要是由測序技術(shù)自身的發(fā)展推動的，尚缺乏從最終應(yīng)用角度對不同測序技術(shù)中各個影響因素的系統(tǒng)研究。我們將在本項目中對包括Illumina/Solexa、Roche/454、AB/SOLiD和國產(chǎn)AG-100/200測序系統(tǒng)在內(nèi)的多種測序平臺進(jìn)行實驗設(shè)計、誤差分析、質(zhì)量評估

8、和平臺比較的研究，也包括對將來第三代測序平臺的相應(yīng)研究，發(fā)展新一代測序技術(shù)的誤差分析和質(zhì)量控制理論，建立數(shù)據(jù)分布和測序誤差的數(shù)學(xué)模型，設(shè)計具有容錯和誤差糾正能力的數(shù)據(jù)處理方法，為后續(xù)處理算法提供數(shù)據(jù)模型指導(dǎo)，也通過對測序誤差和質(zhì)量控制的研究為測序技術(shù)本身的發(fā)展提供反饋。另一方面，針對測序?qū)嶒炛锌梢圆捎玫纳飾l碼（barcoding）技術(shù)和SOLiD等技術(shù)采用的堿基組合編碼測序策略，研究在測序技術(shù)和實驗設(shè)計中的編碼理論，發(fā)展針對不同類型應(yīng)

9、用的優(yōu)化實驗設(shè)計策略和方法。　　（2）高效的新一代測序數(shù)據(jù)基本處理算法和工作流，以及跨平臺測序數(shù)據(jù)的統(tǒng)合分析。不同類型測序技術(shù)的數(shù)據(jù)有各自的特點，但共同特點是數(shù)據(jù)量大、數(shù)據(jù)處理過程復(fù)雜、對計算資源要求高，這些特點，制約了生物學(xué)和醫(yī)學(xué)實驗室對測序數(shù)據(jù)的應(yīng)用，也構(gòu)成了將來個體化基因組發(fā)展的一個瓶頸。我們將對各種測序數(shù)據(jù)的典型處理算法進(jìn)行優(yōu)化，發(fā)展針對新一代測序數(shù)據(jù)處理的可視化交互工作流；研究發(fā)展利用

10、GPU/FPGA加速器支持的快速算法，包括大量短序列比對、從頭組裝、變異位點檢測等，大大提高常見測序數(shù)據(jù)處理流程的計算效率；研究對多種測序平臺數(shù)據(jù)以及基因芯片數(shù)據(jù)的統(tǒng)合分析（meta-analysis），比較不同平臺的數(shù)據(jù)，有效利用平臺間技術(shù)差異和互補性，并結(jié)合人類基因組和變異組數(shù)據(jù)資源，提升數(shù)據(jù)質(zhì)量，消除測序噪聲。　?。?）適應(yīng)大規(guī)模基因組數(shù)據(jù)的數(shù)據(jù)壓縮存儲、傳輸方法和搜索方法，面向深度測序大

11、數(shù)據(jù)量的計算模型與體系結(jié)構(gòu)探索。新一代測序的發(fā)展和推廣應(yīng)用使生物序列數(shù)據(jù)增長速度遠(yuǎn)遠(yuǎn)超過了摩爾定律對計算機處理能力增長的預(yù)期。我們將深入分析各種基因組數(shù)據(jù)的特點，針對性地研究高效數(shù)據(jù)壓縮和傳輸方法，研究新型的數(shù)據(jù)存儲系統(tǒng)構(gòu)架；研究在壓縮空間上進(jìn)行數(shù)據(jù)處理的方法，將存儲、壓縮和處理、應(yīng)用結(jié)合起來考慮，發(fā)展適應(yīng)超大規(guī)?；蚪M數(shù)據(jù)的搜索方法；深入分析測序數(shù)據(jù)的特點和測序數(shù)據(jù)常見處理任務(wù)對計算資源的需求特點，探索新的軟硬件模型和可能的新型體系結(jié)

12、構(gòu)，探索新的計算服務(wù)模型在測序數(shù)據(jù)存儲、傳輸和處理上的應(yīng)用，從計算技術(shù)上為迎接個體基因組時代的到來做好充分準(zhǔn)備，同時推動我國相關(guān)信息技術(shù)和產(chǎn)業(yè)的創(chuàng)新發(fā)展。　　從復(fù)雜的多種測序數(shù)據(jù)中獲取知識和規(guī)律　?。?）基于高通量基因組、表觀基因組數(shù)據(jù)進(jìn)行基因調(diào)控信號的識別和調(diào)控元件功能注釋。新一代測序技術(shù)發(fā)展了ChIP-seq、bisulfite-seq等高通量、高分

13、辨率檢測表觀遺傳學(xué)特征的實驗技術(shù)，能夠揭示基因組中很多原來被認(rèn)為沒有功能的區(qū)域或原有技術(shù)無法檢測的調(diào)控因素。我們將對這些數(shù)據(jù)進(jìn)行深入挖掘，研究從中高分辨率檢測DNA甲基化、組蛋白修飾等表觀遺傳學(xué)因素的方法，結(jié)合基因芯片等其他組學(xué)數(shù)據(jù)，開展表觀基因組狀態(tài)注釋和功能預(yù)測、研究啟動子注釋及其使用偏好性，研究非編碼RNA的注釋及其對染色質(zhì)沉默和啟動子、增強子活性的影響，研究基因測序數(shù)據(jù)的染色質(zhì)三維拓?fù)浣Y(jié)構(gòu)功能注釋，建立不同類型細(xì)胞間染色質(zhì)三維結(jié)

14、構(gòu)狀態(tài)變化的比較和分析方法，研究基因轉(zhuǎn)錄系統(tǒng)與基因組序列、表觀基因組狀態(tài)間的聯(lián)系。　?。?）基于多種組學(xué)數(shù)據(jù)研究細(xì)胞分化和重編程的數(shù)學(xué)模型及腫瘤細(xì)胞基因組演化模型。對細(xì)胞分化和腫瘤發(fā)生等重要生物過程內(nèi)在分子調(diào)控機制的數(shù)學(xué)描述，是真正理解這些生物過程的關(guān)鍵。新一代測序提供的高分辨率基因組學(xué)、轉(zhuǎn)錄組學(xué)和表觀基因組學(xué)數(shù)據(jù)為建立這種數(shù)學(xué)描述提供了可能。本項目將比較和用數(shù)學(xué)模型刻畫不同來源誘導(dǎo)多能干細(xì)胞與

15、胚胎干細(xì)胞、體細(xì)胞在染色質(zhì)狀態(tài)與基因表達(dá)等方面的差異，分析染色質(zhì)狀態(tài)對細(xì)胞分化與重編程潛能的影響，建立描述細(xì)胞分化與重編程過程的動態(tài)演化模型，探索利用人工合成方法修改或擾動生物調(diào)控回路的關(guān)鍵環(huán)節(jié)。另一方面，將以在我國發(fā)病率高的肝癌等惡性腫瘤為例，以體細(xì)胞基因突變、染色體重排和表觀遺傳學(xué)修飾等數(shù)據(jù)為切入點，研究建立腫瘤多維度演化模型，對腫瘤發(fā)生和細(xì)胞分化過程進(jìn)行比較，從演化和發(fā)育角度探索腫瘤發(fā)生發(fā)展的機制并進(jìn)行數(shù)學(xué)建模。

16、;　?。?）基于RNA測序的基因表達(dá)和選擇性剪接分析、轉(zhuǎn)錄組分析。系統(tǒng)研究RNA測序數(shù)據(jù)處理與分析的方法，重點研究基因選擇性剪接模式的定量推斷方法和比較不同樣本間基因剪接模式差異的方法，與基因表達(dá)芯片數(shù)據(jù)進(jìn)行比較研究，從理論上探索特殊選擇性剪接形式的不可分辨問題，綜合考慮基因表達(dá)總量、選擇性剪接模式和剪接等位體表達(dá)比例等因素，研究基因差異表達(dá)的概念和組間比較的統(tǒng)計檢驗方法，發(fā)掘不同形式的差異表達(dá)的功能影響，研究非編

17、碼RNA轉(zhuǎn)錄本的表達(dá)規(guī)律，研究不同樣本間或發(fā)育過程中轉(zhuǎn)錄組變化的比較方法，結(jié)合CLIP-seq數(shù)據(jù)分析基因選擇性剪接調(diào)控網(wǎng)絡(luò)。　?。?）宏基因組與宏轉(zhuǎn)錄組數(shù)據(jù)的處理方法與功能分析方法研究。新一代測序的宏基因組、宏轉(zhuǎn)錄組數(shù)據(jù)的處理與單一基因組數(shù)據(jù)處理相比有很多獨特之處，目前通過短序列測序進(jìn)行宏基因組研究的方法尚很少。我們將系統(tǒng)研究短序列宏基因組和轉(zhuǎn)錄組數(shù)據(jù)的拼接、組裝和比較方法，重點研究宏轉(zhuǎn)錄組中

18、的功能轉(zhuǎn)錄本識別和基于序列統(tǒng)計特征的宏基因組/轉(zhuǎn)錄組監(jiān)督和非監(jiān)督分類方法，研究人體微生物群落特征與人體表型特征之間可能的聯(lián)系，探索微生物基因與宿主基因之間可能的相互作用。　?。?）多種組學(xué)數(shù)據(jù)的集成方法研究和生物網(wǎng)絡(luò)的建模、數(shù)學(xué)描述和功能研究。多種測序技術(shù)和其他組學(xué)技術(shù)以不同的尺度向人們展示了復(fù)雜生物對象的不同側(cè)面，本項目將研究如何將不同類型的組學(xué)數(shù)據(jù)聯(lián)系起來、構(gòu)建包含多種調(diào)控因素的分子調(diào)控網(wǎng)絡(luò)

19、。進(jìn)一步，系統(tǒng)研究多種類型生物分子網(wǎng)絡(luò)的數(shù)學(xué)描述方法，提出能夠從整體上反映網(wǎng)絡(luò)功能特點的數(shù)學(xué)指標(biāo)，探索復(fù)雜生理病理現(xiàn)象與基因調(diào)控網(wǎng)絡(luò)或蛋白質(zhì)相互作用網(wǎng)絡(luò)之間整體特性的關(guān)聯(lián)，探索定量研究復(fù)雜生物網(wǎng)絡(luò)的新途徑。　?。?）深度測序數(shù)據(jù)中遺傳多態(tài)性信號的檢測方法，混合樣本測序關(guān)聯(lián)研究的統(tǒng)計遺傳學(xué)理論與方法。與SNP芯片相比，新一代測序技術(shù)能檢測人群中發(fā)生頻率更低的遺傳多態(tài)性，為研究由多種罕見突變導(dǎo)致的復(fù)

20、雜疾病開辟了道路，但開展大規(guī)模的基于深度測序的遺傳學(xué)研究又提出了很多新的理論與方法問題。本項目將深入研究這些問題，發(fā)展從短測序片斷中檢測點突變、插入刪除、基因組結(jié)構(gòu)變異和拷貝數(shù)變化等遺傳多態(tài)性的有效算法，研究在限定測序總量的條件下平衡樣本量與測序深度的實驗設(shè)計方法，發(fā)展采用混合樣本策略進(jìn)行基因組、外顯子組和RNA測序的優(yōu)化實驗設(shè)計理論，研究混合樣本測序?qū)y(tǒng)計檢測功效的影響，為基于新一代測序的大規(guī)模關(guān)聯(lián)研究奠定理論基礎(chǔ)。

21、;　?。?0）應(yīng)用新一代測序數(shù)據(jù)和統(tǒng)計遺傳學(xué)分析研究腫瘤演化過程和分子標(biāo)記。綜合運用本項目取得的理論與方法成果，用群體遺傳學(xué)方法研究癌細(xì)胞群體演化規(guī)律，選擇對我國人民健康影響極大的肺癌作為研究對象，針對非小細(xì)胞肺癌的侵襲和轉(zhuǎn)移，采用混合樣本策略進(jìn)行新一代測序，從基因結(jié)構(gòu)、拷貝數(shù)變異、剪接體變異及非編碼RNA等水平上尋找各類型非小細(xì)胞肺癌的分子特征，為研究這一惡性腫瘤的早期診斷、預(yù)后分析和理解其分子機理提供有價值的線

22、索。　　二、預(yù)期目標(biāo)　　本項目的總體目標(biāo)是，基于和圍繞新一代測序技術(shù)相關(guān)的一系列科學(xué)問題，研究高效處理、分析、挖掘和整合超大規(guī)模測序數(shù)據(jù)和其他組學(xué)數(shù)據(jù)的生物信息學(xué)模型、方法、算法和軟件，發(fā)展新的生物信息學(xué)理論與方法，促進(jìn)新一代測序數(shù)據(jù)的有效應(yīng)用，促進(jìn)從海量數(shù)據(jù)到科學(xué)知識的轉(zhuǎn)化，推動對復(fù)雜生命現(xiàn)象內(nèi)在信息調(diào)控系統(tǒng)的認(rèn)識

23、，推動相關(guān)信息技術(shù)的發(fā)展，使我國生物信息學(xué)研究進(jìn)入世界前沿行列。　　五年的預(yù)期目標(biāo)是：　　建立多種新一代測序數(shù)據(jù)的數(shù)學(xué)模型和質(zhì)量控制方法，建立面向新一代測序的編碼和實驗設(shè)計理論。這些理論和方法，將對測序數(shù)據(jù)處理提供重要的指導(dǎo)，也為測序技術(shù)的改進(jìn)提供借鑒。　　建立適應(yīng)多種平臺、

24、針對多種應(yīng)用的新一代測序數(shù)據(jù)處理方法、算法和軟件體系，包括測序讀段的回帖、拼接、糾錯、多態(tài)性檢測、蛋白質(zhì)結(jié)合位點信號檢測與比較、表觀遺傳學(xué)狀態(tài)標(biāo)定和功能元件注釋、基因表達(dá)估計和剪接模式估計、基因表達(dá)比較、宏轉(zhuǎn)錄組組裝與比較等。　　實現(xiàn)面向新一代大數(shù)據(jù)量序列數(shù)據(jù)處理的硬件加速方法，發(fā)展基于參考序列的海量測序數(shù)據(jù)壓縮、存儲和傳輸方法，發(fā)展面向海量基因組數(shù)據(jù)的搜索引擎技術(shù)，發(fā)展適應(yīng)深度測序數(shù)據(jù)和個體化

25、基因組數(shù)據(jù)處理的可重構(gòu)計算系統(tǒng)結(jié)構(gòu)和編程模型。　　對高等真核生物中大量存在的選擇性剪接基因，提出定性和定量分析基因表達(dá)和基因差異表達(dá)的新理論框架，對選擇性剪接的功能和調(diào)控形成更系統(tǒng)的認(rèn)識，對基因差異剪接表達(dá)在復(fù)雜疾病中的作用得到新的認(rèn)識。　　針對新一代測序技術(shù)的特點，發(fā)展基于混合樣本測序的統(tǒng)計遺傳學(xué)新理論和方法，建立基于新一代測序數(shù)據(jù)進(jìn)行大規(guī)模關(guān)聯(lián)研究的

26、優(yōu)化實驗策略。　　發(fā)展集成新一代基因組學(xué)數(shù)據(jù)和其他數(shù)據(jù)構(gòu)建分子調(diào)控網(wǎng)絡(luò)的方法，和定量分析生物網(wǎng)絡(luò)功能的數(shù)學(xué)模型；綜合應(yīng)用多種測序數(shù)據(jù)提供的信息，建立細(xì)胞分化、癌癥發(fā)生發(fā)展等過程中基因調(diào)控與基因組演化的數(shù)學(xué)模型，在對肝癌、肺癌等疾病的機理分析和分子標(biāo)志物發(fā)現(xiàn)上取得進(jìn)展。　　主要研究成果在國際權(quán)威期刊或重要學(xué)術(shù)會議上發(fā)表。預(yù)計發(fā)表重要學(xué)術(shù)論文100篇以上，部

27、分技術(shù)性成果以專利和軟件著作權(quán)等形式發(fā)表，預(yù)計申請專利或軟件著作權(quán)5-10項。通過發(fā)表高水平成果、在國際會議做特邀報告、主辦頂尖國際學(xué)術(shù)會議等，在國際同行中建立重要學(xué)術(shù)影響。　　通過本項目研究，培養(yǎng)一批具有堅實的生物信息學(xué)基礎(chǔ)、善于處理和解析超大規(guī)模生物學(xué)數(shù)據(jù)、善于從龐雜的數(shù)據(jù)中探尋復(fù)雜生物學(xué)規(guī)律的年輕科學(xué)家。預(yù)計培養(yǎng)博士生、碩士生各20-30名。<

28、;b>　　三、研究方案　　總體思路和創(chuàng)新點　　新一代測序包含了一系列復(fù)雜的實驗技術(shù)，它對生物學(xué)研究帶來的革命是多方面的，很多分子和系統(tǒng)生物學(xué)問題都需要通過深度測序進(jìn)行研究；同時，對信息科學(xué)與技術(shù)的挑戰(zhàn)也是系統(tǒng)性的，很多傳統(tǒng)的生物信息學(xué)問題都需要重新研究。針對這些特點，本項目將從測序數(shù)據(jù)產(chǎn)生、

29、處理、解析、應(yīng)用的各個主要環(huán)節(jié)進(jìn)行深入剖析，對其中的生物信息學(xué)問題進(jìn)行系統(tǒng)研究。研究過程將采用理論研究與實驗研究相結(jié)合，科學(xué)問題與技術(shù)問題相結(jié)合，生物學(xué)研究與信息處理、計算技術(shù)和統(tǒng)計學(xué)研究相結(jié)合的策略。整個項目研究將圍繞統(tǒng)一的總體學(xué)術(shù)思路來進(jìn)行。　　首先，從數(shù)據(jù)產(chǎn)生的源頭開展生物信息學(xué)研究。發(fā)揮項目參加團隊同時擁有各種主流第二代測序平臺和自主知識產(chǎn)權(quán)國產(chǎn)測序平臺的優(yōu)勢，針對各種平臺分析其數(shù)據(jù)特點

30、和噪聲規(guī)律，結(jié)合后期處理需求研究影響數(shù)據(jù)質(zhì)量的各種因素，以從數(shù)據(jù)中挖掘生物學(xué)規(guī)律的最終應(yīng)用目標(biāo)來研究優(yōu)化的實驗設(shè)計。　　同時，提取各種測序數(shù)據(jù)處理任務(wù)中最具共性的信息技術(shù)問題，從算法、軟件、硬件、系統(tǒng)、服務(wù)模式等多角度進(jìn)行深入研究，一方面研究對現(xiàn)有方法的改進(jìn)和現(xiàn)有技術(shù)的巧妙應(yīng)用，另一方面從長遠(yuǎn)考慮，力求發(fā)展新的技術(shù)體系，從根本上解決不斷增長的基因和基因組數(shù)據(jù)所提出的計算和存儲挑戰(zhàn)。</p&

31、gt;　　更重要的，本項目充分意識到，數(shù)據(jù)的產(chǎn)出和積累不是目的，而是探究復(fù)雜生命系統(tǒng)的手段，真正的目的是通過數(shù)據(jù)挖掘出知識，推進(jìn)對生命體內(nèi)在信息調(diào)控系統(tǒng)的認(rèn)識，進(jìn)而對健康、農(nóng)業(yè)、環(huán)境、能源等相關(guān)研究領(lǐng)域做出貢獻(xiàn)。因此，數(shù)據(jù)的獲取不能是盲目的，數(shù)據(jù)的處理也不能是孤立的，而是必須納入到整個研究的大循環(huán)中進(jìn)行研究。這是本項目總體學(xué)術(shù)思路的關(guān)鍵。我們將以細(xì)胞分化、癌癥發(fā)生發(fā)展等過程中的具體科學(xué)問題為例，以最終對生物過程背后

32、分子調(diào)控程序進(jìn)行數(shù)學(xué)建模為目標(biāo)，引導(dǎo)對新一代測序數(shù)據(jù)相關(guān)的一系列生物信息學(xué)理論、技術(shù)與方法的研究。與目前國內(nèi)外多數(shù)關(guān)于新一代測序數(shù)據(jù)處理的研究大都僅關(guān)注某個獨立環(huán)節(jié)相比，這一學(xué)術(shù)思路是本項目最大的特色。　　這一總體思路是本項目最大的創(chuàng)新點，預(yù)期成果的創(chuàng)新點包括新理論、新方法、新系統(tǒng)、新發(fā)現(xiàn)四個層面。新理論是指，建立新一代測序數(shù)據(jù)的信號和噪聲模型理論、選擇性剪接基因表達(dá)和差異表達(dá)的新理論、生物網(wǎng)絡(luò)

33、功能分析的數(shù)學(xué)模型和定量指標(biāo)、混合樣本測序的統(tǒng)計遺傳學(xué)新模型；新方法，核心是處理和分析下一代測序數(shù)據(jù)的方法體系；新系統(tǒng)是，大規(guī)模測序數(shù)據(jù)存儲和計算的新的軟硬件系統(tǒng)；新發(fā)現(xiàn)是，在細(xì)胞分化和癌癥發(fā)生發(fā)展中的信息調(diào)控規(guī)律和模型方面的新發(fā)現(xiàn)。　　我們也意識到，落實這種整體的、系統(tǒng)的學(xué)術(shù)研究思路并非輕而易舉的事，必須將系統(tǒng)進(jìn)行合理的分解。為此，我們對核心科學(xué)問題進(jìn)行了認(rèn)真梳理，組織國內(nèi)相關(guān)領(lǐng)域最具優(yōu)勢的研

34、究力量，將研究內(nèi)容劃分為分工明確又緊密聯(lián)系的五個課題，在各個課題的研究中落實總體思路，通過項目的有效組織和研究內(nèi)容之間的內(nèi)在聯(lián)系將各個課題凝聚在一起。下面分別對各個課題的技術(shù)路線和預(yù)期創(chuàng)新性進(jìn)行介紹。　　技術(shù)途徑　　課題一、多種新一代測序技術(shù)的數(shù)據(jù)產(chǎn)生模型與優(yōu)化處理方法　　本

35、課題重點從測序數(shù)據(jù)產(chǎn)生源頭開始研究數(shù)據(jù)的特點、實驗設(shè)計策略和數(shù)據(jù)處理技術(shù)，是整個項目的一個基礎(chǔ)。主要從四個方面開展研究工作，預(yù)期可以在對數(shù)據(jù)產(chǎn)生和實驗設(shè)計的數(shù)學(xué)建模、多種不同平臺測序數(shù)據(jù)的聯(lián)合研究和實用、高效的測序數(shù)據(jù)處理工作流方面取得創(chuàng)新性的成果。　?。?）新一代測序技術(shù)中的編碼模型及高通量實驗設(shè)計理論與方法　　對基因序列進(jìn)行編碼連接測序是測序技術(shù)的一

36、個重要方向，將信息學(xué)中的編碼理論應(yīng)用于連接測序技術(shù)中，結(jié)合熒光檢測的分辨率分析，設(shè)計可靠的具有糾錯能力的多堿基熒光標(biāo)記測序探針編碼與解碼方法?？赏⑿碌臏y序編碼理論，指導(dǎo)大幅度提高測序讀長和速度。由于新一代測序通量很高，對于一些特定范圍的測序?qū)嶒?，可以通過生物條碼技術(shù)在一個測序通道上對多個樣本測序，處理時再利用解碼程序?qū)碜圆煌瑯颖镜臄?shù)據(jù)分開；或者，如果測序目的是檢測基因組稀有變異，可以采用將多個樣本按照一定策略進(jìn)行混合測序，通過可能

37、的組合模式來推斷攜帶稀有變異的樣本。在這兩種策略中，都涉及到怎樣更有效設(shè)計樣本組合模式和編碼方案的問題，以最少次數(shù)的測序?qū)嶒瀬慝@得最多的無歧義的檢測結(jié)果。　　目前發(fā)表的測序應(yīng)用研究，實驗設(shè)計很多是根據(jù)經(jīng)費和樣本的制約來進(jìn)行的，缺乏從理論角度對最優(yōu)實驗方案的設(shè)計。本項目將對這一問題進(jìn)行系統(tǒng)研究，針對具體的生物醫(yī)學(xué)研究問題，綜合考慮實驗各個環(huán)節(jié)技術(shù)特點，考查實驗中影響最終結(jié)果的主要因素，對樣本量、測

38、序深度、多次測序的批次組合等進(jìn)行分析，發(fā)展能夠從理論上指導(dǎo)實驗方案設(shè)計的新方法。　?。?）新一代測序數(shù)據(jù)的數(shù)學(xué)模型和質(zhì)量控制方法　　對三種最常用的國外新一代測序平臺（Illumina/Solexa、Roche/454、AB/SOLiD）、我國自主研發(fā)的AG系列測序平臺和將來的第三代測序，通過對實驗環(huán)節(jié)中多種因素的分析，定量研究測序錯誤出現(xiàn)的規(guī)律和與之相關(guān)

39、的因素，建立數(shù)據(jù)的誤差模型，用以指導(dǎo)后續(xù)的數(shù)據(jù)處理算法。在此基礎(chǔ)上，研究不同測序平臺的特點，研究不同平臺和不同應(yīng)用的質(zhì)量控制方法以及平臺選擇和優(yōu)化組合方案。　　在自主研發(fā)的AG系列新一代測序平臺上，研究與測序編碼技術(shù)相銜接的測序圖像處理和堿基標(biāo)識算法，結(jié)合上述誤差模型和組合編碼策略，建立我國自主知識產(chǎn)權(quán)的高通量測序原始數(shù)據(jù)處理算法和軟件。同時，也將這些研究的成果反饋到測序技術(shù)研發(fā)中，推進(jìn)測序技術(shù)

40、本身的進(jìn)步。　　（3）新一代高通量測序數(shù)據(jù)的高效處理方法與工作流　　針對新一代測序數(shù)據(jù)量大、數(shù)據(jù)處理過程復(fù)雜、對計算資源要求高等共同特點，從硬件環(huán)境和軟件算法兩方面入手，對測序數(shù)據(jù)的典型處理算法進(jìn)行優(yōu)化，研究利用GPU（圖形處理單元）/FPGA（可編程邏輯門陣列）對算法進(jìn)行硬件化來大幅度提高系統(tǒng)性能。利用CUDA（統(tǒng)一計算設(shè)備架構(gòu)）編程技術(shù)，發(fā)展適用于G

41、PU的高通量測序數(shù)據(jù)處理算法和應(yīng)用程序。研究可重構(gòu)工作流技術(shù)，發(fā)展測序數(shù)據(jù)處理的可視化交互工作流，實現(xiàn)各種復(fù)雜處理流程的快速組裝。　?。?）測序數(shù)據(jù)的統(tǒng)合分析（meta-analysis）　　統(tǒng)合分析（亦稱薈萃分析）是指用數(shù)學(xué)和統(tǒng)計學(xué)方法對多個渠道的數(shù)據(jù)資料進(jìn)行定量的綜合分析和概括，以提供比單一數(shù)據(jù)更準(zhǔn)確的結(jié)果。生物學(xué)研究中，針對同一問題往往存在多種類型

42、的數(shù)據(jù)，包括不同平臺或不同實驗室的測序數(shù)據(jù)、早先的基因芯片數(shù)據(jù)等，我們將著重進(jìn)行對兩類統(tǒng)合分析問題的研究：一是不同測序平臺數(shù)據(jù)的統(tǒng)合分析，比如結(jié)合454和Solexa測序平臺的誤差模型，通過統(tǒng)合分析實現(xiàn)基因組中重復(fù)序列的精確評估；二是測序數(shù)據(jù)與其他關(guān)聯(lián)數(shù)據(jù)的統(tǒng)合分析，比如在人群的遺傳關(guān)聯(lián)圖譜研究中整合個體基因組測序與國際單倍型計劃（HapMap）數(shù)據(jù)等。　　課題二、面向新一代測序大數(shù)據(jù)量的計算模

43、型與體系結(jié)構(gòu)研究　　本課題重點從計算模型和計算機體系結(jié)構(gòu)方面研究新一代測序所面臨的計算與存儲瓶頸，基本技術(shù)路線是：1、深入發(fā)掘哈希索引（Hash indexing）算法的潛力，實現(xiàn)高效的讀段回帖和拼接算法；2、充分利用基因組數(shù)據(jù)自身特點，研究數(shù)據(jù)壓縮和冗余數(shù)據(jù)刪除技術(shù)，實現(xiàn)高效的數(shù)據(jù)壓縮與存儲方法；3、參考分布式并行系統(tǒng)和MapReduce編程模型，研究實現(xiàn)針對高密度壓縮海量基因組數(shù)據(jù)的搜索核心

44、算法；4、在計算機體系結(jié)構(gòu)方面，通過提取各種測序數(shù)據(jù)處理算法的核心特征，研究可重構(gòu)計算技術(shù)的混合異構(gòu)系統(tǒng)結(jié)構(gòu)及其編程模型，利用可重構(gòu)計算技術(shù)突破商業(yè)處理器中的指令集和系統(tǒng)結(jié)構(gòu)的限制，實現(xiàn)序列回帖、數(shù)據(jù)壓縮及傳輸、數(shù)據(jù)檢索等核心算法的加速。本課題是面向新一代測序數(shù)據(jù)所提出的現(xiàn)實和未來需求的探索性研究，研究成果將不但是生物信息學(xué)領(lǐng)域的創(chuàng)新，也將是對計算、存儲技術(shù)自身的重要創(chuàng)新。　　以最常用的短序列回

45、帖和拼接算法為例，目前方法都采用哈希索引和動態(tài)規(guī)劃方法提高程序效率，進(jìn)一步分析表明，影響算法性能的主要原因有：哈希索引表沒有數(shù)據(jù)局部性，導(dǎo)致CPU的緩存命中率低；建立索引需要消耗大量內(nèi)存；缺乏針對性的計算指令，大量的高并行度位運算只能在CPU中低效率進(jìn)行；動態(tài)規(guī)劃中數(shù)據(jù)緊耦合，在CPU難以并行，需要脈動陣列并行系統(tǒng)；通用CPU中強大的浮點運算單元和深度流水線技術(shù)在基因序列數(shù)據(jù)運算中得不到有效利用甚至可能帶來負(fù)面影響。

46、　　基于這些分析和對計算機體系結(jié)構(gòu)發(fā)展歷程的研究，我們設(shè)想提出新型的可重構(gòu)的體系結(jié)構(gòu)以滿足深度測序數(shù)據(jù)處理需求，利用商業(yè)的雙CPU系統(tǒng)設(shè)計，包含一個X86CPU和標(biāo)準(zhǔn)芯片組和基于FPGA的可重構(gòu)協(xié)處理器，動態(tài)地載入針對不同應(yīng)用優(yōu)化的指令，配備大容量高寬帶內(nèi)存系統(tǒng)和統(tǒng)一編址的內(nèi)存空間，X86指令和協(xié)處理器擴展指令在同一個虛地址和實地址空間中執(zhí)行。在新的結(jié)構(gòu)中，我們擬對測序數(shù)據(jù)處理程序進(jìn)行重新設(shè)計，解決哈希表和動態(tài)規(guī)劃

47、計算中的性能瓶頸，發(fā)展深度測序數(shù)據(jù)處理的軟件包，預(yù)期處理速度至少可以比現(xiàn)有基于CPU的系統(tǒng)高出一個數(shù)量級以上。　　數(shù)量巨大且不斷增加的數(shù)據(jù)量是新一代測序?qū)π畔⒓夹g(shù)的一大挑戰(zhàn)，我們將從數(shù)據(jù)壓縮方法和存儲方法兩方面進(jìn)行深入研究。基因序列數(shù)據(jù)有很多自身的特點，我們希望利用這些特點，通過改進(jìn)基于參考序列的壓縮方法達(dá)到對巨量測序數(shù)據(jù)的高密度壓縮，而這其中同樣涉及到高效的序列回帖算法問題。我們將把序列回帖與

48、拼接和數(shù)據(jù)壓縮結(jié)合起來研究，發(fā)展高效的條件壓縮方法，并通過考慮序列的生物學(xué)性質(zhì)幫助提高壓縮率。　　目前的測序數(shù)據(jù)存儲主要依賴傳統(tǒng)的磁盤陣列技術(shù)，隨著數(shù)據(jù)量超摩爾定律速度的增長，預(yù)計近三五年內(nèi)，一個基因組數(shù)據(jù)中心需要存儲和訪問的數(shù)據(jù)量將達(dá)到EB（260）量級，遠(yuǎn)非當(dāng)前的磁盤陣列技術(shù)能夠解決，十分需要前瞻性地對存儲方法和系統(tǒng)結(jié)構(gòu)進(jìn)行研究。這里的主要問題是存儲容量和訪問速度。在硬件層次，采用分層管理的

49、異構(gòu)介質(zhì)分級存儲系統(tǒng)是擬發(fā)展的方向，將SSD固態(tài)硬盤、磁盤、磁帶、光盤等不同存儲介質(zhì)通過高速網(wǎng)絡(luò)整合成透明的邏輯存儲池，輔以高效能動態(tài)分級存儲管理軟件，有效解決數(shù)據(jù)中心內(nèi)冷熱數(shù)據(jù)的合理存放，在可以控制的成本內(nèi)實現(xiàn)EB級存儲。在軟件層次，深入研究面向基因組序列的冗余數(shù)據(jù)刪除技術(shù)以降低對物理存儲容量的需求，結(jié)合高性能序列數(shù)據(jù)計算系統(tǒng)實現(xiàn)在有限的計算代價下高效的冗余數(shù)據(jù)刪除。針對訪問速度問題，擬采用集群化Scale-out的方法解決數(shù)據(jù)I/O

50、瓶頸問題，通過多個廉價X86處理節(jié)點達(dá)到比傳統(tǒng)高端存儲更優(yōu)的性能。　　從海量的數(shù)據(jù)進(jìn)行檢索和查詢是測序數(shù)據(jù)應(yīng)用中的一個基本需求。基因組數(shù)據(jù)屬于比較典型的非結(jié)構(gòu)化數(shù)據(jù)，無法利用現(xiàn)有數(shù)據(jù)庫技術(shù)進(jìn)行高效的檢索與查詢，存儲經(jīng)過高度壓縮的數(shù)據(jù)更增加了檢索和查詢的難度。我們將充分考慮測序數(shù)據(jù)在壓縮、存儲和處理方案上的特點，參考分布式并行系統(tǒng)和針對大規(guī)模數(shù)據(jù)的MapReduce編程模型，研究發(fā)展適應(yīng)海量基因組

51、數(shù)據(jù)的搜索引擎核心算法和軟件。　　課題三、基于新一代表觀基因組測序數(shù)據(jù)的細(xì)胞分化和腫瘤發(fā)生模型研究　　數(shù)據(jù)的采集、存儲和處理是基于新一代測序開展科學(xué)研究的基礎(chǔ)，而從數(shù)據(jù)中挖掘出知識、促進(jìn)人類對生命現(xiàn)象機理的認(rèn)識才是研究的根本任務(wù)。本項目的后三個課題就是從不同層面對深度測序數(shù)據(jù)中進(jìn)行知識的提取和挖掘。本課題重點研究基因組各種功能元件的識別、表觀遺傳學(xué)信息的

52、提取和功能分析、以及在此基礎(chǔ)上對細(xì)胞分化和腫瘤發(fā)生過程進(jìn)行數(shù)學(xué)建模，預(yù)期將獲得對表觀遺傳調(diào)控和細(xì)胞分化、腫瘤發(fā)生機理的新認(rèn)識。　　（1）表觀基因組測序數(shù)據(jù)處理方法及基因調(diào)控元件的識別和功能注釋　　與基因組測序不同，對用于功能研究的各種復(fù)合的測序數(shù)據(jù)，比如ChIP-seq轉(zhuǎn)錄因子結(jié)合位點測序、bisulfite-seq甲基化測序、3C染色質(zhì)結(jié)構(gòu)測序等，除了

53、讀段回帖等基本處理外，最主要的處理任務(wù)是從數(shù)據(jù)中準(zhǔn)確檢測有效信號。我們將采用混合概率模型和現(xiàn)代信號處理技術(shù)，結(jié)合測序數(shù)據(jù)誤差模型，發(fā)展高分辨率識別轉(zhuǎn)錄因子結(jié)合位點、DNA甲基化、組蛋白修飾區(qū)域、染色質(zhì)結(jié)構(gòu)等信號的方法；將測序數(shù)據(jù)與DNA序列特征分析相結(jié)合，精細(xì)注釋蛋白質(zhì)編碼基因、基因間區(qū)miRNA和長非編碼RNA基因的啟動子，包括單向和雙向啟動子及分歧啟動子；通過綜合測序數(shù)據(jù)和比較基因組學(xué)、表觀遺傳學(xué)和轉(zhuǎn)錄組數(shù)據(jù)，系統(tǒng)地注釋基因組上的各

54、種非編碼RNA；收集或采集人和小鼠胚胎干細(xì)胞、體細(xì)胞和腫瘤細(xì)胞等多種細(xì)胞的DNA甲基化和組蛋白修飾數(shù)據(jù)，用統(tǒng)計學(xué)和機器學(xué)習(xí)方法劃分染色質(zhì)狀態(tài)，建立基因組功能元件、DNA甲基化和染色質(zhì)狀態(tài)之間的聯(lián)系，分析細(xì)胞在不同分化階段的表觀遺傳學(xué)變化，建立表觀遺傳學(xué)調(diào)控網(wǎng)絡(luò)并進(jìn)行實驗驗證。　?。?）分析細(xì)胞分化過程的動態(tài)表觀基因組學(xué)數(shù)據(jù)，建立細(xì)胞狀態(tài)轉(zhuǎn)化的數(shù)學(xué)模型

55、收集和采集細(xì)胞分化不同狀態(tài)的基因組學(xué)和表觀基因組學(xué)測序數(shù)據(jù)，通過對數(shù)據(jù)的信號處理和模式識別分析，發(fā)現(xiàn)與細(xì)胞狀態(tài)變化相關(guān)的基因組學(xué)和表觀基因組學(xué)標(biāo)志，建立調(diào)控網(wǎng)絡(luò)模型。分析不同分化階段的調(diào)控網(wǎng)絡(luò)，借鑒物理學(xué)中勢能的概念和信息論中熵的原理，發(fā)展通過表觀遺傳調(diào)控網(wǎng)絡(luò)描述細(xì)胞分化能力的“分化勢能”概念，定量刻畫細(xì)胞分化狀態(tài)。在此基礎(chǔ)上，用基因組學(xué)與表觀遺傳學(xué)標(biāo)志和分化勢能建立細(xì)胞分化的坐標(biāo)空間，結(jié)合蛋白質(zhì)相互作用、細(xì)胞信號通路等信息，尋找網(wǎng)絡(luò)中

56、可以調(diào)控細(xì)胞狀態(tài)間相互轉(zhuǎn)化的關(guān)鍵環(huán)節(jié)。通過計算機仿真對細(xì)胞分化和重編程過程進(jìn)行模擬，設(shè)計細(xì)胞實驗對關(guān)鍵環(huán)節(jié)進(jìn)行驗證。　?。?）綜合運用新一代測序與其他組學(xué)數(shù)據(jù)，構(gòu)建腫瘤細(xì)胞演化的數(shù)學(xué)模型　　選擇肝癌這一對我國人民健康有重大影響的疾病作為研究對象，收集正常、慢性肝炎、肝硬化、肝癌的序貫樣本并應(yīng)用新一代測序技術(shù)進(jìn)行DNA和RNA測序，利用數(shù)據(jù)處理與分析方法的

57、研究成果，檢測體細(xì)胞突變、染色體重排與基因拷貝數(shù)變異、啟動子甲基化異常和RNA轉(zhuǎn)錄后變異等可能與肝癌發(fā)生發(fā)展過程相關(guān)的因素，結(jié)合其他組學(xué)數(shù)據(jù)，探索建立腫瘤發(fā)生過程的演化數(shù)學(xué)模型。系統(tǒng)收集多發(fā)性肝癌和肝癌血管侵犯（LVI）、淋巴結(jié)轉(zhuǎn)移、肺轉(zhuǎn)移、術(shù)后復(fù)發(fā)等樣本，通過高通量測序或基因芯片比較原發(fā)腫瘤和轉(zhuǎn)移灶、多原發(fā)灶及腫瘤復(fù)發(fā)前后樣本之間的差異信號，應(yīng)用腫瘤發(fā)生模型分析轉(zhuǎn)移和復(fù)發(fā)過程中的信號變化路徑，建立腫瘤轉(zhuǎn)移和復(fù)發(fā)的數(shù)學(xué)模型。通過動物實驗

58、對模型的關(guān)鍵環(huán)節(jié)進(jìn)行驗證。進(jìn)一步，通過生物信息學(xué)與細(xì)胞實驗相結(jié)合，探索腫瘤干細(xì)胞演化模型，利用新一代測序檢測腫瘤干細(xì)胞在不同刺激條件下的DNA變異水平和甲基化位點動態(tài)變化，系統(tǒng)描述腫瘤干細(xì)胞自我更新和不對稱分化等方面的分子過程。　　課題四、新一代轉(zhuǎn)錄組數(shù)據(jù)處理與網(wǎng)絡(luò)集成分析的理論與方法　　在生物分子調(diào)控系統(tǒng)中，編碼和非編碼基因的轉(zhuǎn)錄是一個關(guān)鍵的環(huán)節(jié)，存儲

59、在基因組中的遺傳信息、表觀遺傳學(xué)的調(diào)控作用，都是通過轉(zhuǎn)錄過程發(fā)揮作用。轉(zhuǎn)錄組學(xué)就是對轉(zhuǎn)錄的整體研究。本課題重點圍繞轉(zhuǎn)錄組開展對新一代測序數(shù)據(jù)處理與分析的研究，并研究在轉(zhuǎn)錄組基礎(chǔ)上整合多種數(shù)據(jù)構(gòu)建調(diào)控網(wǎng)絡(luò)，以及對網(wǎng)絡(luò)功能進(jìn)行定量分析的理論與方法，將在選擇性剪接基因表達(dá)的新概念和計算方法、宏轉(zhuǎn)錄組的功能分析方法和復(fù)雜調(diào)控網(wǎng)絡(luò)的定量功能描述等方面開展創(chuàng)新性的探索。　　對轉(zhuǎn)錄組測序數(shù)據(jù)研究的基礎(chǔ)是RNA

60、-Seq數(shù)據(jù)讀段回帖、基因表達(dá)模式推斷和表達(dá)量估計。由于人類基因大量存在剪接和選擇性剪接，RNA-Seq數(shù)據(jù)回帖比基因組測序數(shù)據(jù)回帖更具有挑戰(zhàn)性。本課題擬結(jié)合轉(zhuǎn)錄本特點的動態(tài)哈希表技術(shù)，實現(xiàn)外顯子跨越讀段的快速回帖，基于隱馬爾科夫模型等方法推斷選擇性剪接基因的表達(dá)模式，建立考慮讀段分布特點的基因和選擇性剪接等位型表達(dá)量估計方法。同時，根據(jù)對當(dāng)前測序技術(shù)數(shù)據(jù)產(chǎn)生模型的認(rèn)識，建立各種剪接模式及其組合下測序數(shù)據(jù)的正演模型，通過算法反演剪接模式

61、及其表達(dá)量，系統(tǒng)研究現(xiàn)有測序技術(shù)下的不可分辨組合，并通過模型研究完全區(qū)分各種組合對測序數(shù)據(jù)的要求，為第二代測序的實驗優(yōu)化和第三代測序的發(fā)展指出方向。　　對微生物群落的宏基因組和宏轉(zhuǎn)錄組測序是新一代測序應(yīng)用的一個重要發(fā)展方向，研究生物體攜帶的微生物群落與宿主生理病理表型之間的聯(lián)系，是系統(tǒng)生物學(xué)研究的一個嶄新方向。宏基因組和轉(zhuǎn)錄組測序數(shù)據(jù)處理與單一物種測序數(shù)據(jù)處理有很多共同的任務(wù)，可以采用本項目研究

62、的各種數(shù)據(jù)處理方法，但更有自己獨特的特點。將針對宏基因組和轉(zhuǎn)錄組數(shù)據(jù)，我們將研究不依賴序列比對的讀段序列分析方法，通過統(tǒng)計k字詞的出現(xiàn)頻率，用模式識別方法對宏基因組/轉(zhuǎn)錄組進(jìn)行分析。進(jìn)一步，重點研究宏轉(zhuǎn)錄組數(shù)據(jù)中跨物種的基因轉(zhuǎn)錄本識別和局部拼接，通過比較不同樣本的宏轉(zhuǎn)錄組表達(dá)譜，選擇特征，實現(xiàn)對微生物群落功能的分類，探索宏轉(zhuǎn)錄組表達(dá)譜與宿主狀態(tài)之間的聯(lián)系。　　基因的轉(zhuǎn)錄受到轉(zhuǎn)錄因子和多種表觀遺傳

63、學(xué)因素的調(diào)控，而轉(zhuǎn)錄后又通過其蛋白質(zhì)或RNA產(chǎn)物參與對其他基因的調(diào)控，或者與其他蛋白質(zhì)發(fā)生相互作用，構(gòu)成了復(fù)雜的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。對高等真核生物，調(diào)控網(wǎng)絡(luò)中還包含了復(fù)雜的、人們目前尚了解很少的剪接調(diào)控網(wǎng)絡(luò)。本課題擬研究整合RNA-seq、ChIP-seq、CLIP-seq等測序數(shù)據(jù)以及基因芯片、序列模體分析等數(shù)據(jù)構(gòu)建轉(zhuǎn)錄和剪接調(diào)控網(wǎng)絡(luò)的方法，發(fā)展描述存在多元調(diào)控關(guān)系的生物網(wǎng)絡(luò)的數(shù)學(xué)方法，通過監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法對網(wǎng)絡(luò)進(jìn)行功能

64、分解。從功能角度和遺傳穩(wěn)定性角度探索定量描述網(wǎng)絡(luò)或模塊的整體功能性質(zhì)的統(tǒng)計量，嘗試發(fā)展定量描述網(wǎng)絡(luò)整體功能的生物信息學(xué)理論與方法，以癌癥疾病等為例探索網(wǎng)絡(luò)功能指標(biāo)與疾病表型的關(guān)聯(lián)。　　課題五、基于新一代測序數(shù)據(jù)的統(tǒng)計遺傳學(xué)新理論、方法與應(yīng)用　　研究遺傳信息作用的一個重要途徑是通過群體樣本數(shù)據(jù)用統(tǒng)計遺傳學(xué)手段尋找遺傳規(guī)律，如果說從細(xì)胞和分子入手探索生物系統(tǒng)

65、機理是從底向上的方法，那么統(tǒng)計遺傳學(xué)可以看作是從頂向下的方法。二者各有優(yōu)勢、相輔相成。從孟德爾遺傳定律，到摩爾根發(fā)現(xiàn)基因遺傳連鎖、重組規(guī)律，很多生物學(xué)原理都是通過這種從頂向下的方法發(fā)現(xiàn)的。近年來，隨著基因芯片等高通量技術(shù)的發(fā)展，統(tǒng)計遺傳學(xué)取得了很大進(jìn)展。新一代測序?qū)y(tǒng)計遺傳學(xué)帶來了很多新的問題和機遇，本課題將對其中的基本理論和方法進(jìn)行研究，并應(yīng)用于對癌癥尤其是肺癌的研究，預(yù)期可在混合樣本統(tǒng)計檢驗的理論和對癌癥分子標(biāo)志物的研究等方面取得創(chuàng)

66、新性成果。　　基于新一代測序進(jìn)行統(tǒng)計遺傳學(xué)研究，首先要發(fā)展從測序數(shù)據(jù)有效、準(zhǔn)確地檢測各類多態(tài)性信號的方法和軟件。本課題擬結(jié)合測序數(shù)據(jù)誤差模型，以貝葉斯模型為基礎(chǔ)，發(fā)展準(zhǔn)確鑒定基因組序列中的堿基突變、小片斷缺失/插入和拷貝數(shù)變化的方法；研究外顯子捕獲測序和酶切測序中影響序列捕獲效率和酶切效率的因素，建立統(tǒng)計回歸模型進(jìn)行校正；針對混合樣本基因組或外顯子測序，發(fā)展DNA序列變異識別方法尤其是稀有變異的

67、識別方法，以及混合樣本RNA測序中剪接變異的識別方法；研究新一代測序數(shù)據(jù)中對基因型缺失數(shù)據(jù)的估計策略，以及從群體全基因組數(shù)據(jù)中準(zhǔn)確檢測近期正選擇突變的方法。　　混合樣本測序是在有限成本下進(jìn)行大規(guī)模群體遺傳學(xué)研究的有效途徑，但關(guān)于混合樣本測序?qū)y(tǒng)計檢測功效的影響和如何優(yōu)化混合樣本測序方案，尚沒有很好的理論。我們將研究建立混合樣本基因組、外顯子組和RNA測序?qū)嶒瀮?yōu)化設(shè)計的基本理論，根據(jù)混合樣本測序的

68、性質(zhì)重建用于基因組、外顯子組及RNA測序的分析方法，將統(tǒng)計學(xué)中混合數(shù)據(jù)分析、不完全數(shù)據(jù)分析、分布拖尾分析的理論和方法應(yīng)用于混合測序數(shù)據(jù)的理論模擬與分析之中，研究不同測序深度下測序數(shù)據(jù)的統(tǒng)計學(xué)性質(zhì)，通過對數(shù)據(jù)的模擬完善理論和方法研究。　　綜合運用新一代測序技術(shù)和上述研究成果，以對我國人民健康影響極大的非小細(xì)胞肺癌（NSCLC）為例進(jìn)行應(yīng)用研究，擬通過合作者收集各類NSCLC（包括腺癌、鱗癌、大細(xì)胞

69、癌和腺鱗癌）和正常對照樣本，建立各類肺癌和正常組織的混合樣本池，進(jìn)行DNA和RNA測序，尋找與肺癌侵襲和轉(zhuǎn)移相關(guān)的分子標(biāo)志物，尤其是可能的新剪接體和miRNA，通過必要的細(xì)胞和分子實驗驗證其生物學(xué)功能。同時，通過對腫瘤細(xì)胞群體演化的研究，深入分析腫瘤基因組改變發(fā)生的模式，篩選轉(zhuǎn)錄調(diào)控元件上的腫瘤特異性序列變異，探索癌癥發(fā)生發(fā)展的特征。　　課題組織</p

70、>　　課題1：多種新一代測序技術(shù)的數(shù)據(jù)產(chǎn)生模型與優(yōu)化處理方法　　研究內(nèi)容：重點從各種測序技術(shù)平臺數(shù)據(jù)產(chǎn)生的源頭開始研究數(shù)據(jù)的特點、實驗設(shè)計策略和數(shù)據(jù)處理方法，研究內(nèi)容和目標(biāo)包括：發(fā)展新一代測序技術(shù)中的編碼模型和高通量實驗設(shè)計理論與方法，研究各種測序平臺數(shù)據(jù)的數(shù)學(xué)模型和質(zhì)量控制方法，發(fā)展高通量測序數(shù)據(jù)的高效處理方法與工作流，研究跨平臺測序數(shù)據(jù)的統(tǒng)合分析方法。</p

71、>　　預(yù)期目標(biāo)：建立多種新一代測序數(shù)據(jù)的數(shù)學(xué)模型和質(zhì)量控制方法，建立面向新一代測序的編碼和實驗設(shè)計理論。建立適應(yīng)多種平臺、針對多種應(yīng)用的新一代測序數(shù)據(jù)處理方法、算法、可重構(gòu)軟件工作流和和跨平臺數(shù)據(jù)統(tǒng)合分析方法。在國際權(quán)威期刊或重要學(xué)術(shù)會議上發(fā)表重要學(xué)術(shù)論文20篇以上，申請專利或軟件著作權(quán)2-5項。培養(yǎng)博士生、碩士生15名左右。　　承擔(dān)單位：中科院上海生命科學(xué)研究院、東

72、南大學(xué)、上海生物信息技術(shù)研究中心　　課題負(fù)責(zé)人：李軒　　學(xué)術(shù)骨干：李軒、陸祖宏、孫嘯、李園園、顧萬君、張國慶、謝雪英、趙瓊一　　經(jīng)費比例：24.9%　　課題2：面向新一代測序大數(shù)據(jù)量的計算模型與體系結(jié)構(gòu)研究&l

73、t;p>　　研究內(nèi)容：重點從計算機科學(xué)角度系統(tǒng)研究新一代測序巨大的數(shù)據(jù)量帶來的挑戰(zhàn)。研究內(nèi)容和目標(biāo)包括：發(fā)展高效的短序列回帖與拼接算法，結(jié)合大量序列回帖與拼接的算法需求探索優(yōu)化計算機體系結(jié)構(gòu)和編程模型的方法，研究針對基因組數(shù)據(jù)的高比率數(shù)據(jù)壓縮算法和冗余數(shù)據(jù)刪除方法，實現(xiàn)高密度數(shù)據(jù)壓縮與存儲，針對高密度壓縮的海量基因組數(shù)據(jù)發(fā)展高性能、高可靠的基因組數(shù)據(jù)搜索方法。　　預(yù)期目標(biāo)：實現(xiàn)面向新一代大

74、數(shù)據(jù)量序列數(shù)據(jù)處理的硬件加速方法，發(fā)展基于參考序列的海量測序數(shù)據(jù)壓縮、存儲和傳輸方法，發(fā)展面向海量基因組數(shù)據(jù)的搜索引擎技術(shù)，發(fā)展適應(yīng)深度測序數(shù)據(jù)和個體化基因組數(shù)據(jù)處理的可重構(gòu)計算系統(tǒng)結(jié)構(gòu)和編程模型。在國際權(quán)威期刊或重要學(xué)術(shù)會議上發(fā)表重要學(xué)術(shù)論文8篇左右，申請專利或軟件著作權(quán)3-5項。培養(yǎng)博士生、碩士生10名左右。　　承擔(dān)單位：中科院計算技術(shù)研究所<

75、b>　　課題負(fù)責(zé)人：張佩珩　　學(xué)術(shù)骨干：張佩珩、卜東波、熊勁、譚光明　　經(jīng)費比例：13.2%　　課題3：基于新一代表觀基因組測序數(shù)據(jù)的細(xì)胞分化和腫瘤發(fā)生模型研究　　研究內(nèi)容：研究從新一代基因組和表觀基因組測序數(shù)據(jù)中檢測基因調(diào)控元件、提取表觀遺傳學(xué)

76、信息的方法，識別各種調(diào)控因子的功能，分析細(xì)胞在不同分化狀態(tài)的表觀遺傳學(xué)變化；建立細(xì)胞狀態(tài)轉(zhuǎn)化的數(shù)學(xué)模型，發(fā)展根據(jù)調(diào)控網(wǎng)絡(luò)定量刻畫細(xì)胞分化狀態(tài)的生物信息學(xué)新概念，實現(xiàn)對細(xì)胞分化和重編程過程的仿真模擬；通過綜合運用新一代測序數(shù)據(jù)和其他組學(xué)數(shù)據(jù)，以肝癌為例建立腫瘤發(fā)生、轉(zhuǎn)移和復(fù)發(fā)的數(shù)學(xué)模型，推進(jìn)對肝癌發(fā)生發(fā)展機理的認(rèn)識，也為新一代測序綜合應(yīng)用提供一個方法學(xué)框架。　　預(yù)期目標(biāo)：建立新一代測序數(shù)據(jù)的蛋白質(zhì)

77、結(jié)合位點信號檢測與比較、表觀遺傳學(xué)狀態(tài)標(biāo)定和功能元件注釋方法。綜合應(yīng)用多種測序數(shù)據(jù)提供的信息，建立細(xì)胞分化、肝癌發(fā)生發(fā)展等過程中基因調(diào)控與基因組演化的數(shù)學(xué)模型。在國際權(quán)威期刊或重要學(xué)術(shù)會議上發(fā)表重要學(xué)術(shù)論文25篇以上。培養(yǎng)博士生、碩士生15名左右。　　承擔(dān)單位：清華大學(xué)、第二軍醫(yī)大學(xué)上海東方肝膽醫(yī)院　　課題負(fù)責(zé)人：張奇?zhèn)?lt;/b&g

78、t;　　學(xué)術(shù)骨干：張奇?zhèn)?、魯志、汪小我、古槿、陳磊、談冶?lt;/p>　　經(jīng)費比例：21.0%　　課題4：新一代轉(zhuǎn)錄組數(shù)據(jù)處理與網(wǎng)絡(luò)集成分析的理論與方法 　　研究內(nèi)容：研究對RNA測序數(shù)據(jù)的處理與分析方法，重點發(fā)展選擇性剪接基因轉(zhuǎn)錄模式和表達(dá)量的推斷方法，建立對基因表達(dá)和差異表達(dá)的新

79、認(rèn)識；研究宏基因組和宏轉(zhuǎn)錄組的數(shù)據(jù)分析方法，發(fā)展基于序列統(tǒng)計特征的宏基因組、宏轉(zhuǎn)錄組數(shù)據(jù)比較和模式識別方法，通過宏轉(zhuǎn)錄組探索生物群落的功能特征；集成多種組學(xué)數(shù)據(jù)構(gòu)建基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)和剪接調(diào)控網(wǎng)絡(luò)，研究網(wǎng)絡(luò)的數(shù)學(xué)描述方法，發(fā)展新的網(wǎng)絡(luò)功能表征指標(biāo)，探索通過這些指標(biāo)研究復(fù)雜疾病中調(diào)控網(wǎng)絡(luò)的變化。　　預(yù)期目標(biāo)：發(fā)展RNA轉(zhuǎn)錄組測序數(shù)據(jù)處理方法體系，對高等真核生物中大量存在的選擇性剪接基因，提出定性和定

80、量分析基因表達(dá)和基因差異表達(dá)的新理論框架，對選擇性剪接的功能和調(diào)控形成更系統(tǒng)的認(rèn)識，對基因差異剪接表達(dá)在復(fù)雜疾病中的作用得到新的認(rèn)識。發(fā)展集成新一代基因組學(xué)數(shù)據(jù)和其他數(shù)據(jù)構(gòu)建分子調(diào)控網(wǎng)絡(luò)的方法，和定量分析生物網(wǎng)絡(luò)功能的數(shù)學(xué)模型。在國際權(quán)威期刊或重要學(xué)術(shù)會議上發(fā)表重要學(xué)術(shù)論文25篇以上。培養(yǎng)博士生、碩士生10名左右。　　承擔(dān)單位：清華大學(xué)

81、　　課題負(fù)責(zé)人：張學(xué)工　　學(xué)術(shù)骨干：張學(xué)工、李衍達(dá)、江瑞、周彤、劉莉揚　　經(jīng)費比例：17.3%　　課題5：基于新一代測序數(shù)據(jù)的統(tǒng)計遺傳學(xué)新理論、方法與應(yīng)用　　研究內(nèi)容與目標(biāo)：發(fā)展從各類測序數(shù)據(jù)中準(zhǔn)確高效地檢測基因組

82、遺傳多態(tài)性信號的方法；重點研究采用新一代測序數(shù)據(jù)進(jìn)行復(fù)雜疾病關(guān)聯(lián)研究所需要的新的統(tǒng)計遺傳學(xué)理論和方法，研究混合樣本測序的理論問題和實驗設(shè)計問題；對非小細(xì)胞肺癌設(shè)計深度測序?qū)嶒?，運用所研究的方法成果在肺癌數(shù)據(jù)中尋找關(guān)鍵標(biāo)志物，探索腫瘤基因組發(fā)生改變的規(guī)律。　　預(yù)期目標(biāo)：建立從新一代測序數(shù)據(jù)中精確檢測遺傳多態(tài)性的方法。針對新一代測序技術(shù)的特點，發(fā)展基于混合樣本測序的統(tǒng)計遺傳學(xué)新理論和方法，建立基于新

83、一代測序數(shù)據(jù)進(jìn)行大規(guī)模關(guān)聯(lián)研究的優(yōu)化實驗策略，在對肺癌等疾病的分子標(biāo)志物發(fā)現(xiàn)和腫瘤基因組演化模型上取得進(jìn)展。在國際權(quán)威期刊或重要學(xué)術(shù)會議上發(fā)表重要學(xué)術(shù)論文25篇左右。培養(yǎng)博士生、碩士生15名左右。　　承擔(dān)單位：復(fù)旦大學(xué)、中科院北京基因組所、中科院-馬普學(xué)會計算生物學(xué)伙伴研究所　　課題負(fù)責(zé)人：羅澤偉

84、　　學(xué)術(shù)骨干：羅澤偉、田衛(wèi)東、張洪、胡小華、蔡軍、翟巍巍、李海鵬　　經(jīng)費比例：23.6%　　各課題之間的關(guān)系如下圖所示。　　項目特色和可行性分析　　新一代測序是最近幾年內(nèi)發(fā)展起來的新技術(shù)，所帶來的一系列生物信息學(xué)理論與方法問題在國內(nèi)外都剛剛開始被重視

85、，尚未有十分系統(tǒng)的研究。本項目的主要特色有：（1）從計算模型和推理模型兩方面系統(tǒng)梳理新一代測序數(shù)據(jù)從產(chǎn)生、處理、存儲到分析、解析、應(yīng)用各個層面的生物信息學(xué)問題，包括理論問題、技術(shù)問題和方法問題，集中多學(xué)科優(yōu)勢力量展開系統(tǒng)研究。這種系統(tǒng)性是本項目的一大特色。（2）以認(rèn)識和挖掘數(shù)據(jù)中蘊藏的科學(xué)知識為最終目標(biāo)，指導(dǎo)對數(shù)據(jù)的實驗采集、處理、壓縮、存儲等各環(huán)節(jié)的研究，避免片面追求數(shù)據(jù)的局部指標(biāo)；在對數(shù)據(jù)的分析、挖掘和應(yīng)用中，充分運用數(shù)據(jù)產(chǎn)生模型、

86、誤差模型和實驗設(shè)計等方面的研究結(jié)果，避免對數(shù)據(jù)的盲目應(yīng)用。（3）與我國自主研制的新一代測序技術(shù)密切結(jié)合，既考慮現(xiàn)有測序技術(shù)產(chǎn)生的數(shù)據(jù)，又充分考慮未來的技術(shù)發(fā)展，并且從生物信息學(xué)研究出發(fā)對測序技術(shù)自身發(fā)展提供導(dǎo)向。（4）對生物信息學(xué)的研究不停留在理論和方法上，而且緊密結(jié)合當(dāng)前生物學(xué)前沿，對細(xì)胞分化、癌癥發(fā)生發(fā)展等重要科學(xué)問題展開深入研究，力求在生物信息學(xué)理論方法和前沿科學(xué)發(fā)現(xiàn)上同時取得突破。（5）以積極的姿態(tài)應(yīng)對不斷增長的新一代測序數(shù)據(jù)對

87、信息技術(shù)帶來的挑戰(zhàn)　　本項目經(jīng)過了充分的論證和準(zhǔn)備，我們對在新一代生物信息學(xué)理論、方法和應(yīng)用上取得重大突破充滿信心，主要原因有：（1）項目對新一代測序相關(guān)的生物信息學(xué)和生命科學(xué)、信息科學(xué)問題進(jìn)行了深入系統(tǒng)的分析，研究內(nèi)容既有前瞻性又切實可行，項目設(shè)計思路清晰，已形成先進(jìn)、可行的學(xué)術(shù)思路和技術(shù)路線。（2）項目組織了一支在生物信息學(xué)和相關(guān)方面有雄厚基礎(chǔ)并充滿活力的多學(xué)科研究隊伍，既包括了國內(nèi)相關(guān)領(lǐng)域

88、骨干力量，也包括了新近回國的優(yōu)秀人才，在高通量組學(xué)生物信息學(xué)、系統(tǒng)生物學(xué)、統(tǒng)計遺傳學(xué)和高性能計算等方面已經(jīng)有充分的研究基礎(chǔ)。（3）項目團隊擁有良好的研究條件，尤其是同時擁有目前國際上主流的第二代測序平臺和我國自主研發(fā)的第二代測序平臺，同時與國際上第三代測序技術(shù)領(lǐng)導(dǎo)者已經(jīng)建立了密切的合作關(guān)系，在用于開展實驗研究的實驗條件和樣本、病例條件上都已經(jīng)有充分準(zhǔn)備，在計算機體系結(jié)構(gòu)和高性能計算上有很強的研究能力和實驗條件，有條件完成計劃的研究任務(wù)。

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

973 2012 基于新一代測序的生物信息學(xué)理論與方法

文檔簡介

溫馨提示

最新文檔

評論

973 2012 基于新一代測序的生物信息學(xué)理論與方法

文檔簡介

溫馨提示

最新文檔

評論

免費下載