版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、蛋白質(zhì)組學(xué)是后基因組時(shí)代生命科學(xué)研究的熱點(diǎn)之一,它研究生物體細(xì)胞、器官乃至組織的蛋白質(zhì)表達(dá)規(guī)律,并闡明其生物學(xué)意義。蛋白質(zhì)組學(xué)研究的重要技術(shù)之一是生物質(zhì)譜技術(shù),對著生物質(zhì)譜技術(shù)的發(fā)展,促進(jìn)了大規(guī)模蛋白質(zhì)組研究的開展,實(shí)現(xiàn)高通量、高靈敏度和高分辨率的蛋白質(zhì)組學(xué)研究分析平臺(tái)。
鳥槍法蛋白質(zhì)組鑒定是蛋白質(zhì)組研究最重要的研究策略:通過實(shí)驗(yàn)產(chǎn)出串聯(lián)質(zhì)譜數(shù)據(jù),通過搜索蛋白質(zhì)序列數(shù)據(jù)庫獲得可靠鑒定肽段結(jié)果,并進(jìn)一步通過蛋白質(zhì)的推導(dǎo)獲得鑒定蛋
2、白質(zhì)結(jié)果。由于質(zhì)譜數(shù)據(jù)的特性,生物樣品多樣、實(shí)驗(yàn)過程復(fù)雜、現(xiàn)有搜索算法和質(zhì)量控制方法局限,盡管數(shù)據(jù)庫搜索策略可以提高生物質(zhì)譜數(shù)據(jù)的解析效率,但仍不能完全解決蛋白質(zhì)鑒定問題。如何保證鑒定結(jié)果的正確性和完整性,是數(shù)據(jù)庫搜索策略的主要問題。
隨著質(zhì)譜儀不斷發(fā)展,海量高精度質(zhì)譜數(shù)據(jù)不斷產(chǎn)出,大規(guī)模蛋白質(zhì)組質(zhì)譜數(shù)據(jù)研究的分析方法明顯滯后。質(zhì)譜數(shù)據(jù)分析的瓶頸,已經(jīng)不再是實(shí)驗(yàn)數(shù)據(jù)的產(chǎn)出,而是數(shù)據(jù)的有效分析。因此建立質(zhì)譜數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)大規(guī)
3、模質(zhì)譜數(shù)據(jù)分析自動(dòng)化實(shí)現(xiàn)十分必要。
另一方面,高精度串聯(lián)質(zhì)譜(MS/MS)數(shù)據(jù)所蘊(yùn)含的肽段信息可為基因組解析注入新的思路,從高精度MS/MS數(shù)據(jù)出發(fā),利用基因組數(shù)據(jù)庫搜索,可進(jìn)一步提高質(zhì)譜數(shù)據(jù)解析率。蛋白質(zhì)組基因組學(xué)的研究理念是整合串聯(lián)質(zhì)譜數(shù)據(jù)注釋基因組蛋白質(zhì)編碼基因。
本課題致力于基于數(shù)據(jù)庫搜索策略的質(zhì)譜數(shù)據(jù)分析流程的改善、平臺(tái)構(gòu)建及其在人類肝臟蛋白質(zhì)組等大規(guī)模數(shù)據(jù)分析中的應(yīng)用。首先比較譜圖、肽段、蛋白質(zhì)水平質(zhì)量控
4、制方法的嚴(yán)格性,并開發(fā)了針對Mascot搜索引擎的質(zhì)量控制和蛋白質(zhì)裝配程序ProDistiller;然后探索了常用蛋白質(zhì)序列數(shù)據(jù)庫的區(qū)別及其對對鑒定結(jié)果的影響,并依據(jù)我們實(shí)驗(yàn)室長期的數(shù)據(jù)分析經(jīng)驗(yàn),整合質(zhì)譜數(shù)據(jù)分析軟件、構(gòu)建質(zhì)譜數(shù)據(jù)分析平臺(tái)Mass Spectrum Data Processing Pipeline(MSPP)?;谘芯堪l(fā)展的質(zhì)控方法和數(shù)據(jù)分析平臺(tái),我們對人類染色體蛋白質(zhì)組計(jì)劃產(chǎn)出以及收集的人類肝臟蛋白質(zhì)組的海量數(shù)據(jù)集展開
5、了系統(tǒng)的分析。最后我們建立了基于基因組數(shù)據(jù)庫和預(yù)測蛋白質(zhì)組數(shù)據(jù)庫挖掘新蛋白的數(shù)據(jù)分析流程,實(shí)現(xiàn)了海量人類蛋白質(zhì)組質(zhì)譜數(shù)據(jù)的深度解析。具體內(nèi)容包括:
蛋白質(zhì)水平質(zhì)控方法是較譜圖水平、肽段水平質(zhì)控更為嚴(yán)格的質(zhì)量控制方法。尤其對于復(fù)雜樣本數(shù)據(jù)集,整合實(shí)驗(yàn)數(shù)據(jù)多,蛋白質(zhì)水平累積的假陽性鑒定也多。我們開發(fā)基于PepDistiller結(jié)果進(jìn)行蛋白質(zhì)水平質(zhì)量控制和蛋白質(zhì)裝配的ProDistiller程序,設(shè)置圖譜打分F-value,對同一個(gè)
6、樣本的圖譜結(jié)果進(jìn)行排序逐個(gè)組裝蛋白,在蛋白水平FDR達(dá)到1%時(shí)停止組裝獲得卡值,蛋白質(zhì)裝配基于簡單原則法。ProDistiller使用Perl語言編寫,可以在多種平臺(tái)下運(yùn)行,結(jié)果中保留肽段鑒定的屬性,如電荷,漏切位點(diǎn)數(shù),母離子和子離子質(zhì)量誤差等。
目前常用蛋白質(zhì)組序列數(shù)據(jù)庫有NCBI nr、UniProt、RefSeq、Ensembl等,這幾個(gè)數(shù)據(jù)庫在理論肽段構(gòu)成上基本相似,差別在于存著不同可變剪接形式的蛋白質(zhì)。注釋較好的Un
7、iprot和SwissProt數(shù)據(jù)庫所得到的鑒定結(jié)果要比其它數(shù)據(jù)庫多。另一方面Uniprot和SwissProt數(shù)據(jù)庫大小遠(yuǎn)小于Ensembl數(shù)據(jù)庫、RefSeq數(shù)據(jù)庫和NCBI nr數(shù)據(jù)庫,對計(jì)算所需硬件和時(shí)間需求較小。因此我們建議在常規(guī)的蛋白質(zhì)組質(zhì)譜鑒定的數(shù)據(jù)庫搜索中,數(shù)據(jù)質(zhì)量高、冗余度低的Uniprot和Swiss-Prot數(shù)據(jù)庫是最佳選擇,以基因?yàn)橹行牡难芯靠刹捎肧wiss-Prot為搜索數(shù)據(jù)庫。
質(zhì)譜數(shù)據(jù)分析平臺(tái)(M
8、SPP)有效整合并實(shí)現(xiàn)了多種搜索引擎搜索、多水平質(zhì)控和整合、有標(biāo)/無標(biāo)定量等多個(gè)功能模塊,并考慮了多節(jié)點(diǎn)調(diào)度和任務(wù)分配,能夠滿足海量數(shù)據(jù)處理的需求。該平臺(tái)已成功地應(yīng)用于中國人類蛋白質(zhì)組計(jì)劃、人類染色體蛋白質(zhì)組計(jì)劃和人類肝臟蛋白質(zhì)組數(shù)據(jù)集的數(shù)據(jù)分析中,至今已累積處理超過4億張譜圖。隨著蛋白質(zhì)組質(zhì)譜技術(shù)的高速發(fā)展,數(shù)據(jù)規(guī)模逐漸增大,大規(guī)模高通量自動(dòng)化分析,高性能計(jì)算平臺(tái)需要進(jìn)一步優(yōu)化任務(wù)調(diào)度、數(shù)據(jù)分發(fā)和結(jié)果收集,建立高通量、自動(dòng)化的串聯(lián)質(zhì)譜
9、數(shù)據(jù)的新蛋白質(zhì)鑒定平臺(tái)。
MSPP成功應(yīng)用于人類染色體蛋白質(zhì)組計(jì)劃中復(fù)雜樣本的數(shù)據(jù)分析。我們對三組具有不同轉(zhuǎn)移潛能人類肝癌細(xì)胞系樣本Hep3B,HCC97H和HCCLM3進(jìn)行轉(zhuǎn)錄組、翻譯組和蛋白質(zhì)組的深度測序分析,蛋白質(zhì)組學(xué)鑒定9064個(gè)基因,是翻譯組基因總數(shù)的50.2%。其中通過轉(zhuǎn)錄因子富集策略,鑒定到31個(gè)低豐度蛋白質(zhì),證明富集策略對低豐度蛋白鑒定的有效性。通過樣本特異性數(shù)據(jù)庫搜索,我們發(fā)現(xiàn)SAP只占總鑒定肽段數(shù)目的0.4
10、%,這表明單一氨基酸多態(tài)性對蛋白質(zhì)鑒定影響很小。
為獲得最完整的人類肝臟蛋白質(zhì)組數(shù)據(jù)集,我們系統(tǒng)收集盡可能完整肝臟相關(guān)的質(zhì)譜數(shù)據(jù),記錄樣品狀態(tài),獲得最完整的肝臟質(zhì)譜數(shù)據(jù)第一版。實(shí)驗(yàn)數(shù)據(jù)按照樣本類型分為成人肝、胎肝和肝癌細(xì)胞系三種。使用MSPP用于肝臟質(zhì)譜數(shù)據(jù)重分析,構(gòu)建最新版高可信的人類肝臟蛋白質(zhì)組數(shù)據(jù)集,共鑒定9901個(gè)基因,鑒定結(jié)果遠(yuǎn)遠(yuǎn)高過PeptideAtlas中的現(xiàn)有人類肝臟數(shù)據(jù)集的數(shù)據(jù)量(4,408個(gè)蛋白質(zhì))。與Sw
11、issProt和ProteinAtlas中的肝臟組織特異性表達(dá)譜數(shù)據(jù)比較,發(fā)現(xiàn)仍有大量漏檢蛋白質(zhì)。分析其鑒定譜圖的打分情況發(fā)現(xiàn),很多鑒定圖譜并不是打分值低被過濾,而是具有較好打分,導(dǎo)致鑒定結(jié)果存在大量的假陰性。
我們建立了基于基因組數(shù)據(jù)庫的數(shù)據(jù)分析流程,初步實(shí)現(xiàn)了海量人類蛋白質(zhì)組質(zhì)譜數(shù)據(jù)的深度解析。使用高精度質(zhì)譜數(shù)據(jù)搜索基因組數(shù)據(jù)庫(理論外顯子連接體數(shù)據(jù)庫)和預(yù)測蛋白質(zhì)AceView數(shù)據(jù)庫,我們發(fā)現(xiàn)了一些圖譜高可信的候選結(jié)果,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于稀疏表示的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 基于優(yōu)化算法的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 基于聚類分析的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析研究.pdf
- 蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)分析的新方法研究開發(fā).pdf
- 基于模型的蛋白質(zhì)芯片數(shù)據(jù)分析.pdf
- 基于半監(jiān)督學(xué)習(xí)的SELDI-TOF蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 大規(guī)模語義數(shù)據(jù)分析系統(tǒng).pdf
- 大規(guī)模用戶在線行為數(shù)據(jù)分析.pdf
- H-KTT聚類算法及其在大規(guī)模AMI數(shù)據(jù)分析中的應(yīng)用.pdf
- 面向大規(guī)模數(shù)據(jù)分析與分類的正則化回歸算法.pdf
- 蛋白質(zhì)組質(zhì)譜平臺(tái)實(shí)驗(yàn)數(shù)據(jù)仿真生成研究.pdf
- 蛋白質(zhì)組研究中多維液相色譜—質(zhì)譜技術(shù)平臺(tái)的建立及其應(yīng)用.pdf
- 基于特征子空間的質(zhì)譜數(shù)據(jù)分析.pdf
- 醫(yī)療大數(shù)據(jù)分析應(yīng)用平臺(tái)
- 大規(guī)模質(zhì)譜數(shù)據(jù)處理及其平臺(tái)構(gòu)建.pdf
- 數(shù)據(jù)挖掘技術(shù)在中測數(shù)據(jù)分析中的應(yīng)用.pdf
- 16776.分形和網(wǎng)絡(luò)方法在蛋白質(zhì)數(shù)據(jù)分析中的一些應(yīng)用
- 基于質(zhì)譜數(shù)據(jù)分析的蛋白質(zhì)鑒定——斷裂模型、磷酸化肽段以及譜庫搜索方法的研究.pdf
- BP算法在煤譜數(shù)據(jù)分析中的應(yīng)用研究.pdf
- 譜圖數(shù)據(jù)分析方法及平臺(tái)實(shí)現(xiàn).pdf
評論
0/150
提交評論