版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著DNA測序、質(zhì)譜測序等高通量技術(shù)的快速發(fā)展,生命科學(xué)領(lǐng)域進(jìn)入了以海量多元組學(xué)數(shù)據(jù)為特征的大數(shù)據(jù)時(shí)代。組學(xué)大數(shù)據(jù)給生命科學(xué)研究帶來了前所未有的機(jī)遇,在研究基因功能、疾病機(jī)制、精準(zhǔn)醫(yī)療等方面具有重要意義。面向組學(xué)大數(shù)據(jù)的生物信息學(xué)研究,有助于快速有效地挖掘組學(xué)大數(shù)據(jù)中蘊(yùn)含的生物學(xué)知識。大數(shù)據(jù)具有規(guī)模性、多樣性、高速性等三個(gè)特征,給傳統(tǒng)生物信息學(xué)帶來了新的挑戰(zhàn)。在數(shù)據(jù)計(jì)算方面,亟需解決中小實(shí)驗(yàn)室對計(jì)算資源的彈性需求;在數(shù)據(jù)分析方面,亟需多
2、組學(xué)整合分析體系解決生物學(xué)問題。缺乏相應(yīng)的生物信息學(xué)工具是大數(shù)據(jù)時(shí)代生命科學(xué)領(lǐng)域面臨的主要瓶頸。本論文主要目的即在于使用數(shù)據(jù)計(jì)算技術(shù)和數(shù)據(jù)分析技術(shù)解決組學(xué)大數(shù)據(jù)分析中存在的上述問題。
在數(shù)據(jù)計(jì)算技術(shù)研究方面,本文重點(diǎn)關(guān)注云計(jì)算技術(shù)解決若干蛋白質(zhì)組大數(shù)據(jù)問題。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS,Amazon Web Service)采用現(xiàn)收現(xiàn)付(pay asyou go)的計(jì)費(fèi)模式,提供彈性計(jì)算云(EC2,Elastic Compute C
3、loud)和簡單存儲服務(wù)(S3,Simple Storage Service)等多種云服務(wù),使得用戶通過互聯(lián)網(wǎng)即可按需獲取計(jì)算和存儲資源,可有效解決組學(xué)大數(shù)據(jù)對計(jì)算資源的彈性需求。MapReduce框架將任務(wù)的處理過程劃分成Map和Reduce兩個(gè)階段:Map階段將輸入數(shù)據(jù)切割成數(shù)據(jù)分塊,以鍵值對的形式分配到計(jì)算節(jié)點(diǎn)上的Map函數(shù)并行分析處理,Map函數(shù)的輸出同樣以鍵值對的形式保存在各自的計(jì)算節(jié)點(diǎn)上;Reduce階段負(fù)責(zé)將所有的中間結(jié)果
4、根據(jù)鍵值進(jìn)行合并,然后生成最終結(jié)果。MapReduce框架簡化了分布式計(jì)算的編程模型。針對海量串聯(lián)質(zhì)譜數(shù)據(jù)帶來的計(jì)算復(fù)雜度問題,本文使用云計(jì)算技術(shù)解決鑒定新肽段、單氨基酸變異肽段以及外顯子跳躍剪接肽段等基于串聯(lián)質(zhì)譜的蛋白質(zhì)組大數(shù)據(jù)問題。本文采用串聯(lián)質(zhì)譜數(shù)據(jù)結(jié)合蛋白質(zhì)基因組學(xué)的方法,構(gòu)建了全基因組六框翻譯氨基酸的序列數(shù)據(jù)庫、錯(cuò)義突變的氨基酸序列數(shù)據(jù)庫以及外顯子跳躍剪接的氨基酸序列數(shù)據(jù)庫,使用基于 MapReduce框架的數(shù)據(jù)庫搜索算法加快
5、基于串聯(lián)質(zhì)譜的肽段鑒定過程,使用Target-Decoy搜索策略對肽段鑒定結(jié)果進(jìn)行質(zhì)量控制。本文構(gòu)建了基于云計(jì)算技術(shù)的蛋白質(zhì)組大數(shù)據(jù)分析和呈現(xiàn)平臺 CAPER3。CAPER3使用 AWS和MapReduce框架實(shí)現(xiàn)了數(shù)據(jù)處理流程的可擴(kuò)展性。CAPER3具有兩個(gè)主要組件,分別是遠(yuǎn)程工作包(RWP,Remote Work Package)和本地工作包(LWP,Local Work Package)。RWP部署在AWS上,處理運(yùn)行在云端的任務(wù)
6、。LWP是基于Java的圖形客戶端,具有數(shù)據(jù)傳輸、任務(wù)配置、進(jìn)度監(jiān)控以及結(jié)果展示等功能。LWP使得用戶不需要專業(yè)知識即可在處理數(shù)據(jù)時(shí)獲得 AWS提供的彈性計(jì)算能力。CAPER3在鑒定新肽段、已知單氨基酸變異肽段、樣本特異的單氨基酸變異肽段、以及外顯子跳躍剪接肽段等蛋白質(zhì)組大數(shù)據(jù)問題上,加快了數(shù)據(jù)處理速度,并且從蛋白質(zhì)層次上提供基因或者變異的證據(jù),可為未來研究提供重要線索。CAERP3的源代碼可通過https://github.com/y
7、s-amms/CaperCloud獲取,使用說明詳見http://prodigy.bprc.ac.cn/caper3。
在數(shù)據(jù)分析技術(shù)研究方面,本文重點(diǎn)關(guān)注建立基于生物學(xué)網(wǎng)絡(luò)的多組學(xué)整合分析體系。單一組學(xué)數(shù)據(jù)的分析往往具有局限性。高通量測序技術(shù)產(chǎn)生了多平臺的組學(xué)數(shù)據(jù),揭示了細(xì)胞中分子的靜態(tài)和動(dòng)態(tài)信息,而細(xì)胞中不同分子之間相互通信形成了復(fù)雜的生物學(xué)網(wǎng)絡(luò)。考慮不同組學(xué)數(shù)據(jù)之間的關(guān)聯(lián),有利于對候選疾病基因進(jìn)行篩選和排序。驅(qū)動(dòng)基因鑒定
8、問題是生物信息學(xué)中一個(gè)重要的研究領(lǐng)域。本文首先搜集整理了最新的癌癥相關(guān)突變數(shù)據(jù)集,使用特征分析發(fā)現(xiàn)癌癥相關(guān)突變與中性突變在基于PAM250和基于香農(nóng)信息熵的序列特征上存在顯著差異。在生物學(xué)網(wǎng)絡(luò)層次,本文提出一種通路算法用于解決驅(qū)動(dòng)基因鑒定問題?;谕返乃惴僭O(shè)通路上游的驅(qū)動(dòng)基因經(jīng)信號轉(zhuǎn)導(dǎo)過程導(dǎo)致下游轉(zhuǎn)錄因子過表達(dá),轉(zhuǎn)錄因子過表達(dá)導(dǎo)致其靶基因顯著過表達(dá),進(jìn)而引發(fā)癌癥;而基于蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)(PFIN,Protein functiona
9、l interaction network)的算法假設(shè)癌癥驅(qū)動(dòng)基因的網(wǎng)絡(luò)鄰居存在更多差異表達(dá)基因。本文研發(fā)了基于生物學(xué)網(wǎng)絡(luò)的癌癥驅(qū)動(dòng)基因鑒定工具 Bionexr。Bionexr是一個(gè) R包,由四個(gè)功能模塊組成,分別是“數(shù)據(jù)下載與解析”、“基因分析”、“網(wǎng)絡(luò)分析”和“可視化”。為了方便獲取 TCGA數(shù)據(jù),“數(shù)據(jù)下載與解析”模塊提供TCGA level-3基因體系突變數(shù)據(jù)和基因表達(dá)數(shù)據(jù)的下載,查看下載進(jìn)度和斷點(diǎn)續(xù)傳功能。對于基因體系突變數(shù)據(jù)
10、,“基因分析”模塊計(jì)算突變對基因功能的影響。對于基因表達(dá)數(shù)據(jù),“基因分析”模塊計(jì)算基因在腫瘤樣本和正常樣本中的表達(dá)倍數(shù)變化?!熬W(wǎng)絡(luò)分析”模塊集成了基于KEGG通路和基于PFIN的分析算法。對于基于KEGG通路分析流程的鑒定結(jié)果,“可視化”模塊以具有三級層次(分別是突變基因、轉(zhuǎn)錄因子和靶基因)的有向圖呈現(xiàn);對于基于 PFIN分析流程的鑒定結(jié)果,“可視化”模塊以無向圖呈現(xiàn)。四個(gè)模塊既相互獨(dú)立,又可以串聯(lián)在一起,構(gòu)成鑒定癌癥驅(qū)動(dòng)基因的數(shù)據(jù)分析
11、流程?!盎蚍治觥焙汀熬W(wǎng)絡(luò)分析”組成的分析流程使得 Bionexr在鑒定癌癥驅(qū)動(dòng)基因時(shí)既考察核酸層次的信息,又考察生物學(xué)網(wǎng)絡(luò)層次的信息。使用Bionexr對TCGA中的多種癌癥,如頭和頸部鱗狀細(xì)胞癌、乳腺癌、腎癌和子宮內(nèi)膜癌,進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)了潛在的癌癥驅(qū)動(dòng)基因或通路,分析結(jié)果提供豐富的信息。Bionexr的源代碼及使用說明可通過https://github.com/ys-amms/bionexr獲取。
組學(xué)大數(shù)據(jù)的知識挖掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物信息學(xué)
- 大數(shù)據(jù)背景下生物信息學(xué)課程教學(xué)的swot分析
- 生物信息學(xué)課件
- 生物信息學(xué)導(dǎo)論
- 生物信息學(xué)教案
- 生物信息學(xué)概論
- 生物信息學(xué)課程信息
- 生物信息學(xué)序列分析
- 生物信息學(xué) 期末復(fù)習(xí)
- 生物信息學(xué)考試大綱
- 生物信息學(xué)作業(yè)實(shí)驗(yàn)
- 空間環(huán)境生物信息學(xué)數(shù)據(jù)的分析方法研究.pdf
- 生物信息學(xué)數(shù)據(jù)庫及其利用方法
- 疫霉菌基因組與轉(zhuǎn)錄組的生物信息學(xué)研究.pdf
- 生物信息學(xué)選擇題
- 生物信息學(xué)作業(yè)實(shí)驗(yàn)6
- 生物信息學(xué)綜述作業(yè)
- 生物信息學(xué)復(fù)習(xí)題
- 生物信息學(xué)及其發(fā)展歷史
- 生物信息學(xué) 復(fù)習(xí)題
評論
0/150
提交評論