生物相關(guān)系統(tǒng)的統(tǒng)計模擬和理論分析.pdf_第1頁
已閱讀1頁,還剩175頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著后基因組時代的來臨,從生物體系的整體水平上對生物活性/性質(zhì)進(jìn)行研究已經(jīng)逐漸成為生物學(xué)家的研究重心。生物性質(zhì)/活性的主要體現(xiàn)者就是蛋白質(zhì)。蛋白質(zhì)是生物體系中最重要的大分子之一,它是一切生命活動的物質(zhì)基礎(chǔ),也是基因表達(dá)的最終產(chǎn)物。肽分子實(shí)際上就是蛋白質(zhì)片段。蛋白質(zhì)的生物活性/性質(zhì)與其獨(dú)特的三維結(jié)構(gòu)關(guān)系密切,因此,闡明蛋白質(zhì)的結(jié)構(gòu)與功能之間的內(nèi)在聯(lián)系對于進(jìn)一步了解其發(fā)揮生物活性的分子機(jī)制以及指導(dǎo)相關(guān)結(jié)構(gòu)的修飾改進(jìn)意義深遠(yuǎn)。研究肽/蛋白質(zhì)的

2、結(jié)構(gòu)與其功能之間的關(guān)系主要包括統(tǒng)計模擬和理論計算兩類方法。統(tǒng)計模擬能夠從大量紛繁復(fù)雜的數(shù)據(jù)中縷出頭緒、提煉相互依賴關(guān)系并用于解釋和預(yù)測相關(guān)性質(zhì)/活性;而理論計算則能在原子層面上精確分析體系的各種性質(zhì),例如相互作用、電荷分布等。本文就是基于上述兩方面展開研究的,包括蛋白質(zhì)/肽的統(tǒng)計模擬以及蛋白質(zhì)的量化研究。其中,統(tǒng)計模擬部分包括肽離子在離子遷移譜中飛行時間的定量構(gòu)效關(guān)系(QSPR)研究以及蛋白質(zhì)13CαNMR化學(xué)位移的統(tǒng)計預(yù)測研究,在這部

3、分中,本文將兩種新型機(jī)器學(xué)習(xí)方法,即高斯過程(GP)和隨機(jī)森林(RF),引入肽/蛋白質(zhì)的統(tǒng)計模擬領(lǐng)域,并系統(tǒng)比較了線性與非線方法在肽/蛋白質(zhì)統(tǒng)計模擬中的性能差異。量化研究部分包括采用量子力學(xué)策略對孤立狀態(tài)中的20種天然氨基酸的13CαNMR化學(xué)位移進(jìn)行計算以及結(jié)合密度泛函理論(DFT)和量子力學(xué)/量子化學(xué)(QM/MM)雜化方法對各類簡單模型系統(tǒng)和真實(shí)生物分子體系中的新型鹵離子橋進(jìn)行了計算分析。下面對這些工作逐一加以概述:
  

4、(1)本文基于肽的結(jié)構(gòu)特征將偏最小二乘回歸(PLS)、最小二乘支持向量機(jī)(LSSVM)和高斯過程(GP)機(jī)器學(xué)習(xí)方法應(yīng)用于1481個肽離子在離子遷移譜(IMS)中遷移時間的QSPR研究中。采用三種機(jī)器學(xué)習(xí)方法,包括一種線性的PLS和兩種非線性的LSSVM以及GP方法,用于建立肽在IMS中的遷移時間與肽的結(jié)構(gòu)參數(shù)之間的統(tǒng)計回歸模型。遺傳算法(GA)被同時用于對PLS、LSSVM和GP變量的選擇,以期達(dá)到最佳建模效果。研究發(fā)現(xiàn):①非線性的機(jī)

5、器學(xué)習(xí)方法LSSVM和GP可以得到比線性PLS明顯更優(yōu)的擬合能力及預(yù)測性能,其中,由于GP協(xié)方差函數(shù)中包含了多種成分組合因而可以處理肽樣本集中的線性和非線性混合依賴關(guān)系,從而取得了優(yōu)于LSSVM的效果;②最優(yōu)GA-GP模型認(rèn)為,多肽的結(jié)構(gòu)特征與其在離子遷移譜中的遷移時間之間存在較為明顯的非線性聯(lián)系,同時線性因素也扮演了重要的角色:③通過對GA-GP模型中貢獻(xiàn)最大的前5個描述符的重要性分析可知,這5個變量中包括3個是拓?fù)涿枋龇?個幾何描

6、述符和1個表面偏電荷描述符,表明原子和原子層的數(shù)量、分子的結(jié)構(gòu)和成鍵性質(zhì)、分子表面積、成鍵數(shù)量、鍵長及原子所帶的電荷等都是影響多肽在IMS中遷移時間的主要因素。
   (2)采用統(tǒng)計建模與量子力學(xué)相結(jié)合的方法來分析和預(yù)測蛋白質(zhì)結(jié)構(gòu)中氨基酸殘基的Cα原子的NMR化學(xué)位移。與傳統(tǒng)研究僅基于天然或修飾氨基酸殘基結(jié)構(gòu)參數(shù)進(jìn)行分析所不同的是,我們此次對蛋白質(zhì)中13CαNMR化學(xué)位移的統(tǒng)計模擬是基于完整蛋白質(zhì)結(jié)構(gòu)參數(shù)來實(shí)現(xiàn)的。本文使用啟發(fā)式

7、方法篩選變量并結(jié)合MLR、PLS、LSSVM、RF和GP機(jī)器學(xué)習(xí)工具用于建立一系列QSPR模型,結(jié)果表明:①線性MLR方法可以較好地建立起氨基酸結(jié)構(gòu)特征與其13CαNMR化學(xué)位移之間的函數(shù)關(guān)系,該方法的相關(guān)系數(shù)r2=0.800、交互驗(yàn)證相關(guān)系數(shù)q2=0.795、預(yù)測決定系數(shù)r2pred=0.770;②RF方法比其他方法能更好地表達(dá)氨基酸殘基結(jié)構(gòu)特征與其13CαNMR化學(xué)位移之間的非線性關(guān)系,其r2、q2及r2pred分別為0.944、0

8、.830和0.824;③雖然非線性方法略優(yōu)于線性MLR和PLS方法所建模型,但是不可否認(rèn)的是線性的方法(尤其是MLR)對該體系也能得到較為滿意的結(jié)果。也就是說,蛋白質(zhì)中局部微環(huán)境對氨基酸殘基的13CαNMR化學(xué)位移的影響主要是線性關(guān)系所決定的,而非線性的邊際效應(yīng)也能對其產(chǎn)生一定的附加影響;④同一個氨基酸殘基在不同的二級結(jié)構(gòu)區(qū)域的13CαNMR化學(xué)位移值是有所差異的,相對于折疊區(qū)來說,螺旋區(qū)殘基的Cα原子核受到更強(qiáng)的去屏蔽效應(yīng),使之化學(xué)位

9、移向低場方向移動,而loop區(qū)的13CαNMR化學(xué)位移值則介于折疊區(qū)的和螺旋區(qū)的之間;⑤盡管氨基酸殘基本身的側(cè)鏈構(gòu)象是影響其13CαNMR化學(xué)位移的主要因素,但其并不是唯一因素,蛋白質(zhì)中復(fù)雜的局部環(huán)境也能間接影響到殘基的13CαNMR化學(xué)位移,例如分子間長程相互作用。
   (3)采用量子力學(xué)以及基于ONIOM的雙層QM/MM雜化方法對各類簡單模型系統(tǒng)和真實(shí)生物分子體系中的鹵離子橋進(jìn)行了計算分析,并系統(tǒng)地比較了不同理論方法重現(xiàn)鹵

10、素模體(halide motif)中生物非鍵相互作用能的能力,以期進(jìn)一步了解鹵素模體在蛋白質(zhì)和其他生物體系中的重要性并找到一種最適合的、與昂貴MP2理論計算精度相當(dāng)?shù)腄FT方法用于研究生物體系中鹵素離子與蛋白質(zhì)原子/基團(tuán)之間的相互作用。計算結(jié)果表明:①大多數(shù)DFT方法對MP2水平能量重現(xiàn)結(jié)果甚佳,其中雜化DFT方法普遍比純粹DFT方法更能有效描述鹵離子鍵合物中的非鍵相互作用能;②DFT方法與相對較小的6-311++G(df,pd)基組相

11、結(jié)合基本能夠得到令人滿意的結(jié)果,但也存在少數(shù)例外的情況,比如SVWN5/6-311++G(df,pd)方法;③非電子相關(guān)的從頭算方法(HF)和兩種半經(jīng)驗(yàn)方法(AM1和PM3)均不適合用于計算鹵離子鍵合物的相互作用能;④流行的B3LYP泛函并不適合用于描述鹵離子鍵合物中的非鍵相互作用能。事實(shí)上,它的表現(xiàn)遠(yuǎn)不如人們所期待的那么好;⑤在所有被研究的DFT方法中,對于氟離子鍵合物來說,B98、B97-1和M05泛函均能很好的重現(xiàn)MP2/aug-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論