1、隨著生物信息學(xué)和計(jì)算機(jī)技術(shù)的發(fā)展,人類基因組草圖的公布標(biāo)志著生命科學(xué)的研究已進(jìn)入后基因組時(shí)代,科學(xué)家們把研究的焦點(diǎn)轉(zhuǎn)向了功能基因組學(xué),即對(duì)基因及其表達(dá)產(chǎn)物的功能進(jìn)行研究。生物體系具有模塊性,生物體系的整體功能特性通過分立模塊的功能特性共同體現(xiàn)。建立起具有模塊性的生物網(wǎng)絡(luò)能夠更全面地表達(dá)生物體系的功能特性。識(shí)別生物體系的功能模塊成為后基因組時(shí)代對(duì)生物學(xué)家的又一大挑戰(zhàn)。
基因芯片技術(shù)具有平行性和高通量的特點(diǎn),已成為大規(guī)模提取和探索
2、生物分子信息的強(qiáng)有力手段。如何從基因芯片數(shù)據(jù)中識(shí)別功能模塊,并從功能模塊的角度構(gòu)建子網(wǎng)絡(luò),進(jìn)而構(gòu)建由子網(wǎng)絡(luò)構(gòu)成的基因網(wǎng)絡(luò),更全面地表達(dá)生物體系的結(jié)構(gòu)和功能,成為生物學(xué)家們研究的熱點(diǎn),同時(shí)也是研究的難點(diǎn)。
本文將隨機(jī)矩陣?yán)碚?RMT)與層次聚類方法相結(jié)合分析基因芯片表達(dá)數(shù)據(jù)的模塊性,針對(duì)不同的基因組構(gòu)建相應(yīng)的功能模塊,主要包括以下幾個(gè)方面的內(nèi)容:
1.將RMT與層次聚類方法相結(jié)合研究釀酒酵母基因網(wǎng)絡(luò)的模塊性,應(yīng)用K最近
3、鄰(KNN)方法處理基因表達(dá)數(shù)據(jù)中的缺失數(shù)據(jù),使用均方根誤差(NRMSE)方法來確定最近鄰間隔分布(NNSDs)的轉(zhuǎn)變閾值。研究表明,基于RMT的層次聚類方法識(shí)別基因網(wǎng)絡(luò)的功能模塊具有普適性,能有效地將釀酒酵母基因網(wǎng)絡(luò)中本質(zhì)的、非隨機(jī)的屬性同隨機(jī)噪聲分離,客觀地確定閾值、識(shí)別出網(wǎng)絡(luò)的功能模塊。確定NNSDs的轉(zhuǎn)變閾值qc=0.74;使用層次聚類方法對(duì)特征表達(dá)的基因進(jìn)行聚類分析,發(fā)現(xiàn)CLN2、CLB2等功能模塊對(duì)細(xì)胞周期調(diào)控起關(guān)鍵作用,依
4、據(jù)已知基因的功能準(zhǔn)確地預(yù)測(cè)未知基因YLR190W,YCR016W等的功能,補(bǔ)充了未知基因的功能注釋。
2.應(yīng)用RMT與層次聚類相結(jié)合的方法研究彌散性大B細(xì)胞淋巴瘤(DLBCL)基因網(wǎng)絡(luò)的模塊性,應(yīng)用局域最小二乘(LLS)方法處理基因表達(dá)數(shù)據(jù)中的缺失數(shù)據(jù),使用NRMSE比值的方法來確定NNSDs的轉(zhuǎn)變閾值。發(fā)現(xiàn),基于RMT的層次聚類方法能夠有效地去除DLBCL基因網(wǎng)絡(luò)中的隨機(jī)噪聲,得到過渡區(qū)間為[0.71,0.84]。在轉(zhuǎn)變點(diǎn)q
5、c=0.71處,通過基因表達(dá)譜分析DLBCL的分子異質(zhì)性,并將DLBCL分為兩個(gè)亞型:GCB和ABC亞型。在轉(zhuǎn)變完成點(diǎn)qm=0.84處,識(shí)別出DLBCL基因網(wǎng)絡(luò)的功能模塊。通過對(duì)比Lymph node團(tuán)簇和MHC團(tuán)簇的拓?fù)浣Y(jié)構(gòu)和分枝樹的差別,發(fā)現(xiàn)基于RMT的層次聚類方法不僅能夠根據(jù)基因之間的強(qiáng)關(guān)聯(lián)相互作用體現(xiàn)基因網(wǎng)絡(luò)的模塊性和模塊的分立性,還能夠根據(jù)不同模塊之間的弱關(guān)聯(lián)相互作用體現(xiàn)基因網(wǎng)絡(luò)的等級(jí)性。
3.應(yīng)用復(fù)雜網(wǎng)絡(luò)理論研究D