廣義灰色分析體系建模的基本問題及其模型集群分析研究.pdf_第1頁
已閱讀1頁,還剩166頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、技術進步與革新往往以一種明顯而有效的方式促進科學的發(fā)展。在最近20年里,現(xiàn)代分析儀器與計算機技術得到了迅猛的發(fā)展,使得分析化學領域樣本量測,數(shù)據(jù)采集與數(shù)據(jù)分析的手段發(fā)生了革命性的變化,極大的促進了分析化學與系統(tǒng)生物學研究與發(fā)展。當今化學與生命科學研究中的樣本往往具有極高的復雜性,其物質組成、物質含量、物質間的相互作用及物質與其含量在時間方向上的動態(tài)變化,在很大程度上都是未知的。此類樣本首先為分析化學家提出了極大挑戰(zhàn)。幸運的是,高通量分析

2、儀器的產(chǎn)生和發(fā)展使得分析化學家能夠同時從成千上萬個分析通道(光譜的波長,質譜的質荷比或者基因芯片中的基因)獲取實驗樣本的數(shù)據(jù),進而可采用數(shù)學或者統(tǒng)計學方法對數(shù)據(jù)進行分析,以期獲得有價值的化學或生物信息。此類分析體系的建模尚無可靠的物理或者化學規(guī)律可依,而且模型線性或者非線性未知,其解析具有很高的挑戰(zhàn)性,梁逸曾教授將其稱為廣義灰色分析體系(Generalized Gray Analytical Systems)。而且,注意到此類體系的量測

3、變量個數(shù)p往往非常大,少則上百,多則百萬,同時由于樣本采集或者實驗成本等原因,樣本的數(shù)量n往往相對非常少。這就產(chǎn)生了著名的“l(fā)arge p,small n”難題,它又為廣義灰色分析體系的解析提出了新的問題。我們認為,廣義灰色分析體系的解析目前仍存在三個基本問題:模型評價、變量選擇與模型應用域的定義。這三個基本問題仍屬于統(tǒng)計學領域和化學計量學領域尚未很好解決的問題。對于這三個問題的解答,目前的方法大都是建立在單個數(shù)據(jù)及單個模型的基礎上的,

4、并沒有考慮到樣本的變化和變量的變化對分析結果的影響。因此,采用此類方法得到的分析結果(如模型評價結果,篩選出的變量或模型應用域)仍值得商榷。針對此問題,我們自主提出了復雜數(shù)據(jù)分析的全新的一般性思路,即模型集群分析(Model Population Analysis,MPA)。基于MPA的數(shù)據(jù)分析方法可望解決現(xiàn)有的模型評價、變量選擇以及模型應用域分析方法的缺陷。借助于MPA這個思路平臺,我們主要研究并建立了新型的基于統(tǒng)計分布的模型評價與變

5、量選擇算法并在模擬和實驗數(shù)據(jù)上進行了全面的驗證,獲得了令人滿意的結果。另外,我們亦對模型應用域進行了初步的探索。本論文研究內容主要包括四個部分:模型集群分析(第二章),模型評價(第三章),變量選擇(第四到九章)與模型應用域(第十章),簡述如下:
  一、首先提出了模型集群分析的產(chǎn)生背景及其基本要素。任何基于數(shù)據(jù)的模型都勢必受到樣本和變量的影響,因此變量選擇也會受到相應的影響。然而,文獻報道的變量選擇方法往往都是基于單個數(shù)據(jù)和單個模

6、型的,而未考慮到樣本變化和變量的變化所帶來的影響。通過不斷的改變樣本和變量而建立多個模型,我們發(fā)現(xiàn),變量的重要性呈現(xiàn)出一穩(wěn)定的統(tǒng)計分布,此分布證實了變量重要性的不確定性,反映了數(shù)據(jù)的變化對分析目標產(chǎn)生的影響,為理解數(shù)據(jù)和建立模型提供了全面的信息。據(jù)此,我們認為基于對一大群模型的統(tǒng)計分析,可望能夠為建立和發(fā)展新型的化學計量學算法提供新的思路?;谶@些認識和理解,我們提出了模型集群分析,其主要思路就是通過蒙特卡洛采樣,利用一大群子模型來考察

7、數(shù)據(jù)的內在性質,最終獲取我們感興趣的參數(shù)(樣本空間,變量空間,參數(shù)空間與模型空間)的統(tǒng)計分布,從而實現(xiàn)對有限樣本的最大信息獲取。從這一角度看來,模型集群分析與貝葉斯分析有類似功效,通過強調參數(shù)分布,與單模型分析形成了強烈對比。簡言之,模型集群分析用時間換取空間,從不同的側面對數(shù)據(jù)進行分析,對信息進行提取,與蘇軾的詩句“橫看成嶺側成峰,遠近高低各不同”不期而合。(第二章)
  二、基于模型集群分析,我們提出了模型預測能力的統(tǒng)計比較方

8、法。模型比較是化學計量學中的重要研究內容。然而,在當前已發(fā)表的大多數(shù)科研論文中,對模型預測能力的比較僅僅建立在一個單獨的測試集或者固定樣本分組后的單次交互檢驗上。顯而易見,這樣的比較具有得出錯誤結論的風險。利用MPA的思想,通過不斷改變測試集或者改變訓練集的樣本劃分,獲取了不同變量集的測試預測誤差或者交互檢驗誤差的分布。對它們的分布進行統(tǒng)計檢驗,最終得到可靠的結論。將此方法應用于近紅外數(shù)據(jù)和代謝數(shù)據(jù)的分析,結果顯示此方法能夠避免得出錯誤

9、結論的風險,顯著提高了變量預測能力比較的可靠性。(第三章)
  三、基于模型集群分析,我們建立了子窗口重排分析(SubwindowPermutation Analysis,SPA)的變量選擇方法。此方法的基本假設是有信息變量在重排后會引起模型預測精度的顯著降低,而無信息變量由于不能提供分類信息,因此是否重排對模型預測精度無明顯影響。首先通過蒙特卡洛技術同時從樣本和變量空間采樣,獲取N個子訓練集和N個子測試集,利用偏最小二乘線性判別

10、分析建立N個分類模型。繼計算每個變量重排前后在測試集上的模型預測誤差,最終獲取重排前后的兩組預測誤差。通過對這兩組預測誤差的差異進行統(tǒng)計檢驗,實現(xiàn)對變量重要性的可靠的評價。將此方法應用于Ⅱ型糖尿病和兒童超重的代謝數(shù)據(jù)分析,結果顯示篩選出的少數(shù)幾個重要代謝物不但能夠顯著提高模型預測精度,而且亦從文獻報道中得到了生物學的驗證。(第四章)
  四、基于模型集群分析,我們設計了專門適用于支持向量機(SupportVector Machin

11、es, SVM)的變量選擇方法?;诮Y構風險最小化的SVM模型在各個領域得到了廣泛的應用,但適于SVM的變量選擇的方法鮮有報道。表征 SVM預測性能的核心參數(shù)為其模型的間隔(margin),間隔大的SVM模型具有更低的結構風險與較優(yōu)的泛化性能?;诖诵再|,我們提出了間隔影響分析(Margin Influence Analysis,MIA)方法。我們通過變量空間的蒙特卡洛采樣建立N個SVM模型并計算相應的N個間隔。然后,根據(jù)模型是否含有某

12、個給定變量,將所有模型分為兩組,相應的間隔也分為兩組。通過對這兩組分布進行統(tǒng)計檢驗,篩選出能夠顯著增加SVM的間隔的變量。將此方法應用于兩組基因表達數(shù)據(jù)的分析,得到了具有競爭力的結果。(第五章)
  五、利用模型集群分析的思想,我們發(fā)展了競爭自適應重加權采樣(Competitive Adaptive Reweighted Sampling,CARS),提出采用預測誤差分布對CARS選出的變量集進行更加全面的評價,可望得到可靠的結果

13、。實驗表明,CARS方法具有篩選出較優(yōu)的變量組合的能力,能夠顯著改善模型的預測性能。(第六章)
  六、利用模型集群分析的思路,提出了研究變量的條件重要性的一種方法。首先在變量空間進行采樣,得到N個子數(shù)據(jù)集,建立N個子模型,并計算每個模型的預測誤差。對于每個變量,抽取含有此變量的最好的一部分(如5%)模型。采用這組最優(yōu)模型的預測誤差的中位數(shù)的倒數(shù)作為變量的條件重要性的評價指標,該指標能夠反映出某個變量在別的變量存在時的重要性。利用

14、此方法,分析了來源于芬蘭青少年心血管疾病研究項目中的代謝綜合征數(shù)據(jù)和動脈粥樣硬化數(shù)據(jù),發(fā)現(xiàn)此方法能夠有效篩選出僅與別的變量共存時才能表現(xiàn)出預測能力的變量。生物學檢驗表明該方法適合于生物標記物的篩選。(第七章)
  七、利用模型集群分析的思路,并結合逆跳馬爾科夫蒙特卡洛(RJMCMC)的想法,提出了一種非常適合于在高維空間中搜索變量組合的方法,稱之為隨機青蛙(Random Frog)。采用了按概率對備選模型進行接受的準則,并提出了一

15、種自適應的基于正態(tài)分布的模型維數(shù)轉換機制,從而得到N個具有不同維數(shù)的模型。統(tǒng)計分析每個變量在這N個模型中選擇概率,將其作為重要性的評價指標。在兩組基因表達分類數(shù)據(jù)上的測試結果顯示此方法選出的基因具有很強的分類能力,利用這些基因建立的主成分分析模型亦能將正常樣本和疾病樣本完全分開,充分說明了此方法在揭示判別模式方面極具潛力。(第八章)
  八、利用模型集群分析的思路,提出了變量互補信息網(wǎng)(VariableComplementary

16、Network,VCN),對我們首次提出的變量互補信息這個概念進行了定量研究。生命體是一個系統(tǒng),生物變量之間相互依存并共同作用。因此,對變量互補信息的研究具有重要意義?;诙嘧兞磕P偷幕貧w系數(shù),我們提出了變量互補信息的計算公式,并采用圖方法將變量互補信息進行了可視化,得到了變量互補網(wǎng)。此網(wǎng)非常直觀的揭示了變量之間的互補關系,同時也為篩選生物標記物提供了一種全新的思路。將此方法應用于Ⅱ型糖尿病和老鼠術后認知障礙數(shù)據(jù)的分析,得到了非常漂亮的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論