2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩128頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、復雜資料綜合投影尋蹤回歸分析法與綜合傳統回歸分析法的比較研究
  高維數據統計分析在現在的醫(yī)學科學研究中越來越普遍,數據的高維問題使得傳統的多元統計分析方法遇到了一些問題,如高維數據計算量大、出現維數禍根、低維穩(wěn)健性很好的統計分析方法在高維時穩(wěn)健性變差等。傳統的分析方法遠不能滿足高維數據分析的需要,尤其是當高維數據分布為非正態(tài)時,原有建立在服從正態(tài)分布基礎上的多元統計分析方法更顯得無能為力。在此背景下,投影尋蹤在上世紀60~70年

2、代開始出現。
  為了分析或研究高維數據,投影尋蹤將高維數據投影到可反映其原始數據結構或特征的低維空間(1~3維)上,用投影指標來度量投影分布所含信息的多少。故投影尋蹤關鍵在于找到投影指標取值最大或最小時的投影方向,而目前多采用遺傳算法來尋找最優(yōu)投影方向。將投影尋蹤與回歸分析技術相結合就形成了投影尋蹤回歸分析技術。
  本研究旨在通過對同一復雜資料,分別采用投影尋蹤回歸分析法和傳統回歸分析法進行分析,然后比較二者的擬合效果和

3、預測效果,以研究出對此資料更適合采用哪種分析方法。本研究可使投影尋蹤回歸的適用性更為具體,也可引起醫(yī)學統計學數據分析者對投影尋蹤這一方法的認識,從而有利于今后進行復雜資料回歸分析時方法的合理選擇。
  本文中所用的投影尋蹤回歸分析方法主要包括R中所能實現的投影尋蹤回歸方法(PPR包中包括的三種方法,Spline法、Gcvspline法、Supsmu法)和自行編制的投影尋蹤回歸軟件中使用的方法(Hermite多項式法)。在本文中綜合

4、傳統回歸分析法主要指多重線性回歸分析、主成分回歸、嶺回歸、偏最小二乘回歸和穩(wěn)健回歸。
  本課題研究中關于“復雜資料”的界定包括以下2種情形:
  第一種情形:自變量之間存在多重共線性關系。對于多重共線性,本文中傳統回歸分析方法采用主成分回歸、嶺回歸和偏最小二乘回歸處理;具體計算,將通過SAS中REG、PRINCOMP和PLS過程來實現。
  第二種情形:數據中存在異常點。對于存在異常點情形,本文中傳統回歸分析方法采用

5、穩(wěn)健回歸;具體計算,將通過SAS中ROBUSTREG過程來實現。
  本文除考慮進行上述復雜資料情況比較外,也進行了對于數據質量較好(數據本身質量較好、不存在多重共線性及異常點等,并且采用多重線性回歸分析擬合及預測效果均很好)情況下投影尋蹤回歸分析方法和傳統的多重線性回歸分析方法的比較。
  本文主要采用決定系數和相對誤差絕對值的平均值來評價擬合效果,主要采用各預測樣本相對誤差的絕對值和預測誤差的均方來評價預測效果。對于實際

6、數據擬合樣本采用的是原始的樣本數據,預測樣本采用的是對應于相應變量的平均值、最大值、最小值、中位數、四分之一分位數、四分之三分位數所形成的6個統計量值。
  經本研究發(fā)現,當實際數據本身質量較好時,采用投影尋蹤回歸分析方法在擬合和預測效果上均好于多重線性回歸分析方法,不過二者之間的差別不大。用投影尋蹤回歸分析擬合,決定系數在0.9703~0.9988之間,相對誤差均值在0.0039~0.0187之間,預測樣本的MSE在12.91~

7、16.77之間;用多重線性回歸分析擬合,決定系數為0.9639,相對誤差均值為0.0224,預測樣本的MSE為18.80。而對于模擬數據本身質量較好時,投影尋蹤回歸分析和多重線性回歸分析二者在擬合和預測效果上相差很小,難分高下,二者擬合效果評價指標決定系數均在0.9942以上。
  本文分析了三個自變量間存在共線性的實際數據。對第一個存在共線性的數據分析結果為:采用傳統回歸分析方法(主成分回歸、嶺回歸和偏最小二乘回歸)擬合,決定系

8、數在0.9351~0.9386之間,相對誤差均值在0.0497~0.0528之間,對于預測樣本的MSE,主成分回歸為1.18,嶺回歸為0.66,PLS回歸為1.14;采用投影尋蹤回歸分析擬合,決定系數在0.9756~0.9846之間,相對誤差均值在0.0316~0.0363之間,預測樣本的MSE在0.69~0.86之間。對第二個存在共線性的數據分析結果為:采用傳統回歸分析方法(主成分回歸、嶺回歸和偏最小二乘回歸)擬合,決定系數在0.90

9、39~0.9820之間,相對誤差均值在0.0174~0.0383之間,對于預測樣本的MSE,主成分回歸為126.59,嶺回歸為208.40,PLS回歸為215.82;采用投影尋蹤回歸分析擬合,決定系數在0.9823~0.9927之間,相對誤差均值在0.0104~0.0175之間,預測樣本的MSE在11.00~27.25之間。對第三個存在共線性的數據分析結果為:采用傳統回歸分析方法(主成分回歸、嶺回歸和偏最小二乘回歸)擬合,決定系數在0.

10、8023~0.8924之間,相對誤差均值在0.0450~0.0642之間,對于預測樣本的MSE,主成分回歸為0.61,嶺回歸為0.36,PLS回歸為0.23;采用投影尋蹤回歸分析擬合,決定系數在0.8851~0.9980之間,相對誤差均值在0.0046~0.0481之間,預測樣本的MSE在0.03~0.65之間。
  本文分析了兩個數據中存在異常點的實際數據。對第一個存在異常點的數據分析結果顯示不論是采用投影尋蹤回歸分析還是采用穩(wěn)

11、健回歸分析,對數據的擬合效果都很差。傳統回歸分析,決定系數最高為0.3641;投影尋蹤回歸分析,決定系數在0.1857~0.6650之間。對第二個存在異常點的數據分析結果為:M回歸決定系數為0.8982,相對誤差均值為0.1377,預測樣本的MSE為3.3919;投影尋蹤回歸分析,決定系數在0.9423~0.9563之間,相對誤差均值在0.0899~0.1138之間,預測樣本的MSE在2.3604~3.0308之間。
  從本文研

12、究結果可以得出如下結論:
 ?。?)考慮到多重線性回歸分析與投影尋蹤回歸分析對于數據本身質量較好時擬合效果相差不大且擬合決定系數在0.95以上,并且投影尋蹤回歸分析計算難于多重線性回歸分析,故在數據本身質量較好情況下的回歸分析本文推薦采用多重線性回歸方法。
 ?。?)可以認為,當數據存在共線性時采用投影尋蹤回歸分析方法進行分析要好于傳統的對共線性數據的處理辦法(主成分回歸、嶺回歸和偏最小二乘回歸)。
 ?。?)暫且認為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論