2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩59頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第5章 自變量的選擇與逐步回歸,,,5.1 自變量選擇對估計和預測的影響5.2 所有子集回歸5.3 逐步回歸5.4 本章小結與評注,§第5章 自變量選擇與逐步回歸,,,從20世紀60年代開始,關于回歸自變量的選擇成為統(tǒng)計學中研究的熱點問題。統(tǒng)計學家們提出了許多回歸選元的準則,并提出了許多行之有效的選元方法。 本章從回歸選元對回歸參數估計和預測的影響開始,介紹自變量選擇常用的幾個準則;扼要介紹所有子集

2、回歸選元的幾個方法;詳細討論逐步回歸方法及其應用。,§5.1 自變量選擇對估計和預測的影響,,,一、全模型和選模型,設研究某一實際問題涉及到對因變量有影響的因素共有m個,回歸模型為:y=β0+β1x1+β2x2+…+βmxm+ε (5.1)稱為全回歸模型。 如果我們從所有可供選擇的m個變量中挑選出p個,記為x1,x2,…,xp,構成的回歸模型為:y=β0p+β1px1+β2px2+…+βppxp+ε

3、p (5.2) 稱模型(5.2)式為選模型。,§5.1 自變量選擇對估計和預測的影響,,,一、全模型和選模型,模型選擇不當會給參數估計和預測帶來什么影響?下面我們將分別給予討論。 為了方便,我們把模型(5.1)式的參數估計向量 和σ2的估計記為:,,,,把模型(5.2)式的參數估計向量記為,,,§5.1 自變量選擇對估計和預測的影響,,,二、自變量選擇對預測的影響,關于自變量選擇對預

4、測的影響可以分成兩種情況:第一種情況是全模型正確而誤用了選模型;第二種情況是選模型正確而誤用了全模型式。,§5.1 自變量選擇對估計和預測的影響,,,(一)全模型正確而誤用選模型的情況,§5.1 自變量選擇對估計和預測的影響,,,(一)全模型正確而誤用選模型的情況,§5.1 自變量選擇對估計和預測的影響,,,(一)全模型正確而誤用選模型的情況,§5.1 自變量選擇對估計和預測的影響,,,(一)

5、全模型正確而誤用選模型的情況,§5.1 自變量選擇對估計和預測的影響,,,(一)全模型正確而誤用選模型的情況,§5.1 自變量選擇對估計和預測的影響,,,(二)選模型正確而誤用全模型的情況,§5.1 自變量選擇對估計和預測的影響,,,(二)選模型正確而誤用全模型的情況,§5.1 自變量選擇對估計和預測的影響,,,(二)選模型正確而誤用全模型的情況,上述結論告訴我們,一個好的回歸模型,并不是考慮的自

6、變量越多越好。在建立回歸模型時,選擇自變量的基本指導思想是“少而精”。哪怕我們丟掉了一些對因變量y還有些影響的自變量,由選模型估計的保留變量的回歸系數的方差,要比由全模型所估計的相應變量的回歸系數的方差小。而且,對于所預測的因變量的方差來說也是如此。丟掉了一些對因變量y有影響的自變量后,所付出的代價是估計量產生了有偏性。然而,盡管估計量是有偏的,但預測偏差的方差會下降。另外,如果保留下來的自變量有些對因變量無關緊要,那么,方程中包括這些

7、變量會導致參數估計和預測的有偏性和精度降低。,§5.2 所有子集回歸,,,一、所有子集的數目,,有m個可供選擇的變量x1,x2,…,xm,由于每個自變量都有入選和不入選兩種情況,這樣y關于這些自變量的所有可能的回歸方程就有2m-1個。 從另一個角度看,§5.2 所有子集回歸,,,二、關于自變量選擇的幾個準則,從數據與模型擬合優(yōu)劣的直觀考慮出發(fā),認為殘差平方和SSE最小的回歸方程就是最

8、好的。還曾用復相關系數R來衡量回歸擬合的好壞。然而這兩種方法都有明顯的不足,這是因為:,§5.2 所有子集回歸,,,準則1 自由度調整復相關系數達到最大,,§5.2 所有子集回歸,,,準則1 自由度調整復相關系數達到最大,,從另外一個角度考慮回歸的擬合效果,回歸誤差項方差σ2的無偏估計為:,,此無偏估計式中也加入了懲罰因子n-p-1,§5.2 所有子集回歸,,,準則1 自由度

9、調整復相關系數達到最大,,,§5.2 所有子集回歸,,,準則2 赤池信息量AIC達到最小,,AIC準則是日本統(tǒng)計學家赤池(Akaike)1974年根據極大似然估計原理提出的一種較為一般的模型選擇準則,人們稱它為Akaike信息量準則 (Akaike Information Criterion,簡記為AIC)。AIC準則既可用來作回歸方程自變量的選擇,又可用于時間序列分析中自回歸模型的定階上。由于該方法的廣泛應用,使得

10、赤池乃至日本統(tǒng)計學家在世界的聲譽大增。,§5.2 所有子集回歸,,,準則2 赤池信息量AIC達到最小,,設回歸模型的似然函數為L(θ,x), θ的維數為p,x為樣本,在回歸分析中樣本為y=(y1,y2,…yn)′,則AIC定義為:,§5.2 所有子集回歸,,,準則2 赤池信息量AIC達到最小,,假定回歸模型的隨機誤差項ε遵從正態(tài)分布,即,ε~N(0,σ2),對數似然函數為,,,§5.2

11、 所有子集回歸,,,準則2 赤池信息量AIC達到最小,,帶入公式,中,這里似然函數中的未知參數個數為p+2,略去與p無關的常數,得回歸模型的AIC公式為,AIC=nln(SSE)+2p,對每一個回歸子集計算AIC,其中AIC最小者所對應的模型是“最優(yōu)”回歸模型,§5.2 所有子集回歸,,,準則4 Cp統(tǒng)計量達到最小,1964年馬勒斯 (Mallows)從預測的角度提出一個可以用來選擇自變量的統(tǒng)計量————C

12、p統(tǒng)計量。根據性質5,即使全模型正確,但仍有可能選模型有更小的預測誤差。Cp正是根據這一原理提出來的。,§5.2 所有子集回歸,,,準則4 Cp統(tǒng)計量達到最小,考慮在n個樣本點上,用選模型(5.2)式作回報預測時,預測值與期望值的相對偏差平方和為:,,§5.2 所有子集回歸,,,準則4 Cp統(tǒng)計量達到最小,可以證明,Jp的期望值是,,略去無關的常數2,據此構造出Cp統(tǒng)計量為,,§5.2

13、 所有子集回歸,,,準則4 Cp統(tǒng)計量達到最小,§5.2 所有子集回歸,,,例5.1 y表示某種消費品的銷售額,x1表示居民可支配收入,x2表示該類消費品的價格指數,x3表示其他消費品平均價格指數。表5.1給出了某地區(qū)18年某種消費品銷售情況資料,試建立該地區(qū)該消費品銷售額預測方程。,§5.2 所有子集回歸,,,表5.1,§5.2 所有子集回歸,,,這個例子中,n=

14、18,m=3,所有的自變量子集有2m-1=7個,即有7個回歸子集。,,表5.2,§5.2 所有子集回歸,,,由表5.2的3項指標均可看到x1,x2,x3是“最優(yōu)”子集,x1,x3是“次優(yōu)”子集?;貧w方程分別為,§5.2 所有子集回歸,,,三、用SAS軟件尋找最優(yōu)子集,SAS軟件共有三個基本窗口,分別為:(1)程序編輯窗(PROGRAM EDITOR),用來編輯程序。(2)日志窗(LOG),顯示已

15、執(zhí)行的語句和系統(tǒng)信息,包括錯誤信息。(3)輸出窗(OUTPUT)顯示程序運行結果。 用主菜單的Window命令可以實現在三個窗口間的轉換。,§5.2 所有子集回歸,,,data data1;input x1-x12 y;cards;1.94 4.5 154.45 207.33 246.87 277.64 135.79 30.58 110.67 80.83 51.83 14.09 2

16、3840.33 6.49 133.16 127.29 120.17 114.88 81.21 14.05 35.7 16 27.1 2.93 202…;proc reg;model y=x1-x12/selection=adjrsq;run;,§5.2 所有子集回歸,,,以下是部分輸出結果:,Adjusted R-square Variables in

17、 Model R-square In 0.82985517 0.86388414 6 X3 X5 X8 X9 X10 X11 0.82692850 0.86731185 7 X3 X5 X6 X8 X9 X10 X11 0.82487399 0.85989919 6 X3 X6 X8 X9 X10 X11 0.823667

18、78 0.86481197 7 X3 X4 X5 X8 X9 X10 X11 0.82343275 0.86463178 7 X3 X5 X8 X9 X10 X11 X12 0.82311828 0.86439068 7 X3 X5 X7 X8 X9 X10 X11…,§5.3 逐步回歸,,,一、問題的提出及逐步回歸的思想,自變量的所有可能子集構成2m-1個回歸方

19、程,當可供選擇的自變量不太多時,用前邊的方法可以求出一切可能的回歸方程,然后用幾個選元準則去挑出“最好”的方程,但是當自變量的個數較多時,要求出所有可能的回歸方程是非常困難的。為此,人們提出了一些較為簡便、實用、快速的選擇“最優(yōu)”方程的方法。人們所給出的方法各有優(yōu)缺點,至今還沒有絕對最優(yōu)的方法,目前常用的方法有“前進法”、“后退法”、“逐步回歸法”,而逐步回歸法最受推崇。,§5.3 逐步回歸,,,一、問題的提出及逐步回歸的思

20、想,在后邊的討論中,無論我們從回歸方程中剔除某個自變量,還是給回歸方程增加某個自變量都要利用(3.42)式的偏F檢驗,這個偏F檢驗與(3.40)式的t檢驗是等價的,F檢驗的定義式的統(tǒng)計意義更為明了,并且容易推廣到對多個自變量的顯著性檢驗,因而采用F檢驗。,§5.3 逐步回歸,,,一、前進法,§5.3 逐步回歸,,,一、問題的提出及逐步回歸的思想,§5.3 逐步回歸,,,一、問題的提出及逐步回歸的思想,

21、依上述方法接著做下去。直至所有未被引入方程的自變量的F值均小于Fα(1,n-p-1)時為止。這時,得到的回歸方程就是最終確定的方程。 每步檢驗中的臨界值Fα(1,n-p-1)與自變量數目p有關,在用軟件計算時,我們實際使用的是顯著性P值(或記為sig)做檢驗。,§5.3 逐步回歸,,,一、問題的提出及逐步回歸的思想,例5.4 對例3.1國際旅游外匯收入y對第三產業(yè)的12個變量做回歸的數據,用前進法做變量選擇,

22、取顯著性水平α進=0.05。 首先進入線性回歸對話框,將y與x1至x12分別選入各自的變量框,然后在Method對話框中點選前進法Forward,點選Options選項看到默認的顯著性水平α進正是0.05。部分運行結果如下:,§5.3 逐步回歸,,,§5.3 逐步回歸,,,§5.3 逐步回歸,,,§5.3 逐步回歸,,,一、問題的提出及逐步回歸的思想,§5.3 逐步回歸

23、,,,二、后退法,§5.3 逐步回歸,,,二、后退法,§5.3 逐步回歸,,,二、后退法,續(xù)例5.4 對例3.1國際旅游外匯收入y對第三產業(yè)的12個變量做回歸的數據,用后退法做變量選擇,取顯著性水平α出=0.10。 首先進入線性回歸對話框,將y與x1至x12分別選入各自的變量框,然后在Method對話框中點選后退法Backward,點選Options選項看到默認的顯著性水平α出正是0.10。部分運

24、行結果見表5.4:,§5.3 逐步回歸,,,二、后退法,§5.3 逐步回歸,,,二、后退法,§5.3 逐步回歸,,,二、后退法,§5.3 逐步回歸,,,三、逐步回歸法,逐步回歸的基本思想是“有進有出”。具體做法是將變量一個一個引入,當每引入一個自變量后,對已選入的變量要進行逐個檢驗,當原引入的變量由于后面變量的引入而變得不再顯著時,要將其剔除。這個過程反復進行,直到既無顯著的自變量選入回歸

25、方程,也無不顯著自變量從回歸方程中剔除為止。這樣就避免了前進法和后退法各自的缺陷,保證了最后所得的回歸子集是“最優(yōu)”回歸子集。,§5.3 逐步回歸,,,三、逐步回歸法,在逐步回歸中需要注意的一個問題是引入自變量和剔除自變量的顯著性水平α值是不相同的,要求α進<α出否則可能產生“死循環(huán)”。也就是當α進≥α出時,如果某個自變量的顯著性P值在α進與α出之間,那末這個自變量將被引入、剔除、再引入、再剔除、…,循環(huán)往復,以至

26、無窮。,§5.3 逐步回歸,,,三、逐步回歸法,續(xù)例5.4 對例3.1國際旅游外匯收入y對第三產業(yè)的12個變量做回歸的數據,用逐步回歸法做變量選擇,取顯著性水平α進=0.05,α出=0.10。 首先進入線性回歸對話框,將y與x1至x12分別選入各自的變量框,然后在Method對話框中點選逐步回歸法Stepwise,點選Options選項看到默認的顯著性水平正是α進=0.05,α出=0.10。部分運行結果見表

27、5.5:,§5.3 逐步回歸,,,三、逐步回歸法,§5.3 逐步回歸,,,§5.4 本章小結與評注,,,一、逐步回歸實例分析,例5.5 為了研究香港股市的變化規(guī)律,此例以恒生指數為例,建立回歸方程,分析影響股票價格趨勢變動的因素。這里我們選了6個影響股票價格指數的經濟變量: x1(百萬$) —成交額, x2—九九金價($/兩), x3—港匯指數,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論