管理統(tǒng)計(jì)學(xué)-現(xiàn)代回歸分析方法_第1頁(yè)
已閱讀1頁(yè),還剩177頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、現(xiàn)代回歸分析方法,上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)系韓小亮,目的: 回歸分析研究的是一個(gè)變量(應(yīng)變量)和其他變量(自變量)之間的關(guān)系.其目的可能是:1. 確定哪些變量有關(guān)及其程度;2.預(yù)測(cè);3.找出最優(yōu)的組合;4.控制;5.尋求合適的數(shù)學(xué)模型;6.評(píng)估兩個(gè)或兩個(gè)以上因素的交互影響等等.,,1.回歸分析(Regression Analysis),數(shù) 據(jù) 資 料(data),應(yīng) 變 量(response )自 變 量(ind

2、ependent variables, predictor variables) 這 里n 是 記 錄 數(shù) 目,k 是 自 變 量 數(shù) 目( 包 括 常 數(shù) 項(xiàng)).,,,基本模型:,,,,,,,2.線性回歸(Linear Regression),模 型: Y = X? + ? 這 里X是Z 的函數(shù)(已知), ? 是 未 知 參 數(shù) 向 量 ,? 是 誤 差 項(xiàng),,也 就 是 說(shuō)

3、 有,,,,線 性 模 型 的 假 設(shè):,1. 正 態(tài) 分 布;2.互 相 獨(dú) 立;3. 同 方 差;4. 一 個(gè) 隨 機(jī) 誤 差 項(xiàng);5. 系 統(tǒng) 影 響 的 相 加 性 (additivity of systematic effects);6. 資料完整.,參 數(shù) 估 計(jì)(?):,最 小 二 乘 估 計(jì) →有(注意:這里沒(méi)有用到正態(tài)分

4、布的假定),,,,,極 大 似 然 估 計(jì) 這 里 在正態(tài)分布 的假定下 這 個(gè) 估 計(jì) 是 所 謂BLUE 的.,,,,,估計(jì)量的分布,,,殘 差 平 方 和 的 分 布,→方 差 的 估 計(jì): ( 矩 估 計(jì)),,,顯 著 性,1。 模 型 的 顯 著 性,

5、即 檢 驗(yàn) 假 設(shè) 使 用 統(tǒng) 計(jì) 量 當(dāng) 為 真 時(shí),,,,,,2。某個(gè)因素的顯著性,即檢驗(yàn)假設(shè) 定義對(duì)稱方陣設(shè) 為其對(duì)角元素,則有檢驗(yàn)統(tǒng)計(jì)量當(dāng) 成立時(shí),,,,,,,模型選擇(變量數(shù)目),當(dāng)兩個(gè)模型有嵌套的(nested)關(guān)系時(shí),可以用下述 F 檢驗(yàn)來(lái)決定取舍模型1:模型2:當(dāng) 為真時(shí)這里

6、 是回歸平方和, 是殘差平方和.,,,,,,方差分析表,擬合優(yōu)度,確定系數(shù): R2 statistic:  R2c (adjust R2):,,Under H0:?1 = ?2 = … = ?p-1 = 0  (test R2 exactly equivalent to F test),應(yīng)變量的變換(transformation

7、of response),目的: 1。正態(tài)分布(對(duì)稱); 2。同方差; 3。相加性。,異方差或者不獨(dú)立,加權(quán)最小二乘估計(jì) :假如 Y = X? + ?  ? ~ N( 0, ?2V) 而且V 已知,則存在滿秩對(duì)稱矩陣 P

8、60; PTP = PP =P2 =V 且有 P-1 ? ~ N( 0, ?2In )即  P-1Y| X ~N(P-1 X?, ?2In ),,對(duì) P-1Y = P-1 X?+ P-1 ? 取最小二乘估計(jì),得 ?^ = (XTV-1X)-1XTV-1Y 稱之為加

9、權(quán)最小二乘估計(jì)(weighted least square estimator) 有 ?^ ~ N(? , ?2 (XTV-1X)-1),3.共線性 (Multicollinearity, collinearity),這里主要討論“幾乎”共線性,順便也討論一下精確的共線性,,定義:自變量之間存在強(qiáng)烈的線性關(guān)系。精確地說(shuō), 存在 使或

10、 對(duì)至少一個(gè) k成立.,,跡象:XTX至少有一個(gè)很小的特征值(≈0) 注意: λj≥0 for j=1,2,…,p (這里λj 是XTX的特征值).,,影響: 典型的影響是使參數(shù)估計(jì)的方差增大從而使整個(gè)估計(jì)不精確. 總的說(shuō)來(lái): Var(?^ )= ?2 (XTX)-1具體地說(shuō): Var(?^j )= for j=0,1,…,p-1,,這里

11、R2j 是 即其它自變量對(duì)自變量j回歸的確定系數(shù).,,線性回歸的理想要求是:Y對(duì)X有很強(qiáng)的線性關(guān)系,而X之間有較弱的線性關(guān)系.,共線性的測(cè)度,(1)   VIF (variance inflation factor) VIFj=1/(1- R2j ) for j=0,1,2,…,p-1. 當(dāng) max(VIFj)≥10時(shí), 有共線性問(wèn)題 (這是經(jīng)驗(yàn)公式,無(wú)精確理論基礎(chǔ)),,注意: VI

12、F0≡1/(1- R20 )其對(duì)應(yīng)模型是 此模型右邊無(wú)常數(shù)項(xiàng).,,(2)   Condition Number  這里λ(j)是按大小排列的矩陣XTX的特征值. 當(dāng)κ>1000時(shí),可能有嚴(yán)重的共線性問(wèn)題.,,(3)   Condition Index  for j=2,3,…,p

13、 Condition Index 能發(fā)現(xiàn)多于一個(gè)的共線性關(guān)系.經(jīng)驗(yàn)公式: 列出所有的κj≥100.,解決方法,(1)   從模型中除去一些變量(例如對(duì)應(yīng)于比較大的VIFj的Xj).  這個(gè)問(wèn)題與變量選擇和模型確定的方法有關(guān); 如果 βj≠0, 則剔除βj會(huì)導(dǎo)致 ,即最小二乘估計(jì)成為有偏估計(jì).,,(2)   主成分回歸(Principal Compo

14、nent Regression) Y = X? + ?=X(UUT) ? + ?= (XU)(UT?) + ?≡Gα + ? 這里 U 是XTX 的特征向量矩陣(XTX=UΛUT);G=XU (G稱為主成分 principal component)α= UT?,,這時(shí)α 的LS估計(jì)是 α^=(GTG)-1GTY=Λ-1GTY → β^=U α^ 如果把G去掉(p-r)

15、列(比如說(shuō)對(duì)應(yīng)于較小的λi),記為G(r), G(r)=XU(r), 取α~=(GT(r) G(r) )-1GT(r) Yβ~=U(r) α~=U(GT(r) G(r) )-1GT(r) Y 稱之為主成分估計(jì)(principal component estimator).,,這時(shí)有SV(β~)=?2  SMSE(β~)=?2  即這個(gè)估計(jì)是有偏的(除非α2i=0 i=r+1,…

16、,p). (注意:主成分回歸只減少”成分”個(gè)數(shù),沒(méi)有減少變量個(gè)數(shù)).,,(3)   嶺回歸(Ridge regression) β*= (XTX+kI)-1XTY這里k>0通常是個(gè)小正數(shù).,,前面有SV(?^ ) = ?2 現(xiàn)在有SV(?* ) = ?2 SV(?^ )當(dāng)k→∞時(shí), SV(?* ) →0 事實(shí)上

17、Var(?* )= ?2 UΛ*UT 這里(Λ*)ii=λi(λi+k)-2,,然而 SMSE(β*) =?2 β*是β的有偏估計(jì). 當(dāng)k↑ 有Var(?* )↓ 同時(shí)bias(?* )↑.注意到上述SMSE(β*)的第二項(xiàng)是單調(diào)增函數(shù),且有當(dāng) k=0時(shí)為0,則存在k* 使SMSE(k* )< SMSE(0).,,但事實(shí)上koptimal 不可求(因?yàn)槭街械?/p>

18、β 未知).經(jīng)驗(yàn)方法是:1) k^=p*?^2/?^T?^這里?^2 = (Y - X?^)T(Y - X?^) /(n – p);  2) 找出使β*”穩(wěn)定”下來(lái)的k (1<VIFmax <10);  3) 畫脊嶺跡 (ridge trace), 即對(duì)j=0,1,…,p-1 畫出?*j(k),k.脊嶺跡也可用來(lái)作為除去變量的標(biāo)準(zhǔn):除去那些不穩(wěn)定(變號(hào),很快趨于零)的變量.,廣義逆回歸,

19、如果完全的共線性存在,即XTX的秩小于p,則最小二乘估計(jì)?^不唯一.可用廣義逆(如Moore-Penrose 廣義逆)找出?^的一般解.,4.重大影響點(diǎn),異類點(diǎn)和穩(wěn)健性回歸,(Influential points, Outliers and Robust regression),,定義: 殘差(residual) 這里 hat matrix:  H=X(XTX)-1XT 

20、;有  var(e)= (I-H)σ2 和 var(ei)=(1-hii) σ2   且有(含有β0項(xiàng)時(shí)) 和,,定義:標(biāo)準(zhǔn)殘差(Standardized residual)zi=ei/s有,,定義:學(xué)生殘差(Studentized residual) 在回歸模型假定下ri漸進(jìn)服從自由度為(n-p)的學(xué)生分布.,,定義:大折刀殘差(Jackknife residual

21、)這里s2(-i)是指去掉第i 項(xiàng)的方差估計(jì). 在回歸模型假定下r(-i)精確地服從自由度為(n-p-1)的學(xué)生分布. 當(dāng) (n-p)>>30時(shí) ri, r(-i) 都漸進(jìn)服從N(0,1).,常用殘差圖,(1)   分布圖或直方圖(histogram);(2)   盒子圖(box-plot or schematic plot);(3) 

22、  正態(tài)圖或半正態(tài)圖;(4)   二維圖(如Y^,r(-i)).,重大杠桿點(diǎn)(high leverage point),一個(gè)事實(shí): for i=1,2,…,n.(single-row effects),帽子矩陣 H的一些性質(zhì),(1)   對(duì)稱(symmetric);(2)   冪等(idempoten

23、t): H2=H;(3)   1/n≤hii ≤1;(4)   特征值: the eigenvalues are all either 0 or 1, (# of 1s=Rank(H));(5)   Rank(H)=Rank (X)=p, (tr(H)=Σhii=p).,,On average: hii=p/n;經(jīng)驗(yàn)公式:A rule of thumb: hii&g

24、t;2p/n → high leverage point i.,,Leverage的度量:Cook’s distance當(dāng)Di<<1時(shí),沒(méi)有 high leverage 的問(wèn)題.(注意: high leverage point 不一定會(huì)很大地改變參數(shù)估計(jì)值.)[圖],異類點(diǎn)及其處理,異類點(diǎn)(Outliers)通常指的是這樣一種情況:資料不純(contamination),即資料中的一個(gè)記錄(點(diǎn))或某項(xiàng)記錄(點(diǎn))顯

25、然與其他大部分記錄(點(diǎn))”不一樣”.,異類點(diǎn)的統(tǒng)計(jì)模型,原假設(shè):備用假設(shè)1:確定性備用假設(shè) (deterministic alternative)有記錄或測(cè)量誤差;備用假設(shè)2:內(nèi)在性備用假設(shè) (inherent alternative),,備用假設(shè)3:混合型備用假設(shè)

26、 (mixture alternative)備用假設(shè)4:滑動(dòng)型備用假設(shè) (slippage alternative)除了事先確定的k個(gè)點(diǎn)之外(確定指的是數(shù)目k而不是點(diǎn))所有其他點(diǎn)都屬于F. F由位置參數(shù)(location) μ 和等級(jí)參數(shù)(scale) σ2 確定.而k個(gè)點(diǎn)則來(lái)自μ和σ2 有變動(dòng)的版本F;,,備用假設(shè)5:可變換型備用假設(shè)

27、 (exchangeable alternative)只有一個(gè)異類點(diǎn)j等可能地來(lái)自[1,2,…,n].,異類點(diǎn)的處理方法,(1) 找出并剔除(discardancy test): 例如基于殘差的檢驗(yàn).注意:當(dāng)用max{r(-i)}n的P值進(jìn)行檢驗(yàn)時(shí),需要考慮所謂的Bonferroni correction.(2) 去除或減少其影響(accommodation):穩(wěn)健性(robus

28、t)統(tǒng)計(jì).注意:異類點(diǎn)常常是重大杠桿點(diǎn),但重大杠桿點(diǎn)不一定是異類點(diǎn).,Bonferroni Inequality,n tests each of size α, the probability of falsely labelling at least one point, an outlier is no grater than nα.如果選α’=α/n, 則可得保守的 α 值,穩(wěn)健性回歸(Robust regression),

29、穩(wěn)健性統(tǒng)計(jì)的一些方法 (以位置[location]估計(jì)為例):(1) 修剪法(trimming)略去r個(gè)最小的和s個(gè)最大的樣本值:或者取αn=r+f(0< f <1),,(2) 溫莎法(Winsorizing)或者類似于 定義,,(3) L估計(jì)量,M估計(jì)量和R估計(jì)量L-estimators (Linear Order Statistics estimators)注意:修剪法和溫莎

30、法都是L估計(jì)量.,,M-estimators找出方程 關(guān)于 的解.注意:當(dāng)密度函數(shù)為f(x-μ) 時(shí),取 , 就是似然方程的解.R-estimators 由一定的秩檢驗(yàn)(rank test,如 Wilcoxon test)的程度所取得.,為什么要穩(wěn)健性回歸,替代方法是分兩步走: (1)去除異類點(diǎn);(2)用經(jīng)典

31、方法進(jìn)行回歸.但是去除異類點(diǎn)首先需要可靠的參數(shù)估計(jì);原先的分布假設(shè)可能不對(duì);經(jīng)驗(yàn)表明穩(wěn)健性方法往往比剔除異類點(diǎn)的方法更可取.因?yàn)樗粵Q斷地接受或拒絕一個(gè)觀察點(diǎn).,穩(wěn)健性回歸的要求,(1) 在假定模型下是好的估計(jì);(2) 假如資料對(duì)模型假定有一點(diǎn)偏離,其參數(shù)估計(jì)還是”穩(wěn)健的”;(3) 如果資料對(duì)模型假定有較大的偏離,參數(shù)估計(jì)也不是”災(zāi)難性”的.,穩(wěn)健性回歸的幾個(gè)例子,(1) 考慮M估計(jì)量當(dāng) 時(shí), 它就是

32、LS估計(jì).取 這里0<f<2. 較小的 f 等價(jià)于給較大的殘差以較小的權(quán).,,特別地,當(dāng)f=1時(shí),稱之為L(zhǎng)east Absolute Deviation Estimation,又叫L1-regression.或者取這里c>0是一個(gè)常數(shù).,,(2) 考慮下列步驟:(i) 對(duì) Yi 回歸,得Y^i, s和 ri(或 r(-i));(ii) Winsorize Yi:這里c是穩(wěn)健控制值

33、,一般取1到2之間.(iii) 對(duì) Y*i回歸,得新的Y^i, s和 ri(或 r(-i));重復(fù)(i)和(ii)直到收斂.,,注意:當(dāng)用: e*i =Y*i -Y^i 代替: ei =Yi -Y^i 時(shí),將會(huì)低估σ2修正方法:這里m是未修改的Y的數(shù)目.,,(3) LTS regression這里h<n, 稱之為L(zhǎng)east Trimmed Squares Regression,,(4) LMS regre

34、ssion稱之為L(zhǎng)east Median of Squares Regression注意:穩(wěn)健性回歸的思想具有一般的意義.,5. 廣義線性模型(Generalized Linear Models),線性模型的推廣一大類回歸模型有完整的理論結(jié)構(gòu),邏輯回歸(Logistic Regression),如果應(yīng)變量Yi只能取兩個(gè)值0和1,則Yi服從二點(diǎn)分布(Bernoulli distribution).設(shè)

35、 則,,邏輯函數(shù):,邏輯回歸模型,設(shè)這里g定義為連系函數(shù)(link function),連系函數(shù)將線性組合Xiβ與數(shù)學(xué)期望pi連在一起.則即 p是關(guān)于η的邏輯函數(shù),且有 0<pi <1.,參數(shù)β的極大似然估計(jì),由得似然函數(shù)于是 for r=1,2,…k.,費(fèi)雪信息矩陣(Fisher information matri

36、x),這里,,當(dāng) 是邏輯連系函數(shù)時(shí)注意:需用疊代算法求出β^,即解方程組.,參數(shù)估計(jì)β^的性質(zhì),事實(shí)上β^是漸進(jìn)正態(tài)分布的.,擬合優(yōu)度,差異函數(shù)(deviance function):(注意:0?log(0)=0)如果模型假定正確, D漸進(jìn)服從 ;如有兩個(gè)嵌套模型H0 和 HA ,則D0 –DA 漸進(jìn)服從 .,,注意:嵌套模型的檢驗(yàn)比顯著性檢驗(yàn)D更強(qiáng),即D

37、服從 的要求比較高, D0 –DA 服從 的要求比較低,甚至當(dāng)D0和DA 都不服從 和 時(shí)亦成立.,二項(xiàng)分布(Binomial distribution)的情形,等價(jià)于mj個(gè)貝努里實(shí)驗(yàn),且有:,,設(shè)連系函數(shù)為似然函數(shù) [去掉常數(shù)項(xiàng)] 為,,有這里,,當(dāng)     是邏輯連系函數(shù)時(shí)差異函數(shù),正態(tài)連系函數(shù)(probit link func

38、tion),如果連系函數(shù)取所謂的probit link的話,即則有:和將此式代入,既可得對(duì)應(yīng)的  和W.,普阿松回歸(Poisson Regression),應(yīng)變量Yi只能取非負(fù)的離散值(事實(shí)上只需要一邊有界),其離散程度大致與其水平成正比例.設(shè)即則,,設(shè)(對(duì)數(shù)連系函數(shù)) 則對(duì)任何X和β有,參數(shù)β的極大似然估計(jì),去掉常數(shù)項(xiàng)后這里,,當(dāng) 時(shí)(對(duì)數(shù)

39、連系函數(shù))注意:需用疊代算法求出β^,即解方程組,參數(shù)估計(jì)β^的性質(zhì),β^漸進(jìn)服從N[β, (XT WX)-1 )],擬合優(yōu)度,差異函數(shù):如果模型假定正確, D漸進(jìn)服從 ;如有兩個(gè)嵌套模型H0 和 HA ,則D0 –DA 漸進(jìn)服從 .,過(guò)度離散(over-dispersion),實(shí)際案例中常有如對(duì)應(yīng)于負(fù)二項(xiàng)分布的情形.解決方法:設(shè) 估計(jì),廣

40、義線性模型,四個(gè)組成部分 1。數(shù)學(xué)期望(均值) E(Yi ) = ?i 2。線性預(yù)測(cè)量 (linear predictor) ?i = Xi? 3。連系函數(shù) (link function) g(?i) = ?i

41、 4。方差函數(shù) (variance function) Var(Yi) = ? V(?i),線性指數(shù)分布族(linear exponential family),形式如: L(?,?;y)= exp{[y?-c(?)]/?+h(y,?)}(這里假定 ? 是已知的。如果 ? 是未知的,它可能是二參數(shù)的指數(shù)分布族,也可能不是。),,對(duì)線性指數(shù)分布族有: E(y) = c?(?)

42、 ? ? Var(y) = ?c?(?) ? ?V(?)這里 ? 稱之為離散參數(shù)(dispersion parameter),常用分布的離散參數(shù)和方差函數(shù),,,,,當(dāng)連系函數(shù)g取 c?的反函數(shù)(記之為 c?-1 )形式時(shí),我們稱g為標(biāo)準(zhǔn)連系函數(shù)(canonical link),常用分布的標(biāo)準(zhǔn)連系函數(shù),,其他常用連系函數(shù):正態(tài)(probit): g(?)=?-1(?);冪族(power family): g(

43、?)=?? (??0) g(?)=log(?)(?=0)余雙對(duì)數(shù)(complementary log-log) g(?)=log[-log(1-?)],參 數(shù) 估 計(jì)(?),線性指數(shù)分布族的似然估計(jì)方程組是 ?(Yi -?i )/?i V(?i )???i /??r = 0 r=1,

44、2,…,k對(duì)廣義線性模型,它成為 ? (Yi -?i )/?i V(?i ) ?xir /g?(?i ) = 0 r=1,2,…,k,,當(dāng)離散參數(shù) ?i = ?ai i = 1,2,…,n 時(shí),該方程組成為 ? (Yi -?i )/ai V(?i ) ?xir /g?(?i ) = 0 (*) r=1,2,…,k而當(dāng)連系函數(shù)g是標(biāo)準(zhǔn)連系函數(shù)時(shí),有 ?Y

45、i xir /ai = ??i xir /ai r=1,2,…,k,,一般來(lái)說(shuō)方程組(*)沒(méi)有直接的解法。當(dāng)V(?)=1, g(?)=? 時(shí)(線性模型),解是 ?^ = (XT W-1 X)-1 XT W-1 Y這里 W=diag(1/ai ),迭代加權(quán)最小二乘法,(iterative weighted least squares,簡(jiǎn)寫為 IWLS) 考慮變量 zi

46、 = ?i +(Yi - ?i )g?(?i )有 E(zi ) = ?i = ?xi ?r Var(zi ) = [g?(?i )]2 ai V(?i ),,迭代算法:(1)從某一個(gè)?i(0) 開始(通常取?i(0) = Yi ) 得 ?i(0) = g(?i(0) );(2)給定?i(t) 和?i(t) ,算出zi(t) = ?i(t) +(Yi

47、 - ?i(t) )g?(?i(t) )wi(t) = 1/[g?(?i(t) )]2 ai V(?i(t) ) i=1,2, …,n;,,(3)給出估計(jì)?(t+1) = (XT W(t) X)-1 XT W(t) z(t)(這里 W(t) = diag(wi(t)))定義?(t+1) = X?(t+1) ?(t+1) = g-1 (?(t+1) )重復(fù)步驟(2)和(3)直到收斂。,迭代加權(quán)最小二乘估計(jì)的性

48、質(zhì),?^ ~* N(?, i-1 (?))這里 i-1 (?) = ?-1 XT WX W = diag(wi ) wi = 1/[g?(?i )]2 ai V(?i ) i=1, 2, …,n,估計(jì)量方差的估計(jì),Cov^(?^) = ?(XT W^X)-1? 的估計(jì): ?~ = 1/(n-p) ?(Yi - ?i^ )/[ai V(?i^ )],擬合優(yōu)

49、度,定義差異函數(shù)(deviance)為D(y; ?^) = 2?[l (y; y,?) – l(y; ?^,?)]如果模型假定正確, D漸進(jìn)服從 ;如有兩個(gè)嵌套模型H0 和 HA ,則D0 –DA 漸進(jìn)服從 .,常用分布的差異函數(shù),正態(tài)分布 ?(y-?^)2 普阿松分布 2?[y(log(y/?^)-(y-?^)]二項(xiàng)分布 2?{y(log(y/?^)+(

50、m-y) log[(m-y)/(m-?^)]}伽瑪分布 2?[-log(y/?^)+(y-?^)/?^],,在原假定下,D漸進(jìn)服從 ;如有兩個(gè)嵌套模型H0 和 HA ,則D0 –DA 漸進(jìn)服從 .,非參數(shù)回歸(non-parametric regression),離散圖平滑法(scatterplot smoother):假定X只含有一個(gè)

51、變量x.在x上定義一個(gè)函數(shù):s(x)=S(Y|x)一般s(x) 定義在x的所有定義域上,但也可能只定義在觀察值 上.這時(shí)對(duì)一般的s(x0 )就需要用某種插值法計(jì)算.,類型:,(1)格子平滑法(bin smoother, regressogram):選點(diǎn):定義:取:,,(2)移動(dòng)平均法(running-mean smoother, moving averag

52、e smoother):定義:取:,,(3)跑動(dòng)直線平滑法(running-line smoother):取:這里 是對(duì) 回歸的LS估計(jì)量.,,倘若這個(gè)回歸是加權(quán)的,則是所謂的loess(locally-weighted running-line smoother).具體地說(shuō)可采取下列步驟:(i)找出與最接近的k個(gè)樣本點(diǎn),記為

53、 ;(ii)定義:(iii)取權(quán)數(shù)這里(iv),,(4)核平滑法(kernel smoother):取:對(duì)點(diǎn)的權(quán)數(shù)為,,這里λ是窗寬參數(shù)(window-width parameter); c0是個(gè)常數(shù),通常使權(quán)數(shù)的和為一; d(t)是關(guān)于|t|的減函數(shù),如:(Gaussian kernel)(Epanechnikov kernel)(minimum variance kernel)等

54、等.注意: 窗寬參數(shù)λ的選擇比核函數(shù)的選擇重要的多.,,(Gaussian kernel)(Epanechnikov kernel)(minimum variance kernel),,(5)回歸樣條(regression spline):找出k個(gè)節(jié)點(diǎn)(knots):取:(+表示正的部分),,S(x)有三個(gè)特性 (i)在任何區(qū)間 內(nèi)是三次函數(shù);(ii)有一階和二階連續(xù)導(dǎo)數(shù);

55、(iii)三階導(dǎo)數(shù)是個(gè)階梯函數(shù).當(dāng)加上節(jié)點(diǎn)以外函數(shù)為線性的附加限制時(shí),(三次)樣條稱之為自然樣條(natural spline).給定節(jié)點(diǎn)的數(shù)目和位置,未知參數(shù)可用回歸法求得.但如何確定節(jié)點(diǎn)的數(shù)目和位置是個(gè)較復(fù)雜的問(wèn)題.,,(6)三次平滑樣條(cubic smoothing spline):找出一個(gè)有一階和二階連續(xù)導(dǎo)數(shù)的任意函數(shù)f, 使這里λ是個(gè)固定常數(shù),

56、 .可以證明這個(gè)函數(shù)是節(jié)點(diǎn)取在所有上的natural cubic spline.,平滑參數(shù)λ,設(shè)離散圖平滑的模型是:定義:(average mean-squared error)(average predictive squared error)(這里Yi*是在點(diǎn)xi上的一個(gè)新觀察值).有:,,定義:(cross-validation sum of squares)有:(注意:(av

57、erage squared residual)不是PSE的好的估計(jì)量).可以用下列標(biāo)準(zhǔn)確定λ:,,定義:線性平滑法:對(duì)任意常數(shù)a和b,有上述平滑法都是線性平滑法.,,對(duì)于觀察點(diǎn) 來(lái)說(shuō),一個(gè)線性平滑法可表示為這里S是一個(gè) 矩陣,稱為平滑矩陣(smoother matrix).對(duì)于一個(gè)線性平滑法 來(lái)說(shuō), 定義偏,,有:,,

58、定義:Mallows’ Cp這里 λ*是個(gè)很小的數(shù)(盡量減小偏).因?yàn)樗訡p是PSE的一個(gè)估計(jì).可以用下列標(biāo)準(zhǔn)確定λ:,,注意:(1)Cp只適用于線性平滑法,CV則適用于一般的平滑法.(2)在實(shí)際應(yīng)用時(shí)上述兩法時(shí)常特性不佳.這時(shí)用直觀的圖像法選擇λ可能更可靠一些.(3)用自由度來(lái)確定λ也是常用的方法.,平滑法的自由度,有三個(gè)表示:(1) 自由度:對(duì)于一個(gè)線性平滑法,,(2)誤差自由度:對(duì)非線性平滑

59、法的一般定義是:,,(3) 方差自由度:對(duì)非線性平滑法的一般定義是:,,注意:I 如果S是個(gè)對(duì)稱投影矩陣(symmetric projection matrix)(例如線性回歸,多項(xiàng)式回歸,回歸樣條),則有II 對(duì)于三次平滑樣條有并且三者都是關(guān)于λ的減函數(shù).,置信區(qū)間,對(duì)于線性平滑 有這里偏向量 是依賴于未知函數(shù) f的.在一定假

60、定下偏的一個(gè)估計(jì)是于是可取 的對(duì)角線元素構(gòu)造置信區(qū)間.,,這里取自由度,近似的F檢驗(yàn),對(duì)于兩個(gè)線性平滑法(假定f1^比f(wàn)2^更平滑),有,,一個(gè)更好的檢驗(yàn)是取有,相加模型(additive model),一般的相加模型可表示為這里,,懲罰性的最小二乘條件(penalized least-squares):可以用使penalized least-squares最優(yōu)化的方法來(lái)求得合

61、適的相加模型.,,注意:(1) 所謂半?yún)?shù)模型(semi-parametric model)是相加模型的一個(gè)重要特例,如:(2) 相加模型可以包括某一個(gè)或某幾個(gè)自變量是離散變量的情況.(3) 相加模型可以包括某一個(gè)或某幾個(gè)函數(shù)是多元函數(shù)的情況,如:當(dāng)然這時(shí)需用scatterplot smoother的多維推廣.,廣義相加模型(generalized additive models),類似于從線性模型推廣到廣義線性模型的思路

62、,相加模型可以推廣成廣義相加模型.即定義四個(gè)組成部分 1。數(shù)學(xué)期望(均值) 2。相加預(yù)測(cè)量 (additive predictor) 3。連系函數(shù) (link function) 4。方差函數(shù) (variance function),Algorithm,其求解的思路也類似廣義線性模型(1) Initialize:(2) Update:with,,Construct weights

63、Fit a weighted additive model to zi , to obtain estimated Compute the convergence criterion,,(3) Repeat step (2) replacing by until is below some small threshold.,,注意: 所謂半?yún)?shù)廣義線性模型

64、(semi-parametric generalized linear model)是廣義相加模型的一個(gè)重要特例,如:,7. 模型選擇,模型選擇的目的常常是尋找一個(gè)最簡(jiǎn)單的合理的模型來(lái)恰當(dāng)?shù)孛枋鏊^察到的資料.可以粗略地分為兩大類問(wèn)題:(1) 同一類模型中參數(shù)和變量個(gè)數(shù)的選擇;(2) 不同類模型之間的比較.,,一個(gè)事實(shí):如果真正的模型是而我們所用的回歸模型是最小二乘估計(jì)是則即一般這個(gè)估計(jì)是有偏的.,,且有

65、注意:項(xiàng)數(shù)太少會(huì)造成參數(shù)估計(jì)有偏;項(xiàng)數(shù)太多不會(huì)造成參數(shù)估計(jì)有偏,但因?yàn)闇p少了自由度從而造成效率(精確度)的喪失.,選擇回歸變量的基本步驟,(1) 確定最大的模型:保證”正確”的模型在它之內(nèi);(2) 確定選擇模型的條件;(3) 確定選擇變量的策略;(4) 用最后的模型分析資料;(5) 評(píng)估模型的可靠性.,確定最大的模型,可以包括:(1) 所有基本的回歸變量;(2)基本回歸變量的高階冪( 等等);

66、(3) 基本回歸變量的其它轉(zhuǎn)換如對(duì)數(shù),倒數(shù)等等;(4)基本回歸變量之間二階或更高階的交互影響(interaction);(5) (在某些問(wèn)題中) 所有的控制變量和它們的(2),(3),(4).,,注意: 不要選太大的最大模型(會(huì)損失可靠性),宜中心突出,針對(duì)問(wèn)題.還應(yīng)注意共線性問(wèn)題.經(jīng)驗(yàn)公式:(樣本大小和變量個(gè)數(shù)的比例),確定選擇模型的條件,(1) 確定系數(shù)此法只適用于參數(shù)個(gè)數(shù)相同的情形.因?yàn)閷?duì)嵌套模型而言,

67、 是關(guān)于p的增函數(shù),而 無(wú)理論基礎(chǔ).,,(2) 對(duì)于嵌套的線性回歸模型,可用統(tǒng)計(jì)量當(dāng)F檢驗(yàn)不顯著時(shí),可以用較簡(jiǎn)單的p個(gè)變量模型.,,(3) 定義選擇較小的,,(4) Mallow’s Cp這里k是最大的模型.選擇較小的或最小的Cp注意:當(dāng) 時(shí),,,ACI (Akaike information criterion)選擇較小

68、的或最小的ACI注意: Mallow’s Cp是ACI的一個(gè)特例.,確定選擇變量的策略,(1) 列出所有的回歸模型;共有 個(gè),通常不實(shí)際.,,(2)向后剔除法(Backward elimination):步驟:(i)給出最大的回歸模型; (ii)一次去掉一個(gè)變量,其對(duì)應(yīng)的t值(或等價(jià)地,其Partial F值)在所有變量只中是最小的,且低于給定的顯著性水平.直到?jīng)]有這樣的變量.注意:兩次

69、去掉一個(gè)變量不等價(jià)于一次去掉兩個(gè)變量(即使是相同的兩個(gè)變量!).,,(3) 向前選進(jìn)法(Forward selection):步驟:(i)選進(jìn)相關(guān)系數(shù)最大的第一個(gè)變量; (ii)一次一個(gè),選進(jìn)一個(gè)變量,其Partial F最大(在已定模型,既現(xiàn)有變量下),且其p值大于給定的顯著性水平. 直到?jīng)]有這樣的變量.注意:A兩次進(jìn)一個(gè)變量不等價(jià)于一次進(jìn)兩個(gè)變量. B(ii)等價(jià)于計(jì)算部分相關(guān)系數(shù),即Res

70、idual of current model 對(duì)Xj.,,(4) 逐步回歸(Stepwise regression):步驟:(i)同向前選進(jìn)法(i); (ii)選進(jìn)一個(gè)變量,同向前選進(jìn)法(ii); (iii)去掉一個(gè)變量(如有必要),同向后剔除法(ii);直到?jīng)]有變量進(jìn),也沒(méi)有變量出.,,(5) 脊嶺回歸: 如前所述.(6) PRESS 法:定義:這里 是除去第i項(xiàng)后由模

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論