版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第九章 直線回歸與相關(guān),Linear Regression and correlation,第一節(jié) 直線回歸,一、概述1、函數(shù)關(guān)系與回歸關(guān)系函數(shù)關(guān)系:自變量取某一數(shù)值時,應(yīng)變量有一個完全確定的數(shù)值與之對應(yīng)。(多見于物理、化學等學科,生物醫(yī)學界不少變量間有一定的關(guān)系,但不是十分明確)回歸關(guān)系:應(yīng)變量隨自變量的變化而變化,且呈直線趨勢,但并非所有的點子都在一直線上。,,直線回歸分析的任務(wù):找出一條最能代表這些數(shù)據(jù)關(guān)系的一條直線。方法
2、:一般采用最小二乘法least square method找出一條各實測點與它的縱向距離的平方和為最小的直線回歸方程。又稱作最小二乘回歸變量y隨變量x而變化,稱x為自變量independent variable,y為應(yīng)變量dependent variable.,,2、直線回歸方程直線方程:y=a+bx直線回歸方程:a:為回歸直線在Y軸上的截距intercept,a>0表示直線與縱軸的交點在原點的上方,ao直線從左下走向
3、右上, b<0從左上走向右下, b=0直線與橫軸平行。意義:x每增(減)一單位,Y平均改變b個單位,,3、最小二乘法樣本含量為n的的樣本資料標在(x,y)平面上,可得n個點,故可確定很多直線,直線回歸的主要目標之一是用實測的x估計y,所以希望估計的y與實測的y間的誤差愈小愈好。即從所有直線中找到一條直線使估計誤差平方和達最小。即 最小,二、求直線回歸方程的基本方法,,,P
4、110例9-1:1)由原始數(shù)據(jù)繪散點圖,各點分布呈直線趨勢,故作下列計算2)求?x, ?y, ?x2, ?y2, ?xy3)計算x,y的均數(shù),lxx、lyy和lxy4)求回歸系數(shù)b和截距a5)列出回歸方程,,6)直線回歸方程圖示:在自變量x的實測全距范圍內(nèi)任取相距較遠且易讀的兩x值,代入回歸方程求y的估計值,在圖繪出兩點連成直線。注意:所繪直線必然通過 ,若縱坐標、橫坐標無折斷號時,將此直線左端延長與
5、縱軸相交,交點的縱坐標必然等于截距a,這兩點可用來核對回歸線繪制是否正確。,第二節(jié) 直線回歸分析中誤差及可信區(qū)間,一、標準估計誤差估計誤差error of estimate:在直線回歸中,各實際值y與由回歸方程計算出的估計值之間有一定的誤差,稱~。這種離差可以用類似標準差的式子進行計算,稱為標準估計誤差standard error of estimate。由于 決定于均數(shù)和回歸系數(shù),所以自由度為n-2,,lyy的分析:p點的
6、縱坐標被回歸線、均數(shù)y 截成三段SS總=SS回+SS剩,,,,,,Y,X,,,,P,,,,,y - y,,^y - y,^ -y - y,y,,,各實測點離回歸直線越近,剩余平方和愈小,說明直線回歸的估計誤差愈小?總=?回+?剩?總=n-1,?回=1,?剩=n-2,,二、實測值圍繞回歸線的離散度回歸分析時假設(shè):X取某一值時,Y圍繞回歸線?+?x呈正態(tài)分布,Sy.x是其標準差?的估計值。故可估計出約有95%觀測值y在總
7、體回歸線y= ?+?x上下1.96個標準估計誤差范圍內(nèi),見P112圖9-3,,三、回歸系數(shù)的標準誤表示:樣本回歸系數(shù)b對總體回歸系數(shù)?進行估計時誤差的大小求?的95%可信區(qū)間b?t0.05(?)Sb ,自由度=n-2,,四、 的標準誤y的標準誤本應(yīng)由Sy/?n求得,但因在直線回歸當中x的影響被扣除后,y方面的變異減小,故y的標準誤,即x=x時y^的標準誤為五、 的可信區(qū)間
8、 是總體均數(shù)? 的估計值,,,,,95%可信區(qū)間:六、 的標準誤當xi?x時, 的變異不僅決定于y的誤差,也與回歸系數(shù)b的誤差有關(guān),,,七、 (個體y值)的可信區(qū)間理論上,每個xi對應(yīng)的y估計值都有一個區(qū)間估計,把這些可信區(qū)間的上限和下限連起來,為兩條曲線。把這兩條曲線間的空間稱為回歸直線的可信區(qū)間。,,八、截距?的誤差及總體參數(shù)?的
9、可信區(qū)間由于截距?是x=0時y的估計值,九、單一個體yi值的范圍預測,第三節(jié) 回歸系數(shù)和截距的統(tǒng)計意義檢驗,一、回歸系數(shù)的t檢驗,,二、回歸系數(shù)的方差分析所得結(jié)論與t檢驗相同,,三、兩個回歸系數(shù)差別的統(tǒng)計意義檢驗P119,例9-3,,四、截距的統(tǒng)計意義檢驗檢驗a是否是從總體截距為0的總體中抽樣得到t=a/Sa 自由度為n-2五、兩條回歸線高度差別的統(tǒng)計意義檢驗當兩條回
10、歸線的回歸系數(shù)的差別無統(tǒng)計意義時,可以用一公共的斜率來擬合此兩條回歸線。(見P121,一般了解),第四節(jié) 直線回歸方程的應(yīng)用,一、描述兩變量的依存關(guān)系二、利用回歸方程進行預測三、利用回歸方程進行統(tǒng)計控制統(tǒng)計控制:是利用回歸方程進行逆估計,如要求應(yīng)變量在一定范圍波動,可以通過自變量的取值來實現(xiàn)。四、應(yīng)用直線回歸方程應(yīng)注意的問題1、作回歸分析要有實際意義,不能把毫無,,關(guān)聯(lián)的兩種現(xiàn)象勉強作回歸分析,即便有回歸關(guān)系,也不一定有因果
11、關(guān)系,還必須對兩種現(xiàn)象間的內(nèi)在聯(lián)系有所認識,即能從專業(yè)理論上作出合理解釋或有所依據(jù)2、在進行直線回歸分析時,應(yīng)繪散點圖,當觀察點的分布有直線趨勢,才適宜作直線回歸分析。散點圖還能提示資料有無異常點,異常點對方程估計影響較大3、直線回歸方程的適用范圍一般以自變量的取值范圍為限,在此范圍求出y的估計值,稱為內(nèi)插,超出自變量取值范圍稱外延。,,若無充分理由證明超過自變量取值范圍還是直線,應(yīng)該避免外延,第五節(jié) 相關(guān),一、相關(guān)系數(shù)的意義說
12、明兩變量(x,y)間關(guān)系密切程度的統(tǒng)計指標叫相關(guān)系數(shù)coefficient of correlation,用r表示,,r是說明具有直線關(guān)系的兩個變量間,相關(guān)關(guān)系的密切程度與相關(guān)方向的指標。r沒有單位,其值為-1?r?1,值為正時表示正相關(guān),為負時表示負相關(guān);絕對值為1時表示完全相關(guān)。(生物界少見)r是總體相關(guān)系數(shù)?(rho)的估計值,,二、相關(guān)系數(shù)的計算方法用上述公式直接計算(小樣本未分組資料)三、相關(guān)系數(shù)的統(tǒng)計意義檢驗-t檢驗
13、樣本相關(guān)系數(shù)r是總體相關(guān)系數(shù)?的估計值。即使從?=0的總體中隨機抽樣,由于抽樣誤差的影響,所得的r值也常不等于0。只有在相關(guān)系數(shù)有統(tǒng)計意義時,才能根據(jù)絕對值的大小來說明x,y相互關(guān)系的密切程度。,,Sr為相關(guān)系數(shù)的標準誤相關(guān)系數(shù)的統(tǒng)計意義也可直接查相關(guān)系數(shù)統(tǒng)計意義界限表(附表9-1,P566),若不能直接查得,可用內(nèi)插法估計,,四、兩個相關(guān)系數(shù)差別的統(tǒng)計意義檢驗只有當從?=0的總體中隨機抽樣,各樣本相關(guān)系數(shù)r的分布才接近正態(tài)分布
14、。若從??0的總體中隨機抽樣,樣本相關(guān)系數(shù)并不呈正態(tài)分布。數(shù)理統(tǒng)計證明:把r按下式轉(zhuǎn)換成Z值時,則不論?為何值,Z值的分布均近似正態(tài)分布P125,例9-4,,,五、總體相關(guān)系數(shù)的區(qū)間估計將r進行Z轉(zhuǎn)換,對Z用正態(tài)法估計95%可信區(qū)間,最后將Z作反變換,得相關(guān)系數(shù)95%可信區(qū)間,,六、相關(guān)和回歸的關(guān)系(一)區(qū)別:1、資料要求不同:回歸要求應(yīng)變量Y服從正態(tài)分布,X是可以精確測量和嚴格控制的變量,一般稱為I型回歸。相關(guān)要求兩個
15、變量服從雙變量正態(tài)分布,這種資料若進行回歸分析,稱II型回歸??傻玫接蒟推Y和由Y推X兩個回歸方程2、應(yīng)用情況不同說明兩變量間依存變化的數(shù)量關(guān)系用回歸,說明變量間的相關(guān)關(guān)系用相關(guān),,(二)、聯(lián)系1、方向一致:對一組數(shù)據(jù)若同時計算r和b,它們的正負號是一致的。r為正號說明兩變量間的相互關(guān)系是同向變化的,b為正,說明x增(減)一個單位,y平均增(減)b個單位。2、假設(shè)檢驗等價對同一樣本, r和b的假設(shè)檢驗得到的t值相等。由于r檢
16、驗可以直接查表,而b的假設(shè)檢驗計算較繁,故實際中常用前法代替后法3、用回歸解釋相關(guān),,(1)r的平方稱為決定系數(shù)coefficient of determination說明SS總固定不變時,回歸平方和的大小決定了r的大小。回歸平方和越接近總平方和,則r越接近1。r2表示回歸平方和在總平方和中所占的比例,即總變異中可以用回歸解釋的部分,說明兩變量間的相關(guān)關(guān)系的實際意義,,(2)剩余平方和相等,但相關(guān)系數(shù)可相差很大,相關(guān)系數(shù)隨著直
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論