版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第三章總體均數(shù)估計與假設(shè)檢驗,桂立輝新鄉(xiāng)醫(yī)學(xué)院公共衛(wèi)生學(xué)院,研究生《醫(yī)學(xué)統(tǒng)計學(xué)》(第四版),第三章總體均數(shù)估計與假設(shè)檢驗,均數(shù)的抽樣誤差與標準誤t 分布總體均數(shù)的估計假設(shè)檢驗的基本原理和步驟t 檢驗假設(shè)檢驗的注意事項正態(tài)性檢驗和兩樣本方差比較的F檢驗,參數(shù)估計基礎(chǔ),統(tǒng)計學(xué)研究的目的通常是要了解總體的情況。如果要了解總體情況,有兩種方法: 全面研究 抽樣研究 全面研究在許多情況下難以辦到,
2、因此,常用的方法是抽樣研究,即從同質(zhì)總體中隨機抽取一部分觀察單位作為樣本,并由樣本信息(包括樣本變量值的分布及其用于描述的統(tǒng)計量)來推斷總體情況,即統(tǒng)計推斷(statistical inference)。,第一節(jié) 均數(shù)的抽樣誤差和標準誤,由于所研究變量在總體中各觀察單位(個體)間存在變異,抽樣研究必然會導(dǎo)致抽樣誤差(sampling error) 。 抽樣誤差是不可避免的,但我們可以探究抽樣誤差的規(guī)律,控制抽樣誤
3、差在允許的范圍內(nèi)。,第一節(jié) 均數(shù)的抽樣誤差和標準誤,為探討抽樣誤差的規(guī)律,我們做一個放回式隨機抽樣實驗。假設(shè)某年某地13歲女學(xué)生身高(X)服從總體均數(shù)μ=155.4cm,總體標準差σ=5.3cm的正態(tài)分布N(155.4,5.32)。每次抽取的30例構(gòu)成一個樣本,并計算出樣本均數(shù)。 如此共抽取100個樣本,計算得到100個樣本均數(shù)。,總體μ=155.4cmσ = 5.3 cm,放回式隨機抽樣實驗,,,,,,,表5-1 從正態(tài)總體N(
4、155.4, 5.32)隨機抽取100份樣本(n=30)的算術(shù)均數(shù),對100個樣本均數(shù)組成的數(shù)據(jù)資料進行統(tǒng)計描述,結(jié)果:,圖5-1 100個樣本均數(shù)的頻數(shù)分布圖,第一節(jié) 均數(shù)的抽樣誤差和標準誤,從一個總體均數(shù)為μ ,標準差為σ 的總體中,隨機抽取若干個含量為n 的樣本。那么,這若干個樣本的均數(shù)不會完全相同,其頻數(shù)分布是以總體均數(shù)μ為中心的正態(tài)分布,其變異程度可用這若干個樣本均數(shù)的標準差表示,稱樣本均數(shù)的標準誤(standard er
5、ror)。,第一節(jié) 均數(shù)的抽樣誤差和標準誤,在前述放回式隨機抽樣實驗中,已知總體標準差σ=5.3cm,每次抽樣的樣本含量n=30,代入公式得:,按實際抽取的100個樣本均數(shù)計算,標準誤為0.96,與上述公式計算結(jié)果基本一致。,,樣本均數(shù)的分布,,不同n樣本均數(shù)的分布,X (? =155.4 , ? =5.3 ),(n=5 , =2.37),(n=10 , =1.68 ),(n=30 , =0.98),?,增
6、大樣本量對標準誤的影響(? =5.3),第一節(jié) 均數(shù)的抽樣誤差和標準誤,實際工作中,往往不知道? ,因此,通常用樣本標準差s 來代替? ,得到均數(shù)標準誤的估計值:,例 調(diào)查某地120名正常成人的血糖值的均數(shù)為4.92mmol/L,標準差為0.48mmol/L,試計算標準誤。,第一節(jié) 均數(shù)的抽樣誤差和標準誤,均數(shù)標準誤的用途: 衡量樣本均數(shù)的可靠性; 標準誤愈小,說明樣本均數(shù)與總體均數(shù)越接近,即抽樣誤差越小,
7、用樣本均數(shù)推論總體均數(shù)的真實性越好。反之,標準誤越大,抽樣誤差越大,樣本均數(shù)對總體均數(shù)的代表性越差。 估計總體均數(shù)的置信區(qū)間; 用于均數(shù)的假設(shè)檢驗。,第二節(jié) t 分布,一、 t 分布的概念 對于任一正態(tài)分布X~N(? , ?2 ) ,經(jīng)u變換后都可以變成標準正態(tài)分布N(0 ,1)。 隨機抽取若干個含量為n 的樣本,這些樣本均數(shù)的頻數(shù)分布是以總體均數(shù)μ為中心的正態(tài)分布,其標準差為 ,即
8、 ~N(? , 2 )如果進行u變換,同樣可以變成標準正態(tài)分布N(0 ,1)。,第二節(jié) t 分布,實際上 往往未知,故用 作為 的估計值,這時可以對樣本均數(shù)作 t 變換:,則t 值的分布是以0為中心的正態(tài)分布,即t 分布(student’s t distribution)。1908年W S Gosset以筆名student發(fā)表了他的研究論文,開創(chuàng)了小樣本統(tǒng)計推斷之先河。,第二節(jié) t 分布,
9、二、t 分布的圖形和t 分布表 對前述13歲女學(xué)生身高總體,分別做n=3和n=50的隨機抽樣,各抽取1000個樣本,并分別計算得到1000個樣本均數(shù)和標準誤。然后,分別做t變換,將t值繪直方圖如圖5-2。,第二節(jié) t 分布,二、t 分布的圖形和t 分布表 t 分布與u 分布一樣,都是以0為中心,但t分布不是1條曲線,而是無數(shù)條曲線。 t 分布的形態(tài)(峰度)隨抽樣樣本量(嚴格地說是自由度n -1)而變
10、化,自由度越小,曲線越低平,隨著自由度增大,t 分布逐漸接近于標準正態(tài)分布,當(dāng)自由度為無窮大時,t 分布與 u 分布完全重合。,圖5-3 不同自由度的t 分布曲線,? =2,? =5,? =∞,第二節(jié) t 分布,t 分布與u分布一樣,曲線下的面積分布有一定規(guī)律:從雙側(cè)-t? /2,? 到t? /2,? 所對應(yīng)的曲線下的面積占曲線下總面積的100(1-α)%。或者,從單側(cè)t?,? 到-∞所對應(yīng)的曲線下的面積占曲線下總面積的100(1-
11、 ?)%。,?,?/2,?/2,0,0,-t?,-t? /2,+t? /2,1- ?,1- ?,第二節(jié) t 分布,由于t 分布的形態(tài)隨自由度而變化,t?也隨自由度而變化。不同自由度時的t?值可查附表2 t 界值表得到。,,,一、 t 分布,,第三節(jié) 總體均數(shù)的估計,一、 可信區(qū)間的概念點值估計(point estimation)區(qū)間估計(interval estimation) 總體均數(shù)( μ )的100(1- α)%置
12、信區(qū)間(confidential interval,簡記為 CI)。 區(qū)間估計屬于概率估計,總體參數(shù)并非一定在該置信區(qū)間內(nèi),只需要把總體參數(shù)不在該置信區(qū)間內(nèi)的概率(α)控制在一定水平就可以了。,二、置信區(qū)間的計算,二、總體均數(shù)的置信區(qū)間的計算μ 的100(1-α)%置信區(qū)間(CI):已知總體標準差σ,按u分布原理,計算公式為:σ未知,n較小,按t 分布原理計算:σ未知,n足夠大(如n>100)
13、,按u分布近似計算:,總體均數(shù)置信區(qū)間的計算,例 測得某地健康男子20人收縮壓的均數(shù)為118.4mmHg,標準差為10.8mmHg,試估計該地健康男子收縮壓總體均數(shù)的95%可信區(qū)間。 本例v=20-1=19,查t 值表得 t0.05,19 =2.093 。 代入公式得:,該地健康男子收縮壓總體均數(shù)的95%可信區(qū)間為113.3~123.5mmHg。,總體均數(shù)置信區(qū)間的計算,例 測得某地150名正常人脈
14、搏的均數(shù)為73.53次/分,標準差為11.30次/分,試估計該地正常人脈搏總體均數(shù)的95%可信區(qū)間。 本例n>100,可按正態(tài)分布原理近似計算:,該地正常人脈搏總體均數(shù)的95%可信區(qū)間為71.74~75.36次/分。,三、總體均數(shù)置信區(qū)間的解釋,總體均數(shù)可信區(qū)間的計算和解釋有兩種理論依據(jù),一是是Pearson、Fisher、Neyman等人的經(jīng)典理論,另一個是Bayes理論。經(jīng)典理論假定樣本x1、x2 、
15、… 、xn來自正態(tài)分布N(μ,σ2),其中σ2已知,μ是一個客觀存在的常數(shù)。對置信區(qū)間的解釋是:從總體中隨機抽樣,每個樣本可以算得一個置信區(qū)間,該置信區(qū)間包括總體均數(shù)(估計正確)的概率是1-α。Bayes理論則認為參數(shù)μ是隨機變量。對置信區(qū)間的解釋是:μ有1-α的可能性落在該區(qū)間,或者說μ在這個區(qū)間內(nèi)的概率是1-α。,總體均數(shù)置信區(qū)間的估計,參數(shù)估計時,一方面要控制發(fā)生錯誤的概率(α),α越小,估計的正確率就越高。另一方面,所定區(qū)間范
16、圍不能過寬,否則就失去了實際意義,也就是估計的精確程度要高,估計的區(qū)間范圍越小,精密度就越高。 正確性和精密性是相互矛盾的,提高了準確度,則精密度必然下降;如果提高精密度,則準確度又將隨之降低。因此,通常把發(fā)生錯誤的概率(α)定在適當(dāng)?shù)乃?,如?0.05,即總體參數(shù)不在該范圍的概率不超過5%,即95%置信區(qū)間。 增大樣本量可以在不影響正確性的情況下提高參數(shù)估計的精密度。但并非樣本量越大越
17、好。,總體均數(shù)的估計,例9.2 某醫(yī)師隨機抽查了某地20名正常成人,測得血糖值的均數(shù)為4.92mmol/L,標準差為0.48mmol/L,試估計該地正常成人血糖值總體均數(shù)的95%和99%可信區(qū)間。 本例: 今v=20-1=19,查t值表得t0.05,19=2.093,t0.01,19=2.861。 95%可信區(qū)間為: 99%可信區(qū)間為:,總體均數(shù)的估計,例9.3 隨機抽查
18、了某地120名正常成人,測得血糖值的均數(shù)為4.92mmol/L,標準差為0.48mmol/L,試估計該地正常成人血糖值總體均數(shù)的95%和99%可信區(qū)間。 本例: 按正態(tài)分布原理近似計算: 95%可信區(qū)間為: 99%可信區(qū)間為:,正確性和精密性的關(guān)系,樣本量對參數(shù)估計正確性和精密性的影響(正常人血糖總體均數(shù)的估計),四、正常值范圍與可信區(qū)間,總體 均數(shù) 可信 區(qū)間: 正 常 參 考
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 管理統(tǒng)計學(xué)-第4章--假設(shè)檢驗
- 多元統(tǒng)計分析第三章 假設(shè)檢驗與方差分析
- 醫(yī)學(xué)統(tǒng)計學(xué)假設(shè)檢驗
- 統(tǒng)計學(xué)第三章習(xí)題
- 醫(yī)學(xué)統(tǒng)計學(xué)第三章
- 統(tǒng)計學(xué)第三章new
- 統(tǒng)計學(xué)第三章統(tǒng)計整理
- 《統(tǒng)計學(xué)》-第三章-統(tǒng)計整理
- 醫(yī)學(xué)統(tǒng)計學(xué)假設(shè)檢驗概要
- 統(tǒng)計學(xué)原理第三章-統(tǒng)計整理
- 醫(yī)學(xué)統(tǒng)計學(xué)假設(shè)檢驗基礎(chǔ)
- 《應(yīng)用多元統(tǒng)計分析》與matlab編程-第三章 多元正態(tài)總體參數(shù)的假設(shè)檢驗
- 統(tǒng)計學(xué)第三章,統(tǒng)計分組
- 應(yīng)用統(tǒng)計學(xué)講義第三章
- 管理統(tǒng)計學(xué)第3章--非參數(shù)假設(shè)檢驗
- hypothesis-testing統(tǒng)計學(xué)假設(shè)檢驗
- 醫(yī)學(xué)統(tǒng)計學(xué)之假設(shè)檢驗t檢驗
- 統(tǒng)計學(xué)第三章選擇題
- 統(tǒng)計學(xué)資料第三章統(tǒng)計整理編輯
- 應(yīng)用統(tǒng)計學(xué)-第三章圖表法
評論
0/150
提交評論