版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、統(tǒng)計(jì)學(xué),第2章 統(tǒng)計(jì)數(shù)據(jù)的描述,第1章 回顧,知識點(diǎn)統(tǒng)計(jì)學(xué)內(nèi)涵統(tǒng)計(jì)學(xué)概念及含義要求掌握統(tǒng)計(jì)學(xué)的涵義了解統(tǒng)計(jì)學(xué)產(chǎn)生與發(fā)展掌握統(tǒng)計(jì)學(xué)幾個(gè)概念,是一門收集、整理、顯示和分析統(tǒng)計(jì)數(shù)據(jù)的科學(xué),其目的是探索數(shù)據(jù)內(nèi)在的規(guī)律性。,總體變量樣本參數(shù)統(tǒng)計(jì)量,第2章 統(tǒng)計(jì)數(shù)據(jù)的描述,2.1數(shù)據(jù)的計(jì)量尺度2.2統(tǒng)計(jì)數(shù)據(jù)的來源2.3統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量2.4統(tǒng)計(jì)數(shù)據(jù)的整理2.5分布集中趨勢的測度2.6分布離散程度的測度2.7分布
2、偏態(tài)與峰度的測度2.8莖葉圖與箱線圖2.9統(tǒng)計(jì)表與統(tǒng)計(jì)圖,,2.1 數(shù)據(jù)的計(jì)量尺度,一、列名尺度二、順序尺度三、間隔尺度四、比率尺度,2.1 數(shù)據(jù)的計(jì)量尺度,分類方法(4種計(jì)量尺度):列名尺度、順序尺度、間隔尺度和比例(率)尺度。,列名尺度,,順序尺度,間隔尺度,比例尺度,,精確程度,良好,,,,1980,134公斤,休斯頓火箭,俱樂部:,健康狀況:,出生年份:,體重:,1、列名尺度(Nominal Scale
3、),例如:性別、民族、職業(yè)數(shù)據(jù)表現(xiàn)為“類別” 各類之間無等級次序 各類別可以用數(shù)字代碼表示根據(jù)列名尺度得到的數(shù)據(jù)為分類數(shù)據(jù)。,2、順序尺度(Ordinal Scale),例如健康狀況、質(zhì)量等級數(shù)據(jù)表現(xiàn)為“類別”可對等級、大小等排序未測量出類別之間的準(zhǔn)確差值根據(jù)順序尺度得到的數(shù)據(jù)為順序數(shù)據(jù)。,3、間隔尺度 Interval Scale,例如年份、攝氏溫度數(shù)據(jù)表現(xiàn)為“數(shù)值”可以進(jìn)行加減運(yùn)算“0”是只是尺度上的一個(gè)點(diǎn)
4、,不代表“不存在”根據(jù)間隔尺度得到的數(shù)據(jù)為間隔數(shù)據(jù)。,4、比例尺度 Ratio Scale,例如體重、身高數(shù)據(jù)表現(xiàn)為“數(shù)值”可以進(jìn)行加減、乘除運(yùn)算“0”表示“沒有”或“不存在”根據(jù)比例尺度得到的數(shù)據(jù)為比例數(shù)據(jù)。,間隔尺度與比例尺度的區(qū)別,間隔尺度中“0”表示一個(gè)具體數(shù)值,不表示“沒有”或“不存在”,比例尺度中“0”表示“沒有”或“不存在” 。間隔尺度
5、 - 273.15℃ -123.15 ℃ 0 ℃ 26.85℃比例尺度 0KM 150KM 300KM,課堂練習(xí),下列數(shù)據(jù)中哪些采用了間隔尺度?海拔8848米 960萬平方公里 100元 北緯38度,四種計(jì)量尺度的比較,1、四種尺度所包含的信息量是依次遞增的
6、。2、根據(jù)較高層次的計(jì)量尺度可以獲得較低層次的計(jì)量尺度。,四種計(jì)量尺度的比較:數(shù)學(xué)性質(zhì),“√”表示該尺度所具有的特性,數(shù)據(jù)和變量類型,數(shù)據(jù)的類型,變量類型,變量的類型,變量是用來描述現(xiàn)象某種令人感興趣的特征的概念。品質(zhì)變量是描述現(xiàn)象有關(guān)屬性特征的變量,本質(zhì)上不能用數(shù)字來表示。例如性別。數(shù)量變量是描述現(xiàn)象有關(guān)數(shù)量特征的變量,都是用數(shù)字來表示的。例如人數(shù),年齡等。離散型變量指的是有限個(gè)數(shù)值或諸如0,1,2……之類無限可列值的變量。
7、 如果某一變量可以取某一區(qū)間或多個(gè)區(qū)間中任意數(shù)值,則該變量稱為連續(xù)型變量。,2.1 例子,請判斷下列數(shù)據(jù)分別屬于什么類型?燈炮使用壽命將產(chǎn)業(yè)劃分為三類廣州市8月份各天的氣溫記錄將服務(wù)質(zhì)量分為五個(gè)等級:好、較好、一般、差、較差。,分類數(shù)據(jù),順序數(shù)據(jù),比例數(shù)據(jù),間隔數(shù)據(jù),,2.2 統(tǒng)計(jì)數(shù)據(jù)的來源,一、間接獲取的數(shù)據(jù) 二、直接獲取的數(shù)據(jù),間接取得的數(shù)據(jù),間接取得的數(shù)據(jù),統(tǒng)計(jì)部門和政府部門公布的有關(guān)資料,如各類統(tǒng)計(jì)年鑒各類經(jīng)濟(jì)信
8、息中心、信息咨詢機(jī)構(gòu)、專業(yè)調(diào)查機(jī)構(gòu)等提供的數(shù)據(jù)各類專業(yè)期刊、報(bào)紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業(yè)性、學(xué)術(shù)性研討會上交流的有關(guān)資料從互聯(lián)網(wǎng)或圖書館查閱到的相關(guān)資料,提供統(tǒng)計(jì)數(shù)據(jù)的部分政府網(wǎng)站,提供統(tǒng)計(jì)數(shù)據(jù)的部分政府網(wǎng)站,直接取得的數(shù)據(jù),普查(census),為特定目的專門組織的非經(jīng)常性全面調(diào)查2.通常是一次性或周期性的3.一般需要規(guī)定統(tǒng)一的標(biāo)準(zhǔn)調(diào)查時(shí)間4.數(shù)據(jù)的規(guī)范化程度較高5.應(yīng)用范圍比
9、較狹窄,抽樣調(diào)查(sampling survey),1.從總體中隨機(jī)抽取一部分單位作為樣本進(jìn)行調(diào)查,并根據(jù)樣本調(diào)查結(jié)果來推斷總體特征的數(shù)據(jù)收集方法,2. 具有經(jīng)濟(jì)性、時(shí) 效性強(qiáng)、適應(yīng)面廣、準(zhǔn)確性高等特點(diǎn),,2.3數(shù)據(jù)的質(zhì)量,非抽樣誤差:由于調(diào)查過程中各有關(guān)環(huán)節(jié)工作失誤造成的。調(diào)查方案有關(guān)規(guī)定或解釋不明確導(dǎo)致填報(bào)錯(cuò)誤、抄錄錯(cuò)誤、匯總錯(cuò)誤、不完整抽樣框?qū)е碌恼`差,調(diào)查中不回答產(chǎn)生的誤差。人為干擾:隱瞞、虛報(bào)。從理論上看,這類誤
10、差可以避免。加強(qiáng)培訓(xùn)掌握獲取完整抽樣框的方法,科學(xué)抽樣的方法與技術(shù)。抽樣誤差:利用樣本推斷總體時(shí)產(chǎn)生的誤差。不可避免可以計(jì)量、可以控制,抽樣框全部總體單元或范圍。,,2.3 統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,,數(shù)據(jù)的誤差,抽樣誤差(sampling error),由于抽樣的隨機(jī)性所帶來的誤差 所有樣本可能的結(jié)果與總體真值之間的平均性差異 影響抽樣誤差大小的因素樣本容量的大小總體的變異性,非抽樣誤差(non-sampling err
11、or),相對于抽樣誤差而言除抽樣誤差之外的,由于其他原因造成的樣本觀察結(jié)果與總體真值之間的差異存在于所有的調(diào)查之中有抽樣框誤差、回答誤差、無回答誤差、調(diào)查員誤差、測量誤差,數(shù)據(jù)來源與數(shù)據(jù)質(zhì)量,1936年,羅斯福和蘭登競選總統(tǒng)?!段膶W(xué)摘要》調(diào)查了240萬人,預(yù)測蘭登以57%對43%獲勝;Gallup(蓋洛普)調(diào)查了50000人,結(jié)論是羅斯福以56%獲勝。實(shí)際結(jié)果是羅斯福以62%獲勝。1952年至1988年,Gallup公司在每次調(diào)
12、查中只抽取3439至8144人,實(shí)際預(yù)測誤差在0.2至4.4 個(gè)百分點(diǎn)之間。,數(shù)據(jù)來源與數(shù)據(jù)質(zhì)量,第二次世界大戰(zhàn)期間,美國國家民意調(diào)查中心(The National Opinion Research Center)派兩組調(diào)查人員對一個(gè)南方城市的500名黑人進(jìn)行提問,一組調(diào)查人員由白人組成,另一組由黑人組成。 3個(gè)問題:問題一:“如果日本占領(lǐng)美國,你認(rèn)為黑人的境況會得到改善還是變得更糟?”黑人調(diào)查組中,9%的被調(diào)查者回答“變好” ,2
13、5%回答“變壞”;白人調(diào)查組中, 2%回答“變好”,45%回答變壞。問題二:用“納粹分子”代替“日本”,兩組的結(jié)果大體相同。問題三: “你認(rèn)為目前致力于打敗軸心國比在本國內(nèi)進(jìn)一步推進(jìn)民主更重要嗎?”黑人調(diào)查組中,選擇“打敗軸心國”的比例是39%,而白人調(diào)查組則是62%。是什么原因造成了調(diào)查結(jié)果的差異呢?,誤差的控制,抽樣誤差可計(jì)算和控制非抽樣誤差的控制調(diào)查員的挑選調(diào)查員的培訓(xùn)督導(dǎo)員的調(diào)查專業(yè)水平調(diào)查過程控制調(diào)查結(jié)
14、果進(jìn)行檢驗(yàn)、評估現(xiàn)場調(diào)查人員進(jìn)行獎(jiǎng)懲的制度,,2.4 統(tǒng)計(jì)數(shù)據(jù)的整理,一、統(tǒng)計(jì)數(shù)據(jù)的分組 二、次數(shù)分配三、次數(shù)分配直方圖 四、洛倫茨曲線,統(tǒng)計(jì)數(shù)據(jù)的分組,2.4數(shù)據(jù)的整理——統(tǒng)計(jì)數(shù)據(jù)的分組,按照統(tǒng)計(jì)研究目的,將數(shù)據(jù)分別列入不同的組內(nèi)。按品質(zhì)標(biāo)志分組:列名尺度和順序尺度。按數(shù)量標(biāo)志分組:間隔尺度和比例尺度。,2.4 數(shù)據(jù)的整理——次數(shù)分配,
15、次數(shù)分配是觀察值按其分組標(biāo)志分配在各組內(nèi)的次數(shù)。分組目的:找出數(shù)據(jù)分布的規(guī)律。步驟:分多少組?確定組數(shù)每一組的范圍?確定組距=(Max.-Min.)/組數(shù)等組距分組、不等組距分組開口組經(jīng)驗(yàn):組數(shù)不少于5組,也不應(yīng)多于15組原則:“不重不漏”、上組限(一個(gè)組的最大值)不在內(nèi)累積次數(shù)分配向下累積:由表的上方向表的下方累加向上累積:由表的下方向表的上方累加,組距分組 (步驟),1. 確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的
16、分布特征和規(guī)律為目的2. 確定組距:組距(class width)是一個(gè)組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即組距=( 最大值 - 最小值)÷ 組數(shù)3.統(tǒng)計(jì)出各組的頻數(shù)并整理成頻數(shù)分布表 頻數(shù)(frequency) :每個(gè)組中的數(shù)據(jù)個(gè)數(shù),也稱次數(shù)。 頻率(relative frequency) :頻數(shù)/總數(shù)據(jù)個(gè)數(shù)。,補(bǔ)充,Sturges 提出的經(jīng)驗(yàn)公式:分組組數(shù)K應(yīng)
17、滿足,其中n 為數(shù)據(jù)的個(gè)數(shù)(總體單位數(shù)或樣本數(shù)),一般對結(jié)果取整數(shù)。,組距分組 (幾個(gè)概念),1. 下限(low limit) :一個(gè)組的最小值2. 上限(upper limit) :一個(gè)組的最大值3. 組距(class width) :上限與下限之差4. 組中值(class midpoint) :下限與上限之間的中點(diǎn)值,次數(shù)分配表的編制(例題分析),【例】某車間30名工人每周加工某種零件件數(shù)如右表試對數(shù)據(jù)進(jìn)行分組。,
18、Max=128Min=84,頻數(shù)分布表,Max=128Min=84,(Max-Min)/5=(128-84)/5=8.8≈10,上組限(一個(gè)組的最大值)不在內(nèi)。,90、100、110、120這幾個(gè)數(shù)究竟屬于哪一組?,課堂練習(xí):某月啤酒公司60個(gè)銷售點(diǎn)的銷量,48 71 52 53 36 41 69 58 47 60 53 29 41 72 81 37 43 58 68 42 73 62 59 4451 53 47 66 59 5
19、2 34 49 73 29 47 1639 58 43 29 46 52 38 46 80 58 51 67 54 57 58 63 49 40 54 61 58 66 47 50 單位:桶,Max=81Min=16,(Max-Min)/8=(81-16)/8=8.125≈9,啤酒銷售量的頻數(shù)分布,銷售桶數(shù) 銷售點(diǎn)數(shù) 頻
20、率(%)10—19 1 1.720—29 3 5.030—39 5 8.340—49 16 26.750—59
21、 20 33.360—69 9 15.070—79 4 6.780—89 2 3.3 合計(jì) 60 100.0,
22、,,,頻數(shù)/次數(shù),,次數(shù)分配直方圖,直方圖 (histogram),在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖用矩形的寬度和高度來表示頻數(shù)分布的圖形,實(shí)際上是用矩形的面積來表示各組的頻數(shù)分布,分組數(shù)據(jù)的圖示(直方圖的繪制),某車間工人周加工零件直方圖,,我一眼就看出來了,周加工零件在100~110之間的人數(shù)最多!,折線圖 (frequency polygon),折線圖也稱次數(shù)
23、多邊形圖折線圖是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(diǎn)(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個(gè)終點(diǎn)要與橫軸相交,具體的做法是第一個(gè)矩形的頂部中點(diǎn)通過豎邊中點(diǎn)(即該組頻數(shù)一半的位置)連接到橫軸,最后一個(gè)矩形頂部中點(diǎn)與其豎邊中點(diǎn)連接到橫軸S直方圖=S折線圖,二者所表示的頻數(shù)分布是一致的,分組數(shù)據(jù)的圖示(折線圖的繪制),S直方圖=S折線圖,某車間工人周加工零件折線圖,,,,,,,,次數(shù)分布曲線,次數(shù)分布曲線:當(dāng)觀察次
24、數(shù)越多,組距越小且組數(shù)越多,所給出的折線圖就會越光滑,然后直方圖抹掉,就只剩一條光滑的曲線,用于反映數(shù)據(jù)或統(tǒng)計(jì)量的分布規(guī)律。正態(tài)分布曲線偏態(tài)曲線J形曲線U形曲線,次數(shù)分配的類型,幾種常見的頻數(shù)分布,洛倫茨曲線與基尼系數(shù),洛倫茨曲線,20世紀(jì)初美國經(jīng)濟(jì)學(xué)家、統(tǒng)計(jì)學(xué)家洛倫茨(M.E. Lorentz)根據(jù)意大利經(jīng)濟(jì)學(xué)家帕累托(V. Pareto)提出的收入分配公式繪制而成。描述了收入和財(cái)富分配性質(zhì)的,這條曲線用于分析某國家或地區(qū)收
25、入分配的公平程度。,基尼系數(shù),20世紀(jì)初意大利經(jīng)濟(jì)學(xué)家基尼(G. Gini)根據(jù)洛倫茨曲線計(jì)算出一個(gè)數(shù)值,用這個(gè)統(tǒng)計(jì)指標(biāo)可以衡量收入分配的平等程度。A表示實(shí)際收入曲線與絕對平均線之間的面積B表示實(shí)際收入曲線與絕對不平均線之間的面積如果A=0,則基尼系數(shù)=0,表示收入絕對平均如果B=0,則基尼系數(shù)=1,表示收入絕對不平均基尼系數(shù)在0 和1之間取值,0.4,分配不公,洛倫茨曲線與基尼系數(shù)計(jì)算步驟:,假設(shè)一個(gè)國家有100個(gè)人,計(jì)算這
26、個(gè)國家的基尼系數(shù)分為下面四步: 1.將這100人按收入從低往高排列,第一名是收入最低的,第一百名是收入最高的; 2.畫一個(gè)邊長為一的正方形,并將左下角與右上角的對角線相連; 3.依次計(jì)算前十名,前二十名,前三十名……一直到前九十名所擁有的收入占整個(gè)100人的收入的比值; 4.以正方形的左下角為原點(diǎn),用水平邊標(biāo)記累計(jì)人口,垂直邊標(biāo)記累積的收入比,將在上面計(jì)算出的累計(jì)收入比值,在正方形中標(biāo)出。然后,將這些點(diǎn)同
27、原點(diǎn)以及正方形的右上角連接,就可以得到一條曲線。 這條曲線被稱為洛倫茨曲線。 基尼系數(shù)就是對角線與洛倫茨曲線之間的面積,與對角線以下的三角形的面積之比。,各國基尼系數(shù)的比較,美國 40.8% 英國 36.1% 法國 32.7% 俄羅斯 31.0% 韓 國 31.6% 德 國 30% 意大利 27.3% 匈牙利 26.9% 瑞典 25% 日 本 24.9%,0.4,分配不公,1978-2005中國基尼系數(shù)
28、變化情況,亞行揭露:中國基尼系數(shù)擴(kuò)大到0.473,己達(dá)到拉美平均水平,勇奪亞洲冠軍,2007年8月8日,亞洲開發(fā)銀行發(fā)表了《減少不平等,中國需要具有包容性的增長》的新聞稿并公布了《亞洲的分配不均》的研究報(bào)告。在22個(gè)納入亞行研究范圍的國家中,中國勇奪貧富差距之冠,在衡量分配不平等的兩個(gè)常見指標(biāo)中,收入最高的20%人口的平均收入與收入最低的20%人口的平均收入的比率,中國是11倍,高出其它國家一大截;基尼系數(shù),2004年中國的數(shù)值是0
29、.4725,僅比尼泊爾的0.4730低微小,遠(yuǎn)遠(yuǎn)高于印度、韓國、臺灣。亞行指出,從1993到2004年,中國的基尼系數(shù)從0.407擴(kuò)大到0.473,己達(dá)到拉丁美洲的平均水平,不得不讓人懷念“公平的增長”的典范:韓國和臺灣(地區(qū))。,貧富差距排名國家 最高20%人口收入/最低20%人口收入 基尼系數(shù) 中國 11.37倍
30、 0.4725尼泊爾 9.47倍 0.4730菲律賓 9.11倍 0.4397土庫曼斯坦 8.33倍 0.4302泰國 7.72倍
31、 0.4196馬來西亞 7.7倍 0.4033柬埔寨 7.04倍 0.3805斯里蘭卡 6.83倍 0.4018越南
32、 6.24倍 0.3708臺灣 6.05倍 0.3385阿塞拜疆 5.95倍 0.3650哈薩克斯坦 5.61倍
33、 0.3383印度 5.52倍 0.3622印度尼西亞 5.52倍 0.3430韓國 5.47倍 0.3155蒙古 5.4
34、4倍 0.3284老撾 5.4倍 0.3463塔吉克斯坦 5.14倍 0.3263亞美尼亞 5.08倍 0.338文萊
35、 5.03倍 0.3408巴基斯坦 4.46倍 0.3118吉爾吉斯 4.43倍 0.303,,2.5 分布集中趨勢的測度,一、眾數(shù)(mode)二、中位數(shù)(median)三、四分位數(shù)四
36、、均值(mean)五、幾何平均數(shù)(geometric mean)六、切尾均值(trimmed mean)七、眾數(shù)、中位數(shù)和均值的比較,集中趨勢,常用的集中趨勢的測度指標(biāo):算術(shù)平均數(shù)調(diào)和平均數(shù)幾何平均數(shù)中位數(shù)眾數(shù),集中趨勢:一組數(shù)據(jù)向其中心值靠攏的傾向和程度。集中趨勢測度:尋找數(shù)據(jù)水平的代表值或中心值。,眾數(shù),眾數(shù) Mo (mode),一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時(shí)使用不受極端值的影響一組數(shù)據(jù)可能
37、沒有眾數(shù)或有幾個(gè)眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù),眾數(shù)(不惟一性),無眾數(shù)原始數(shù)據(jù): 10 5 9 12 6 8,一個(gè)眾數(shù)原始數(shù)據(jù): 6 5 9 8 5 5,多于一個(gè)眾數(shù)原始數(shù)據(jù): 25 28 28 36 42 42,眾數(shù)(mode)Mo,數(shù)據(jù)按大小順序排隊(duì)形成次數(shù)分配后,在統(tǒng)計(jì)分布中有明顯集中
38、趨勢的數(shù)值。正態(tài)分布和一般偏態(tài)分布中,分布的最高峰點(diǎn)所對應(yīng)的數(shù)值就是眾數(shù)。是一種位置代表值。,眾數(shù),對于分組數(shù)據(jù)來說,計(jì)算眾數(shù)的近似公式為:,其中:L:表示眾數(shù)所在組的下組限Δ1:表示眾數(shù)組次數(shù)與下一組次數(shù)之差Δ2:表示眾數(shù)組次數(shù)與上一組次數(shù)之差i:表示眾數(shù)所在組的組距,,眾數(shù)的計(jì)算:分組資料* ,例子,1、眾數(shù)所在的組:80-90。2、或者:眾數(shù)等于眾數(shù)所在組的組中值85。,【例】,【例】一家市場調(diào)查公司為研
39、究不同品牌飲料的市場占有率,對隨機(jī)抽取的一家超市進(jìn)行了調(diào)查。調(diào)查員在某天對50名顧客購買飲料的品牌進(jìn)行了記錄,如果一個(gè)顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次 。右邊就是記錄的原始數(shù)據(jù),例題分析結(jié)果,Mo=可口可樂,用Excel求出 Mo插入——函數(shù) mode,中位數(shù),中位數(shù) Me (median),排序后處于中間位置上的值,不受極端值的影響主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的
40、離差絕對值之和最小,即,中位數(shù) (位置的確定),原始數(shù)據(jù):,分組數(shù)據(jù):,數(shù)值型數(shù)據(jù)的中位數(shù),【例】 9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3
41、 4 5 6 7 8 9,中位數(shù) ? 1080,?,數(shù)值型數(shù)據(jù)的中位數(shù),【例】:10個(gè)家庭的人均月收入數(shù)據(jù)排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10,?,中位數(shù)的
42、計(jì)算:分組資料*,對分組資料的一種計(jì)算方法:,,中位數(shù)的計(jì)算:例子,根據(jù)考試成績的數(shù)據(jù)計(jì)算考試成績的中位數(shù)。,,第21個(gè)數(shù)所在的組,分組數(shù)據(jù):,四分位數(shù),四分位數(shù) (quartile),排序后處于25%和75%位置上的值,不受極端值的影響主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù),四分位數(shù) (位置的確定),原始數(shù)據(jù):,分組數(shù)據(jù):,數(shù)值型數(shù)據(jù)的四分位數(shù),【例】:9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 7
43、50 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,?,?,數(shù)值型數(shù)據(jù)的四分位數(shù),【例】:10個(gè)家庭的人均月收入數(shù)據(jù)排 序:
44、660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10,?,?,分位數(shù),與中位數(shù)性質(zhì)相似。四分位數(shù)、十分位數(shù)、百分位數(shù)十分位數(shù)(Decile): D1 D2 ………D9百分位數(shù)(percentile):P1 P2 …………P99,均值,
45、均值 (mean),集中趨勢的最常用測度值一組數(shù)據(jù)的均衡點(diǎn)所在體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù),算術(shù)平均數(shù),設(shè)一組數(shù)據(jù)為: x1 ,x2 ,… ,xn,總體均值,樣本均值,加權(quán)均值 (weighted mean),設(shè)一組數(shù)據(jù)為: x1 ,x2 ,… ,xn相應(yīng)的頻數(shù)為: f1 , f2 ,… ,fk,總體均值,樣本均值,加權(quán)均值 (例題分析),,均
46、值 (數(shù)學(xué)性質(zhì)),1.各變量值與均值的離差之和等于零,2. 各變量值與均值的離差平方和最小,幾何均值,幾何均值 (geometric mean),n 個(gè)變量值乘積的 n 次方根適用于對比率數(shù)據(jù)的平均主要用于計(jì)算平均增長率計(jì)算公式為,5. 可看作是均值的一種變形,幾何均值 (例題分析),【例】一位投資者購持有一種股票,在2000年、2001年、2002年和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計(jì)
47、算該投資者在這四年內(nèi)的平均收益率是多少?,算術(shù)平均:,幾何平均:,切尾均值,切尾均值 (trimmed Mean),去掉大小兩端的若干數(shù)值后計(jì)算中間數(shù)據(jù)的均值在電視大獎(jiǎng)賽、體育比賽及需要人們進(jìn)行綜合評價(jià)的比賽項(xiàng)目中已得到廣泛應(yīng)用計(jì)算公式為,n 表示觀察值的個(gè)數(shù);α表示切尾系數(shù),,,a=0, 切尾均值=算術(shù)平均數(shù)a?1/2,切尾均值=中位數(shù),切尾均值 (例題分析),【例】某次比賽共有11名評委,對某位歌手的給分分別是:,經(jīng)整理得
48、到順序統(tǒng)計(jì)量值為,去掉一個(gè)最高分和一個(gè)最低分,a 取1/11,眾數(shù)、中位數(shù)和均值的比較,一個(gè)故事,周先生開辦了一個(gè)小工廠。管理人員:周先生、他的弟弟和六個(gè)親戚。工作人員:5個(gè)領(lǐng)工和10個(gè)工人。工廠經(jīng)營得很順利,現(xiàn)在需要招聘一個(gè)新工人?,F(xiàn)在周先生正在面試王先生。周:我們這里報(bào)酬不錯(cuò)。平均薪金是每周300元。你在學(xué)徒期間每周得75元,不過很快就可以加工資。王先生工作了幾天之后,要求見廠長。王:周廠長你欺騙我!我已經(jīng)找其他工人核
49、對過了沒有一個(gè)人的工資超過每周100元。平均工資怎么可能是一周300元呢?周:啊,王先生,不要激動(dòng)。平均工資真的是300元。我要向你證明這一點(diǎn)。,周先生每周付出的酬金如下:我得2400元我弟弟得1000元我的六個(gè)親戚每人得250元,250*6=1500五個(gè)領(lǐng)工每人得200元,10個(gè)工人每人100元,共2000總共是每周6900元,付給23個(gè)人,周先生拿出了工資表,平均工資:6900/23=300元,對話繼續(xù):,王:?你是對的
50、,平均工資是每周300元??珊孟衲氵€是蒙騙了我。周:我不同意!你實(shí)在是不明白。我把工資表都告訴你了,看,工資的中位數(shù)是200元,可這不是平均工資,而是中等工資。王:每周100元又是怎么回事呢?周:那是眾數(shù),是大多數(shù)人掙的工資。老弟,你的問題是出在你不懂平均數(shù)、中位數(shù)和眾數(shù)之間的區(qū)別。王:好,現(xiàn)在我可懂了。我辭職,我要先去學(xué)習(xí)統(tǒng)計(jì)了……,???,眾數(shù)、中位數(shù)和均值的關(guān)系,,眾數(shù)、中位數(shù)、均值的特點(diǎn)和應(yīng)用,眾數(shù)不受極端值影響具有
51、不惟一性數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用均值易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時(shí)應(yīng)用,2.6 分布離散程度的測度,一、極差二、內(nèi)距三、方差和標(biāo)準(zhǔn)差四、離散系數(shù),極差 R (range),一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布,R = max(xi) - min(xi),計(jì)算公式為,內(nèi)距 (Inter-Q
52、uartile Range,IQR),也稱四分位差上四分位數(shù)與下四分位數(shù)之差 內(nèi) 距= Q3 – Q1反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響可用于衡量中位數(shù)的代表性,方差和標(biāo)準(zhǔn)差,方差和標(biāo)準(zhǔn)差 (Variance and Standard deviation),1.離散程度的測度值之一2.最常用的測度值3.反映了數(shù)據(jù)的分布反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體
53、方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差或標(biāo)準(zhǔn)差,總體方差和標(biāo)準(zhǔn)差 (Population variance and Standard deviation),未分組數(shù)據(jù):,組距分組數(shù)據(jù):,未分組數(shù)據(jù):,組距分組數(shù)據(jù):,方差的計(jì)算公式,標(biāo)準(zhǔn)差的計(jì)算公式,,樣本方差和標(biāo)準(zhǔn)差 (simple variance and standard deviation),未分組數(shù)據(jù):,組距分組數(shù)據(jù):,未分組數(shù)據(jù):,組距分組數(shù)據(jù):,方差的計(jì)算公式,
54、標(biāo)準(zhǔn)差的計(jì)算公式,樣本方差 自由度(degree of freedom),一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個(gè)數(shù)當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為 n 時(shí),若樣本均值?x 確定后,只有n-1個(gè)數(shù)據(jù)可以自由取值,其中必有一個(gè)數(shù)據(jù)則不能自由取值例如,樣本有3個(gè)數(shù)值,即x1=2,x2=4,x3=9,則 ?x = 5。當(dāng) ?x = 5 確定后,x1,x2和x3有兩個(gè)數(shù)據(jù)可以自由取值,另一個(gè)則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他
55、值樣本方差用自由度去除,其原因可從多方面解釋,從實(shí)際應(yīng)用角度看,在抽樣估計(jì)中,當(dāng)用樣本方差s2去估計(jì)總體方差σ2時(shí),它是σ2的無偏估計(jì)量,例:方差和標(biāo)準(zhǔn)差,某工會隨機(jī)調(diào)查了5名工人上月的加班時(shí)間如下表,計(jì)算數(shù)據(jù)的方差和標(biāo)準(zhǔn)差。,,離散系數(shù),離散系數(shù) (coefficient of variation),1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對數(shù)據(jù)相對離散程度的測度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響4.用于對不同組別數(shù)據(jù)離散程度的比較
56、5. 計(jì)算公式為,離散系數(shù) (例題分析),【 例 】某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤的離散程度。,離散系數(shù) (例題分析),,結(jié)論: 計(jì)算結(jié)果表明,v1<v2,說明產(chǎn)品銷售額的離散程度小于銷售利潤的離散程度,例:某地兩個(gè)不同類型的企業(yè)全年平均月產(chǎn)量資料如下表,計(jì)算離散系數(shù)。,比較結(jié)果: 鋼廠的標(biāo)準(zhǔn)差比紡紗廠大,但我們卻不能直接斷定煉鋼廠的平均月產(chǎn)量的差異程度比紡紗廠的大。因?yàn)?/p>
57、,首先這兩個(gè)廠的平均月產(chǎn)量相差懸殊,其次兩個(gè)廠屬于性質(zhì)不同(計(jì)量單位不同)的兩個(gè)企業(yè)。因此只能根據(jù)離散系數(shù)的大小來判斷。 表中最后一欄的兩個(gè)企業(yè)的離散系數(shù)表明,鋼廠的平均月產(chǎn)量的差異程度比紡紗廠的小,生產(chǎn)比較穩(wěn)定。其結(jié)果與用標(biāo)準(zhǔn)差判斷的結(jié)果正好相反。,例:離散系數(shù),對30名經(jīng)理人員的調(diào)查表明年平均收入=$500,000,標(biāo)準(zhǔn)差 = $50,000。對30名工人的調(diào)查表明平均收入= $32,000,標(biāo)準(zhǔn)差 = $5,000。離散系
58、數(shù):經(jīng)理人員:工人:雖然經(jīng)理人員收入的絕對離散程度遠(yuǎn)遠(yuǎn)大于工人,但經(jīng)理人員收入的相對離散程度小于工人。,數(shù)據(jù)的特征和測度,分布的形狀,集中趨勢,,,,,,,離散程度,,眾 數(shù),中位數(shù),均 值,離散系數(shù),方差和標(biāo)準(zhǔn)差,峰 度,四分位距,極差,偏 態(tài),,,,,,,,,,,Location,Dispersion,Shape,數(shù)據(jù)的特征和測度,2.7 莖葉圖與箱線圖,一、莖葉圖二、箱線圖,莖葉圖 (stem-a
59、nd-leaf display),用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉樹葉上只保留一位數(shù)字莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息,莖葉圖 (例題分析),莖葉圖(擴(kuò)展的莖葉圖),例:地區(qū)1 高三男生身高數(shù)據(jù)的莖葉圖,
60、HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888
61、888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19
62、 . 56 3.00 Extremes (>=198) Stem width: 10.00 Each leaf: 1 case(s),箱線圖 (box plot),用于顯示未分組的原始數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個(gè)特征值繪制而成,它由一個(gè)箱子和兩條線段組成箱線圖的繪制方法首先找出一組數(shù)據(jù)的5個(gè)特征值,即最大值、最小值、中位數(shù)Me和兩個(gè)四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連
63、接兩個(gè)四分(位)數(shù)畫出箱子,再將兩個(gè)極值點(diǎn)與箱子相連接,箱線圖 (箱線圖的構(gòu)成),箱線圖 (例題分析),分布的形狀與箱線圖,,不同分布的箱線圖,,未分組數(shù)據(jù)——多批數(shù)據(jù)箱線圖 (例題分析),【例】 從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級學(xué)生中隨機(jī)抽取11人,對8門主要課程的考試成績進(jìn)行調(diào)查,所得結(jié)果如表。試?yán)L制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征,未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖 (例題分析),8門課程考試成績的箱線圖,
64、11名學(xué)生8門課程考試成績的箱線圖,,,,,min-max,,25%-75%,,median value,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,45,55,65,75,85,95,105,,
65、,,,,,,,,,,,,,學(xué)生1,學(xué)生2,學(xué)生3,學(xué)生4,學(xué)生5,學(xué)生6,學(xué)生7,學(xué)生8,學(xué)生9,學(xué)生10,學(xué)生11,未分組數(shù)據(jù)——多批數(shù)據(jù)箱線圖 (例題分析),2.9 統(tǒng)計(jì)表與統(tǒng)計(jì)圖,一、統(tǒng)計(jì)表二、統(tǒng)計(jì)圖,統(tǒng)計(jì)表,統(tǒng)計(jì)表是顯示統(tǒng)計(jì)數(shù)據(jù)的基本工具。表頭行標(biāo)題列標(biāo)題數(shù)字資料下方:表外附加三線表,統(tǒng)計(jì)表的構(gòu)成,,行標(biāo)題,表頭,列標(biāo)題,數(shù)字資料,附加,,,,,統(tǒng)計(jì)圖,統(tǒng)計(jì)圖是統(tǒng)計(jì)數(shù)據(jù)的直觀表現(xiàn)形式。,如何用圖形來表示數(shù)據(jù)?,
66、常用統(tǒng)計(jì)圖,條形圖(Bar Chart),用寬度相同的條形高度或長短來表示數(shù)據(jù)變動(dòng)的圖形,條形的排列可以橫排,也可以縱排。條形圖有單式、復(fù)式等形式。,2003我國就業(yè)人員情況,圓形圖 (Pie Chart),也叫餅圖,它是用圓形及圓內(nèi)扇形的面積來表示數(shù)值大小的圖形。主要用于總體內(nèi)部的結(jié)構(gòu),各組成部分所占比例等。,2003年我國國內(nèi)生產(chǎn)總值中各產(chǎn)業(yè)比重,線圖(Line Chart),利用線形的升降起伏來表現(xiàn)描述的變量在一段時(shí)期內(nèi)的變動(dòng)
67、情況,主要用于顯示時(shí)間數(shù)列的數(shù)據(jù),以反映事物發(fā)展變化的規(guī)律和趨勢。,1996年-2003年城鄉(xiāng)居民人民幣儲蓄存款年底余額,雷達(dá)圖,適合多維數(shù)據(jù)即多個(gè)變量的圖示,在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時(shí)十分有用??捎糜谘芯慷鄠€(gè)樣本之間的相似程度。,2003年我國城鎮(zhèn)和農(nóng)村居民家庭平均每人全年消費(fèi)性支出構(gòu)成,繪制統(tǒng)計(jì)圖時(shí)的注意事項(xiàng),1、通過選擇恰當(dāng)?shù)膱D形類型、刻度、長寬比例等,使圖形能夠準(zhǔn)確反映數(shù)據(jù)中包含的信息。時(shí)間一般繪在橫軸,指標(biāo)數(shù)據(jù)繪在縱軸
68、。長寬比例要適當(dāng) ,其長寬比例大致為10:7。一般情況下,縱軸數(shù)據(jù)下端應(yīng)從“0”開始。數(shù)據(jù)與“0”之間的間距過大時(shí),可以采取折斷的符號將縱軸折斷。,繪制統(tǒng)計(jì)圖時(shí)的注意事項(xiàng),2、圖形要盡量簡明。圖形應(yīng)該突出所要傳達(dá)的信息,不必要的標(biāo)簽、背景、網(wǎng)格線、等會分散讀者的注意力。3、圖形應(yīng)該有清楚的標(biāo)題和必要的說明,明確圖形的含義、計(jì)量單位、坐標(biāo)軸代表的變量、資料來源等等。4、反復(fù)加工和修改是獲得優(yōu)秀統(tǒng)計(jì)圖形的重要步驟。統(tǒng)計(jì)軟件給出的統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計(jì)數(shù)據(jù)處理
- 統(tǒng)計(jì)數(shù)據(jù)質(zhì)量淺析
- 艾滋病統(tǒng)計(jì)數(shù)據(jù)
- 如何提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
- 夯實(shí)統(tǒng)計(jì)數(shù)據(jù)基礎(chǔ)勢在必行
- 鎮(zhèn)賚縣情統(tǒng)計(jì)數(shù)據(jù)
- 《統(tǒng)計(jì)數(shù)據(jù)的整理》ppt課件
- 對我國統(tǒng)計(jì)數(shù)據(jù)的思考
- 提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的探討
- 提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量途徑分析
- 淺談如何提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
- 年工作總結(jié)統(tǒng)計(jì)數(shù)據(jù)
- 基層企業(yè)統(tǒng)計(jì)數(shù)據(jù)核查表
- 提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的對策研究
- 統(tǒng)計(jì)數(shù)據(jù)發(fā)布服務(wù)指南
- 提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的對策探究
- 提高基礎(chǔ)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的探究
- 統(tǒng)計(jì)信用與統(tǒng)計(jì)數(shù)據(jù)質(zhì)量分析
- 【模板】店鋪統(tǒng)計(jì)數(shù)據(jù)趨勢報(bào)表
- 統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制研究
評論
0/150
提交評論