版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘中的統(tǒng)計學(xué),參考資料:Wiki:統(tǒng)計學(xué)研究者July的CSDN,蝸牛向前沖2013年6月2日星期日,綱要,2013-06-02 Sunday,2,概率論,2013-06-02 Sunday,3,條件概率,定義:在同一個樣本空間Ω中的事件A、B,如果從Ω中隨機選出的一個元素屬于B,那么這個隨機選出的元素也屬于A的概率就定義為B條件下A發(fā)生的條件概率,即為P(A|B)=|A∩B|/|B|分子、分母同除以|Ω|,得到條件概
2、率的公式:P(A|B)=P(A∩B)/P(B)亦稱為后驗概率。P(A|B)與P(B|A)的關(guān)系為:P(A|B)×P(B)= P(B|A)×P(A),2013-06-02 Sunday,4,全概率公式,,2013-06-02 Sunday,5,貝葉斯公式,,2013-06-02 Sunday,6,貝葉斯公式,正概率是由原因推結(jié)果(現(xiàn)在推未來),稱為概率論某藥廠用從甲、乙、丙三地收購而來的藥材加工生產(chǎn)出一種中成
3、藥,三地的供貨量分別占40%,35%和25%,且用這三地的藥材能生產(chǎn)出優(yōu)等品的概率分別為0.65,0.70和0.85,求從該廠產(chǎn)品中任意取出一件成品是優(yōu)等品的概率。(0.7175),逆概率是由結(jié)果推原因(現(xiàn)在推過去),稱為數(shù)理統(tǒng)計如果一件產(chǎn)品是優(yōu)質(zhì)品,它的材料來自甲地的概率有多大呢?(0.3624),2013-06-02 Sunday,7,離散型隨機變量,,2013-06-02 Sunday,8,連續(xù)型隨機變量,,2013-06-02
4、 Sunday,9,連續(xù)型隨機變量,,,2013-06-02 Sunday,10,連續(xù)型隨機變量,圖片來源:《大嘴巴漫談數(shù)據(jù)挖掘》,2013-06-02 Sunday,11,概率論總結(jié),圖片來源:《概率論與數(shù)理統(tǒng)計》盛驟版,2013-06-02 Sunday,12,概率論總結(jié),圖片來源:《概率論與數(shù)理統(tǒng)計》盛驟版,2013-06-02 Sunday,13,數(shù)理統(tǒng)計,2013-06-02 Sunday,14,數(shù)學(xué)期望Mathematica
5、l Expectation,隨機變量X的期望值vs樣本均值積分的本質(zhì)亦是求和,例:擲色子一次,期望值為3.5,2013-06-02 Sunday,15,方差Variance,方差:變量距其期望值的距離;亦稱為二階矩,2013-06-02 Sunday,16,協(xié)方差Covariance,協(xié)方差:Cov(X,Y)Cov(X,Y)=E 𝑋?𝐸 𝑋 𝑌?𝐸
6、 𝑌 =𝐸 𝑋?𝑌 -𝐸 𝑋 ?𝐸 𝑌 其中,𝐸 𝑋 =𝜇, 𝐸 𝑌 =ν用于衡量兩個變量間的總體誤差;,協(xié)方差矩陣兩個向量的協(xié)方差cov(X,Y)和cov(Y,X)互為轉(zhuǎn)置矩陣,2013-06-02 Sunday,17
7、,相關(guān)系數(shù)Correlation Coefficient,相關(guān)系數(shù): 𝜌 XY 相關(guān)系數(shù)用于衡量變量的相關(guān)程度,取值范圍為 ?1,1 計算:將每個變量轉(zhuǎn)化為標(biāo)準(zhǔn)單位,成績的平均數(shù)即為相關(guān)系數(shù);幾何特征:向量的夾角的余弦函數(shù);如x = (1, 2, 3, 5, 8) 、 y = (0.11, 0.12, 0.13, 0.15, 0.18),得,相關(guān)距離: 𝐷
8、9883;𝑌 𝐷 𝑋𝑌 =1- 𝜌 XY,2013-06-02 Sunday,18,相關(guān)系數(shù)Correlation Coefficient,2013-06-02 Sunday,19,主成分分析Principal Component Analysis,又稱主分量分析,PCA指將多個變量通過線性變換以選出較少個數(shù)重要變量的方法,在減少數(shù)據(jù)集維數(shù)的同時,保持
9、數(shù)據(jù)集的對方差貢獻(xiàn)最大的特征。 PCA的目的是使變換后的數(shù)據(jù)有最大的方差,這些性質(zhì)不同于普通模型為求穩(wěn)定性往往會減小方差;主要方法:對協(xié)方差矩陣進(jìn)行特征分解,得出數(shù)據(jù)的主成分(特征向量)和權(quán)值(特征值)步驟:數(shù)據(jù)標(biāo)準(zhǔn)化;求特征協(xié)方差矩陣;通過正交變換使非對角線的元素為0,求得特征值和特征向量;對特征值降序排列,取最大k個組成特征向量矩陣;投影矩陣=原始樣本數(shù)據(jù)×特征向量矩陣;(理論依據(jù)為SVD),2013-06-
10、02 Sunday,20,中心極限定理,中心極限定理:設(shè) 𝑋 1 , 𝑋 2 … 𝑋 𝑛 …獨立變量序列,其數(shù)學(xué)期望與方差存在,則前n個變量和的標(biāo)準(zhǔn)化變量 𝑌 𝑛 = 𝑖=1 𝑛 𝑋 𝑖 ? 𝑖=1 𝑛 𝐸(⻔
11、3; 𝑖 ) 𝑖=1 𝑛 𝐷(𝑋 𝑖 ) ,對?x?R,有,獨立變量和,則稱該獨立變量序列服從中心極限定理此定理表明,當(dāng)n充分大時, 𝑌 𝑛 近似服從N(0,1)分布: 𝑖=1 𝑛 𝑋 𝑖 ~𝑁( Ү
12、94;=1 𝑛 𝐸(𝑋 𝑖 ), 𝑖=1 𝑛 𝐷(𝑋 𝑖 )),2013-06-02 Sunday,21,中心極限定理,林德伯格-列維中心極限定理:設(shè) 𝑋 1 , 𝑋 2 … 𝑋 𝑛 …獨立同分布,E( w
13、883; 𝑖 )=μ,D( 𝑋 𝑖 )= 𝜎 2 ,i=1,2…則前n個變量和的標(biāo)準(zhǔn)化變量 𝑌 𝑛 = 𝑖=1 𝑛 𝑋 𝑖 ?𝐸( 𝑖=1 𝑛 𝑋 𝑖 ) 𝐷(
14、19894;=1 𝑛 𝑋 𝑖 ) = 𝑖=1 𝑛 𝑋 𝑖 ?𝑛𝜇 𝑛 𝜎 = 𝑥 ?𝜇 𝜎/ 𝑛 ,對?x?R,有,此定理表明,當(dāng)n充分大時, 𝑌 Ү
15、99; 近似服從N(0,1)分布: 𝑖=1 𝑛 𝑋 𝑖 ~𝑁(𝑛𝜇,𝑛 𝜎 2 ),獨立同分布變量和,進(jìn)一步,即便 𝑋 1 , 𝑋 2 … 𝑋 𝑛 并不獨立,也不具有相同的概率分布形式,很多時候求和的最終歸宿仍為正態(tài)分布。,2
16、013-06-02 Sunday,22,中心極限定理,棣莫弗-拉普拉斯中心極限定理:林列定理的特例設(shè) 𝑛 𝐴 為n重伯努利試驗中事件A發(fā)生的次數(shù),P(A)=p(0<p<1), 標(biāo)準(zhǔn)化變量 𝑌 𝑛 = 𝑛 𝐴 ?𝑛𝑝 𝑛𝑝(1?𝑝) ,對?x?
17、R,,獨立同分布,此定理表明,當(dāng)n充分大時, 𝑌 𝑛 近似服從N(0,1)分布: 𝑛 𝐴 ~𝑁(𝑛𝑝,𝑛𝑝(1?𝑝)),2013-06-02 Sunday,23,中心極限定理,林德伯格-費勒中心極限定理設(shè)隨機變量序列 𝑋 𝑖 獨立但不一定同分
18、布,它們具有有限的數(shù)學(xué)期望和方差E( 𝑋 𝑖 )=μ,D( 𝑋 𝑖 )= 𝜎 2 ≠0,i=1,2…n,則前n個變量和 𝑆 𝑛 = 𝑖=1 𝑛 𝑋 𝑖 ,記 𝑠 𝑖 2 =D( 𝑋 𝑖 ),
19、120590; 𝑛 2 = 𝑖=1 𝑛 𝑠 𝑖 2 =𝐷( 𝑆 𝑛 ) ,對?ε>0,若序列滿足林德伯格條件:,則稱該序列趨向于正態(tài)分布,即 𝑆 𝑛 / 𝜎 𝑛 ~N(0,1),獨立變量,2013-06-02 Sunday,24,χ2分布、
20、t分布、F分布,在正態(tài)分布、中心極限定理確立之下,20世紀(jì)后χ2分布、t分布、F分布也出現(xiàn)了,2013-06-02 Sunday,25,正態(tài)分布簡史,2013-06-02 Sunday,26,正態(tài)分布簡史,17世紀(jì),惠更斯(1629-1695)研究賭博時創(chuàng)立數(shù)學(xué)期望;18世紀(jì),伯努利(1667-1748)伯努利大數(shù)定律:事件發(fā)生的頻率依概率收斂于事件的概率;1909年由伯萊爾證明;18世紀(jì),棣莫弗(1667-1754)二項概率逼近:
21、用二項分布逼近正態(tài)分布,并提出了中心極限定理;18世紀(jì),拉普拉斯(1749-1827)建立了中心極限定理的一般形式;19世紀(jì),勒讓德(1752-1833)發(fā)明最小二乘法;19世紀(jì),高斯(1777-1855)正態(tài)誤差理論(以下有詳解);19世紀(jì),拉普拉斯在高斯研究的基礎(chǔ)上,用中心極限定理論證了正態(tài)分布(高斯分布);19世紀(jì),海根提出元誤差學(xué)說,逐步正式確立誤差服從正態(tài)分布。,2013-06-02 Sunday,27,誤差計算,最
22、小二乘法:目的是使誤差最小觀測中有誤差,所有方程的累積誤差度量方法為:累積誤差= (觀測值?理論值) 2 ,使得該累積誤差最小的方法稱為最小二乘法。對于y=ax+b,,以及一系列觀測值( 𝑥 𝑖 , 𝑦 𝑖 ),確定a、b;記,2013-06-02 Sunday,28,誤差計算,誤差曲線:目的是尋找誤差分布規(guī)律18世紀(jì),辛普森(1710-1761),設(shè)誤差為
23、 𝑒 𝑖 = 𝑥 𝑖 ?𝜃,用算術(shù)平均值來估計𝜃得誤差分布函數(shù)為 𝑒 = 𝑖=1 𝑛 𝑒 𝑖 𝑛 ;18世紀(jì),拉普拉斯(1749-1827),拉普拉斯分布。設(shè)誤差分布函數(shù)滿足? 𝑓 ′ 𝑥 =Ү
24、98;𝑓 𝑥 ,解得誤差分布函數(shù)為f 𝑥 = 𝑚 2 𝑒 ?𝑚|𝑥| ;,2013-06-02 Sunday,29,中英文對照,2013-06-02 Sunday,30,中英文對照-概率分布,Probability Theory:概率論Mathematical Statistics:數(shù)理統(tǒng)計Sample Space:
25、樣本空間Random Occurrence:隨機事件Fundamental event:基本事件Certain event :必然事件Impossible event :不可能事件Random Variable:隨機變量Discrete Random Variable:離散型Continuous Random Variable:連續(xù)型Bayes’s Formula:貝葉斯公式Probability Distributi
26、on:概率分布Distribution Function:分布函數(shù)Distribution Law:分布律Probability Density:概率密度Conditional Distribution:條件分布,Uniformly Distribution:均勻分布Binomial Distribution:二項分布Bernoulli Distribution:伯努利分布Geometric Distribution:幾何
27、分布Poisson Distribution:泊松分布Exponentital Distribution:指數(shù)分布Mathematical Expectation:數(shù)學(xué)期望Variance:方差Covariance:協(xié)方差Correlation Coefficient:相關(guān)系數(shù)Normal Distribution:正態(tài)分布Central Limit Therem:中心極限定理Chebyshev’s Inequalit
28、y:切比雪夫不等式Principal Component Analysis:主成分分析,2013-06-02 Sunday,31,中英文對照-集中趨勢,Mean:均值Quadratic Mean:平方平均數(shù)(RMS),常用來計算一組數(shù)據(jù)和某個數(shù)據(jù)的“平均差”Arithmetic Mean:算術(shù)平均數(shù)( 𝑥 ),較中位數(shù)、眾數(shù)更少受隨機因素影響, 缺點是它更容易受到極端值影響Geometric Mean:幾何平
29、均數(shù)(G),適用于對比率數(shù)據(jù)的平均,并主要用于計算數(shù)據(jù)平均增長(變化)率Harmonic Mean:調(diào)和平均數(shù)(H),適用于計算平均速率,如電阻并聯(lián)調(diào)和平均數(shù)≤幾何平均數(shù)≤算術(shù)平均數(shù)≤平方平均數(shù)Median:中位數(shù),排序后取中間值Mode:眾數(shù),出現(xiàn)次數(shù)的變量值,用于分類數(shù)據(jù);,2013-06-02 Sunday,32,中英文對照-離散程度,Range:全距,最大值與最小值的差值(ω)Standard Deviation:
30、標(biāo)準(zhǔn)差(σ),樣本的標(biāo)準(zhǔn)差(s):樣本方差是對總體方差的無偏估計,因約束條件 𝑖=1 𝑛 ( 𝑥 𝑖 ? 𝑥 ) =0,得( 𝑥 𝑖 ? 𝑥 )的自由度為n-1,Variance:方差,亦稱二階矩( 𝜎 2 )標(biāo)準(zhǔn)差的單位和樣本數(shù)據(jù)一致,方差則不同;二者均常用,如(𝜇
31、, 𝜎 2 )、[𝜇?3𝜎,𝜇+3𝜎],方便起見,二者同時存在,總體的標(biāo)準(zhǔn)差(σ) :,定義:如右圖所示,可理解為一個從n維空間的一個點( 𝑥 1 , 𝑥 2 … 𝑥 𝑛 )到一條直線的距離函數(shù),2013-06-02 Sunday,33,中英文對照-離散程度,Coefficient of
32、 Variable:變異系數(shù)( 𝑐 𝑣 ),標(biāo)準(zhǔn)離差率相比標(biāo)準(zhǔn)差,變異系數(shù)無需參考數(shù)據(jù)的平均值,且是一個無量綱量,故在比較兩組量綱不同或平均值不同的數(shù)據(jù),應(yīng)該用變異系數(shù);平均值接近0時,微小擾動會造成其較大波動;常用于更新理論、排隊理論、可靠性理論,InterQuartile Range:四分差,四分位距,(IQR)描述第一四分位數(shù)( 𝑄 1 )和第三四分位數(shù)( 𝑄
33、 3 )的差值與方差、標(biāo)準(zhǔn)差一樣表示變量的離散程度,但其為Robust統(tǒng)計如序列1,2,…11,其中 𝑄 1 =3, 𝑄 3 =9, 𝑄 2 =6為中位數(shù);IQR=9-3=6其算術(shù)平均值為6,標(biāo)準(zhǔn)差為 110 ,幾何平均數(shù)約為4.91,全距為10,Quartile:四分位數(shù), 𝑄 1 、 𝑄 2 、 𝑄 3 如序列1,2,3,4,
34、其中 𝑄 1 、 𝑄 2 、 𝑄 3 分別為1.5、2.5、3.5,2013-06-02 Sunday,34,中英文對照-分布形態(tài),Skewness:偏度( 𝑠 𝑘 )衡量統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的量,描述分布的非對稱程度; 𝑠 𝑘 >0,正偏態(tài),右偏態(tài),右側(cè)尾部更長,算術(shù)平均數(shù)>中位數(shù)>眾數(shù);
35、119904; 𝑘 中位數(shù)>算術(shù)平均數(shù); 𝑠 𝑘 =0,數(shù)值相對均勻的分布在平均值兩側(cè),但不一定對稱;若分布對稱,則算術(shù)平均數(shù)=中位數(shù)且 𝑠 𝑘 =0;若分布對稱且為單峰,則算術(shù)平均數(shù)=中位數(shù)=眾數(shù)且 𝑠 𝑘 =0。Kurtosis、Peakness:峰度,峰態(tài)系數(shù),表征概率密度函數(shù)分布曲線在平均值處峰值高低的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計學(xué)數(shù)據(jù)分析 統(tǒng)計學(xué)
- 數(shù)據(jù)挖掘中的聚類方法及其應(yīng)用——基于統(tǒng)計學(xué)視角的研究.pdf
- 統(tǒng)計學(xué)數(shù)據(jù)的圖表展示
- 負(fù)荷建模中實測數(shù)據(jù)的統(tǒng)計學(xué)特性.pdf
- 統(tǒng)計學(xué)論文(數(shù)據(jù)分析)
- 論統(tǒng)計學(xué)中的統(tǒng)計思想
- 淺析統(tǒng)計學(xué)中的統(tǒng)計思想
- 統(tǒng)計學(xué)在股票價格統(tǒng)計數(shù)據(jù)中的應(yīng)用
- 解剖統(tǒng)計學(xué)滲透統(tǒng)計學(xué)玩轉(zhuǎn)統(tǒng)計學(xué)培訓(xùn)班
- 統(tǒng)計學(xué)
- 衛(wèi)生統(tǒng)計學(xué) 醫(yī)學(xué)統(tǒng)計學(xué) 習(xí)題
- 《統(tǒng)計學(xué)基礎(chǔ)》單元二統(tǒng)計數(shù)據(jù)的搜集
- 第2章統(tǒng)計學(xué)統(tǒng)計數(shù)據(jù)收集
- 臨床試驗中的統(tǒng)計學(xué)
- 統(tǒng)計學(xué)
- 統(tǒng)計學(xué)在教學(xué)中的分析
- 臨床試驗缺失數(shù)據(jù)的統(tǒng)計學(xué)考量
- 衛(wèi)生統(tǒng)計學(xué)衛(wèi)生統(tǒng)計學(xué) (35)
- 基于統(tǒng)計學(xué)的人機交互視頻數(shù)據(jù)挖掘系統(tǒng)研究.pdf
- 第二章--統(tǒng)計學(xué)-數(shù)據(jù)的搜集
評論
0/150
提交評論