2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第一章多元正態(tài)分布1.在數(shù)據(jù)處理時,為什么通常要進行標準化處理?數(shù)據(jù)的標準化(nmalization)是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。在某些比較和評價的指標處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標能夠進行比較和加權(quán)。其中最典型的就是01標準化和Z標準化。(1)01標準化(01nmalization)也叫離差標準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[01]區(qū)間,轉(zhuǎn)換函數(shù)如下:

2、其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有一個缺陷就是當有新數(shù)據(jù)加入時,可能導(dǎo)致max和min的變化,需要重新定義。(2)Zsce標準化(zeromeannmalization)也叫標準差標準化,經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1,也是SPSS中最為常用的標準化方法,其轉(zhuǎn)化函數(shù)為:其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標準差。2、歐氏距離與馬氏距離的優(yōu)缺點是什么?歐氏距離(Euclid

3、eandistance)也稱歐幾里得度量、歐幾里得度量,是一個通常采用的距離定義,它是在m維空間中兩個點之間的真實距離。在二維和三維空間中的歐氏距離的就是兩點之間的距離。缺點:就大部分統(tǒng)計問題而言,歐氏距離是不能令人滿意的。(每個坐標對歐氏距離的貢獻是同等的。當坐標表示測量值時,它們往往帶有大小不等的隨機波動,在這種情況下,合理的方法是對坐標加權(quán),使變化較大的坐標比變化較小的坐標有較小的權(quán)系數(shù),這就產(chǎn)生了各種距離。當各個分量為不同性質(zhì)的

4、量時,“距離”的大小與指標的單位有關(guān)。它將樣品的不同屬性(即各指標或各變量)之間的差別等同看待,這一點有時不能滿足實際要求。沒有考慮到總體變異對距離遠近的影響。馬氏距離(Mahalanobisdistance)是由印度統(tǒng)計學(xué)家馬哈拉諾比斯提出的,表示數(shù)據(jù)的協(xié)方差距離。為兩個服從同一分布并且其協(xié)方差矩陣為Σ的隨機變量與的差異程度:如果協(xié)方差矩陣為單位矩陣那么馬氏距離就簡化為歐氏距離如果協(xié)方差矩陣為對角陣則其也可稱為正規(guī)化的歐氏距離。它是一

5、種有效的計算兩個未知樣本集的相似度的方法。對于一個均值為μ,協(xié)方差矩陣為Σ的多變量向量,樣本與總體的馬氏距離為(dm)^2=(xμ)Σ^(1)(xμ)。在絕大多數(shù)情況下,馬氏距離是可以順利計算的,但是馬氏距離的計算是不穩(wěn)定的,不穩(wěn)定的來源是協(xié)方差矩陣,這也是馬氏距離與歐式距離的最大差異之處。優(yōu)點:它不受量綱的影響,兩點之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān)。人均消費(元)331693.531105.464125364.321213.63

6、43130.038人口增長(%)599.7846.625213.6346.09925.410文盲半文盲(%)6356.32543.6973130.03825.410196.884協(xié)方差的逆矩陣1.88034E050.0004403686.09781E050.002799210.0006258930.000440370.2070239490.0002103740.02370440.060449816.0978E050.0002103740

7、.000227330.01050190.0030474740.0027992080.0237043520.0105018810.852889270.181399810.000625890.060449810.0030474740.18139980.070148804計算:邊遠及少數(shù)民族聚居區(qū)社會經(jīng)濟發(fā)展水平的指標數(shù)據(jù).xls=9(2003.232.251006.112.7112.01)s^1(2003.232.252T1006.112.

8、7112.01)’=950.11793817=45106144353F統(tǒng)計量=45.26.2拒絕零假設(shè),邊緣及少數(shù)民族聚居區(qū)的社會經(jīng)濟發(fā)展水平與全國平均水平有顯著差異。第三章聚類分析1.聚類分析的基本思想和功能是什么?研究的樣品或指標之間存著程度不同的相似性,于是根據(jù)一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間的相似程度的統(tǒng)計量,以這些統(tǒng)計量作為劃分類型的依據(jù),把一些相似程度較大的樣品聚合為一類,把另外一些彼此之間相似程度

9、較大的樣品又聚合為另外一類,直到把所有的樣品聚合完畢,形成一個有小到大的分類系統(tǒng),最后再把整個分類系統(tǒng)畫成一張分群圖,用它把所有樣品間的親疏關(guān)系表示出來。作用是把相似的研究對象歸類。2.試述系統(tǒng)聚類法的原理和具體步驟。首先將n個樣品看成n類(一類包含一個樣品)然后將性質(zhì)最接近的兩類合并成一個新類,得到n1類,再從中找出最接近的兩類加以合并變成n2類,如此下去,最后所有的樣品均在一類,將上述并類過程畫成一張圖便可決定分多少類,每類各有哪些

10、樣品。3.試述K均值聚類的方法原理K均值法是一種非譜系聚類法,把每個樣品聚集到其最近形心(均值)類中,它是把樣品聚集成K個類的集合,類的個數(shù)k可以預(yù)先給定或者在聚類過程中確定,該方法應(yīng)用于比系統(tǒng)聚類法大得多的數(shù)據(jù)組。把樣品分為K個初始類,進行修改,逐個分派樣品到期最近均值的類中(通常采用標準化數(shù)據(jù)或非標準化數(shù)據(jù)計算歐氏距離)重新計算接受新樣品的類和失去樣品的類的形心。重復(fù)這一步直到各類無元素進出。第四章判別分析1.應(yīng)用判別分析應(yīng)該具備什

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論