spss聚類分析詳解

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-10-16 格式：ppt 頁(yè)數(shù)：80 大?。?.63MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩79頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、聚類分析,聚類分析是研究（樣品或指標(biāo)）分類問題的一種多元統(tǒng)計(jì)方法。類是指相似元素的集合。分類：1、系統(tǒng)聚類法------（分層聚類）系統(tǒng)聚類法是應(yīng)用最廣泛的一種（Hierarchical Cluster過程） 1）、聚類原則：都是相近的聚為一類，即距離最近或最相似的聚為一類。 2）、分層聚類的方法可以用于樣本聚

2、類（Q）型，也可以用于變量聚類（R型）。2、非系統(tǒng)聚類法-----（快速聚類法----K-均值聚類法）（K-means Cluster)3、兩步聚類法-----一種探索性的聚類方法（TwoStep Cluster）,K-均值聚類分析K-means Cluster,又稱為快速樣本聚類法，是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點(diǎn)：是占內(nèi)存少、計(jì)算量小、處理速度快，特別適合大

3、樣本的聚類分析。缺點(diǎn)：應(yīng)用范圍有限，要求用戶制定分類數(shù)目(要告知)，只能對(duì)觀測(cè)量（樣本）聚類，而不能對(duì)變量聚類，且所使用的聚類變量必須都是連續(xù)性變量。,基本原理具體做法1、按照指定的分類數(shù)目n，按某種方法選擇某些觀測(cè)量，設(shè)為{Z1，Z2，…Zn}，作為初始聚心。2、計(jì)算每個(gè)觀測(cè)量到各個(gè)聚心的歐氏距離。即按就近原則將每個(gè)觀測(cè)量選入一個(gè)類中，然后計(jì)算

4、各個(gè)類的中心位置，即均值，作為新的聚心。3、使用計(jì)算出來的新聚心重新進(jìn)行分類，分類完畢后繼續(xù)計(jì)算各類的中心位置，作為新的聚心，如此反復(fù)操作，直到兩次迭代計(jì)算的聚心之間距離的最大改變量小于初始聚類心間最小距離的倍數(shù)時(shí)，或者到達(dá)迭代次數(shù)的上限時(shí)，停止迭代。,數(shù)據(jù)標(biāo)準(zhǔn)化處理：,存儲(chǔ)中間過程數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化處理，并存儲(chǔ)。,,指定5類,,收斂標(biāo)準(zhǔn)值,,存儲(chǔ)最終結(jié)果輸出情況，在數(shù)據(jù)文件中（QCL-1、QCL-2）,,初始聚心選項(xiàng)，輸出方差分析表,

5、,初始聚類中心表,,具體城市看后表,,最終聚類中心表,,聚類結(jié)果：QCL-1說明聚類結(jié)果，QCL-2說明聚類的長(zhǎng)度情況,,系統(tǒng)聚類法Hierarchical Cluster,系統(tǒng)聚類法優(yōu)點(diǎn)：既可以對(duì)觀測(cè)量（樣品）也可對(duì)變量進(jìn)行聚類，既可以連續(xù)變量也可以是分類變量，提供的距離計(jì)算方法和結(jié)果顯示方法也很豐富。,應(yīng)用實(shí)例,某電冰箱廠開發(fā)某一新產(chǎn)品，在投放市場(chǎng)前希望對(duì)以往經(jīng)銷的國(guó)內(nèi)6個(gè)地區(qū)征集對(duì)新產(chǎn)品的評(píng)價(jià)，若對(duì)新產(chǎn)品的評(píng)價(jià)

6、指標(biāo)有三項(xiàng)：式樣、性能、顏色，評(píng)價(jià)的調(diào)整表采用10分制，調(diào)查結(jié)果的數(shù)據(jù)如下表,,,,,1 2 3 4 5 6,性能 9 1 10 9 2 8 顏色 8 2

7、 7 9 4 6 式樣 7 2 8 3 5 7,地區(qū)（樣品）,指標(biāo),用分類法對(duì)6個(gè)樣品進(jìn)行分類，以估計(jì)哪些地區(qū)最有可能經(jīng)銷這類新產(chǎn)品？,按公式計(jì)算兩兩樣品間的相似系數(shù)，得相似矩陣,1 2 3

8、 4 5 6,123456,Q =,按四條原則進(jìn)行分類,,,,作聚類分析圖,X3X6X1X4X2X5,,,,,,,,,,,,,,,,,1,0.994,0.955,0.994,0.933,一、問題提出聚類分析——對(duì)一批樣品或指標(biāo)進(jìn)行分類的一種統(tǒng) 計(jì)方法。,具體處理方法：（思路）,1、具體研究的分類對(duì)象：樣品或指標(biāo)2、方法：把“性質(zhì)相似”或“相

9、互關(guān)系密切”的樣品或指標(biāo)聚在一起。3、步驟：1）首先給出度量“相似”或“關(guān)系密切”的統(tǒng)計(jì)指標(biāo),,2）形成一個(gè)由小到大的分析系統(tǒng)。3）把整個(gè)分類系統(tǒng)畫成一張分類圖,（3）相關(guān)系數(shù)（4）關(guān)聯(lián)系數(shù),指標(biāo)：（1）統(tǒng)計(jì)指標(biāo)是相似系數(shù)。根據(jù)相似性歸為一類，否則為另一類。（2）統(tǒng)計(jì)指標(biāo)是樣品（空間的點(diǎn)）之間的距離將距離近的點(diǎn)歸成一類，否則為另一類。,二、聚類統(tǒng)計(jì)量,首先定義一些分類統(tǒng)

10、計(jì)指標(biāo) —— 刻畫樣或指標(biāo)之間的相似程度（這些統(tǒng)計(jì)指標(biāo)稱為聚類統(tǒng)計(jì)量）,在市場(chǎng)研究中，樣品 —— 用作分類的事物指標(biāo) —— 用來作為分類依據(jù)的變量。（如：年齡、收入、銷售量）,（一）相似系數(shù)（夾角余弦）一般式：假定每個(gè)樣品包含有P項(xiàng)指標(biāo)，若有幾個(gè)樣品的調(diào)查數(shù)據(jù),每一個(gè)樣品都可看成P維空間中的一個(gè)向量,,對(duì)于任意兩個(gè)樣品Xi和Xj的相似程度可用這兩個(gè)向量之間的夾角余弦,來表示：,Xi和Xj相重合時(shí)，夾角,

11、相似程度為,Xi和Xj相互垂直時(shí)，,相似程度為,相似密切,,解析幾何知識(shí)：相似系數(shù),其中：,如果把上述n個(gè)樣品的任何兩個(gè)樣品的相似系數(shù),都計(jì)算出來并排列成一,個(gè)矩陣：,根據(jù)算出的,，就可對(duì)n個(gè)樣品進(jìn)行聚類,用相似系數(shù)作為聚類統(tǒng)計(jì)量時(shí)的分類方法,1、分類原則：（1）若選出一對(duì)樣品，在已分好的類中未出現(xiàn)，則形成一個(gè)獨(dú)立新類。（2）若選出兩個(gè)樣品中，有一個(gè)是在已分好的類中出現(xiàn)過，則把另一個(gè)樣品也加入到該類中去。（3）若選出一對(duì)樣品

12、，都分別出現(xiàn)已經(jīng)分好的兩類中，則把這兩個(gè)類聯(lián)結(jié)在一起。（4）若選出的一對(duì)樣品都出現(xiàn)在同一組中，則這對(duì)樣品就不用再分組了。按上述四條原則反復(fù)進(jìn)行，直到把所有樣品都分類完畢，最后以分類圖形式表示,2、分類方法,例：設(shè)有7個(gè)樣品，每個(gè)樣品測(cè)得P個(gè)指標(biāo)，數(shù)據(jù)如表,,,,X1 X2 X3 X4 X5 X6 X7,,,樣品,指標(biāo),要求對(duì)此7個(gè)樣品進(jìn)行聚類，采用的聚類統(tǒng)計(jì)量是相似系數(shù)（夾角余弦）,首先

13、計(jì)算所有的兩個(gè)樣品間的相似系數(shù),1 2 3 4 5 6 7,1234567,Q =,按矩陣中的數(shù)值對(duì)7個(gè)樣品（按四個(gè)原則）進(jìn)行聚類,,1 2 3 4 5 6 7,1234567,Q =,,,,,,順序連結(jié)樣品

14、相似系數(shù),123456,X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1

15、 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6,,,,,,,,按矩陣中的數(shù)值對(duì)7個(gè)樣品（按四個(gè)原則）進(jìn)行聚類,1、記下Q中最大值q15=0.97，劃去Q中的第5行第5列2、記下Q中剩余元素最大值q13=0.94，劃去Q中的第3行第3列,行,,,,,,,,（3）記下Q中剩余元素最大值q24=0.91，

16、劃去Q中的第4行第4列（4）記下Q中剩余元素最大值q26=0.67，劃去Q中的第6行第6列（5）記下Q中剩余元素最大值q12=0.51，劃去Q中的第2行第2列（6）記下Q中剩余元素最大值q17=0.24,作聚類圖：,X1X5X3X2X4X6X7,,,,,,,,,,,,,,,,,,,,0.97,0.94,0.91,0.67,0.51,0.24,2）利用相關(guān)作聚類分析,例：設(shè)有n個(gè)樣品，每個(gè)樣品測(cè)得8個(gè)指標(biāo)X1，X2，…，

17、X8。要求對(duì)8個(gè)指標(biāo)進(jìn)行聚類，聚類統(tǒng)計(jì)量采用相關(guān)系數(shù),設(shè)相關(guān)矩陣R = （）為：,,1 2 3 4 5 6 7 8,12345678,,,,,,順序連結(jié)樣品相似系數(shù),1234567,X1 X6 0.99

18、 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3

19、 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7,,,,R=,按矩陣R中數(shù)值對(duì)8個(gè)指標(biāo)（按四個(gè)原則）進(jìn)行聚類：1）記下矩陣中的最大值,，劃去第6行第6列,2）記下矩陣中的最大值,，劃去第3行第3列,以此類推。,作聚類圖：,X1X6X3X4X2X7X5X8,,,,,,,,

20、,,,,,,,,,,,,,,,0.99,0.96,0.93,0.68,0.49,0.47,-0.94,主要城市日照時(shí)數(shù),,注：連續(xù)變量,SPSS提供不同類間距離的測(cè)量方法1、組間連接法2、組內(nèi)連接法3、最近距離法4、最遠(yuǎn)距離法5、重心法6、中位數(shù)法7、Ward最小偏差平方和法,,觀測(cè)量概述表,,聚類步驟，與圖結(jié)合看！,,,,,,,,,,,,,4、5,,聚類方法有系統(tǒng)聚類和逐步聚類，輸入數(shù)據(jù)集可以是普通數(shù)據(jù)集、相關(guān)矩陣（CO

21、RR過程產(chǎn)生）或協(xié)方差矩陣（FACTOR等過程產(chǎn)生）。SAS提供的聚類過程有：1、CLUSTER對(duì)坐標(biāo)數(shù)據(jù)或距離數(shù)據(jù)的觀測(cè)值用11種方法進(jìn)行系統(tǒng)聚類，當(dāng)觀測(cè)值數(shù)太多時(shí)，不宜直接采用。2、FASTCLUS對(duì)于坐標(biāo)數(shù)據(jù)，用K-均值法對(duì)觀測(cè)值進(jìn)行逐步聚類，當(dāng)觀測(cè)值很多時(shí)，則先用FACTCLUS過程對(duì)其進(jìn)行初步聚類，然后再用CLUSTER過程進(jìn)行系統(tǒng)聚類。3、VARCLUS通過斜交多組分量分析對(duì)變量進(jìn)行系統(tǒng)聚類或逐步聚類。4、TREE為

22、CLUSTER或VARCLUS過程產(chǎn)生的輸出畫樹狀圖。,CLUSTER過程開始每個(gè)觀測(cè)值自成一類，然后求兩兩之間的距離，將距離最近的兩個(gè)觀測(cè)值合成一類。這個(gè)過程一直進(jìn)行下去，每次減少一類，直到合成一類為止。聚類方法有11種，可根據(jù)問題的性質(zhì)選用，它們的區(qū)別在于怎樣計(jì)算兩類之間的距離。METHOD=指定方法AVERAGE（平均法）、CENTROID（重心法）、COMPLETE（最大距離法）、DENSITY（密度法）、MEDIAM（

23、中位數(shù)法）等,美國(guó)十個(gè)城市的分類根據(jù)兩個(gè)城市見航空距離將美國(guó)十個(gè)大城市作分類,,,,,,,聚類分析SAS程序：,,原始數(shù)據(jù)是兩兩之間距離的三角陣（而不是坐標(biāo)）,,,輸入格式,,55列為城市,,15位,,平均法重心法最小距離法,,,輸出F及t統(tǒng)計(jì)量,,觀測(cè)值之間距離的均方根,,輸出結(jié)果：,,類數(shù),,,指出被合并的類,,新類中的觀測(cè)值數(shù),,,類間距離除以觀測(cè)值間距離均方根得來,,,F、t**2峰值(起伏)越大說明分類顯著,,研究各種飲

24、料在市場(chǎng)消費(fèi)的分配規(guī)律，試確定各種飲料消費(fèi)類型,聚類分析的第幾步,,哪兩個(gè)樣本或小類聚成一類,,相應(yīng)的樣本距離或小類距離,,指明是樣本(0)還是小類(n),,下面第幾步用到,,垂直冰柱圖顯示層次聚類分析,從冰柱圖最后一行開始觀察，第一列表示類數(shù),,,,,,,,,,,兩步聚類法TwoStep Cluster,一種探索性的聚類方法，是隨著人工智能的發(fā)展起來的智能聚類方法中的一種。用于解決海量數(shù)據(jù)或具有復(fù)雜類別結(jié)構(gòu)的聚類分析問題。,兩步聚類

25、法特點(diǎn)：1、同時(shí)處理離散變量和連續(xù)變量的能力2、自動(dòng)選擇聚類數(shù)3、通過預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類模型4、可以處理超大樣本量的數(shù)據(jù),簡(jiǎn)單介紹基本原理分兩步進(jìn)行第一步：預(yù)聚類。對(duì)記錄進(jìn)行初始的歸類，用戶自定義最大類別數(shù)。通過構(gòu)建和修改特征樹（CT Free）完成。第二步：正式聚類。對(duì)第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案，系統(tǒng)根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)確定聚類的類別數(shù)目。以后，可以通過傳統(tǒng)的聚類方法進(jìn)行聚類（SPS

26、S中采用合并型分層聚類法）。,輸出各變量在聚類中比重圖,,輸出出聚類餅分圖,,每個(gè)變量做一張條圖,,每一各類別做兩張,分別為連續(xù)與離散聚類,,重要性測(cè)度,,1、質(zhì)心表和頻數(shù)表2、聚類分析表3、自動(dòng)聚類結(jié)果表,,聚類數(shù)目,,數(shù)值越小效果越好,,BIC相鄰兩項(xiàng)差值,,看數(shù)據(jù)的峰值，看聚類效果。4、8、10、14類。,,BIC準(zhǔn)則-Schwartz Bayesian Criterion,,離散變量頻數(shù)表的圖形表示,,連續(xù)變量在各個(gè)類別中的

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

spss聚類分析詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

spss聚類分析詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載