交易數(shù)據(jù)的聚類分析.pdf_第1頁
已閱讀1頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、聚類分析,是將物理或抽象對象集合劃分為由相似對象組成的多個(gè)類的過程。近年來,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,聚類分析作為數(shù)據(jù)挖掘的重要內(nèi)容得到了廣泛的研究,并應(yīng)用于許多領(lǐng)域中。 隨著信息與互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們擁有的數(shù)據(jù)不僅數(shù)量越來越龐大,而且數(shù)據(jù)類型越來越復(fù)雜、結(jié)構(gòu)越來越多樣。因此,現(xiàn)有的聚類算法在實(shí)際應(yīng)用中仍然面臨兩個(gè)問題:1)算法在處理大規(guī)模數(shù)據(jù)時(shí),性能急劇下降甚至無法完成數(shù)據(jù)分析,不具有可伸縮性;2)很多聚類算法局限于理論上的分

2、析,較少考慮具體應(yīng)用中的實(shí)際數(shù)據(jù)特征與差異,因而實(shí)用性差。 交易數(shù)據(jù)是一類特殊的類別數(shù)據(jù),具有數(shù)據(jù)量大和維數(shù)高的特點(diǎn)。典型的交易數(shù)據(jù)包括購物籃數(shù)據(jù)、WEB日志數(shù)據(jù)、客戶信息、病人診斷記錄以及圖像信息等,通常產(chǎn)生于零售業(yè)、電子商務(wù)、醫(yī)療以及電信、保險(xiǎn)、銀行等行業(yè)。因此,針對交易數(shù)據(jù),研究可伸縮聚類分析方法是一個(gè)同時(shí)具有挑戰(zhàn)性和實(shí)際意義的課題。本論文以大規(guī)模交易數(shù)據(jù)為研究對象,重點(diǎn)研究大規(guī)模交易數(shù)據(jù)聚類分析中的一些問題。本文的主要研

3、究內(nèi)容和創(chuàng)新點(diǎn)包括以下幾個(gè)方面: (1)提出了可伸縮的大規(guī)模交易數(shù)據(jù)聚類分析框架,即SCALE(Sampling,ClusteringstructureAssessment,cLusteringanddomain—specificEvaluation)。SCALE的設(shè)計(jì)具有下列特點(diǎn):1)針對交易數(shù)據(jù)的特征,提出采用覆蓋密度以及加權(quán)覆蓋密度有效地測量一組交易數(shù)據(jù)的整體相似度;2)基于加權(quán)覆蓋密度設(shè)計(jì)和實(shí)現(xiàn)可伸縮的WCD交易數(shù)據(jù)聚類

4、算法;3)采用聚類結(jié)構(gòu)探測方法生成候選的聚類數(shù)量,有效地減少聚類算法參數(shù)空間的搜索;4)將聚類結(jié)果評估集成到該框架下,用領(lǐng)域特定的度量輔助用戶選擇最優(yōu)的聚類結(jié)果。實(shí)驗(yàn)結(jié)果表明SCALE框架下的交易數(shù)據(jù)聚類分析能生成高質(zhì)量的交易數(shù)據(jù)聚類結(jié)果。 (2)研究了交易數(shù)據(jù)聚類結(jié)構(gòu)探測的問題。針對通用類別數(shù)據(jù)聚類結(jié)構(gòu)識別方法BKPlot的兩個(gè)弱點(diǎn),即噪音候選聚類數(shù)量多以及處理具有大量數(shù)據(jù)項(xiàng)的交易數(shù)據(jù)集時(shí)算法性能下降,提出在交易數(shù)據(jù)集找出一組

5、候選的最優(yōu)聚類數(shù)量“Ks”的新方法,即DMDI方法。以自定義的交易聚類模式相異度度量為基礎(chǔ)設(shè)計(jì)和開發(fā)出一種凝聚的層次聚類算法,即ACTD算法。利用ACTD算法在聚類過程中生成的合并索引值可發(fā)現(xiàn)候選的最優(yōu)聚類數(shù)量。實(shí)驗(yàn)表明,DMDI方法能有效地識別交易數(shù)據(jù)聚類結(jié)構(gòu)。 (3)研究了交易數(shù)據(jù)聚類分析結(jié)果的穩(wěn)定性問題。傳統(tǒng)基于劃分的聚類方法的聚類結(jié)果常常陷入局部最優(yōu),而SOM神經(jīng)網(wǎng)絡(luò)的聚類結(jié)果穩(wěn)定,但只能處理數(shù)值型數(shù)據(jù)。為此,本文提出了

6、一種基于GHSOM神經(jīng)網(wǎng)絡(luò)的交易數(shù)據(jù)聚類分析方法,即GHSOM—CD方法。該方法在GHSOM網(wǎng)絡(luò)學(xué)習(xí)算法中引入覆蓋密度的概念,改進(jìn)了神經(jīng)元權(quán)值更新方法以及網(wǎng)絡(luò)訓(xùn)練停止條件。實(shí)驗(yàn)表明GHSOM—CD方法在交易數(shù)據(jù)集上產(chǎn)生的聚類結(jié)果更有意義,是SOM神經(jīng)網(wǎng)絡(luò)在類別數(shù)據(jù)聚類分析上的擴(kuò)展應(yīng)用。 (4)研究了頻繁項(xiàng)集的壓縮問題。針對頻繁項(xiàng)集挖掘中頻繁項(xiàng)集數(shù)量過多的問題,研究并提出一種動態(tài)聚類的方法,即EESC算法,近似壓縮頻繁項(xiàng)集。該聚類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論