各種聚類算法及改進(jìn)算法研究_第1頁
已閱讀1頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、各種聚類算法及改進(jìn)算法的研究各種聚類算法及改進(jìn)算法的研究作者:王安志李明東李超時間:20093310:59:00來源:論文天下論文網(wǎng)論文關(guān)鍵詞:數(shù)據(jù)挖掘;聚類算法;聚類分析論文關(guān)鍵詞:數(shù)據(jù)挖掘;聚類算法;聚類分析論文摘要:論文摘要:該文詳細(xì)闡述了數(shù)據(jù)挖掘領(lǐng)域的常用聚類算法及改進(jìn)算法,并比較分析了其優(yōu)缺點,提出了數(shù)據(jù)挖掘?qū)垲惖牡湫鸵?,指出各自的特點,以便于人們更快、更容易地選擇一種聚類算法解決特定問題和對聚類算法作進(jìn)一步的研究。并給出

2、了相應(yīng)的算法評價標(biāo)準(zhǔn)、改進(jìn)建議和聚類分析研究的熱點、難點。上述工作將為聚類分析和數(shù)據(jù)挖掘等研究提供有益的參考。1引言引言隨著經(jīng)濟(jì)社會和科學(xué)技術(shù)的高速發(fā)展,各行各業(yè)積累的數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中提取有用的信息成為當(dāng)務(wù)之急。聚類是將數(shù)據(jù)劃分成群組的過程,即把數(shù)據(jù)對象分成多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。它對未知數(shù)據(jù)的劃分和分析起著非常有效的作用。通過聚類,能夠識別密集和稀疏的區(qū)域,發(fā)現(xiàn)全

3、局的分布模式,以及數(shù)據(jù)屬性之間的相互關(guān)系等。為了找到效率高、通用性強的聚類方法人們從不同角度提出了許多種聚類算法,一般可分為基于層次的,基于劃分的,基于密度的,基于網(wǎng)格的和基于模型的五大類。2數(shù)據(jù)挖掘?qū)垲愃惴ǖ囊髷?shù)據(jù)挖掘?qū)垲愃惴ǖ囊?1)可兼容性:要求聚類算法能夠適應(yīng)并處理屬性不同類型的數(shù)據(jù)。(2)可伸縮性:要求聚類算法對大型數(shù)據(jù)集和小數(shù)據(jù)集都適用。(3)對用戶專業(yè)知識要求最小化。(4)對數(shù)據(jù)類別簇的包容性:即聚類算法不僅能在用

4、基本幾何形式表達(dá)的數(shù)據(jù)上運行得很好,還要在以其他更高維度形式表現(xiàn)的數(shù)據(jù)上同樣也能實現(xiàn)。(5)能有效識別并處理數(shù)據(jù)庫的大量數(shù)據(jù)中普遍包含的異常值,空缺值或錯誤的不符合現(xiàn)實的數(shù)據(jù)。(6)聚類結(jié)果既要滿足特定約束條件,又要具有良好聚類特性,且不丟失數(shù)據(jù)的真實信息。(7)可讀性和可視性:能利用各種屬性如顏色等以直觀形式向用戶顯示數(shù)據(jù)挖掘的結(jié)果。(8)處理噪聲數(shù)據(jù)的能力。(9)算法能否與輸入順序無關(guān)。3各種聚類算法介紹各種聚類算法介紹隨著人們對數(shù)

5、據(jù)挖掘的深入研究和了解,各種聚類算法的改進(jìn)算法也相繼提出,很多新算法在前人提出的算法中做了某些方面的提高和改進(jìn),且很多算法是有針對性地為特定的領(lǐng)域而設(shè)計。某些算法可能對某類數(shù)據(jù)在可行性、效率、精度或簡單性上具有一定的優(yōu)越性,但對其它類型的數(shù)據(jù)或在其他領(lǐng)域應(yīng)用中則不一定還有優(yōu)勢。所以,我們必須清楚地了解各種算法的優(yōu)缺點和應(yīng)用范圍,根據(jù)實際問題選擇合適的算法。3.1基于層次的聚類算法基于層次的聚類算法基于層次的聚類算法對給定數(shù)據(jù)對象進(jìn)行層次

6、上的分解,可分為凝聚算法和分裂算法。(1)自底向上的凝聚聚類方法。這種策略是以數(shù)據(jù)對象作為原子類,然后將這些原子類進(jìn)行聚合。逐步聚合成越來越大的類,直到滿足終止條件。凝聚算法的過程為:在初始的輸入對象用分類屬性值對來描述。COBWEB的優(yōu)點為:可以自動修正劃分中類的數(shù)目;不需要用戶提供輸入?yún)?shù)。缺點為:COBWEB基于這樣一個假設(shè):在每個屬性上的概率分布是彼此獨立的。但這個假設(shè)并不總是成立。且對于偏斜的輸入數(shù)據(jù)不是高度平衡的,它可能導(dǎo)致

7、時間和空間復(fù)雜性的劇烈變化,不適用于聚類大型數(shù)據(jù)庫的數(shù)據(jù)。3.6模糊聚類算法模糊聚類算法現(xiàn)實中很多對象沒有嚴(yán)格的屬性,其類屬和形態(tài)存在著中介性,適合軟劃分。恰好模糊聚類具有描述樣本類屬中間性的優(yōu)點,因此成為當(dāng)今聚類分析研究的主流。常用的模糊聚類有動態(tài)直接聚類法、最大樹法、FCM等?;驹頌椋杭僭O(shè)有N個要分析的樣本,每個樣本有M個可量化的指標(biāo),一般步驟為:(1)標(biāo)準(zhǔn)化數(shù)據(jù):常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有:小數(shù)定標(biāo)規(guī)范化,最大最小值規(guī)范化,標(biāo)準(zhǔn)差

8、規(guī)范化等。(2)建立模糊相似矩陣,標(biāo)定相似系數(shù)。(3)計算多極相似矩陣,計算整體相似關(guān)系矩陣,有傳遞閉包法,動態(tài)直接聚類法,最大樹法等。(4)給定一個聚類水平,計算絕對相似矩陣。按行列調(diào)整絕對相似矩陣,每個分塊即為一個分類。3.6.1模糊C均值聚類算法FCM算法用隸屬度確定每個樣本屬于某個聚類的程度。它與K平均算法和中心點算法等相比,計算量可大大減少,因為它省去了多重迭代的反復(fù)計算過程,效率將大大提高。同時,模糊聚類分析可根據(jù)數(shù)據(jù)庫中的

9、相關(guān)數(shù)據(jù)計算形成模糊相似矩陣,形成相似矩陣之后,直接對相似矩陣進(jìn)行處理即可,無須多次反復(fù)掃描數(shù)據(jù)庫。根據(jù)實驗要求動態(tài)設(shè)定m值,以滿足不同類型數(shù)據(jù)挖掘任務(wù)的需要,適于高維度的數(shù)據(jù)的處理,具有較好的伸縮性,便于找出異常點。但m值根據(jù)經(jīng)驗或者實驗得來,具有不確定性,可能影響實驗結(jié)果。并且,由于梯度法的搜索方向總是沿著能量減小的方向,使得算法存在易陷入局部極小值和對初始化敏感的缺點。為克服上述缺點,可在FCM算法中引入全局尋優(yōu)法來擺脫FCM聚類

10、運算時可能陷入的局部極小點,優(yōu)化聚類效果。3.6.2免疫進(jìn)化算法該算法借鑒生命科學(xué)中的免疫概念和理論在保留原算法優(yōu)良特性的前提下,力圖有選擇、有目的地利用待求問題中的一些特征或知識來抑制其優(yōu)化過程中出現(xiàn)的退化現(xiàn)象。免疫算法的核心在于免疫算子的構(gòu)造,通過接種疫苗或免疫選擇兩個步驟來完成。免疫進(jìn)化算法能提高個體的適應(yīng)度和防止群體的退化,從而達(dá)到減輕原有進(jìn)化算法后期的波動現(xiàn)象和提高收斂速度。例如IFCM、IFCL算法。它們既較大地提高了獲取全

11、局最優(yōu)的概率,又減輕了基于遺傳聚類算法在遺傳后期的波動現(xiàn)象。進(jìn)一步的工作是參數(shù)的適當(dāng)選取和減小運行時間等。人對于客觀事物的識別往往只通過一些模糊信息的綜合,便可以獲得足夠精確的定論。[3.7其它聚類算法其它聚類算法3.7.1基于群的聚類方法該法是進(jìn)化計算的一個分支,模擬了生物界中蟻群、魚群等在覓食或避敵時的行為??煞譃橄伻核惴ˋCO和PSO。蟻群聚類算法的許多特性,如靈活性、健壯性、分布性和自組織性等,使其非常適合本質(zhì)上是分布、動態(tài)及又

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論