1、譜聚類算法建立在譜圖理論基礎(chǔ)上,是近年流行的高性能聚類算法。與傳統(tǒng)的聚類算法相比,它能夠在空間對(duì)任意形狀數(shù)據(jù)進(jìn)行聚類并收斂于全局最優(yōu)解。傳統(tǒng)的譜聚類通常認(rèn)為是無監(jiān)督的,但是對(duì)于實(shí)際數(shù)據(jù),我們很容易獲取其中一些數(shù)據(jù)的先驗(yàn)知識(shí)并利用它們?cè)黾泳垲惥取WV聚類中相似度函數(shù)定義,特征向量的選擇對(duì)其聚類效果起決定意義,于是本文利用數(shù)據(jù)的一些先驗(yàn)知識(shí)并結(jié)合譜聚類算法提出了半監(jiān)督譜聚類算法。
本文的主要研究工作與貢獻(xiàn)如下:
1.首先
2、對(duì)數(shù)據(jù)挖掘的研究背景及現(xiàn)狀、譜聚類的研究現(xiàn)狀、數(shù)據(jù)挖掘的任務(wù)和數(shù)據(jù)挖掘語言進(jìn)行簡(jiǎn)要介紹,然后概述聚類分析的相關(guān)理論,最后重點(diǎn)介紹了譜聚類的相關(guān)理論,分析了譜聚類優(yōu)勢(shì)及存在的缺陷。
2.傳統(tǒng)的譜聚類算法通常利用高斯核函數(shù)作為相似度函數(shù),但是對(duì)于密度分布不均勻的數(shù)據(jù)往往不能取得良好效果。在定義新的相似度函數(shù)基礎(chǔ)上,提出了一種密度自適應(yīng)的半監(jiān)督聚類算法。該算法結(jié)合半監(jiān)督聚類的成對(duì)約束理論,利用先驗(yàn)信息對(duì)樣本點(diǎn)之間的相似度進(jìn)行自適應(yīng)調(diào)
3、整,提高了聚類的精度。在人工數(shù)據(jù)集上進(jìn)行仿真,可以直觀地發(fā)現(xiàn)聚類效果明顯優(yōu)于傳統(tǒng)譜聚類,真實(shí)數(shù)據(jù)采用UCI數(shù)據(jù)集,采用傳統(tǒng)的外部評(píng)價(jià)標(biāo)準(zhǔn)一熵和準(zhǔn)確率進(jìn)行聚類評(píng)價(jià),結(jié)果也是令人滿意的,此外針對(duì)半監(jiān)督聚類,另外增加了CRI指標(biāo),研究成對(duì)約束和聚類效果優(yōu)劣的關(guān)系。
3.傳統(tǒng)的譜聚類算法選擇特征向量時(shí)往往取前k個(gè)特征值最大的特征向量。但有研究表明,有時(shí)取前k個(gè)最大的特征向量并不能取得良好效果。針對(duì)這個(gè)問題,本文提出了一種兩階段選取特征