1、聚類作為數(shù)據(jù)挖掘領(lǐng)域中一種非常有效的數(shù)據(jù)分析方法,得到了很多學(xué)者的研究,在模式識(shí)別、圖像處理、數(shù)據(jù)壓縮等領(lǐng)域得到了廣泛的應(yīng)用。所謂聚類就是將數(shù)據(jù)對(duì)象分組成為多個(gè)類或簇(Cluster),其劃分原則是將具有較高的相似度的數(shù)據(jù)對(duì)象間劃分到同一個(gè)簇中,而相似度誤差較大的數(shù)據(jù)對(duì)象應(yīng)劃分到不同的簇中。傳統(tǒng)的聚類算法只能針對(duì)一些靜態(tài)數(shù)據(jù)有很好的處理效果,而對(duì)于近年來(lái)引起機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域重點(diǎn)關(guān)注的演化數(shù)據(jù),更有待學(xué)者們的研究。
由于演
2、化數(shù)據(jù)是隨時(shí)間的推移數(shù)據(jù)分布會(huì)發(fā)生變化、有新數(shù)據(jù)的出現(xiàn)或舊數(shù)據(jù)的消亡,那么怎樣做到使每一時(shí)刻上的數(shù)據(jù)聚類性能盡可能的好,能夠基本正確地反映每一時(shí)刻的數(shù)據(jù)分布;通過(guò)聚類發(fā)掘數(shù)據(jù)的演化機(jī)制,例如聚類的出現(xiàn)、變化、分裂、消失等;還要使得聚類結(jié)果在時(shí)間上要盡可能平滑,使得當(dāng)前時(shí)刻的聚類結(jié)果與前一時(shí)刻的聚類結(jié)果盡可能的相類似,已有小部分學(xué)者進(jìn)行了研究。
本文著重研究演化數(shù)據(jù)的聚類問(wèn)題,研究了兩種無(wú)監(jiān)督的演化聚類算法和半監(jiān)督(帶約束)的演
3、化聚類算法,并進(jìn)行了簡(jiǎn)單的應(yīng)用。具體研究工作和成果如下:
(1)本文提出了基于時(shí)間平滑性的演化聚類框架,其框架是在Chakrabarti等人提出的在線式框架基礎(chǔ)上進(jìn)行修改完善得到的。除此之外,本文還對(duì)數(shù)據(jù)間的相似度矩陣作出了公式定義,相似度計(jì)算包括兩個(gè)部分之和:當(dāng)前時(shí)刻數(shù)據(jù)間的相似度與時(shí)間序列上的相似度。最后,并將框架具體應(yīng)用到標(biāo)準(zhǔn)譜聚類當(dāng)中,得到兩種新的演化譜聚類算法并進(jìn)行實(shí)驗(yàn)驗(yàn)證。
(2)本文提出了演化的雙層隨機(jī)
4、游走半監(jiān)督聚類算法,其算法是針對(duì)處理帶有約束信息的演化聚類的。原始的靜態(tài)雙層隨機(jī)游走半監(jiān)督聚類算法在處理不斷變化增加的數(shù)據(jù)時(shí),會(huì)花費(fèi)大量的時(shí)間與內(nèi)存,并且不能得到很好的效果。本文在雙層隨機(jī)游走半監(jiān)督聚類算法的基礎(chǔ)上很好的利用之前時(shí)刻的信息,通過(guò)在高層隨機(jī)游走時(shí)求解組件間的兩兩相似度直接加入前一時(shí)刻舊數(shù)據(jù)信息,大大減少了計(jì)算的時(shí)間,更好的處理演化半監(jiān)督數(shù)據(jù),能夠得到較好的聚類結(jié)果。
(3)本文設(shè)計(jì)了一種演化的人臉聚類系統(tǒng),此系統(tǒng)