版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、作為一種通用的數(shù)據(jù)結(jié)構(gòu),圖可以用來(lái)表示數(shù)據(jù)對(duì)象之間的各種復(fù)雜關(guān)系。例如:圖可以表示化合物的分子結(jié)構(gòu),蛋白質(zhì)交互網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),Web結(jié)構(gòu)圖等。隨著科學(xué)與工程領(lǐng)域中圖數(shù)據(jù)的大量出現(xiàn),從圖數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用的知識(shí)已成為數(shù)據(jù)挖掘領(lǐng)域一項(xiàng)重要的研究課題。圖模式挖掘是其中最重要的一個(gè)研究分支,因?yàn)榕c圖有關(guān)的絕大部分應(yīng)用(例如:圖查詢、圖分類、圖聚類等)都需要利用圖模式來(lái)管理、查詢和分析圖數(shù)據(jù)。本文主要對(duì)圖模式挖掘技術(shù)進(jìn)行深入研究,歸納總結(jié)了現(xiàn)有研究
2、成果的主要思想和優(yōu)缺點(diǎn),提出了一些新的圖模式挖掘問(wèn)題和解決方法,主要研究成果如下:
第一、提出從圖數(shù)據(jù)庫(kù)中挖掘代表模式問(wèn)題及其有效解決方法。目前的頻繁子圖挖掘算法通常產(chǎn)生大量的甚至指數(shù)級(jí)數(shù)量的頻繁子圖,嚴(yán)重地影響了挖掘結(jié)果的可用性。挖掘代表模式既可以極大地減少圖模式的輸出數(shù)量,又能使有有意義的圖模式保留在挖掘結(jié)果中。本文給出了挖掘代表模式問(wèn)題的形式化定義,并證明了該問(wèn)題是NP-hard。提出了一系列新的概念:δ-覆蓋圖,跳躍值
3、,δ-跳躍模式等。發(fā)現(xiàn)了δ-跳躍模式的一個(gè)重要性質(zhì):δ-跳躍模式一定是代表模式。利用δ-跳躍模式的性質(zhì),提出了挖掘代表模式的三個(gè)算法:RP-FP,RP-GD,RP-Leap。RP-FP和RP-GD挖掘完整的代表模式集合,RP-Leap挖掘近似的代表模式集合。RP-FP從頻繁閉圖模式中計(jì)算代表模式,具有緊的近似比保證。然而,當(dāng)頻繁閉圖模式數(shù)量大時(shí),RP-FP效率低。RP-GD采用聯(lián)機(jī)算法的思想,直接從圖數(shù)據(jù)庫(kù)中挖掘代表模式。算法復(fù)雜性分析
4、表明RP-GD的效率要遠(yuǎn)遠(yuǎn)高于RP-FP的效率。RP-Leap利用了圖模式搜索空間中大量分枝之間的相似性,快速跳過(guò)那些幾乎不產(chǎn)生代表模式的分枝,來(lái)挖掘一個(gè)近似代表模式集合。實(shí)驗(yàn)結(jié)果表明:(1) RP-FP,RP-GD,RP-Leap能得到一個(gè)小的而有意義的代表模式集合;(2) RP-GD的挖掘效率遠(yuǎn)遠(yuǎn)高于RP-FP的挖掘效率;而在結(jié)果質(zhì)量方面,RP-GD類似于RP-FP;(3) RP-Leap以丟失少量代表模式的代價(jià),取得了比RP-GD
5、快一個(gè)數(shù)量級(jí)的性能改善。
第二、提出從圖數(shù)據(jù)庫(kù)中挖掘核心子結(jié)構(gòu)問(wèn)題及其有效解決方法。核心子結(jié)構(gòu)在真實(shí)的圖數(shù)據(jù)庫(kù)中大量存在,例如化合物中的功能團(tuán)就是一類核心子結(jié)構(gòu)。針對(duì)核心子結(jié)構(gòu)的特征,本文給出了核心子結(jié)構(gòu)的形式化定義,稱為△-跳躍模式。發(fā)現(xiàn)了△-跳躍模式的很多重要性質(zhì)。例如:△跳躍模式是穩(wěn)定的,它們對(duì)躁聲和數(shù)據(jù)的變化不敏感,△值越大,它們的抗干擾能力越強(qiáng)。然而,△-跳躍模式不具有反單調(diào)性質(zhì)性質(zhì),挖掘它們非常具有挑戰(zhàn)性。通過(guò)仔細(xì)
6、研究跳躍模式自身的特性,本文提出了兩種新的裁剪技術(shù),基于內(nèi)擴(kuò)展的裁剪和基于外擴(kuò)展的裁剪。利用這兩裁剪技術(shù),設(shè)計(jì)了一個(gè)高效的跳躍模式挖掘算法GraphJP。在理論上,嚴(yán)格地證明了這兩種裁剪技術(shù)的正確性以及算法GraphJP的正確性。實(shí)驗(yàn)結(jié)果表明:這兩種新的裁剪技術(shù)能有效地裁剪圖模式搜索空間,算法GraphJP能高效可擴(kuò)展地挖掘頻繁跳躍模式,而且挖掘結(jié)果中含有圖數(shù)據(jù)庫(kù)中的核心子結(jié)構(gòu)。
第三、提出基于聯(lián)合意義度量的Top-K圖模式挖
7、掘問(wèn)題及其有效解決方法。傳統(tǒng)Top-K挖掘并不考慮圖模式之間的相關(guān)性,輸出的Top-K模式在結(jié)構(gòu)上非常相似。如果用戶得到其中一個(gè)圖模式,就對(duì)其它圖模式失去了興趣。聯(lián)合意義度量的作用域是圖模式集合而不是圖模式。因此,基于聯(lián)合意義度量的Top-K挖掘,隱含排斥相關(guān)的圖模式,可以得到一個(gè)多樣化而有意義的圖模式集合。本文討論了適用于圖模式集合的聯(lián)合意義度量,并利用信息論中的概念(聯(lián)合熵和信息增益)給出了兩個(gè)具體的問(wèn)題定義MES和MIGS,證明了
8、它們是NP-hard問(wèn)題。提出了兩個(gè)高效的Top-K挖掘算法Greedy-TopK和Cluster-TopK。Greedy-TopK先產(chǎn)生頻繁圖模式,然后增量貪心地選擇K個(gè)圖模式。如果用戶給定的意義度量滿足submodular性質(zhì),Greedy-TopK能提供近似比保證。為了進(jìn)一步提高Greedy-TopK的效率,針對(duì)MES和MIGS這兩個(gè)具體問(wèn)題的意義度量又設(shè)計(jì)了一系列有效的裁剪技術(shù),將其嵌入到頻繁子圖挖掘框架中幫助裁剪圖模式搜索空間
9、。然而,當(dāng)頻繁圖模式數(shù)量多時(shí),Greedy-TopK仍然效率低,可擴(kuò)展性差。為克服Greedy-TopK的缺點(diǎn),Cluster-TopK先從圖數(shù)據(jù)庫(kù)中挖掘所有頻繁圖模式的一個(gè)代表模式集合,然后從代表模式中增量貪心地選擇K個(gè)圖模式。Cluster-TopK最大的優(yōu)點(diǎn)是無(wú)需產(chǎn)生頻繁圖模式就能快速地從圖數(shù)據(jù)庫(kù)中挖掘一個(gè)代表模式集合。本文從理論上證明了Cluster-TopK產(chǎn)生的解和Greedy-TopK產(chǎn)生的解非常接近。實(shí)驗(yàn)結(jié)果表明:在結(jié)果
10、質(zhì)量和可用性方面,本文提出的Top-K挖掘遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的Top-K挖掘。Cluster-TopK比Greedy-TopK快一到兩個(gè)數(shù)量級(jí)。而且,Cluster-TopK的挖掘結(jié)果質(zhì)量非常接近于Greedy-TopK的挖掘結(jié)果質(zhì)量。
第四、提出了一種基于頻繁閉顯露模式的圖分類框架CEP。CEP包括三個(gè)主要步驟:(1)挖掘頻繁閉圖模式;(2)過(guò)濾非顯露模式;(3)構(gòu)造分類規(guī)則。第一步,CEP挖掘所有頻繁閉圖模式作為候選分類特征。第
11、二步,CEP保留頻繁閉圖模式中的顯露模式。該步需要計(jì)算圖模式在不同類別數(shù)據(jù)庫(kù)中的支持度,涉及大量子圖同構(gòu)測(cè)試。為改善CEP的效率,CEP將頻繁閉圖模式組織成一個(gè)樹(shù)型結(jié)構(gòu)T。對(duì)數(shù)據(jù)庫(kù)中的每個(gè)圖G,采用深度優(yōu)先方式遍歷樹(shù)T。在遍歷過(guò)程中,利用Aprior(反單調(diào))性質(zhì)進(jìn)行裁剪:如果G不包含節(jié)點(diǎn)P,G也不可能包含P的孩子節(jié)點(diǎn)。通過(guò)這種方式,可以極大地減少子圖同構(gòu)測(cè)試次數(shù)。第三步,CEP根據(jù)剩余的顯露模式構(gòu)造分類規(guī)則。在構(gòu)造分類規(guī)則時(shí),提出了一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 頻繁模式挖掘技術(shù)的研究.pdf
- 負(fù)序列模式挖掘技術(shù)的研究.pdf
- 面向單幅不確定大圖的頻繁模式挖掘技術(shù)研究.pdf
- 入侵檢測(cè)中模式挖掘技術(shù)的研究.pdf
- 圖數(shù)據(jù)頻繁模式并行挖掘研究.pdf
- 基于圖的模式挖掘及其應(yīng)用研究.pdf
- 超期望模式挖掘技術(shù)研究.pdf
- 圖數(shù)據(jù)庫(kù)頻繁模式挖掘關(guān)鍵技術(shù)研究.pdf
- 基于日志的Web訪問(wèn)模式挖掘技術(shù)的研究.pdf
- 軟件執(zhí)行圖中子圖模式挖掘算法的研究.pdf
- 重復(fù)正負(fù)序列模式挖掘關(guān)鍵技術(shù)的研究.pdf
- 基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)模式研究.pdf
- XML數(shù)據(jù)頻繁模式挖掘技術(shù)研究.pdf
- 基于圖挖掘技術(shù)的軟件故障定位技術(shù)的圖約簡(jiǎn)方法研究.pdf
- 基于相似性度量的圖模式挖掘研究.pdf
- 序列模式挖掘算法的研究.pdf
- 基于數(shù)據(jù)挖掘技術(shù)的XML頻繁模式發(fā)掘.pdf
- 基于序列模式的正負(fù)關(guān)聯(lián)規(guī)則挖掘技術(shù).pdf
- 面向不確定圖數(shù)據(jù)的子圖模式挖掘算法的研究與實(shí)現(xiàn).pdf
- 同位模式挖掘研究.pdf
評(píng)論
0/150
提交評(píng)論