2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩180頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、作為一種通用的數(shù)據(jù)結(jié)構(gòu),圖可以用來(lái)表示數(shù)據(jù)對(duì)象之間的各種復(fù)雜關(guān)系。例如:圖可以表示化合物的分子結(jié)構(gòu),蛋白質(zhì)交互網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),Web結(jié)構(gòu)圖等。隨著科學(xué)與工程領(lǐng)域中圖數(shù)據(jù)的大量出現(xiàn),從圖數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用的知識(shí)已成為數(shù)據(jù)挖掘領(lǐng)域一項(xiàng)重要的研究課題。圖模式挖掘是其中最重要的一個(gè)研究分支,因?yàn)榕c圖有關(guān)的絕大部分應(yīng)用(例如:圖查詢、圖分類、圖聚類等)都需要利用圖模式來(lái)管理、查詢和分析圖數(shù)據(jù)。本文主要對(duì)圖模式挖掘技術(shù)進(jìn)行深入研究,歸納總結(jié)了現(xiàn)有研究

2、成果的主要思想和優(yōu)缺點(diǎn),提出了一些新的圖模式挖掘問(wèn)題和解決方法,主要研究成果如下:
  第一、提出從圖數(shù)據(jù)庫(kù)中挖掘代表模式問(wèn)題及其有效解決方法。目前的頻繁子圖挖掘算法通常產(chǎn)生大量的甚至指數(shù)級(jí)數(shù)量的頻繁子圖,嚴(yán)重地影響了挖掘結(jié)果的可用性。挖掘代表模式既可以極大地減少圖模式的輸出數(shù)量,又能使有有意義的圖模式保留在挖掘結(jié)果中。本文給出了挖掘代表模式問(wèn)題的形式化定義,并證明了該問(wèn)題是NP-hard。提出了一系列新的概念:δ-覆蓋圖,跳躍值

3、,δ-跳躍模式等。發(fā)現(xiàn)了δ-跳躍模式的一個(gè)重要性質(zhì):δ-跳躍模式一定是代表模式。利用δ-跳躍模式的性質(zhì),提出了挖掘代表模式的三個(gè)算法:RP-FP,RP-GD,RP-Leap。RP-FP和RP-GD挖掘完整的代表模式集合,RP-Leap挖掘近似的代表模式集合。RP-FP從頻繁閉圖模式中計(jì)算代表模式,具有緊的近似比保證。然而,當(dāng)頻繁閉圖模式數(shù)量大時(shí),RP-FP效率低。RP-GD采用聯(lián)機(jī)算法的思想,直接從圖數(shù)據(jù)庫(kù)中挖掘代表模式。算法復(fù)雜性分析

4、表明RP-GD的效率要遠(yuǎn)遠(yuǎn)高于RP-FP的效率。RP-Leap利用了圖模式搜索空間中大量分枝之間的相似性,快速跳過(guò)那些幾乎不產(chǎn)生代表模式的分枝,來(lái)挖掘一個(gè)近似代表模式集合。實(shí)驗(yàn)結(jié)果表明:(1) RP-FP,RP-GD,RP-Leap能得到一個(gè)小的而有意義的代表模式集合;(2) RP-GD的挖掘效率遠(yuǎn)遠(yuǎn)高于RP-FP的挖掘效率;而在結(jié)果質(zhì)量方面,RP-GD類似于RP-FP;(3) RP-Leap以丟失少量代表模式的代價(jià),取得了比RP-GD

5、快一個(gè)數(shù)量級(jí)的性能改善。
  第二、提出從圖數(shù)據(jù)庫(kù)中挖掘核心子結(jié)構(gòu)問(wèn)題及其有效解決方法。核心子結(jié)構(gòu)在真實(shí)的圖數(shù)據(jù)庫(kù)中大量存在,例如化合物中的功能團(tuán)就是一類核心子結(jié)構(gòu)。針對(duì)核心子結(jié)構(gòu)的特征,本文給出了核心子結(jié)構(gòu)的形式化定義,稱為△-跳躍模式。發(fā)現(xiàn)了△-跳躍模式的很多重要性質(zhì)。例如:△跳躍模式是穩(wěn)定的,它們對(duì)躁聲和數(shù)據(jù)的變化不敏感,△值越大,它們的抗干擾能力越強(qiáng)。然而,△-跳躍模式不具有反單調(diào)性質(zhì)性質(zhì),挖掘它們非常具有挑戰(zhàn)性。通過(guò)仔細(xì)

6、研究跳躍模式自身的特性,本文提出了兩種新的裁剪技術(shù),基于內(nèi)擴(kuò)展的裁剪和基于外擴(kuò)展的裁剪。利用這兩裁剪技術(shù),設(shè)計(jì)了一個(gè)高效的跳躍模式挖掘算法GraphJP。在理論上,嚴(yán)格地證明了這兩種裁剪技術(shù)的正確性以及算法GraphJP的正確性。實(shí)驗(yàn)結(jié)果表明:這兩種新的裁剪技術(shù)能有效地裁剪圖模式搜索空間,算法GraphJP能高效可擴(kuò)展地挖掘頻繁跳躍模式,而且挖掘結(jié)果中含有圖數(shù)據(jù)庫(kù)中的核心子結(jié)構(gòu)。
  第三、提出基于聯(lián)合意義度量的Top-K圖模式挖

7、掘問(wèn)題及其有效解決方法。傳統(tǒng)Top-K挖掘并不考慮圖模式之間的相關(guān)性,輸出的Top-K模式在結(jié)構(gòu)上非常相似。如果用戶得到其中一個(gè)圖模式,就對(duì)其它圖模式失去了興趣。聯(lián)合意義度量的作用域是圖模式集合而不是圖模式。因此,基于聯(lián)合意義度量的Top-K挖掘,隱含排斥相關(guān)的圖模式,可以得到一個(gè)多樣化而有意義的圖模式集合。本文討論了適用于圖模式集合的聯(lián)合意義度量,并利用信息論中的概念(聯(lián)合熵和信息增益)給出了兩個(gè)具體的問(wèn)題定義MES和MIGS,證明了

8、它們是NP-hard問(wèn)題。提出了兩個(gè)高效的Top-K挖掘算法Greedy-TopK和Cluster-TopK。Greedy-TopK先產(chǎn)生頻繁圖模式,然后增量貪心地選擇K個(gè)圖模式。如果用戶給定的意義度量滿足submodular性質(zhì),Greedy-TopK能提供近似比保證。為了進(jìn)一步提高Greedy-TopK的效率,針對(duì)MES和MIGS這兩個(gè)具體問(wèn)題的意義度量又設(shè)計(jì)了一系列有效的裁剪技術(shù),將其嵌入到頻繁子圖挖掘框架中幫助裁剪圖模式搜索空間

9、。然而,當(dāng)頻繁圖模式數(shù)量多時(shí),Greedy-TopK仍然效率低,可擴(kuò)展性差。為克服Greedy-TopK的缺點(diǎn),Cluster-TopK先從圖數(shù)據(jù)庫(kù)中挖掘所有頻繁圖模式的一個(gè)代表模式集合,然后從代表模式中增量貪心地選擇K個(gè)圖模式。Cluster-TopK最大的優(yōu)點(diǎn)是無(wú)需產(chǎn)生頻繁圖模式就能快速地從圖數(shù)據(jù)庫(kù)中挖掘一個(gè)代表模式集合。本文從理論上證明了Cluster-TopK產(chǎn)生的解和Greedy-TopK產(chǎn)生的解非常接近。實(shí)驗(yàn)結(jié)果表明:在結(jié)果

10、質(zhì)量和可用性方面,本文提出的Top-K挖掘遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的Top-K挖掘。Cluster-TopK比Greedy-TopK快一到兩個(gè)數(shù)量級(jí)。而且,Cluster-TopK的挖掘結(jié)果質(zhì)量非常接近于Greedy-TopK的挖掘結(jié)果質(zhì)量。
  第四、提出了一種基于頻繁閉顯露模式的圖分類框架CEP。CEP包括三個(gè)主要步驟:(1)挖掘頻繁閉圖模式;(2)過(guò)濾非顯露模式;(3)構(gòu)造分類規(guī)則。第一步,CEP挖掘所有頻繁閉圖模式作為候選分類特征。第

11、二步,CEP保留頻繁閉圖模式中的顯露模式。該步需要計(jì)算圖模式在不同類別數(shù)據(jù)庫(kù)中的支持度,涉及大量子圖同構(gòu)測(cè)試。為改善CEP的效率,CEP將頻繁閉圖模式組織成一個(gè)樹(shù)型結(jié)構(gòu)T。對(duì)數(shù)據(jù)庫(kù)中的每個(gè)圖G,采用深度優(yōu)先方式遍歷樹(shù)T。在遍歷過(guò)程中,利用Aprior(反單調(diào))性質(zhì)進(jìn)行裁剪:如果G不包含節(jié)點(diǎn)P,G也不可能包含P的孩子節(jié)點(diǎn)。通過(guò)這種方式,可以極大地減少子圖同構(gòu)測(cè)試次數(shù)。第三步,CEP根據(jù)剩余的顯露模式構(gòu)造分類規(guī)則。在構(gòu)造分類規(guī)則時(shí),提出了一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論