2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩125頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、序列模式挖掘針對(duì)序列數(shù)據(jù)庫(kù),致力于發(fā)現(xiàn)序列事件之間的關(guān)系,找到事件發(fā)生存在的特定順序。序列模式挖掘是關(guān)聯(lián)規(guī)則挖掘的推廣,有著廣泛的應(yīng)用價(jià)值,例如顧客購(gòu)買行為分析、Web訪問(wèn)模式分析、科學(xué)實(shí)驗(yàn)分析、疾病治療早期診斷、自然災(zāi)害預(yù)測(cè)、DNA序列模式分析等。近年來(lái),序列模式挖掘有了長(zhǎng)足的發(fā)展,仍然存在許多問(wèn)題,比如:算法復(fù)雜度過(guò)高,對(duì)大數(shù)據(jù)集效率低,適應(yīng)性較差等。本文應(yīng)用數(shù)據(jù)挖掘、遺傳算法的理論和方法,重點(diǎn)研究了序列模式挖掘方法及在Web使用挖

2、掘領(lǐng)域的應(yīng)用。主要的研究?jī)?nèi)容和創(chuàng)新性工作包括:
   首先,介紹了數(shù)據(jù)挖掘的概念和發(fā)展情況,評(píng)述了數(shù)據(jù)挖掘的各種技術(shù),面向不同數(shù)據(jù)類型的挖掘方法。分析了數(shù)據(jù)挖掘中的聚類技術(shù),聚類的基本理論和方法、算法,以及聚類的詳細(xì)過(guò)程。
   其次,針對(duì)k-means聚類算法對(duì)噪音數(shù)據(jù)敏感、易收斂到局部極值點(diǎn)、需要人為確定聚類的數(shù)目等不足,提出了結(jié)合k-medoids方法的遺傳算法聚類方法--GKMD算法。GKMD算法將聚類個(gè)數(shù)引入到

3、適應(yīng)值函數(shù)中,設(shè)計(jì)了包含聚類個(gè)數(shù)和類中心位置的統(tǒng)一編碼及相應(yīng)的交叉與變異算子,使遺傳算法在進(jìn)化的過(guò)程中自動(dòng)確定最優(yōu)的聚類個(gè)數(shù)。同時(shí),在算法中嵌入了一種有效的啟發(fā)式搜索方法,使得整個(gè)GKMD算法兼?zhèn)淞溯^好的全局搜索能力和局部搜索能力。實(shí)驗(yàn)表明,GKMD算法顯著地改進(jìn)了對(duì)包含噪音和異常點(diǎn)的數(shù)據(jù)進(jìn)行聚類的魯棒性,并能夠在保證較高聚類準(zhǔn)確率的基礎(chǔ)上準(zhǔn)確地確定聚類數(shù)目,為后面章節(jié)中確定聚類的數(shù)目奠定了基礎(chǔ)。
   第三,提出了一種新的結(jié)合

4、聚類的兩階段序列模式挖掘方法。第一階段用k-medoids算法將序列數(shù)據(jù)聚類到不同的群組,設(shè)計(jì)了一種n元組結(jié)構(gòu)的序列模表示方法,可以減少序列的維數(shù),并提出了一種新的序列模式相似度計(jì)算方法SMCS,能夠捕捉序列模式更多的信息,更加準(zhǔn)確的計(jì)算相似度。第二階段用層云表展示每一個(gè)聚類,提供了更多的普通序列模式挖掘方法不能提供的信息,如轉(zhuǎn)換的頻率等,用于輔助顯著模式發(fā)現(xiàn)和快速抽取。
   第四,將提出的序列模式挖掘方法進(jìn)行了擴(kuò)展并運(yùn)用到W

5、eb使用挖掘中。分析了與Web用戶興趣行為密切相關(guān)的各種因素,給出了Web會(huì)話的語(yǔ)義本體表示,提出了一種更為準(zhǔn)確的計(jì)算語(yǔ)義會(huì)話之間的相似度的方法SMSCP。分別采用分割式k-medoids方法和層次式Single link方法,進(jìn)行序列模式挖掘過(guò)程中的Web會(huì)話的聚類,并應(yīng)用層云表展示W(wǎng)eb使用挖掘的聚類結(jié)果。通過(guò)不同的聚類算法以及性能評(píng)價(jià)指標(biāo),在特定的數(shù)據(jù)集與其它相似度計(jì)算指標(biāo)進(jìn)行了比較,驗(yàn)證了SMSCP的性能。在驗(yàn)證的過(guò)程中,我們使

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論