2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩140頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)時(shí)代悄然到來(lái),數(shù)據(jù)挖掘技術(shù)正面臨著前所未有的機(jī)遇和挑戰(zhàn)。作為數(shù)據(jù)挖掘領(lǐng)域的重要研究課題,頻繁模式挖掘和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)受到了持續(xù)而廣泛的關(guān)注,并且涌現(xiàn)了大量經(jīng)典理論、高效算法和新興應(yīng)用領(lǐng)域。挖掘頻繁項(xiàng)集,是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)中的關(guān)鍵技術(shù)和步驟,并決定了關(guān)聯(lián)規(guī)則的總體性能,目前已廣泛應(yīng)用于市場(chǎng)銷售、文本挖掘、公眾健康等各個(gè)領(lǐng)域。
  在實(shí)際應(yīng)用中,由于技術(shù)手段有限、測(cè)量設(shè)備誤差、通訊開(kāi)銷限制和用戶隱私保護(hù)等諸多因素的影響,獲得的原始數(shù)據(jù)

2、往往存在不確定性。同時(shí),受到主客觀條件的限制,頻繁模式挖掘過(guò)程中也會(huì)帶來(lái)一系列的不確定性,這些不確定性在挖掘過(guò)程中不斷傳播和積累,可能導(dǎo)致挖掘出的知識(shí)與真實(shí)結(jié)果之間存在較大差距甚至毫無(wú)意義。而傳統(tǒng)的挖掘方法卻未將這些因素考慮進(jìn)去,只簡(jiǎn)單地認(rèn)為挖掘出的知識(shí)一般都是有用的和確定的,致使傳統(tǒng)的頻繁模式挖掘方法在處理不確定數(shù)據(jù)時(shí)面臨著得到的挖掘結(jié)果異常卻難以解釋的窘態(tài)。這顯然是不科學(xué)和不妥當(dāng)?shù)?。因此,針?duì)不確定頻繁模式挖掘的研究顯得尤為重要,并

3、日益受到廣大研究人員的關(guān)注。
  本文主要針對(duì)兩類典型的不確定性數(shù)據(jù),即概率數(shù)據(jù)和容錯(cuò)數(shù)據(jù),進(jìn)行概率頻繁模式挖掘和近似頻繁模式挖掘的研究,并應(yīng)用在中醫(yī)藥診療數(shù)據(jù)環(huán)境下,實(shí)現(xiàn)基于不確定數(shù)據(jù)的高效頻繁模式挖掘。
  本文的主要工作和成果總結(jié)如下:
  1.針對(duì)概率數(shù)據(jù)中垂直格式的數(shù)據(jù)表示形式,提出了一種基于Eclat框架的概率頻繁項(xiàng)集精確挖掘算法(UBEclat)。首先,對(duì)于采用垂直數(shù)據(jù)格式的概率數(shù)據(jù),本文設(shè)計(jì)了一種適用于

4、Eclat框架,旨在提高算法執(zhí)行效率的雙向排序策略,然后基于概率頻度的定義,提出了采用分而治之方法的概率頻繁項(xiàng)集精確挖掘算法。在基準(zhǔn)數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,UBEclat算法能夠依據(jù)支持度的概率分布,準(zhǔn)確挖掘出所有概率頻繁項(xiàng)集。這為有效解決概率頻繁項(xiàng)集的精確挖掘問(wèn)題提供了新的思路。
  2.針對(duì)概率頻繁項(xiàng)集精確挖掘算法執(zhí)行效率較低,運(yùn)行時(shí)間過(guò)長(zhǎng)的問(wèn)題,基于概率數(shù)據(jù)的可能性理論,提出了一種高效的概率頻繁項(xiàng)集近似挖掘算法(

5、NDUEclat)。結(jié)合Eclat框架和近似方法的優(yōu)勢(shì),NDUEclat算法采用分而治之的方法,應(yīng)用大數(shù)定律優(yōu)化挖掘過(guò)程,改進(jìn)了頻繁項(xiàng)集挖掘的效率。在基準(zhǔn)數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的多組對(duì)比實(shí)驗(yàn)也驗(yàn)證了該算法具有良好的挖掘性能。目前,這也是第一個(gè)基于支持度的概率分布,在垂直數(shù)據(jù)格式的概率數(shù)據(jù)中高效挖掘不確定頻繁項(xiàng)集的近似算法。
  3.針對(duì) NP-hard類的容錯(cuò)頻繁模式挖掘問(wèn)題,提出了一種將容錯(cuò)數(shù)據(jù)庫(kù)映射為事務(wù)信息系統(tǒng),基于粗糙集理論

6、挖掘近似頻繁模式的新方法。依據(jù)挖掘出的頻繁項(xiàng)目確定決策表中的決策屬性;基于粗糙集理論中上近似和下近似概念,確定近似頻繁模式的匹配程度。在基準(zhǔn)數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行的對(duì)比實(shí)驗(yàn)證實(shí)了該方法在挖掘的準(zhǔn)確率指標(biāo)上,比以往方法有更好的性能表現(xiàn)。顯然,基于粗糙集理論的近似挖掘方法為有效提高近似頻繁模式挖掘的準(zhǔn)確性和適用性提供了新的思路。
  4.以減少敏感參數(shù)設(shè)置的影響、提高挖掘效率的同時(shí)保證實(shí)際挖掘結(jié)果的可用性為目的,研究了基于容錯(cuò)數(shù)據(jù)的

7、粗糙集理論,提出了一種挖掘近似頻繁閉模式的新模型。新模型主要由三部分組成:用聚類算法完成數(shù)據(jù)預(yù)處理;對(duì)同一類中的事務(wù)依據(jù)粗糙集理論進(jìn)行屬性約簡(jiǎn)生成核模式;將核模式作為初始種子構(gòu)建等價(jià)類,用分而治之的方法挖掘近似頻繁閉模式。在傳統(tǒng)中醫(yī)藥數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型可以更精準(zhǔn)地表達(dá)近似頻繁模式,有利于實(shí)現(xiàn)基于中醫(yī)診療應(yīng)用的知識(shí)發(fā)現(xiàn)。
  綜上所述,本文針對(duì)概率數(shù)據(jù)中如何提高頻繁模式挖掘的效率、如何屏蔽容錯(cuò)數(shù)據(jù)中因數(shù)據(jù)表達(dá)不準(zhǔn)確而對(duì)挖

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論