第3章關(guān)聯(lián)規(guī)則挖掘理論和算法(new)詳解

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-01-06 格式：ppt 頁(yè)數(shù)：40 大?。?.31MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩39頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基本概念與解決方法經(jīng)典的頻繁項(xiàng)目集生成算法分析 Apriori算法的性能瓶頸問(wèn)題Apriori的改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題,關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的基礎(chǔ),關(guān)聯(lián)規(guī)則挖掘（Association Rule Mining）是數(shù)據(jù)挖掘中研究較早而且至今仍活躍的研究方法之一。最早是由Agrawal等人提出的（1993）。最初提出的動(dòng)機(jī)是針對(duì)購(gòu)物籃分析（Basket Analysis）問(wèn)題提出

2、的，其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)（Transaction Database）中不同商品之間的聯(lián)系規(guī)則。關(guān)聯(lián)規(guī)則的挖掘工作成果頗豐。例如，關(guān)聯(lián)規(guī)則的挖掘理論、算法設(shè)計(jì)、算法的性能以及應(yīng)用推廣、并行關(guān)聯(lián)規(guī)則挖掘（Parallel Association Rule Mining）以及數(shù)量關(guān)聯(lián)規(guī)則挖掘（Quantitive Association Rule Mining）等。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的其他研究分支的基礎(chǔ)。,基本概念與解決方法,事

3、務(wù)數(shù)據(jù)庫(kù),設(shè)I={ i1，i2，…，im }是一個(gè)項(xiàng)目(Item)集合，事務(wù)數(shù)據(jù)庫(kù)D={ t1，t2，…，tn }是由一系列具有唯一標(biāo)識(shí)TID(事務(wù)號(hào))的事務(wù)組成，每個(gè)事務(wù)ti（i=1，2，…，n）都對(duì)應(yīng) I 上的一個(gè)子集。一個(gè)事務(wù)數(shù)據(jù)庫(kù)可以用來(lái)刻畫(huà)：購(gòu)物記錄： I是全部物品集合， D是購(gòu)物清單，每個(gè)元組 ti 是一次購(gòu)買(mǎi)物品的集合（它當(dāng)然是 I 的一個(gè)子集）。如I={ 物品1，物品2，…，物品m };事務(wù)數(shù)據(jù)庫(kù)D={ t1，t2

4、，…，tn }是,事務(wù)數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則的挖掘,支持度、頻繁項(xiàng)目集、可信度、強(qiáng)關(guān)聯(lián)規(guī)則,定義（項(xiàng)目集的支持度）給定一個(gè)全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D，一個(gè)項(xiàng)目集 I1?I 在D上的支持度（Support）是包含 I1 的事務(wù)在D中所占的百分比： support（ I1 ）=|| { t? D | I1 ? t }|| / || D||定義（頻繁項(xiàng)目集）給定全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D ，D中所有滿(mǎn)足用戶(hù)指定的最小

5、支持度（Minsupport）的項(xiàng)目集，即大于或等于最小支持度的 I 的非空子集，稱(chēng)為頻繁項(xiàng)目集（Frequent Itemsets）。在頻繁項(xiàng)目集中挑選出所有不被其他元素包含的頻繁項(xiàng)目集稱(chēng)為最大頻繁項(xiàng)目集（ Maximum Frequent Itemsets）。,定義（規(guī)則的可信度）一個(gè)定義在I和D上的形如 I1?I2 的關(guān)聯(lián)規(guī)則通過(guò)滿(mǎn)足一定的可信度(Confidence)來(lái)給出。所謂規(guī)則的可信度是指包含 I1 和I2的事務(wù)與包含

6、 I1 的事務(wù)之比： Confidence(I1?I2)=|| Support(I1∪I2) / Support(I1) 其中I1 ,I2 ?I ; I1∩I2=Ø定義（強(qiáng)關(guān)聯(lián)規(guī)則）。D 在 I 上滿(mǎn)足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則。通常所說(shuō)的關(guān)聯(lián)規(guī)則一般指上面定義的強(qiáng)關(guān)聯(lián)規(guī)則。,,關(guān)聯(lián)規(guī)則挖掘基本過(guò)程,關(guān)聯(lián)規(guī)則挖掘問(wèn)題就是根據(jù)用戶(hù)指定的最小支持度和最小可信度來(lái)尋找強(qiáng)關(guān)

7、聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘問(wèn)題可以劃分成兩個(gè)子問(wèn)題：1.發(fā)現(xiàn)頻繁項(xiàng)目集:通過(guò)用戶(hù)給定最小支持度，尋找所有頻繁項(xiàng)目集或者最大頻繁項(xiàng)目集。2.生成關(guān)聯(lián)規(guī)則:通過(guò)用戶(hù)給定最小可信度，在頻繁項(xiàng)目集中，尋找關(guān)聯(lián)規(guī)則。第1個(gè)子問(wèn)題是近年來(lái)關(guān)聯(lián)規(guī)則挖掘算法研究的重點(diǎn)。,項(xiàng)目集格空間理論,Agrawal等人建立了用于事務(wù)數(shù)據(jù)庫(kù)挖掘的項(xiàng)目集格空間理論（1993, Appriori 屬性）。其理論核心的原理是：頻繁項(xiàng)目集的所有非空子集都是頻繁項(xiàng)目集

8、非頻繁項(xiàng)目集的所有超集都是非頻繁項(xiàng)目集（相關(guān)定理及其證明略。）,經(jīng)典的頻繁項(xiàng)目集生成算法分析,經(jīng)典的發(fā)現(xiàn)頻繁項(xiàng)目集算法,1994年，Agrawal 等人提出了著名的Apriori 算法。Apriori算法（發(fā)現(xiàn)頻繁項(xiàng)目集）,（1） L1 = {large 1-itemsets}; //所有1-項(xiàng)目頻集（2） FOR （k=2; Lk-1??; k++） DO BEGIN（3） Ck=apriori-gen（L

9、k-1）; // Ck是k-候選集（4） FOR all transactions t?D DO BEGIN（5） Ct=subset（Ck，t）; // Ct是所有t包含的候選集元素（6） FOR all candidates c? Ct DO（7） c.count++;（8） END（9） Lk={c?Ck |c.count?mins

10、up_count}（10） END（11） L= ∪Lk;,Apriori-gen過(guò)程,算法Apriori中調(diào)用了Apriori-gen(Lk-1)，是為了通過(guò)(k-1)-頻集產(chǎn)生K-侯選集。has_infrequent_subset（c， Lk-1），判斷c是否加入到k-侯選集中。,（1） FOR all itemset p? Lk-1 DO （2） FOR all itemset q?Lk-1 D

11、O （3） IF p.item1=q.item1， …， p.itemk-2=q.itemk-2， p.itemk-1 < q.itemk-1 THEN BEGIN（4） c= p∞q;//把q的第k-1個(gè)元素連到p后（5） IF has_infrequent_subset（c， Lk-1） THEN（6） delete c;//刪除含有非頻繁項(xiàng)目子

12、集的侯選元素（7） ELSE add c to Ck;（8） END（9） Return Ck;,,Apriori算法是通過(guò)項(xiàng)目集元素?cái)?shù)目不斷增長(zhǎng)來(lái)完成頻繁項(xiàng)目集發(fā)現(xiàn)的。首先產(chǎn)生1_頻繁項(xiàng)目集L1，然后產(chǎn)生2_頻繁項(xiàng)目集L2，直到不能再擴(kuò)展頻繁項(xiàng)目集的元素?cái)?shù)目為止。下面給出一個(gè)樣本事務(wù)數(shù)據(jù)庫(kù)，并對(duì)它實(shí)施Apriori算法。,Apriori算法例子,Database D,C1,L1,L2,C2,Sc

13、an D,L3,Scan D,,,,C3,,Scan D,C4,,Scan D,,,,Scan D,Ø,L4,Minsupport=50% C1：1-候選集 L1：1-頻繁項(xiàng)目集C2：2-候選集 L2：2-頻繁項(xiàng)目集C3：3-候選集 L3：3-頻繁項(xiàng)目集C4：4-候選集 L4：4-頻繁項(xiàng)目集,L3是最大頻繁項(xiàng)目集,關(guān)聯(lián)規(guī)則的生成問(wèn)題,根據(jù)上面介紹的

14、關(guān)聯(lián)規(guī)則挖掘的兩個(gè)步驟，在得到了所有頻繁項(xiàng)目集后，可以按照下面的步驟生成關(guān)聯(lián)規(guī)則：對(duì)于每一個(gè)頻繁項(xiàng)目集 l ，生成其所有的非空子集；對(duì)于l 的每一個(gè)非空子集x，計(jì)算Conference（x），如果Confidence（x）≥minconfidence，那么“ x?(l-x) ”成立。關(guān)聯(lián)規(guī)則生成算法: 從給定的頻繁項(xiàng)目集中生成強(qiáng)關(guān)聯(lián)規(guī)則該算法的核心是genrules遞歸過(guò)程，它實(shí)現(xiàn)一個(gè)頻繁項(xiàng)目集中所有強(qiáng)關(guān)聯(lián)規(guī)則的生成。,

15、Rule-generate（L，minconf）（1） FOR each frequent itemset lk in L（2） genrules（ lk ， lk）;,算法-遞歸測(cè)試一個(gè)頻集中的關(guān)聯(lián)規(guī)則,genrules（lk: frequent k-itemset， xm: frequent m-itemset）（1）X={（m-1）-itemsets xm-1 | xm-1 in xm }；（2）FOR eac

16、h xm-1 in X BEGIN（3） conf = support（lk）/support（xm-1）;（4） IF （conf ≥?minconf） THEN BEGIN（5） print the rule “xm-1?（ lk-xm-1），with support = support（lk）， confidence=conf”;（6） IF （m-1 > 1） THEN //generate

17、 rules with subsets of xm-1 as antecedents（7） genrules（lk， xm-1）;（8） END（9）END；,Rule-generate算法例子,Minconfidence=80%,Apriori作為經(jīng)典的頻繁項(xiàng)目集生成算法，在數(shù)據(jù)挖掘中具有里程碑的作用。Apriori算法有兩個(gè)致命的性能瓶頸:1．多次掃描事務(wù)數(shù)據(jù)庫(kù)，需要很大的I/O負(fù)載對(duì)每次k循環(huán)，侯選集

18、Ck中的每個(gè)元素都必須通過(guò)掃描數(shù)據(jù)庫(kù)一次來(lái)驗(yàn)證其是否加入Lk。假如有一個(gè)頻繁大項(xiàng)目集包含10個(gè)項(xiàng)的話(huà)，那么就至少需要掃描事務(wù)數(shù)據(jù)庫(kù)10遍。2．可能產(chǎn)生龐大的侯選集由Lk-1產(chǎn)生k-侯選集Ck是指數(shù)增長(zhǎng)的，例如104個(gè)1-頻繁項(xiàng)目集就有可能產(chǎn)生接近107個(gè)元素的2-侯選集。如此大的侯選集對(duì)時(shí)間和主存空間都是一種挑戰(zhàn)。,Apriori算法的性能瓶頸,一些算法雖然仍然遵循Apriori 屬性，但由于引入了相關(guān)技術(shù)，在一定程度上改善了Apr

19、iori算法適應(yīng)性和效率。主要的改進(jìn)方法有：基于數(shù)據(jù)分割（Partition）的方法：基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”?；谏⒘校℉ash）的方法：基本原理是“在一個(gè)hash桶內(nèi)支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。基于采樣（Sampling）的方法：基本原理是“通過(guò)采樣技術(shù)，評(píng)估被采樣的子集中，并依次來(lái)估計(jì)k-項(xiàng)集的全局頻度”。其它方法，如動(dòng)態(tài)刪除沒(méi)有用的事務(wù)：“不包

20、含任何Lk的事務(wù)對(duì)未來(lái)的掃描結(jié)果不會(huì)產(chǎn)生影響，因而可以刪除”。,Apriori算法的改進(jìn)技術(shù),基于數(shù)據(jù)分割的方法,Apriori算法在執(zhí)行過(guò)程中是先生成候選集再剪枝，可是生成的候選集并不都是有效的。候選集的產(chǎn)生需要花費(fèi)很大的代價(jià)。把數(shù)據(jù)分割技術(shù)應(yīng)用到關(guān)聯(lián)規(guī)則挖掘中，可以改善關(guān)聯(lián)規(guī)則挖掘在大數(shù)據(jù)集中的適應(yīng)性。其基本思想：首先將大數(shù)據(jù)集從邏輯上分成互不相交的塊，每塊應(yīng)用挖掘算法（如Apriori算法）生成局部的頻繁項(xiàng)目集，然后將這些局部的

21、頻繁項(xiàng)目集作為全局候選頻繁項(xiàng)目集，通過(guò)測(cè)試他們的支持度來(lái)得到最終的全局頻繁項(xiàng)目集。其可在以下兩方面改善Apriori關(guān)聯(lián)規(guī)則挖掘算法的性能：1．合理利用主存空間：數(shù)據(jù)分割將大數(shù)據(jù)集分成小的塊，為塊內(nèi)數(shù)據(jù)一次性導(dǎo)入主存提供機(jī)會(huì)。2．支持并行挖掘算法：每個(gè)分塊的局部頻繁項(xiàng)目集是獨(dú)立生成的，因此提供了開(kāi)發(fā)并行數(shù)據(jù)挖掘算法的良好機(jī)制。,定理設(shè)數(shù)據(jù)集D被分割成分塊D1， D2， …， Dn，全局最小支持度為minsupport，假設(shè)對(duì)應(yīng)

22、的全局最小支持?jǐn)?shù)為minsup_count。如果一個(gè)數(shù)據(jù)分塊Di 的局部最小支持?jǐn)?shù)記為minsup_counti (i=1，2，…，n)，則局部最小支持?jǐn)?shù)minsup_counti按照如下方法生成： minsup_counti = minsup_count *||Di|| / ||D||可以保證所有的局部頻繁項(xiàng)目集涵蓋全局頻繁項(xiàng)目集。,,基于散列的方法,1995，Park等發(fā)現(xiàn)尋找頻繁項(xiàng)目集的主要計(jì)算是在生成2-頻繁項(xiàng)

23、目集上。因此，Park等利用了這個(gè)性質(zhì)引入散列技術(shù)來(lái)改進(jìn)產(chǎn)生2-頻繁項(xiàng)目集的方法。例：桶地址 =（10x + y）mod 7；minsupport_count=3,TID Items1 I1，I2，I52 I2，I43 I2，I34 I1，I2，I45 I1，I36 I2，I37 I1，I38 I1，I2，I3，I59

24、 I1，I2，I3,L2={(I2，I3) ，(I1，I2) ，(I1，I3)},隨著數(shù)據(jù)庫(kù)容量的增大，重復(fù)訪問(wèn)數(shù)據(jù)庫(kù)（外存）將導(dǎo)致性能低下。因此，探索新的理論和算法來(lái)減少數(shù)據(jù)庫(kù)的掃描次數(shù)和侯選集空間占用，已經(jīng)成為近年來(lái)關(guān)聯(lián)規(guī)則挖掘研究的熱點(diǎn)之一。兩個(gè)典型的方法：Close算法 FP-tree算法,項(xiàng)目集格空間理論的發(fā)展,Close算法對(duì)應(yīng)的原理,一個(gè)頻繁閉合項(xiàng)目集的所有閉合子集一定是頻繁的；一個(gè)非頻繁閉合項(xiàng)目集的所有閉合超集一

25、定是非頻繁的。什么是一個(gè)閉合的項(xiàng)目集？一個(gè)項(xiàng)目集C是閉合的，當(dāng)且僅當(dāng)對(duì)于在C中的任何元素，不可能在C中存在小于或等于它的支持度的子集。例如，C1={AB3，ABC2}是閉合的； C2={AB2，ABC2}不是閉合的；,CLOSS算法的基本思路：利用頻繁閉合i_項(xiàng)目集FCi，生成頻繁閉合i+1 _項(xiàng)目集FCi+1（i≥1）。首先找出候選頻繁閉合1_項(xiàng)目集FCC1，通過(guò)掃描數(shù)據(jù)庫(kù)得到候選閉合項(xiàng)目集，再經(jīng)修剪得到

26、頻繁閉合項(xiàng)目集FC1項(xiàng)目集。用FC1產(chǎn)生候選頻繁閉合2_項(xiàng)目集FCC2，再經(jīng)修剪得到頻繁閉合項(xiàng)目集FC2項(xiàng)目集。在用FC2推出FC3 ，如此繼續(xù)直到某個(gè)FCCr 為空時(shí)停止。,,Close算法的例子,掃描數(shù)據(jù)庫(kù)得到:FCC1={(A,3), (B,5), (C,4), (D,3), (E,3)}；相應(yīng)閉合項(xiàng)目集為: FCl(A)={ABC,3}(計(jì)算A的閉合過(guò)程:第一項(xiàng)包含{A},首先得到A的閉合為{ABCD},第

27、三項(xiàng)也包含{A}, 故取{ABCD}與第三項(xiàng)的交{ABC}作為A的閉合，第五項(xiàng)也包含{A}, 故取{ABC}與第五項(xiàng)的交{ABC}作為A的閉合,這時(shí)到了最后一項(xiàng),計(jì)算完畢)。同理，F(xiàn)Cl(B)={B,5}，F(xiàn)Cl(C)={BC,4}，F(xiàn)Cl(D)={BD,3}，F(xiàn)Cl(E)={BE,3} ；FCC2={(AB,3), (AC,3), (BC,4), (BD,3), (BE,3)}；相應(yīng)閉合項(xiàng)目集為:FC2 (AB)={ABC

28、,3}, FC2 (AC)={ABC,3} ； L3，L4，L5不用測(cè)，于是頻繁大項(xiàng)集為{ABC }。,,,下面是Close算法作用到右表數(shù)據(jù)集的執(zhí)行過(guò)程（假如minsup_count=3）：,樣本數(shù)據(jù)庫(kù),FP-tree算法的基本原理,2000年Han等提出了一個(gè)稱(chēng)為FP-Tree（頻繁模式樹(shù)）的算法，該算法只進(jìn)行 2 次數(shù)據(jù)庫(kù)掃描，不使用侯選集，直接壓縮數(shù)據(jù)庫(kù)成一個(gè)FP-Tree ，然后通過(guò)該樹(shù)生成關(guān)聯(lián)規(guī)則。構(gòu)造FP-Tree的過(guò)程

29、如下：按Apriori算法，掃描數(shù)據(jù)庫(kù)一次生成1-頻繁項(xiàng)目集，并按頻度降序排序，放入L列表中；創(chuàng)建根結(jié)點(diǎn)，標(biāo)志為null，掃描數(shù)據(jù)庫(kù)一次，當(dāng)?shù)玫綌?shù)據(jù)庫(kù)的一個(gè)項(xiàng)目（元組）時(shí)，就把其中的元素按L表中的次序排列，然后通過(guò)遞歸實(shí)現(xiàn)FP-Tree的增長(zhǎng)；,FP-tree算法的基本原理,樣本數(shù)據(jù)庫(kù),下面看一個(gè)例子來(lái)說(shuō)明FP-Tree的增長(zhǎng)過(guò)程,最小支持度閾值為3。,L,,掃描數(shù)據(jù)庫(kù)一次生成1-頻繁項(xiàng)目集（在數(shù)據(jù)庫(kù)中出現(xiàn)3次或3次以上的），并按

30、頻度降序排序，放入L列表中；,,(1-頻繁項(xiàng)目集),FP-tree算法的基本原理,樣本數(shù)據(jù)庫(kù),L,,T1,T2,T3,T4,,掃描數(shù)據(jù)庫(kù),依次增長(zhǎng)FP-tree，并改變支持?jǐn)?shù),T5,FP-tree算法的基本原理,L,建立索引,用FP-Tree挖掘頻繁集的基本思想是分而制之，即使用FP-Tree 遞歸增長(zhǎng)頻繁集的方法：對(duì)每個(gè)項(xiàng)，生成其條件模式庫(kù)，然后生成其條件FP-Tree；對(duì)每個(gè)新生成的條件FP-Tree，重復(fù)此步驟；直到結(jié)果FP

31、-Tree為空，或只含唯一的一個(gè)路徑，此路徑的每個(gè)子路徑對(duì)應(yīng)的項(xiàng)目集都是頻繁集。,從FP-Tree建立條件模式庫(kù),對(duì)應(yīng)的條件模式庫(kù),FP-tree,,L,用條件模式庫(kù)建立對(duì)應(yīng)的條件FP-Tree,m-條件模式庫(kù),,m-條件FP-Tree,L,m-條件FP-Tree,,用條件FP-Tree挖掘頻繁項(xiàng)集,m-條件FP-Tree,得到的頻繁項(xiàng)目集合｛｛ｃ，ｐ｝，｛ｆ，ｃ，ａ，ｍ｝｝,多層次關(guān)聯(lián)規(guī)則挖掘,根據(jù)規(guī)則中涉及到的層次，多層次關(guān)聯(lián)規(guī)則

32、可以分為：同層關(guān)聯(lián)規(guī)則：如果一個(gè)關(guān)聯(lián)規(guī)則對(duì)應(yīng)的項(xiàng)目是同一個(gè)粒度層次，那么它是同層關(guān)聯(lián)規(guī)則。如“牛奶?面包”和“羽絨服?酸奶”都是同層關(guān)聯(lián)規(guī)則;,關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題,層間關(guān)聯(lián)規(guī)則：如果在不同的粒度層次上考慮問(wèn)題，那么可能得到的是層間關(guān)聯(lián)規(guī)則。如“夏季服裝?酸奶”都是層間關(guān)聯(lián)規(guī)則;,多層次關(guān)聯(lián)規(guī)則挖掘,多層次關(guān)聯(lián)規(guī)則挖掘的度量方法可以沿用 “支持度-可信度”的框架。不過(guò)，多層次關(guān)聯(lián)規(guī)則挖掘有兩種基本的設(shè)置支持度的策略：統(tǒng)一

33、的最小支持度：算法實(shí)現(xiàn)容易，而且很容易支持層間的關(guān)聯(lián)規(guī)則生成。但是弊端也是顯然的：不同層次可能考慮問(wèn)題的精度不同、面向的用戶(hù)群不同對(duì)于一些用戶(hù)，可能覺(jué)得支持度太小，產(chǎn)生了過(guò)多不感興趣的規(guī)則。而對(duì)于另外的用戶(hù)來(lái)說(shuō)，又認(rèn)為支持度太大，有用信息丟失過(guò)多。,不同層次使用不同的最小支持度：每個(gè)層次都有自己的最小支持度。較低層次的最小支持度相對(duì)較小，而較高層次的最小支持度相對(duì)較大。這種方法增加了挖掘的靈活性。但是，也留下了許多相關(guān)問(wèn)題需要解決：

34、首先，不同層次間的支持度應(yīng)該有所關(guān)聯(lián)，只有正確地刻畫(huà)這種聯(lián)系或找到轉(zhuǎn)換方法，才能使生成的關(guān)聯(lián)規(guī)則相對(duì)客觀。其次，由于具有不同的支持度，層間的關(guān)聯(lián)規(guī)則挖掘也是必須解決的問(wèn)題。例如，有人提出層間關(guān)聯(lián)規(guī)則應(yīng)該根據(jù)較低層次的最小支持度來(lái)定。,對(duì)于多層關(guān)聯(lián)規(guī)則挖掘的策略，可靈活掌握：自上而下方法：先找高層規(guī)則，如“冬季服裝?牛奶” ，再找其下層規(guī)則，如“羽絨服?鮮奶”。如此逐層自上而下挖掘。不同層次的支持度可以一樣，也可以根據(jù)上層的支持度動(dòng)

35、態(tài)生成下層的支持度。自下而上方法：先找低層規(guī)則，再找其上層規(guī)則，如“羽絨服?鮮奶”。不同層次的支持度可以動(dòng)態(tài)生成。在同一固定層次上挖掘：用戶(hù)可根據(jù)情況，在一個(gè)固定層次上挖掘，如果需要查看其他層次的數(shù)據(jù)，可通過(guò)上鉆和下鉆等操作來(lái)獲得相應(yīng)數(shù)據(jù)。,多維關(guān)聯(lián)規(guī)則挖掘,多維關(guān)聯(lián)規(guī)則可以有：維內(nèi)的關(guān)聯(lián)規(guī)則：例如，“年齡（X，20~30）^職業(yè)（X，學(xué)生）?購(gòu)買(mǎi)（X，筆記本電腦）”。這里我們就涉及到三個(gè)維：年齡、職業(yè)、購(gòu)買(mǎi)?；旌暇S關(guān)聯(lián)規(guī)則：這

36、類(lèi)規(guī)則允許同一個(gè)維重復(fù)出現(xiàn)。例如，“年齡（X，20~30）? 購(gòu)買(mǎi)（X，筆記本電腦） ? 購(gòu)買(mǎi)（X，打印機(jī)）”。由于同一個(gè)維“購(gòu)買(mǎi)”在規(guī)則中重復(fù)出現(xiàn)，因此為挖掘帶來(lái)難度。但是，這類(lèi)規(guī)則更具有普遍性，具有更好的應(yīng)用價(jià)值，因此近年來(lái)得到普遍關(guān)注。,數(shù)量關(guān)聯(lián)數(shù)規(guī)則的挖掘,主要解決連續(xù)的數(shù)值型數(shù)據(jù)挖掘問(wèn)題，它與布爾關(guān)聯(lián)規(guī)則挖掘不同。主要涉及的關(guān)鍵問(wèn)題有：連續(xù)數(shù)值屬性的處理，一般有對(duì)數(shù)值屬性進(jìn)行離散化處理，包括：數(shù)值屬性的靜態(tài)離散化；數(shù)值

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第3章關(guān)聯(lián)規(guī)則挖掘理論和算法(new)詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第3章關(guān)聯(lián)規(guī)則挖掘理論和算法(new)詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載