2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基本概念與解決方法 經(jīng)典的頻繁項(xiàng)目集生成算法分析 Apriori算法的性能瓶頸問(wèn)題Apriori的改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題,關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的基礎(chǔ),關(guān)聯(lián)規(guī)則挖掘(Association Rule Mining)是數(shù)據(jù)挖掘中研究較早而且至今仍活躍的研究方法之一。最早是由Agrawal等人提出的(1993)。最初提出的動(dòng)機(jī)是針對(duì)購(gòu)物籃分析(Basket Analysis)問(wèn)題提出

2、的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)(Transaction Database)中不同商品之間的聯(lián)系規(guī)則。關(guān)聯(lián)規(guī)則的挖掘工作成果頗豐。例如,關(guān)聯(lián)規(guī)則的挖掘理論、算法設(shè)計(jì)、算法的性能以及應(yīng)用推廣、并行關(guān)聯(lián)規(guī)則挖掘(Parallel Association Rule Mining)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘(Quantitive Association Rule Mining)等。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的其他研究分支的基礎(chǔ)。,基本概念與解決方法,事

3、務(wù)數(shù)據(jù)庫(kù),設(shè)I={ i1,i2,…,im }是一個(gè)項(xiàng)目(Item)集合,事務(wù)數(shù)據(jù)庫(kù)D={ t1,t2,…,tn }是由一系列具有唯一標(biāo)識(shí)TID(事務(wù)號(hào))的事務(wù)組成,每個(gè)事務(wù)ti(i=1,2,…,n)都對(duì)應(yīng) I 上的一個(gè)子集。一個(gè)事務(wù)數(shù)據(jù)庫(kù)可以用來(lái)刻畫(huà):購(gòu)物記錄: I是全部物品集合, D是購(gòu)物清單,每個(gè)元組 ti 是一次購(gòu)買(mǎi)物品的集合(它當(dāng)然是 I 的一個(gè)子集)。如I={ 物品1,物品2,…,物品m };事務(wù)數(shù)據(jù)庫(kù)D={ t1,t2

4、,…,tn }是,事務(wù)數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則的挖掘,支持度、頻繁項(xiàng)目集、可信度、強(qiáng)關(guān)聯(lián)規(guī)則,定義(項(xiàng)目集的支持度) 給定一個(gè)全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D,一個(gè)項(xiàng)目集 I1?I 在D上的支持度(Support)是包含 I1 的事務(wù)在D中所占的百分比: support( I1 )=|| { t? D | I1 ? t }|| / || D||定義(頻繁項(xiàng)目集) 給定全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D ,D中所有滿(mǎn)足用戶(hù)指定的最小

5、支持度(Minsupport)的項(xiàng)目集,即大于或等于最小支持度的 I 的非空子集,稱(chēng)為頻繁項(xiàng)目集(Frequent Itemsets)。在頻繁項(xiàng)目集中挑選出所有不被其他元素包含的頻繁項(xiàng)目集稱(chēng)為最大頻繁項(xiàng)目集( Maximum Frequent Itemsets)。,定義(規(guī)則的可信度) 一個(gè)定義在I和D上的形如 I1?I2 的關(guān)聯(lián)規(guī)則通過(guò)滿(mǎn)足一定的可信度(Confidence)來(lái)給出。所謂規(guī)則的可信度是指包含 I1 和I2的事務(wù)與包含

6、 I1 的事務(wù)之比: Confidence(I1?I2)=|| Support(I1∪I2) / Support(I1) 其中I1 ,I2 ?I ; I1∩I2=Ø定義(強(qiáng)關(guān)聯(lián)規(guī)則)。D 在 I 上滿(mǎn)足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則。 通常所說(shuō)的關(guān)聯(lián)規(guī)則一般指上面定義的強(qiáng)關(guān)聯(lián)規(guī)則。,,關(guān)聯(lián)規(guī)則挖掘基本過(guò)程,關(guān)聯(lián)規(guī)則挖掘問(wèn)題就是根據(jù)用戶(hù)指定的最小支持度和最小可信度來(lái)尋找強(qiáng)關(guān)

7、聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘問(wèn)題可以劃分成兩個(gè)子問(wèn)題:1.發(fā)現(xiàn)頻繁項(xiàng)目集:通過(guò)用戶(hù)給定最小支持度,尋找所有頻繁項(xiàng)目集或者最大頻繁項(xiàng)目集。2.生成關(guān)聯(lián)規(guī)則:通過(guò)用戶(hù)給定最小可信度,在頻繁項(xiàng)目集中,尋找關(guān)聯(lián)規(guī)則。第1個(gè)子問(wèn)題是近年來(lái)關(guān)聯(lián)規(guī)則挖掘算法研究的重點(diǎn)。,項(xiàng)目集格空間理論,Agrawal等人建立了用于事務(wù)數(shù)據(jù)庫(kù)挖掘的項(xiàng)目集格空間理論(1993, Appriori 屬性)。其理論核心的原理是:頻繁項(xiàng)目集的所有非空子集都是頻繁項(xiàng)目集

8、非頻繁項(xiàng)目集的所有超集都是非頻繁項(xiàng)目集(相關(guān)定理及其證明略。),經(jīng)典的頻繁項(xiàng)目集生成算法分析,經(jīng)典的發(fā)現(xiàn)頻繁項(xiàng)目集算法,1994年,Agrawal 等人提出了著名的Apriori 算法。Apriori算法(發(fā)現(xiàn)頻繁項(xiàng)目集),(1) L1 = {large 1-itemsets}; //所有1-項(xiàng)目頻集(2) FOR (k=2; Lk-1??; k++) DO BEGIN(3) Ck=apriori-gen(L

9、k-1); // Ck是k-候選集(4) FOR all transactions t?D DO BEGIN(5) Ct=subset(Ck,t); // Ct是所有t包含的候選集元素(6) FOR all candidates c? Ct DO(7) c.count++;(8) END(9) Lk={c?Ck |c.count?mins

10、up_count}(10) END(11) L= ∪Lk;,Apriori-gen過(guò)程,算法Apriori中調(diào)用了Apriori-gen(Lk-1),是為了通過(guò)(k-1)-頻集產(chǎn)生K-侯選集。has_infrequent_subset(c, Lk-1),判斷c是否加入到k-侯選集中。,(1) FOR all itemset p? Lk-1 DO (2) FOR all itemset q?Lk-1 D

11、O (3) IF p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1 THEN BEGIN(4) c= p∞q;//把q的第k-1個(gè)元素連到p后(5) IF has_infrequent_subset(c, Lk-1) THEN(6) delete c;//刪除含有非頻繁項(xiàng)目子

12、集的侯選元素(7) ELSE add c to Ck;(8) END(9) Return Ck;,,Apriori算法是通過(guò)項(xiàng)目集元素?cái)?shù)目不斷增長(zhǎng)來(lái)完成頻繁項(xiàng)目集發(fā)現(xiàn)的。首先產(chǎn)生1_頻繁項(xiàng)目集L1,然后產(chǎn)生2_頻繁項(xiàng)目集L2,直到不能再擴(kuò)展頻繁項(xiàng)目集的元素?cái)?shù)目為止。下面給出一個(gè)樣本事務(wù)數(shù)據(jù)庫(kù),并對(duì)它實(shí)施Apriori算法。,Apriori算法例子,Database D,C1,L1,L2,C2,Sc

13、an D,L3,Scan D,,,,C3,,Scan D,C4,,Scan D,,,,Scan D,Ø,L4,Minsupport=50% C1:1-候選集 L1:1-頻繁項(xiàng)目集C2:2-候選集 L2:2-頻繁項(xiàng)目集C3:3-候選集 L3:3-頻繁項(xiàng)目集C4:4-候選集 L4:4-頻繁項(xiàng)目集,L3是最大頻繁項(xiàng)目集,關(guān)聯(lián)規(guī)則的生成問(wèn)題,根據(jù)上面介紹的

14、關(guān)聯(lián)規(guī)則挖掘的兩個(gè)步驟,在得到了所有頻繁項(xiàng)目集后,可以按照下面的步驟生成關(guān)聯(lián)規(guī)則:對(duì)于每一個(gè)頻繁項(xiàng)目集 l ,生成其所有的非空子集;對(duì)于l 的每一個(gè)非空子集x,計(jì)算Conference(x),如果Confidence(x)≥minconfidence,那么“ x?(l-x) ”成立。關(guān)聯(lián)規(guī)則生成算法: 從給定的頻繁項(xiàng)目集中生成強(qiáng)關(guān)聯(lián)規(guī)則該算法的核心是genrules遞歸過(guò)程,它實(shí)現(xiàn)一個(gè)頻繁項(xiàng)目集中所有強(qiáng)關(guān)聯(lián)規(guī)則的生成。,

15、Rule-generate(L,minconf)(1) FOR each frequent itemset lk in L(2) genrules( lk , lk);,算法-遞歸測(cè)試一個(gè)頻集中的關(guān)聯(lián)規(guī)則,genrules(lk: frequent k-itemset, xm: frequent m-itemset)(1)X={(m-1)-itemsets xm-1 | xm-1 in xm };(2)FOR eac

16、h xm-1 in X BEGIN(3) conf = support(lk)/support(xm-1);(4) IF (conf ≥?minconf) THEN BEGIN(5) print the rule “xm-1?( lk-xm-1),with support = support(lk), confidence=conf”;(6) IF (m-1 > 1) THEN //generate

17、 rules with subsets of xm-1 as antecedents(7) genrules(lk, xm-1);(8) END(9)END;,Rule-generate算法例子,Minconfidence=80%,Apriori作為經(jīng)典的頻繁項(xiàng)目集生成算法,在數(shù)據(jù)挖掘中具有里程碑的作用。Apriori算法有兩個(gè)致命的性能瓶頸:1.多次掃描事務(wù)數(shù)據(jù)庫(kù),需要很大的I/O負(fù)載對(duì)每次k循環(huán),侯選集

18、Ck中的每個(gè)元素都必須通過(guò)掃描數(shù)據(jù)庫(kù)一次來(lái)驗(yàn)證其是否加入Lk。假如有一個(gè)頻繁大項(xiàng)目集包含10個(gè)項(xiàng)的話(huà),那么就至少需要掃描事務(wù)數(shù)據(jù)庫(kù)10遍。2.可能產(chǎn)生龐大的侯選集由Lk-1產(chǎn)生k-侯選集Ck是指數(shù)增長(zhǎng)的,例如104個(gè)1-頻繁項(xiàng)目集就有可能產(chǎn)生接近107個(gè)元素的2-侯選集。如此大的侯選集對(duì)時(shí)間和主存空間都是一種挑戰(zhàn)。,Apriori算法的性能瓶頸,一些算法雖然仍然遵循Apriori 屬性,但由于引入了相關(guān)技術(shù),在一定程度上改善了Apr

19、iori算法適應(yīng)性和效率。主要的改進(jìn)方法有:基于數(shù)據(jù)分割(Partition)的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”?;谏⒘校℉ash)的方法:基本原理是“在一個(gè)hash桶內(nèi)支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。基于采樣(Sampling)的方法:基本原理是“通過(guò)采樣技術(shù),評(píng)估被采樣的子集中,并依次來(lái)估計(jì)k-項(xiàng)集的全局頻度”。其它方法,如動(dòng)態(tài)刪除沒(méi)有用的事務(wù):“不包

20、含任何Lk的事務(wù)對(duì)未來(lái)的掃描結(jié)果不會(huì)產(chǎn)生影響,因而可以刪除”。,Apriori算法的改進(jìn)技術(shù),基于數(shù)據(jù)分割的方法,Apriori算法在執(zhí)行過(guò)程中是先生成候選集再剪枝,可是生成的候選集并不都是有效的。候選集的產(chǎn)生需要花費(fèi)很大的代價(jià)。把數(shù)據(jù)分割技術(shù)應(yīng)用到關(guān)聯(lián)規(guī)則挖掘中,可以改善關(guān)聯(lián)規(guī)則挖掘在大數(shù)據(jù)集中的適應(yīng)性。其基本思想:首先將大數(shù)據(jù)集從邏輯上分成互不相交的塊,每塊應(yīng)用挖掘算法(如Apriori算法)生成局部的頻繁項(xiàng)目集,然后將這些局部的

21、頻繁項(xiàng)目集作為全局候選頻繁項(xiàng)目集,通過(guò)測(cè)試他們的支持度來(lái)得到最終的全局頻繁項(xiàng)目集。其可在以下兩方面改善Apriori關(guān)聯(lián)規(guī)則挖掘算法的性能:1.合理利用主存空間:數(shù)據(jù)分割將大數(shù)據(jù)集分成小的塊,為塊內(nèi)數(shù)據(jù)一次性導(dǎo)入主存提供機(jī)會(huì)。2.支持并行挖掘算法:每個(gè)分塊的局部頻繁項(xiàng)目集是獨(dú)立生成的,因此提供了開(kāi)發(fā)并行數(shù)據(jù)挖掘算法的良好機(jī)制。,定理 設(shè)數(shù)據(jù)集D被分割成分塊D1, D2, …, Dn,全局最小支持度為minsupport,假設(shè)對(duì)應(yīng)

22、的全局最小支持?jǐn)?shù)為minsup_count。如果一個(gè)數(shù)據(jù)分塊Di 的局部最小支持?jǐn)?shù)記為minsup_counti (i=1,2,…,n),則局部最小支持?jǐn)?shù)minsup_counti按照如下方法生成: minsup_counti = minsup_count *||Di|| / ||D||可以保證所有的局部頻繁項(xiàng)目集涵蓋全局頻繁項(xiàng)目集。,,基于散列的方法,1995,Park等發(fā)現(xiàn)尋找頻繁項(xiàng)目集的主要計(jì)算是在生成2-頻繁項(xiàng)

23、目集上。因此,Park等利用了這個(gè)性質(zhì)引入散列技術(shù)來(lái)改進(jìn)產(chǎn)生2-頻繁項(xiàng)目集的方法。例:桶地址 =(10x + y)mod 7;minsupport_count=3,TID Items1 I1,I2,I52 I2,I43 I2,I34 I1,I2,I45 I1,I36 I2,I37 I1,I38 I1,I2,I3,I59

24、 I1,I2,I3,L2={(I2,I3) ,(I1,I2) ,(I1,I3)},隨著數(shù)據(jù)庫(kù)容量的增大,重復(fù)訪問(wèn)數(shù)據(jù)庫(kù)(外存)將導(dǎo)致性能低下。因此,探索新的理論和算法來(lái)減少數(shù)據(jù)庫(kù)的掃描次數(shù)和侯選集空間占用,已經(jīng)成為近年來(lái)關(guān)聯(lián)規(guī)則挖掘研究的熱點(diǎn)之一。兩個(gè)典型的方法:Close算法 FP-tree算法,項(xiàng)目集格空間理論的發(fā)展,Close算法對(duì)應(yīng)的原理,一個(gè)頻繁閉合項(xiàng)目集的所有閉合子集一定是頻繁的;一個(gè)非頻繁閉合項(xiàng)目集的所有閉合超集一

25、定是非頻繁的。什么是一個(gè)閉合的項(xiàng)目集?一個(gè)項(xiàng)目集C是閉合的,當(dāng)且僅當(dāng)對(duì)于在C中的任何元素,不可能在C中存在小于或等于它的支持度的子集。例如,C1={AB3,ABC2}是閉合的; C2={AB2,ABC2}不是閉合的;,CLOSS算法的基本思路:利用頻繁閉合i_項(xiàng)目集FCi,生成頻繁閉合i+1 _項(xiàng)目集FCi+1(i≥1)。 首先找出候選頻繁閉合1_項(xiàng)目集FCC1,通過(guò)掃描數(shù)據(jù)庫(kù)得到候選閉合項(xiàng)目集,再經(jīng)修剪得到

26、頻繁閉合項(xiàng)目集FC1項(xiàng)目集。用FC1產(chǎn)生候選頻繁閉合2_項(xiàng)目集FCC2,再經(jīng)修剪得到頻繁閉合項(xiàng)目集FC2項(xiàng)目集。在用FC2推出FC3 ,如此繼續(xù)直到某個(gè)FCCr 為空時(shí)停止。,,Close算法的例子,掃描數(shù)據(jù)庫(kù)得到:FCC1={(A,3), (B,5), (C,4), (D,3), (E,3)}; 相應(yīng)閉合項(xiàng)目集為: FCl(A)={ABC,3}(計(jì)算A的閉合過(guò)程:第一項(xiàng)包含{A},首先得到A的閉合為{ABCD},第

27、三項(xiàng)也包含{A}, 故取{ABCD}與第三項(xiàng)的交{ABC}作為A的閉合,第五項(xiàng)也包含{A}, 故取{ABC}與第五項(xiàng)的交{ABC}作為A的閉合,這時(shí)到了最后一項(xiàng),計(jì)算完畢)。同理,F(xiàn)Cl(B)={B,5},F(xiàn)Cl(C)={BC,4},F(xiàn)Cl(D)={BD,3},F(xiàn)Cl(E)={BE,3} ;FCC2={(AB,3), (AC,3), (BC,4), (BD,3), (BE,3)}; 相應(yīng)閉合項(xiàng)目集為:FC2 (AB)={ABC

28、,3}, FC2 (AC)={ABC,3} ; L3,L4,L5不用測(cè),于是頻繁大項(xiàng)集為{ABC }。,,,下面是Close算法作用到右表數(shù)據(jù)集的執(zhí)行過(guò)程(假如minsup_count=3):,樣本數(shù)據(jù)庫(kù),FP-tree算法的基本原理,2000年Han等提出了一個(gè)稱(chēng)為FP-Tree(頻繁模式樹(shù))的算法,該算法只進(jìn)行 2 次數(shù)據(jù)庫(kù)掃描,不使用侯選集,直接壓縮數(shù)據(jù)庫(kù)成一個(gè)FP-Tree ,然后通過(guò)該樹(shù)生成關(guān)聯(lián)規(guī)則。構(gòu)造FP-Tree的過(guò)程

29、如下 :按Apriori算法,掃描數(shù)據(jù)庫(kù)一次生成1-頻繁項(xiàng)目集,并按頻度降序排序,放入L列表中;創(chuàng)建根結(jié)點(diǎn),標(biāo)志為null,掃描數(shù)據(jù)庫(kù)一次,當(dāng)?shù)玫綌?shù)據(jù)庫(kù)的一個(gè)項(xiàng)目(元組)時(shí),就把其中的元素按L表中的次序排列,然后通過(guò)遞歸實(shí)現(xiàn)FP-Tree的增長(zhǎng);,FP-tree算法的基本原理,樣本數(shù)據(jù)庫(kù),下面看一個(gè)例子來(lái)說(shuō)明FP-Tree的增長(zhǎng)過(guò)程,最小支持度閾值為3。,L,,掃描數(shù)據(jù)庫(kù)一次生成1-頻繁項(xiàng)目集(在數(shù)據(jù)庫(kù)中出現(xiàn)3次或3次以上的),并按

30、頻度降序排序,放入L列表中;,,(1-頻繁項(xiàng)目集),FP-tree算法的基本原理,樣本數(shù)據(jù)庫(kù),L,,T1,T2,T3,T4,,掃描數(shù)據(jù)庫(kù),依次增長(zhǎng)FP-tree,并改變支持?jǐn)?shù),T5,FP-tree算法的基本原理,L,建立索引,用FP-Tree挖掘頻繁集的基本思想是分而制之,即使用FP-Tree 遞歸增長(zhǎng)頻繁集的方法:對(duì)每個(gè)項(xiàng),生成其條件模式庫(kù),然后生成其條件FP-Tree;對(duì)每個(gè)新生成的條件FP-Tree,重復(fù)此步驟;直到結(jié)果FP

31、-Tree為空,或只含唯一的一個(gè)路徑,此路徑的每個(gè)子路徑對(duì)應(yīng)的項(xiàng)目集都是頻繁集。,從FP-Tree建立條件模式庫(kù),對(duì)應(yīng)的條件模式庫(kù),FP-tree,,L,用條件模式庫(kù)建立對(duì)應(yīng)的條件FP-Tree,m-條件模式庫(kù),,m-條件FP-Tree,L,m-條件FP-Tree,,用條件FP-Tree挖掘頻繁項(xiàng)集,m-條件FP-Tree,得到的頻繁項(xiàng)目集合{{c,p},{f,c,a,m}},多層次關(guān)聯(lián)規(guī)則挖掘,根據(jù)規(guī)則中涉及到的層次,多層次關(guān)聯(lián)規(guī)則

32、可以分為:同層關(guān)聯(lián)規(guī)則:如果一個(gè)關(guān)聯(lián)規(guī)則對(duì)應(yīng)的項(xiàng)目是同一個(gè)粒度層次,那么它是同層關(guān)聯(lián)規(guī)則。如“牛奶?面包”和“羽絨服?酸奶”都是同層關(guān)聯(lián)規(guī)則;,關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題,層間關(guān)聯(lián)規(guī)則:如果在不同的粒度層次上考慮問(wèn)題,那么可能得到的是層間關(guān)聯(lián)規(guī)則。如“夏季服裝?酸奶”都是層間關(guān)聯(lián)規(guī)則;,多層次關(guān)聯(lián)規(guī)則挖掘,多層次關(guān)聯(lián)規(guī)則挖掘的度量方法可以沿用 “支持度-可信度”的框架。不過(guò),多層次關(guān)聯(lián)規(guī)則挖掘有兩種基本的設(shè)置支持度的策略:統(tǒng)一

33、的最小支持度:算法實(shí)現(xiàn)容易,而且很容易支持層間的關(guān)聯(lián)規(guī)則生成。但是弊端也是顯然的:不同層次可能考慮問(wèn)題的精度不同、面向的用戶(hù)群不同對(duì)于一些用戶(hù),可能覺(jué)得支持度太小,產(chǎn)生了過(guò)多不感興趣的規(guī)則。而對(duì)于另外的用戶(hù)來(lái)說(shuō),又認(rèn)為支持度太大,有用信息丟失過(guò)多。,不同層次使用不同的最小支持度:每個(gè)層次都有自己的最小支持度。較低層次的最小支持度相對(duì)較小,而較高層次的最小支持度相對(duì)較大。這種方法增加了挖掘的靈活性。但是,也留下了許多相關(guān)問(wèn)題需要解決:

34、首先,不同層次間的支持度應(yīng)該有所關(guān)聯(lián),只有正確地刻畫(huà)這種聯(lián)系或找到轉(zhuǎn)換方法,才能使生成的關(guān)聯(lián)規(guī)則相對(duì)客觀。其次,由于具有不同的支持度,層間的關(guān)聯(lián)規(guī)則挖掘也是必須解決的問(wèn)題。例如,有人提出層間關(guān)聯(lián)規(guī)則應(yīng)該根據(jù)較低層次的最小支持度來(lái)定。,對(duì)于多層關(guān)聯(lián)規(guī)則挖掘的策略,可靈活掌握:自上而下方法:先找高層規(guī)則,如“冬季服裝?牛奶” ,再找其下層規(guī)則,如“羽絨服?鮮奶”。如此逐層自上而下挖掘。不同層次的支持度可以一樣,也可以根據(jù)上層的支持度動(dòng)

35、態(tài)生成下層的支持度。自下而上方法:先找低層規(guī)則,再找其上層規(guī)則,如“羽絨服?鮮奶”。不同層次的支持度可以動(dòng)態(tài)生成。在同一固定層次上挖掘:用戶(hù)可根據(jù)情況,在一個(gè)固定層次上挖掘,如果需要查看其他層次的數(shù)據(jù),可通過(guò)上鉆和下鉆等操作來(lái)獲得相應(yīng)數(shù)據(jù)。,多維關(guān)聯(lián)規(guī)則挖掘,多維關(guān)聯(lián)規(guī)則可以有:維內(nèi)的關(guān)聯(lián)規(guī)則:例如,“年齡(X,20~30)^職業(yè)(X,學(xué)生)?購(gòu)買(mǎi)(X,筆記本電腦)”。這里我們就涉及到三個(gè)維:年齡、職業(yè)、購(gòu)買(mǎi)?;旌暇S關(guān)聯(lián)規(guī)則:這

36、類(lèi)規(guī)則允許同一個(gè)維重復(fù)出現(xiàn)。例如,“年齡(X,20~30)? 購(gòu)買(mǎi)(X,筆記本電腦) ? 購(gòu)買(mǎi)(X,打印機(jī))”。由于同一個(gè)維“購(gòu)買(mǎi)”在規(guī)則中重復(fù)出現(xiàn),因此為挖掘帶來(lái)難度。但是,這類(lèi)規(guī)則更具有普遍性,具有更好的應(yīng)用價(jià)值,因此近年來(lái)得到普遍關(guān)注。,數(shù)量關(guān)聯(lián)數(shù)規(guī)則的挖掘,主要解決連續(xù)的數(shù)值型數(shù)據(jù)挖掘問(wèn)題,它與布爾關(guān)聯(lián)規(guī)則挖掘不同。主要涉及的關(guān)鍵問(wèn)題有:連續(xù)數(shù)值屬性的處理,一般有對(duì)數(shù)值屬性進(jìn)行離散化處理,包括:數(shù)值屬性的靜態(tài)離散化;數(shù)值

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論