信息管理與信息系統(tǒng)畢業(yè)論文基于關聯(lián)規(guī)劃挖掘的零售商場購物籃分析與應用_第1頁
已閱讀1頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p>  本科畢業(yè)設計(論文)</p><p>  基于關聯(lián)規(guī)劃挖掘的零售商場購物籃分析與應用</p><p>  學 院 管理學院 </p><p>  專 業(yè) 信息管理與信息系統(tǒng) </p><p>  年級班別 </p>&l

2、t;p>  學 號 </p><p>  學生姓名 </p><p>  指導教師 </p><p><b>  摘 要</b></p><p>  隨著經濟的快速發(fā)展,零售

3、業(yè)為了提高營業(yè)額,已經開始從簡單的增加規(guī)模轉換到提高資源利用率、優(yōu)化資源配置來提高銷售額了。在轉型中,有一種方法就是利用數據挖掘技術中的關聯(lián)規(guī)則算法來找出商品之間在顧客的交易記錄中隱含的某種關聯(lián)關系,通過找出這種關聯(lián)關系,可以針對這種關聯(lián)關系制定特定的商品布局來提高超市的資源配置,提高銷售效率,提高銷售額。</p><p>  這種方法在國外已經應用得相當成熟,但是在國內還是處在發(fā)展階段,還沒發(fā)展到成熟階段,而且

4、在利用數據挖掘技術與超市商品布局設計的結合方面研究不多。本文通過收集某超市的交易數據,主要利用數據挖掘關聯(lián)規(guī)則中的Apriori算法對該超市的數據進行關聯(lián)規(guī)則挖掘,這里涉及到算法中的支持度和置信度的設置,支持度和置信度關系到關聯(lián)的強度,也關系到計算量的大小。通過Apriori的算法,在收集到的數據中通過數據挖掘相關算法得到某幾種商品之間的強關聯(lián)關系,得出強關聯(lián)規(guī)則之后用興趣度來分析結果的利用價值,最終根據有意義的、有價值的強關聯(lián)關系來對

5、該超市的商品布局進行優(yōu)化,不僅要分析該超市現有的布局模式,還要依據通過收集到的數據分析出來的結果對該模式進行適當的優(yōu)化。</p><p>  關鍵字:零售業(yè),數據挖掘,關聯(lián)規(guī)則,Apriori算法,興趣度,商品布局</p><p><b>  Abstract</b></p><p>  With the rapid economic deve

6、lopment, in order to improve the retail turnover there has started to improve resource utilization, optimize the allocation of resources to increase sales from simply increase the size of the space of retail turnover. In

7、 the transition, there is a way is to use data mining technology association rules algorithm to find merchandise transactions between the customer's implied some kind of relationship, by identifying this association,

8、 for this association can trade rela</p><p>  Keywords:Retail, Data mining, Association rules, Apriori algorithm, Interest degree,Distributionofgoods</p><p><b>  目 錄</b></p>

9、<p><b>  摘 要</b></p><p><b>  Abstract</b></p><p><b>  1緒論1</b></p><p>  1.1研究背景及意義1</p><p>  1.3 國內外研究現狀及分析2</p>

10、<p><b>  1.4研究目標4</b></p><p>  1.5主要研究內容4</p><p>  2基本理論與基本概念6</p><p><b>  2.1數據挖掘6</b></p><p>  2.1.1 數據挖掘的基本概念6</p><p>

11、  2.1.2 數據挖掘的過程7</p><p>  2.1.3 數據挖掘的分類、技術和方法8</p><p>  2.1.4 數據挖掘的任務9</p><p>  2.2關聯(lián)規(guī)則10</p><p>  2.2.1 關聯(lián)規(guī)則的定義10</p><p>  2.2.2 關聯(lián)規(guī)則的分類11</p>

12、<p>  2.2.3 關聯(lián)規(guī)則的挖掘12</p><p>  2.3關聯(lián)規(guī)則的Apriori算法13</p><p>  2.3.1 Apriori算法概念13</p><p>  2.3.2 Apriori算法的兩個步驟14</p><p>  2.4 興趣度17</p><p>  2.5

13、 購物籃18</p><p>  3利用數據挖掘關聯(lián)規(guī)則技術對某超市的銷售數據進行購物籃分析19</p><p>  3.1問題的提出與解決方法19</p><p>  3.2問題解決過程19</p><p>  3.3數據收集20</p><p>  3.4數據預處理20</p><p

14、>  3.5使用Apriori算法對商品進行關聯(lián)規(guī)則挖掘分析23</p><p>  3.6強關聯(lián)規(guī)則的興趣度分析32</p><p>  3.7結果解釋33</p><p>  4根據強規(guī)則結果為商場的商品布局的改進34</p><p>  4.1超市商品布局一般原則與類型34</p><p>  4

15、.1.1商品布局一般原則34</p><p>  4.1.2商品陳列類型35</p><p>  4.2 某超市商品布局現狀及問題36</p><p>  4.2某超市的商品布局優(yōu)化37</p><p>  4.2.1磁石點理論37</p><p>  4.2.2利用磁石點理論對商品區(qū)域與區(qū)域之間布局進行優(yōu)化

16、38</p><p>  4.2.3商品類型與類型之間的布局優(yōu)化40</p><p><b>  結 論41</b></p><p><b>  參考文獻42</b></p><p><b>  致謝43</b></p><p><b&g

17、t;  1緒論</b></p><p>  1.1研究背景及意義</p><p>  經濟全球化和知識經濟的迅猛發(fā)展,使得各類產業(yè)的利潤空間越來越小,產品的生命周期大大縮短。面對經濟、科技加速發(fā)展的態(tài)勢,企業(yè)只有運用創(chuàng)新技術提升企業(yè)的核心能力,加快知識創(chuàng)新步伐,才能夠保持當前的利潤水平或者獲得較高的收益回報??梢姡谑袌霭l(fā)育健全、市場競爭機制能夠正常發(fā)揮作用的經濟環(huán)境下,知識創(chuàng)

18、新是企業(yè)追求利益最大化的內在要求。</p><p>  現在是一個以技術知識科技驅動的經濟社會,逃離了知識技術科技,只能夠被淘汰,對于零售業(yè)也一洋,現在零售業(yè)在數量上已經接近飽滿,如果還想簡單地通過增加商店數量來增加盈利,無異于自尋死路,所以在現在這個經濟環(huán)境下,必須通過改善銷售質量,提高銷售效率,才能夠保持穩(wěn)定的盈利。如今,計算機技術已經相當成熟,并且已經能夠將計算機技術運用到許多方面去,例如自動化、個性化服務

19、等等。在上世紀90年代,數據挖掘技術開始興起,并通過逐年的發(fā)展,許多數據挖掘算法被發(fā)現,這里說被發(fā)現是因為很多算法在被發(fā)現之前是已經存在于數據里面了。許多數據挖掘算法被發(fā)現,例如經典的分類算法ID3算法,聚類K-means算法,關聯(lián)規(guī)則的Apriori算法,神經網絡,遺傳算法等,而且這些都已。經被高效得運用到社會實踐中。</p><p>  這本文主要考慮到了現在零售業(yè)的銷售效率問題,因為在之前的零售業(yè)銷售模式中

20、僅僅是通過簡單的通過自己的經驗來對商品的擺放布局,要提高銷售質量銷售效率,必須通過科學研究,科學布置商品的布局,提高銷售效率,在這里就是利用數據挖掘的關聯(lián)規(guī)則算法來進行對購物籃的分析,通過發(fā)現隱含的購買模式,改變優(yōu)化商品布局,提高銷售效率,提高銷售額。</p><p>  比如通過得到的真實購物數據之后,經過篩選,利用關聯(lián)規(guī)則算法得到兩類商品之間存在強關聯(lián)關系,那么我們就可以認為顧客在買了第一件商品之后又很大的可

21、能性會去購買第二類商品,這樣如果將這兩種商品的布局擺放得近一點,或者直接相鄰擺放,或者通過結合顧客購物心理利用高支持度和強關聯(lián)規(guī)則等來促進其他商品的銷售,或者利用有強關聯(lián)規(guī)則的商品之間的聯(lián)系間接提高其他商品的銷售量等等,這樣就會提醒更多人同時購買這兩類商品或者其他商品,提高購買效率。</p><p>  目前,關聯(lián)規(guī)則挖掘與購物籃分析在超市的應用是被普遍關注的一個問題,在相關領域已經有了一定的應用和發(fā)展。國內外研

22、究者在銷售什么樣的商品?采用什么樣的促銷策略?商品在貨架上如何擺放?了解顧客的購買習慣和偏愛等方面作了相當的理論探討和模型計算。從零售業(yè)強關聯(lián)規(guī)則,利潤最大化的商品銷售、商品推薦都作出較好的理論分析和實現。也在零售業(yè)商品的銷售預測和商品之間關聯(lián)方面作了一定探討。 </p><p>  在我國,零售業(yè)在經濟發(fā)展中占據著舉足輕重的地位,根據零售業(yè)發(fā)展水平方面,1993 年至 2012 年這 20 年間,批發(fā)和零售

23、業(yè)的增加值逐年遞增,批零產值占流通產業(yè)的比重一直在 50%左右,占第三產業(yè)的比重平均維持在 20%左右,對 GDP 的貢獻是穩(wěn)中有升,接近 10%,在保障和改善民生方面做出了重要貢獻。但是2012年之后,由于零售業(yè)在數量上在很多地區(qū)已經接近飽和狀態(tài),零售業(yè)的增長速率有所下降,進入低速增長期,根據在組織機構代碼中的分析中,超級市場零售業(yè)在2012年1月到11月的增量是67間,而在2013年1月到11月的增量是46間,數量的增量在逐年減少,

24、甚至出現了利潤下降,其中主要原因應該歸于電子商務的快速發(fā)展,由于如今電子商務的瘋狂擴張,對傳統(tǒng)的零售業(yè)造成了巨大的威脅,根據新華社的報道,根據華潤發(fā)布的2014年盈利公告,公告顯示,以華潤萬家為代表的華創(chuàng)零售業(yè)務預期凈利潤將有約20億港元的跌幅。過去通過開店擴張來進行增加利潤,但是現在的零售業(yè)必須通過轉變發(fā)展方式,在過去重視店面的量的方面轉變到提高每間零售店的銷售量來進行提高營業(yè)額,對于電子商務中個性化商品推薦﹑企業(yè)的市場定位以及<

25、;/p><p>  1.3 國內外研究現狀及分析</p><p>  在國外,目前世界上知名大學的研究機構和各大公司的研究部門都投入了大量精力對關聯(lián)規(guī)則挖掘進行研究,并取得了諸多研究成果。美國斯坦福大學智能數據庫系統(tǒng)實驗室開發(fā)出了大量的商用數據挖掘系統(tǒng),如DBMiner挖掘系統(tǒng),它包含了許多先進的挖掘算法,用戶無需具有高級的統(tǒng)計知識和培訓即可利用它挖掘出包括關聯(lián)規(guī)則、序列模式、分類等在內的多種

26、類型的知識;該系統(tǒng)可以在多種平臺上運行,并與許多主流的數據庫管理系統(tǒng)(如SQL-Sever,Oracle等)結合緊密;同時還引入了在線分析挖掘技術,使得系統(tǒng)更能充分發(fā)揮數據倉庫的分析優(yōu)勢。</p><p>  1993年AGRAWAL等人提出關聯(lián)規(guī)則的數學模式,從而為關聯(lián)規(guī)則提出了理論基礎。1994年AGRAWAL,SRIKANT提出Apriori關聯(lián)規(guī)則挖掘算法,該算法是一個具有里程碑性質的算法,也是布爾型規(guī)則

27、挖掘最經典的算法。</p><p>  雖然數據挖掘技術發(fā)展到如今已經相當成熟,在這個利用數據挖掘關聯(lián)規(guī)則技術研究購物籃模式的領域中,國外已是熱門的研究方向,并已經達到一定的水平并投入應用領域,其中傳統(tǒng)零售業(yè)運用最為廣泛,營銷挖掘和購物籃分析是零售業(yè)挖掘的主要內容,但是,國內對數據挖掘的研究稍晚,在國內這個領域的研究尚處于開始階段,沒有形成整體力量,直到 1993 年國家自然科學基金才首次支持該領域的研究項目,并

28、且目前進行的大多數研究項目是由政府資助進行的,如863(高技術研究發(fā)展計劃)等,從事數據挖掘研究的人員主要在大學,也有部分在研究所或公司。</p><p>  在國內,當然也有很多零售商對商品的關聯(lián)規(guī)則非常重視,并且將它放在重要的戰(zhàn)略地位,比如阿里巴巴集團旗下的淘寶網,京東商城,當當網等等網絡零售商或者零售平臺。比如,當我們每次將自己有意愿購買的商品放入購物籃之后,網站就會在一個區(qū)域顯示給我們的推薦商品,提出一些

29、搭配供我們選擇,這就是通過以前顧客的購買記錄來進行關聯(lián)規(guī)則分析獲得你所購買的商品的有強關聯(lián)規(guī)則的商品,進而讓你考慮是否該多買一些東西來搭配你想購買的東西,這就提高了銷售效率和銷售質量。</p><p>  不僅如此,不僅僅在應用上,在國內也有許多人會對關聯(lián)規(guī)則的算法進行改進,比如重慶大學學報出版的由王德興、胡學鋼等人的“改進購物籃分析的關聯(lián)規(guī)則挖掘算法”一文;還有由楊豐梅等人提出的帶有記憶性的零售商品關聯(lián)度分析;

30、還有基于量化概念格的關聯(lián)規(guī)則挖掘模型的研究等等。如今對關聯(lián)規(guī)則的算法還提出了一個改進的方案,在這里引出了興趣度這個閥值,這個閥值在關聯(lián)規(guī)則挖掘中主要是對強規(guī)則的有一次篩選,摒棄那些看似是強聯(lián)系規(guī)則,其實不是強聯(lián)系規(guī)則的方法。</p><p>  在這些研究者對購物籃的算法進行研究之后,也提出了許多針對商品布局的決策,比如捆綁銷售、相鄰銷售、打折銷售等等策略,</p><p>  現如今,國

31、內外都有對購物籃進行數據挖掘的關聯(lián)規(guī)則分析,也產生了許多對算法的改進。然而,雖然研究很多,但是很多研究卻沒有跟購物籃中的顧客購物現實情況結合起來進行對商品的布局進行設計,很多的研究僅僅是局限在得出商品的關聯(lián)規(guī)則之后簡單地關聯(lián)商品進行布局,比如簡單地將得到的有強關聯(lián)的商品捆綁銷售、將有強關聯(lián)規(guī)則的商品簡單地陳列在一起,但是這些決策并沒有通過結合顧客的購物習慣、購物心理、充分利用關聯(lián)規(guī)則發(fā)現的商品規(guī)律來促進銷售額的增長。</p>

32、<p>  對購物籃的分析,最主要的、最終的目標就是提高銷售額,如果僅僅是簡單的發(fā)現規(guī)律,這并沒有完成最終目標,因為研究的目的是提高銷售額,并不僅僅是研究出它們的關聯(lián)性即可。在發(fā)現規(guī)則的過程中花費了很大的力氣,但是最后卻簡單了事,并沒有實際上地實現提高銷售額,增加銷售量,最終導致前功盡棄。因此還需要根據各種商品布局優(yōu)化、整體提高銷售額的手段來改進優(yōu)化商品布局。</p><p><b>  

33、1.4研究目標</b></p><p>  本文主要通過對某零售超市的商品關聯(lián)規(guī)則進行探討,包括收集該零售超市的顧客的購買數據,經過篩選無效數據得到有效數據,利用數據挖掘中的關聯(lián)規(guī)則的Apriori算法進行對得到的有效數據進行挖掘分析,得到隱藏在某零售超市顧客購買商品中的模式,得到高購買率商品之間的關聯(lián)規(guī)則,將關聯(lián)規(guī)則發(fā)現的商品管理與顧客的購買心理以及顧客的購買行為習慣相結合、充分利用高支持度的商品來

34、提高其他商品的銷售量等調整商品架上的商品擺放布局,極大的促進多種商品的被購買量,最終促進銷售效率,提高營業(yè)額。</p><p><b>  1.5主要研究內容</b></p><p>  此文的主要研究內容就是在購物籃中運用數據挖掘的關聯(lián)規(guī)則相關方法來對其進行分析,得出所收集到的顧客購買商品的模式或者規(guī)律,然后通過研究這種規(guī)律或者模式來改變商品的布局,進而提高銷售額。

35、主要內容包括:</p><p> ?。?)收集數據并進行整理,初始數據就是顧客購買商品的目錄。</p><p> ?。?)利用關聯(lián)規(guī)則的Apriori算法對收集到的而且已經整理過的數據進行關聯(lián)規(guī)則分析。將得到的強關聯(lián)規(guī)則中進行篩選,在這里利用興趣度來進一步篩選。</p><p> ?。?)對應所得到的強關聯(lián)規(guī)則,結合顧客心理、顧客購物行為習慣、充分利用某種商品的高支

36、持度等等因素提出商品的擺設布局的建議和決策。</p><p>  下圖是本文的一個大概結構:</p><p><b>  圖1-6-1</b></p><p>  2基本理論與基本概念</p><p><b>  2.1數據挖掘</b></p><p>  2.1.1 數據挖

37、掘的基本概念 </p><p>  1989 年 8 月,在第 11 屆國際人工智能聯(lián)合會議的專題研討會上,首次提出了基于數據庫的知識發(fā)現技術(Knowledge Discovery in Database,KDD)。KDD 的研究問題有:(1)定性知識和定量知識的發(fā)現;(2)知識發(fā)現方法;(3)知識發(fā)現的應用等[]。1995 年在加拿大召開了第一屆知識發(fā)現和數據挖掘(Data Mining,DM)國際學術會議。

38、由于數據庫中的數據被形象地比喻為“礦床”,因此數據挖掘一詞很快流傳開來。在 1995 年的美國計算機年會(ACM)上,正式提出了數據挖掘的概念[]。</p><p>  數據挖掘是知識發(fā)現中的核心工作,主要研究發(fā)現知識的各種方法和技術。機器學習的很多方法都已轉變?yōu)閿祿诰虻姆椒ā?簡單地說,數據挖掘是提取或“挖掘”知識。目前,數據挖掘可以從統(tǒng)計學、數據庫和機器學習等三個角度進行定義?!巴诰颉币辉~最早出現于統(tǒng)計學中

39、。從統(tǒng)計學的角度看,數據挖掘是指分析所觀察的數據集以發(fā)現可信的數據間的未知關系并提供給數據擁有者可理解的、新穎的和有用的歸納數據。從數據庫的觀點看,數據挖掘是指從存儲在數據庫、數據倉庫或其它信息倉庫中的大量數據中發(fā)現有趣的知識的過程[]。從機器學習的角度看,數據挖掘定義為從數據中抽取隱含的、明顯未知的和潛在有用的信息。 數據挖掘的定義:數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機</p><p>  的

40、數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。這個定義包含幾層含義,數據源必須是真實的、大量的、含噪聲的;發(fā)現的是用戶感興趣的知識;發(fā)現的知識要可接受、可理解、可運用;并不要求發(fā)現放之四海而皆準的知識,僅需支持特定的發(fā)現問題。 </p><p>  從廣義上理解,數據、信息也是知識的表現形式,但是人們更愿意把概念、規(guī)則、模式、規(guī)律和約束等看作知識。人們把數據看作是形式知識的源泉,就

41、像從礦石中采礦一樣。原始數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本、圖形和圖像數據,甚至是分布在網絡上的異構型數據。發(fā)現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發(fā)現的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門很廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統(tǒng)計、可視化、并行計算等方面的學者和工程技

42、術人員。 通過數據挖掘,有價值的知識、規(guī)則或高層次的信息可以從數據庫的相關數據集合中抽取出來,并從不同角度顯示,從而使大型數據庫成為一個豐富可靠的資源,為決策服務。 數據挖掘具有一些重要特點,歸納如下: </p><p> ?。?)處理的數據規(guī)模十分巨大。 </p><p>  (2)查詢一般是決策制定者(用戶)提出的即時隨機查詢,往往不能形成精確的查詢要求要靠數據挖掘技術尋找可能感興趣的

43、東西,也就是說挖掘出來的知識不能預知。 </p><p>  (3)數據挖掘既要擔負發(fā)現潛在規(guī)則的任務,還要管理和維護規(guī)則。 </p><p>  (4)數據挖掘中,規(guī)則的發(fā)現基于大樣本的統(tǒng)計規(guī)律,當置信度達到某一閾值時,就可以認為規(guī)則成立。 </p><p>  以下一些主要的技術原因激發(fā)和促進了數據挖掘技術的開發(fā)、應用和研究:</p><p&

44、gt; ?。?)超大規(guī)模數據庫的出現,如大規(guī)模商業(yè)數據倉庫的出現。 </p><p> ?。?)先進的計算機技術,如更快更強的計算能力和并行體系結構。 </p><p> ?。?)對海量數據的快速訪問能力。 </p><p> ?。?)對海量數據深入應用統(tǒng)計方法進行計算分析的能力。</p><p>  2.1.2 數據挖掘的過程 </p

45、><p>  數據挖掘的過程一般需要經歷數據準備、數據開采、結果表述和解釋三個主要步驟[],具體步驟如圖 2-1 所示。</p><p><b>  圖2-1-1</b></p><p><b>  數據準備</b></p><p>  數據準備是數據挖掘中的一個重要步驟,數據準備是否做得好將直接影響到

46、數據挖掘的效率、準確度以及最終模式的有效性。這個階段又可以進一步分為三個子步驟:數據集成、數據選擇、數據預處理。 ①數據集成。數據集成是將多文件或多數據庫運行環(huán)境中的數據進行合并處理,解決語義模糊性、處理數據中的遺漏和清洗異常數據等。 ②數據選擇。數據選擇的目的是辨別出需要分析的數據集合,縮小處理范圍,提高數據挖掘的質量。 ③數據預處理。數據預處理的目的是將數據轉換成適合于數據挖掘的形式,并進行一些必要的數據約簡。</p>

47、<p><b> ?。?)數據開采 </b></p><p>  數據開采階段選定某個特定的數據挖掘算法(如關聯(lián)規(guī)則、分類、回歸、聚類等算法),用于搜索數據中的模式。這是數據挖掘過程中最關鍵的一步,也是技術難點。 </p><p> ?。?)結果表述和解釋 </p><p>  根據最終用戶的決策目的,對提取的信息進行分析,把最有價

48、值的信息區(qū)分出來,并且通過決策支持工具提交給決策者。因此,這一步驟的任務不僅是把結果表達出來,還要對信息進行過濾處理。如果不能令決策者滿意,需要重復以上的數據挖掘過程。 在理解數據挖掘的具體實施過程時,還應該注意以下幾點:數據挖掘僅僅是整個挖掘過程中的一個重要步驟;數據挖掘質量的好壞不但取決于所選用的數據挖掘技術,而且還取決于所挖掘數據的質量和數量;整個挖掘過程是一個不斷反饋的過程;可視化技術在數據挖掘的各個階段都應起著重要的作用。 &

49、lt;/p><p>  2.1.3 數據挖掘的分類、技術和方法 </p><p>  數據挖掘是一個交叉性的學科領域,涉及數據庫技術、統(tǒng)計學理論、機器學習技術、模式識別技術、可視化理論和技術等。從不同的角度出發(fā),可以對數據挖掘進行不同的分類。按挖掘的數據庫類型,可分為面向對象數據挖掘、事務數據庫的數據挖掘、多媒體數據庫的數據挖掘、空間數據庫的數據挖掘、因特網上的數據挖掘、演繹數據庫的數據挖掘、

50、時間/時間序列數據庫的數據挖掘、數據倉庫的數據挖掘等[16]。 按數據挖掘的任務,可分為關聯(lián)規(guī)則挖掘、序列模式挖掘、聚類數據挖掘、分類數據挖掘、偏差分析挖掘、預測數據挖掘等。 </p><p>  按采用的技術類型,可分為查詢驅動挖掘、發(fā)現驅動的交互式數據挖掘、數據驅動挖掘、基于歸納的挖掘、基于模式的挖掘、集成挖掘等。 除了以上的分類方法外,還可按挖掘的深度和應用領域進行分類。 數據挖掘的技術和方法很多,這些技術

51、和方法分別從不同角度進行數據挖掘和知識發(fā)現。目前主要的技術和方法有決策樹方法、神經網絡方法、覆蓋正例排斥反例方法、粗糙集方法、概念樹方法、遺傳算法、公式發(fā)現、模糊論方法、統(tǒng)計學方法、可視化技術、貝葉斯網絡等。 數據挖掘技術是一個年輕且充滿希望的研究領域,商業(yè)利益的強大驅動力將會不斷地促進它的發(fā)展。每年都有新的數據挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。盡管如此,數據挖掘技術仍然面臨許多問題和挑戰(zhàn):數據挖掘方法的效率亟待提高,

52、尤其是超大規(guī)模數據集中數據挖掘的效率;開發(fā)適應多數據類型、容噪</p><p>  聲的挖掘方法,以解決異質數據集的數據挖掘問題;動態(tài)數據和知識的數據挖掘;網絡與分布式環(huán)境下的數據挖掘等。此外,近年來隨著多媒體數據庫的迅速發(fā)展,面向多媒體數據庫的挖掘技術和軟件亦將成為今后研究開發(fā)的熱點和難點。</p><p>  2.1.4 數據挖掘的任務 </p><p>  數

53、據挖掘主要有 6 項任務:關聯(lián)規(guī)則分析、序列模式分析、聚類、分類、偏差檢測、預測。 </p><p>  (1)關聯(lián)規(guī)則分析。關聯(lián)規(guī)則分析是從數據庫中發(fā)現知識的一類重要方法。若兩個或多個數據項的取值之間重復出現且概率很高時,就存在某種關聯(lián),可以建立起這些數據項之間的關聯(lián)規(guī)則。 </p><p> ?。?)序列模式分析。序列模式分析與關聯(lián)規(guī)則分析相仿,也是為了挖掘出數據之間的聯(lián)系。但序列模式

54、分析把數據之間的關聯(lián)性與時間聯(lián)系起來。為了發(fā)現序列模式,不僅需要知道事件是否發(fā)生,而且需要確定事件發(fā)生的時間。 </p><p> ?。?)聚類。聚類是把一組數據按照相似性和差異性歸成若干類別。其目的是使得屬于同一類別的數據間的相似性盡可能大,而不同類別的數據間的相似性盡可能小。 </p><p> ?。?)分類。分類的概念是在已有數據集(訓練集)的基礎上構造出一個分類函數或分類模型,即我

55、們通常所說的分類器。該函數或模型能夠把訓練集中的數據記錄映射到給定類別中的某一個,從而可以應用于數據預測。 </p><p> ?。?)偏差檢測。數據庫中的數據常有一些異常記錄,從數據庫中檢測出這些偏差是很有意義的。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差等。 </p><p> ?。?)預測。預測是利用歷史數據找出變化規(guī)律,建立模型,并用此

56、模型來預測未來數據的種類、特征等。 </p><p><b>  2.2關聯(lián)規(guī)則</b></p><p>  關聯(lián)規(guī)則挖掘是由 Agrawal 等人于 1993 年在文獻中首先提出的數據挖掘問題中的一個重要研究內容。關聯(lián)規(guī)則挖掘用于尋找給定數據集中數據項之間的有意義關聯(lián)或相關聯(lián)系[17]。關聯(lián)規(guī)則揭示了數據項間的未知的依賴關系,根據所挖掘的關聯(lián)規(guī)則,可以由一個數據對象

57、的信息推斷出另一個數據對象的信息。關聯(lián)規(guī)則的一個典型例子是 WALMART 的購物籃分析:總部位于美國阿肯色州的世界著名商業(yè)零售連鎖企業(yè)沃爾瑪(Wal Mart)為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。“跟尿布一起購買最多的商品竟是啤酒!”這是數據挖掘技術對歷史數據進行分析的結果,反映數據內在的規(guī)律,揭示了一個隱藏在“尿布與啤酒”背后的美國人的一種行為模式:在美

58、國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,而他們中有 30%~40%的人同時也為自己買一些啤酒。既然尿布與啤酒一起被購買的機會很多,于是沃爾瑪就在其一個個門店將尿布與啤酒并排擺放在一起,結果是尿布與啤酒的銷售量雙雙增長。 隨著大量數據不停地被收集和存儲,許多業(yè)界人士對于從他們的數據庫中挖掘關</p><p>  許多商務決策,如分類設計、交叉購物、賤賣分析等。 </p><p> 

59、 2.2.1 關聯(lián)規(guī)則的定義</p><p>  為了準確描述關聯(lián)規(guī)則挖掘問題,需要給出關聯(lián)規(guī)則挖掘問題的正式定義,下面用事務數據庫來定義關聯(lián)規(guī)則。 </p><p>  定義 2-1 記 D 為交易 T 的集合,D={t1,t2,…,tn},這里交易 T 是項的集合,可以表述為:T={i1,i2,…,ij},并且 T∈D。T 中的元素 i、j﹙j=1,2,…,p﹚稱為項。對應每一個交易

60、有唯一的標識,如交易號,記作 TID。 </p><p>  定義 2-2 設 I={i1,i2,…,im}是數據集中所有項的集合。I 中的任何子集稱為項目集,若|X|=k,則稱集合 X 為 k-項集。設 tk和 X 分別為 D 中的事務和項目集,如果 X∈tk,稱事務 tk包含項目集 X。 </p><p>  定義 2-3 數據集 D 中包含項目集 X 的事務數稱為項目集 X 的支

61、持數,記作σ(x)。項目集 X 的支持度,記作 support﹙X﹚。其中</p><p>  其中,|D|是數據集 D 中的事務數。若 support﹙X﹚不小于用戶指定的最小支持度(minsupport),則稱 X 為頻繁項目集,否則稱 X 為非頻繁項目集。 定理 2-1 設 X、Y 是數據集 D 中的項目集, </p><p>  (1) 若 X?Y,則 support﹙X﹚≥s

62、upport﹙Y﹚; </p><p>  (2) 若 X?Y,如果 X 是非頻繁項目集,則 Y 也是非頻繁項目集; </p><p>  (3) 若 X?Y,如果 Y 是頻繁項目集,則 X 也是頻繁項目集;</p><p>  定義 2-4 若 X、Y 為項目集,且 X∩Y=φ,蘊涵式 X?Y 稱為關聯(lián)規(guī)則,X、Y分別稱為關聯(lián)規(guī)則 X?Y 的前件和后件。 關

63、聯(lián)規(guī)則 X?Y 的支持度是交易集中同時包含 X 和 Y 的事務數與所有事務數之比,記作 support﹙X?Y﹚或者support(X,Y)</p><p>  其中X,Y為數據集D中互不相交的項集。</p><p>  關聯(lián)規(guī)則X?Y 的置信度是指同時包含 X 和 Y 的事務數與包含 X 的事務數之比,記作 confidence﹙X?Y﹚。 支持度和置信度是描述關聯(lián)規(guī)則的兩個重要概念。一

64、般來說,人們只對滿足一定的支持度和置信度的關聯(lián)規(guī)則感興趣。因此,為了發(fā)現有意義的關聯(lián)規(guī)則,需要給定兩個閾值:最小支持度(min_sup)和最小置信度(min_conf)。</p><p>  2.2.2 關聯(lián)規(guī)則的分類 </p><p>  關聯(lián)規(guī)則有許多種類型,根據不同的標準,關聯(lián)規(guī)則的分類如下: </p><p>  根據規(guī)則所處理的值的類型將關聯(lián)規(guī)則分為布爾關

65、聯(lián)規(guī)則(Boolean AssociationRule)和量化關聯(lián)規(guī)則(Quantitative Association Rule)。若所考慮的關聯(lián)規(guī)則是項的存在與不在,則它是布爾關聯(lián)規(guī)則。布爾關聯(lián)規(guī)則表明了離散(分類)對象之間的聯(lián)系。如果規(guī)則所描述的是量化的項或屬性之間的關聯(lián),則它是量化關聯(lián)規(guī)則。在量化關聯(lián)規(guī)則中,項和屬性的量化值劃分為區(qū)間,涉及動態(tài)離散化的數值屬性,也可能涉及分類屬性。 </p><p>  

66、例如:buys (X,computer) ?buys (X,printer)(解釋為:購買電腦的人會 購 買 打 印 機 ) 是 布 爾 關 聯(lián) 規(guī) 則 ; age(X,30~34) ∧ income(X,42K ~48K) ? buys( X,computer)(解釋為:年齡在 30-34 歲之間,收入在 42K-48K之間的人會購買電腦)是量化關聯(lián)規(guī)則,涉及的定量屬性 age 和 income 均已被離散化了。 </p>

67、<p>  根據規(guī)則中涉及的數據維數,將關聯(lián)規(guī)則分為單維關聯(lián)規(guī)則(Single-dimension Association Rule)和多維關聯(lián)規(guī)則(Multi-dimension Association Rule)。其中單維關聯(lián)規(guī)則指關聯(lián)規(guī)則中的項或屬性只涉及單個維或謂詞(即一個屬性或列),如只涉及購買項。單維關聯(lián)規(guī)則表示了屬性的內在聯(lián)系,即同一個屬性或維內的關聯(lián)。若關聯(lián)規(guī)則涉及兩個或多個(不同的)謂詞或維,則它是

68、多維關聯(lián)規(guī)則。如顧客數據庫中的顧客年齡、收入和購買項為三維。多維關聯(lián)規(guī)則表示了屬性間的聯(lián)系,即屬性/維之間的關聯(lián)。 </p><p>  此外,根據關聯(lián)規(guī)則挖掘的不同擴充,關聯(lián)規(guī)則挖掘可以分為分類學習、相關分析、最大大模式和大閉項集挖掘等。 給出了關聯(lián)規(guī)則的分類后,在今后的分析過程中,我們就可以考慮某個具體的方法適用于哪一類規(guī)則的挖掘,某類規(guī)則又可以用哪些不同的方法進行處理。</p><p&g

69、t;  2.2.3 關聯(lián)規(guī)則的挖掘 </p><p>  關聯(lián)規(guī)則的挖掘主要包含以下兩個步驟: </p><p>  第一步:從事務數據庫 D 中找出所有支持度不小于用戶指定的最小支持度閾值的頻繁項目集。在數據挖掘中,支持度不小于用戶指定的最小支持度閾值的項目集簡稱頻繁項目集。 </p><p>  第二步:使用頻繁項目集產生所期望的關聯(lián)規(guī)則,產生關聯(lián)規(guī)則的基本原則

70、是其置信度不小于用戶指定的最小置信度閾值。 </p><p>  第一步的任務是迅速高效地找出 D 中全部的頻繁項集,這是關聯(lián)規(guī)則挖掘的核心問題,是衡量關聯(lián)規(guī)則挖掘算法的標準。第二步的求解比較容易和直接,目前所有的關聯(lián)規(guī)則挖掘算法都是針對第一步而提出的。</p><p>  2.3關聯(lián)規(guī)則的Apriori算法</p><p>  2.3.1 Apriori算法概念&

71、lt;/p><p>  在關聯(lián)規(guī)則算法中, Agrawal和Srikant的Apriori算法是第一個關聯(lián)規(guī)則挖掘算法,也是最經典的算法之一。它利用逐層搜索的迭代方法找出數據庫或者其他類型的數據集中項集的關系,以形成規(guī)則,其過程由連接(類矩陣運算)與剪枝(去掉那些沒必要的中間結果)組成。該算法中項集的概念即為項的集合。包含K個項的集合為k項集。項集出現的頻率是包含項集的事務數,稱為項集的頻率。如果某項集滿足最小支持度

72、,則稱它為頻繁項集。</p><p>  在這里首先要介紹支持度和置信度兩個閥值的概念,其中規(guī)則的支持度和置信度是兩個規(guī)則度量。在關聯(lián)規(guī)則中,除前件(if部分)和后件(then部分)外,每個關聯(lián)規(guī)則還有兩個數,表達規(guī)則的不確定程度。在關聯(lián)分析中,前件和后件是不相交的項的集合(項集)。支持度是包含規(guī)則前件和后件所有項的集合在全部項中的比率;置信度就是包含前件和后件的項集數跟包含前件的項集數的比率,這兩個數一般用百分

73、比來表示。</p><p><b>  舉一個例子:</b></p><p>  在一個購買商品的清單中:</p><p><b>  圖2-3-1-1</b></p><p>  假設σ表示項集出現的支持度計數或者頻度,比如σ({牛奶,面包,尿布})=2;</p><p>

74、  也就是說包含了牛奶、面包和尿布的事務有兩個,又假設S表示包含一個項集的事務所占的比例,則</p><p>  Support({牛奶,面包,尿布})=2/5</p><p> ?。ㄆ渲蠨是事務總數,在這里也就是D=5)。</p><p><b>  這個S就是支持度。</b></p><p>  另外,置信度就是包含

75、前件和后件的項集數跟包含前件的項集數的比率,同樣在這里舉一個例子:</p><p><b>  而 </b></p><p>  在這里,假設用C表示置信度,則:</p><p>  一般情況下進行Apriori算法時候都會定義一個最小支持度(min-sup)和最小置信度(min-conf)兩個閥值來進行判斷關聯(lián)強度。</p>

76、<p>  2.3.2 Apriori算法的兩個步驟</p><p>  Apriori算法包括兩個步驟,一個是連接步驟,一個是剪枝步驟。</p><p> ?。?)連接步驟:在進行Apriori算法過程中,必須通過連接步驟才能得到下一組候選項集,假設Ck是指候選k-項集,Lk是頻繁k-項集,要得到得到候選Ck+1項集,必須利用Lk中的頻繁項集兩兩連接。設li與lj是Lk中的

77、項集,其中l(wèi)i[j]表示li的第j項,為方便計算,假定事務或者項集中的項按字典次序排序。設l1,l2是Lk中的項集,如果它們的前k-1個項相同,則他們是可以相連接的,則它們相連之后的結果就是:l1 [1]l1[2] l1[3]..l1[k-1] </p><p>  l1[k] l2[k],就這樣將Lk中的各個項集連接起來,就可以得到Ck+1。這就是連接步驟。</p><p> ?。?)剪

78、枝步驟:Ck是Lk的超集,也就是說Ck的項集可以使頻繁的也可以不是頻繁的,但是所有的頻繁k-項集都包含在Ck中,然而通過Lk的項集連接得到的Ck的項集中,通過支持度的篩選之后得到的Lk+1中,如果有某個項集的子集不在Lk中,那么這個項集也可以認為是不符合支持度,應該刪掉,以減少候選項集的數量。</p><p><b>  舉一個例子:</b></p><p>  假如

79、頻繁2-項集L2如下圖:</p><p><b>  圖2-3-2-1</b></p><p>  通過連接得到的候選3-項集C3如下圖:</p><p><b>  圖2-3-2-2</b></p><p>  但是我們可以發(fā)現,{薯片,啤酒}項集不在頻繁2-項集L2里面,所以可以通過剪枝將包含了

80、{薯片,啤酒}的候選項集刪除,得到如下圖的候選3-項集C3:</p><p><b>  圖2-3-2-3</b></p><p>  這樣就減少了大量的工作量,降低了錯誤率。</p><p><b>  2.4 興趣度</b></p><p>  關聯(lián)規(guī)則中使人感興趣程度的度量涉及到客觀和主管兩個

81、方面。一個規(guī)則是否比較準確的展示數據中蘊含的規(guī)律或者模式,這個關聯(lián)規(guī)則興趣度的客觀性所在。數據挖掘中規(guī)則的支持度和可信度是非常常見的度量閥值。對于很多應用來說,利用支持度和可信度的框架來挖掘是非常有用的,但是,利用這種規(guī)則來度量得出的規(guī)則可能不是真實的,可能是帶有欺騙性的,因此,當人們對數據進行挖掘時候,需要做出相關分析來確保最后得到的規(guī)則對研究者來說是有趣的,是有利用價值的。因此,人們通過引入興趣度來剔除原本意義不大的規(guī)則。</

82、p><p>  舉一個例子:以下圖為例</p><p><b>  圖2-4-1</b></p><p>  由表可以了解到,按照上面定義的關聯(lián)規(guī)則“買咖啡?買牛奶(S=0.2,C=0.8)”,即 80%的人買了咖啡就會買牛奶。當把置信度和支持度閾值定為低于0.8 和 0.2 時,很顯然該規(guī)則將會作為目標規(guī)則之一被采掘出來。由此可以得出結論,刺激顧

83、客對咖啡的購買欲望將增加牛奶的銷售量,或換句話說,將咖啡和牛奶放在一起將提高牛奶的銷售量。 然而,事實并非這樣。原始交易庫說明有 90%的顧客會購買牛奶,而上面挖掘出來的關聯(lián)規(guī)則顯示買咖啡的顧客有 80%的可能性購買牛奶。也就是說,一個已知購買了咖啡的顧客購買牛奶的可能性事實上比一個不知道任何信息的顧客購買牛奶的可能性小 10%。這里并不能肯定地說“買咖啡?買牛奶”這條規(guī)則一定不正確,但至少它的價值已經不如開始期望的那么高了。更嚴重的話

84、,這條規(guī)則確實會是誤導性的。因為事實上由原始庫可以看出,(不買咖啡?買牛奶)的可能性更大(70/75=93.3%)。 于是可以得出結論,在考慮了反面示例的影響之后,問題出現了。并非挖掘出的規(guī)則置信度或支持度不高,但一條即使置信度和支持度都很高的規(guī)則其實際利用價值已經難以肯定了。為了解決這個問題,于是引入興趣度這個閥值。</p><p>  通過將觀測到的事件發(fā)生頻率(P(X ∩ Y))同基于X和Y條件獨立假設時事

85、件同時發(fā)生的頻率(P(X)×P(Y))之比,來測量規(guī)則的統(tǒng)計相依性,其中</p><p>  興趣度規(guī)則是用來修剪無趣的規(guī)則,即避免生成“錯覺”的關聯(lián)規(guī)則。一般一條規(guī)則的興趣度是在基于統(tǒng)計獨立性假設下真正的強度與期望的強度之比,然而在許多應用中已發(fā)現,只要人們仍把支持度作為最初的項集產生的主要決定因素,那么要么把支持度設的足夠低以使得不丟失任何有意義的規(guī)則,要么冒丟失一些重要規(guī)則的風險。對于前一種情形,

86、計算效率是個問題,而后一種情形則有可能丟失從用戶觀點來看是有意義的規(guī)則的問題。在這種情況下,興趣度就發(fā)揮了作用。當興趣度大于 1 的時候,這條規(guī)則就是比較好的;當興趣度小于 1 的時候,這條規(guī)則就是沒有太大意義的。興趣度越大,規(guī)則的實際意義就越好。</p><p><b>  2.5 購物籃</b></p><p>  一般情況下,購物籃就是某個零售超市或者其他提供零

87、售的組織機構提供給顧客臨時存放有意愿且即將要購買的商品的籃子,在這里說的購物籃的意思跟前者相差不大,但是這里的購物籃是確定顧客在最后一定購買了的購物清單,也就是最后顧客買單之后得到的顧客購買清單。</p><p>  3利用數據挖掘關聯(lián)規(guī)則技術對某超市的銷售數據進行購物籃分析</p><p>  3.1問題的提出與解決方法</p><p>  由于在商業(yè)零售行業(yè)中,

88、其最大的目的就是獲得最大的銷售利潤。因此,商場零售商非常需要解決的問題就是:</p><p>  采用什么樣的銷售策略和促銷策略</p><p>  商品在貨架上應該如何擺放</p><p>  要解決這些問題,就要得到顧客的購買習性,因此,這里需要解決的問題就是從某個超市收集到的銷售數據中發(fā)現顧客的購買習性,得出個別商品之間的關聯(lián)關系或者規(guī)律,得出這種規(guī)律之后再對

89、商場上的商品布局進行設計,提高銷售效率,盡量得到一個可以獲得最大利潤的商品布局、銷售和促銷策略。</p><p><b>  3.2問題解決過程</b></p><p><b>  如下圖:</b></p><p><b>  圖3-2-1</b></p><p><b&

90、gt;  3.3數據收集</b></p><p>  了解顧客的購買習慣和偏愛,會使零售超市對以上問題作出正確的決策具有指導意義。真實的數據在這里顯得格外重要,如果一條數據出錯,可能會直接影響整個結果,或者得出一個錯誤的結果,導致最后做了一個錯誤的決策,又或者漏掉某一個的為了要對某超市的銷售數據進行購物籃分析,本文使用了從該超市收集到的126條購物小票,也稱作交易記錄,根據采集到的購物小票進行統(tǒng)計在收

91、集數據時間內的顧客購物數據,收集數據時間為2015年4月24號與25號的白天和晚上。為了數據的正確性,在這里收集購物小票時候無論大小、購買物品多少,都要收集起來。在這里收集購物小票的方式有多種:</p><p>  跟已經完成購物的顧客進行索取購物小票</p><p>  在商場門口撿顧客扔掉的購物小票</p><p>  翻垃圾袋得到顧客扔掉的購物小票</p

92、><p><b>  3.4數據預處理</b></p><p>  在這些交易記錄當中,由于商品數量過多,所以在這里不對詳細的商品進行關聯(lián)規(guī)則分析,而是根據商品的類型進行關聯(lián)規(guī)則分析,所以在這里首先必須對商品進行類型分類,通過對類型的關聯(lián)規(guī)則分析來進行找出商品類型之間的關聯(lián)關系。</p><p>  在收集到的數據集中,經過簡單分類一共包含了32中

93、商品類型,這32中商品類型分別是:飲料、沖飲食品、乳制沖飲、滋補保健品、罐頭食品、即食主食、中式掛面\通心粉、調味品、干貨、餅干、糕點、膨化食品、休閑小食品、糖類、水果、酒類、米、粉面、油、雜糧、冷藏素食制品、冷藏乳制品、常溫乳制品、常溫熟食類、冷藏熟食、冰品、肉食、蔬菜、菜肴半成品、干調副食、散裝休閑食品。</p><p>  由于方便進行數值上的統(tǒng)計,所以需要將各種分類用數值進行表示。在這里,用excel表上

94、進行對交易記錄進行記錄,每一條記錄占用一行,用“0”與“1”來表示對哪一類商品是否購買,例如下圖:</p><p><b>  圖3-4-1</b></p><p>  通過對收集到的所以購物小票進行統(tǒng)計,得到如下表:</p><p><b>  圖3-4-2</b></p><p><b&g

95、t;  圖3-4-3</b></p><p><b>  圖3-4-4</b></p><p><b>  圖3-4-5</b></p><p><b>  圖3-4-6</b></p><p>  通過sum函數對每一個類型的總量進行統(tǒng)計,等到每一個類型商品的購買

96、量,如下圖:</p><p><b>  圖3-4-7</b></p><p>  為了減少后面的計算量,而且在第一輪的支持度分析中,必然會將低支持度的商品淘汰掉,因此在這里可以將總購買量不大于10的商品刪除掉。得到如下圖:</p><p><b>  圖3-4-8</b></p><p>  另外

97、,為了便于表達,將商品類型換成代號表示,如下表:</p><p><b>  圖3-4-9</b></p><p>  3.5使用Apriori算法對商品進行關聯(lián)規(guī)則挖掘分析</p><p>  首先對各個商品進行第一輪的支持度計數,根據以上的統(tǒng)計圖可以得到如下圖:</p><p><b>  圖3-5-1&l

98、t;/b></p><p>  要運用Apriori算法對商品進行關聯(lián)規(guī)則挖掘分析,首先要在已經整理好的數據的基礎下對其進行支持度分析,在這里先對單一的商品進行支持度分析,運用公式:</p><p>  對每種商品類型進行支持度分析。其中σ(X)表示事務X的支持度計數,D為所有事務總數,在這里D=126,計算結果小數點后面保留兩位小數。計算如下:</p><p&g

99、t;  Support(01)=(82/126)*100%=65% Support(02)=(32/126)*100%=25%</p><p>  Support(03)=(16/126)*100%=12% Support(04)=(24/126)*100%=19%</p><p>  Support(05)=(45/126)*100%=35% Support(06)=(47/

100、126)*100%=37%</p><p>  Support(07)=(24/126)*100%=19% Support(08)=(41/126)*100%=32%</p><p>  Support(09)=(15/126)*100%=11% Support(10)=(31/126)*100%=24%</p><p>  Support(11)=(30/

101、126)*100%=23% Support(12)=(48/126)*100%=38%</p><p>  Support(13)=(51/126)*100%=40% Support(14)=(40/126)*100%=31%</p><p>  Support(15)=(23/126)*100%=18% Support(16)=(18/126)*100%=14%</p&

102、gt;<p>  Support(17)=(59/126)*100%=46% Support(18)=(61/126)*100%=48%</p><p>  Support(19)=(22/126)*100%=17% Support(20)=(11/126)*100%=8%</p><p>  Support(21)=(51/126)*100%=40%</p&g

103、t;<p>  設置min_sup=35%,則在第一輪的支持度分析中可以發(fā)現,只有代碼為01,05,06,12,13,17,18,21的商品滿足最小支持度的項,如下圖:</p><p><b>  圖3-5-2</b></p><p>  接下來也是做著同樣的事情,根據頻繁1-項集L1來產生候選2-項集C2,也就是將頻繁1-項集L1中的項集兩兩合并,得到

104、沒有重復的候選2-項集C2中的項集,如下圖:</p><p><b>  圖3-5-3</b></p><p>  然后通過對候選2-項集C2中的項集進行支持度分析,計算各個2-項集的支持度計數,如下圖:</p><p><b>  圖3-5-4</b></p><p>  從C2中選擇那些滿足mi

105、n_sup的項集,通過利用公式:</p><p>  得到2-項集的支持度(其中D=126):</p><p>  Support({01,05})=(38/126)*100%=30% </p><p>  Support({01,06})=(35/126)*100%=28%</p><p>  Support({01,12})=(37/12

106、6)*100%=29% </p><p>  Support({01,13})=(40/126)*100%=32%</p><p>  Support({01,17})=(38/126)*100%=30% </p><p>  Support({01,18})=(46/126)*100%=37%</p><p>  Support({01,2

107、1})=(44/126)*100%=35% </p><p>  Support({05,06})=(29/126)*100%=23%</p><p>  Support({05,12})=(24/126)*100%=19% </p><p>  Support({05,13})=(28/126)*100%=22%</p><p>  Sup

108、port({05,17})=(24/126)*100%=19%</p><p>  Support({05,18})=(34/126)*100%=27%</p><p>  Support({05,21})=(25/126)*100%=20% </p><p>  Support({06,12})=(31/126)*100%=25%</p><p

109、>  Support({06,13})=(31/126)*100%=25% </p><p>  Support({06,17})=(26/126)*100%=21%</p><p>  Support({06,18})=(34/126)*100%=27% </p><p>  Support({06,21})=(31/126)*100%=25%</p&

110、gt;<p>  Support({12,13})=(34/126)*100%=27% </p><p>  Support({12,17})=(27/126)*100%=21%</p><p>  Support({12,18})=(32/126)*100%=25% </p><p>  Support({12,21})=(32/126)*100%=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論