6數(shù)據(jù)挖掘技術(shù)專題_第1頁
已閱讀1頁,還剩98頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘技術(shù)專題,數(shù)據(jù)挖掘技術(shù)的由來 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘應(yīng)用 數(shù)據(jù)挖掘的基本技術(shù) 數(shù)據(jù)挖掘的基本算法 基于Excel的數(shù)據(jù)挖掘軟件工具,數(shù)據(jù)挖掘技術(shù)的由來,,我們現(xiàn)在已經(jīng)生活在一個網(wǎng)絡(luò)化的時代,網(wǎng)絡(luò)技術(shù)大大提高了人的生存質(zhì)量和人的素質(zhì),使人成為社會人、全球人。網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)是什么?,網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的由來,,《紐約時報》由60年代的10~20版擴(kuò)張至現(xiàn)在的100~200版,最高曾達(dá)1

2、572版;《北京青年報》也已是16~40版;《市場營銷報》已達(dá)100版。在現(xiàn)實社會中,人均日閱讀時間通常為30~45分鐘,只能瀏覽一份24版的報紙。,網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的由來,,大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一:是信息過量,難以消化;第二:是信息真假難以辨識;第三:是信息安全難以保證;第四:是信息形式不一致,難以統(tǒng)一處理。,網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的由來,,“

3、要學(xué)會拋棄信息” “如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率?”數(shù)據(jù)開采和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的由來,,隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)

4、數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。,數(shù)據(jù)爆炸但知識貧乏,數(shù)據(jù)挖掘技術(shù)的由來,,海量數(shù)據(jù)搜集強(qiáng)大的多處理器計算機(jī)數(shù)據(jù)挖掘算法,支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ),數(shù)據(jù)挖掘技術(shù)的由來,,從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化,數(shù)據(jù)挖掘技術(shù)的由來,,數(shù)據(jù)挖掘逐漸演變的過程,機(jī)器學(xué)習(xí),專家系統(tǒng),機(jī)器學(xué)習(xí),,,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘(Data Mining)就是

5、從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。,技術(shù)上的定義及含義,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題,技術(shù)上的定義及含義,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大

6、量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。,商業(yè)角度的定義,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識.數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實用三個特征.,數(shù)據(jù)挖

7、掘與傳統(tǒng)分析方法的區(qū)別,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)倉庫是為決策支持而不是為事務(wù)處理所設(shè)計的數(shù)據(jù)庫,它是將不同來源的事務(wù)處理數(shù)據(jù)庫中對決策有用的數(shù)據(jù)提取出來而建立。數(shù)據(jù)倉庫的發(fā)展是數(shù)據(jù)挖掘的動力之一。但數(shù)據(jù)挖掘既可以在數(shù)據(jù)倉庫中進(jìn)行,也可以在傳統(tǒng)的事務(wù)型數(shù)據(jù)庫中進(jìn)行。,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,數(shù)據(jù)源,數(shù)據(jù)倉庫,各分公司數(shù)據(jù)集市,分析數(shù)據(jù)集市,數(shù)據(jù)挖掘數(shù)據(jù)集市,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,

8、數(shù)據(jù)源,數(shù)據(jù)挖掘庫,數(shù)據(jù)挖掘的定義,,在線分析處理(OLAP, On-Line analytical processing)是一種增強(qiáng)的查詢技術(shù),是決策支持領(lǐng)域的一部分。但又不同于傳統(tǒng)的查詢技術(shù)。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會怎么樣(What next)、和如果我采取這樣的措施又會怎么樣(What if)。用戶首先建

9、立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗證這個假設(shè)是否正確。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,比如,一個分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來驗證他這個假設(shè)。如果這個假設(shè)沒有被證實,他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘與OLAP不同的

10、地方是,數(shù)據(jù)挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個歸納的過程。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,比如,一個用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計分析,數(shù)據(jù)挖掘,統(tǒng)計分析,

11、預(yù)測,簡單的方法,復(fù)雜的方法,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計分析,數(shù)據(jù)挖掘,統(tǒng)計方法,模式識別,人工智能,封裝,預(yù)測,數(shù)據(jù)挖掘的定義,,軟硬件發(fā)展對數(shù)據(jù)挖掘的影響,存貯性能的提高,計算能力的提高,并行處理技術(shù),數(shù)據(jù)挖掘應(yīng)用,,欺詐偵測,AT&T 使用根據(jù)數(shù)據(jù)挖掘開發(fā)的系統(tǒng)來偵測盜打國際電話的行為。由HNC 公司開發(fā)的隊LCON 欺詐評估系統(tǒng)用于提示可能存在的盜用信用卡的交易。金融犯罪執(zhí)法網(wǎng)絡(luò)Al 系統(tǒng)(FAIS

12、)使用包括數(shù)據(jù)挖掘在內(nèi)的幾種技術(shù),識別大型現(xiàn)金交易中可能存在的洗錢行為。個人通訊高級安全(Advanced security for Personal communications)歐洲研究組織己經(jīng)利用無指導(dǎo)聚類偵測移動電話網(wǎng)絡(luò)中的欺詐。對每個用戶,系統(tǒng)儲存用戶的歷史和使用特征文件。在當(dāng)前使用與用戶的歷史情況有明顯區(qū)別時,懷疑為欺詐行為。,數(shù)據(jù)挖掘應(yīng)用,,衛(wèi)生保健,Merck-Medco Managed care, Merck 的一個

13、醫(yī)藥保險和處方電郵訂購單位,使用數(shù)據(jù)挖掘來幫助找出對某種類型的病人減少費(fèi)用但療效相同的治療方法。生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個領(lǐng)域,在商業(yè)上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對其不同之處加以改變,使之成為正?;?這都需要數(shù)據(jù)挖掘技術(shù)的支持。,數(shù)據(jù)挖掘應(yīng)用,,商業(yè)和金融,Farmer‘s Group 有限公司如何使

14、用數(shù)據(jù)挖掘方法得出擁有跑車的人不具有高事故風(fēng)險的假設(shè)。美國銀行(Bank of America )使用數(shù)據(jù)挖掘偵測哪個客戶正在使用美國銀行的哪種產(chǎn)品,以便他們能夠提供正確的產(chǎn)品和服務(wù)組合,更好地滿足客戶的需求。美國西部通信(US West Communications)根據(jù)諸如家庭的大小、家庭成員的平均年齡和所在地這些特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉庫來確定客戶的傾向和需要。20 世紀(jì)Fox公司分析票房收入來確定哪個演員、情節(jié)和電

15、影在各市場環(huán)境中更容易為觀眾接受。,數(shù)據(jù)挖掘應(yīng)用,,科學(xué)應(yīng)用,γ射線爆是短暫的伽瑪射線反射,它來源于我們太陽系之外。有關(guān)事件的記錄已經(jīng)超過1000 次??茖W(xué)界普遍認(rèn)為存在兩種了射線爆。Mukherjee 等人使用統(tǒng)計聚類分析法(一種數(shù)據(jù)挖掘方法)發(fā)現(xiàn)了第3 類了射線爆。,數(shù)據(jù)挖掘應(yīng)用,,運(yùn)動和游戲,大約20個NBA球隊使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因為研究了魔

16、術(shù)隊隊員不同的布陣安排,在與邁阿密熱隊的比賽中找到了獲勝的機(jī)會。游戲產(chǎn)業(yè)將客戶賭博方式的歷史模型結(jié)合起來,確定客戶在光顧他們喜歡的賭場時,會花(輸)多少錢。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),我們年輕時,用歸納形成基本概念定義。我們看到代表動物、植物、建筑物和諸如此類的概念實例后,我們聽到為這些個別實例做的標(biāo)記,并選擇我們認(rèn)定的定義概念的特性(屬性)形成我們自己的分類模型。這以后,我們使用模型幫助我們進(jìn)一步

17、來區(qū)分結(jié)構(gòu)相似的對象。這種類型的學(xué)習(xí)稱為基于歸納的有指導(dǎo)的概念學(xué)習(xí),或簡稱有指導(dǎo)的學(xué)習(xí)(supervised learning ),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),,Yes,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),如果病人淋巴腫,診斷為鏈球菌感染性咽炎。如果病人沒有淋巴腫的癥狀,但發(fā)燒,診斷為感冒。如果病人沒有淋巴腫,也不

18、發(fā)燒,診斷為敏感癥。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),(1)IF 淋巴腫 = Yes THEN 診斷 = 鏈球菌感染性咽炎(2) IF淋巴腫 = No & 發(fā)燒 = Yes THEN 診斷= 感冒 (3)IF 淋巴腫=No & 發(fā)燒 = No THEN 診斷 = 敏感癥,產(chǎn)生式規(guī)則,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),未知分類的數(shù)據(jù)實例,數(shù)據(jù)挖掘的

19、基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),準(zhǔn)確度在檢驗集中符合產(chǎn)生式規(guī)則條件的實例正確顯示規(guī)則所指定結(jié)果的比率。覆蓋率在檢驗集中顯示規(guī)則所指定結(jié)果的實例符合產(chǎn)生式規(guī)則條件的比率。,產(chǎn)生式規(guī)則應(yīng)用效果的評價指標(biāo),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),分類學(xué)習(xí)是有指導(dǎo)的。因變量是分類的。重點(diǎn)在于建立模型,將新的實例指派給一組定義明確的類中的一個。,有指導(dǎo)學(xué)習(xí)的類型,數(shù)據(jù)挖掘的基本技術(shù),,有指

20、導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),分類任務(wù)的例子確定用于區(qū)分患過心臟病的人和從未患過心臟病的人的特征。開發(fā)一個“成功”人士的特征文件。確定一次信用卡購物是否為盜用。將一次購車貸款申請歸類為具備良好的或者不良的信用風(fēng)險。開發(fā)一個特征文件來區(qū)別女性與男性中風(fēng)患者。,有指導(dǎo)學(xué)習(xí)的類型,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),估計與分類模型相似,估計模型的目的在于確定一個未知輸出屬性的值。然而,不同于分類模

21、型的是,對一個估計問題,其輸出屬性值(一個或多個)是數(shù)值的而不是分類的。,有指導(dǎo)學(xué)習(xí)的類型,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),估計任務(wù)的例子估計暴風(fēng)雨到達(dá)某個給定地點(diǎn)所需要的分鐘數(shù)。估計擁有一輛跑車的人的工資。估計信用卡已被盜的可能性。估計伽馬射線爆的長度。,有指導(dǎo)學(xué)習(xí)的類型,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),預(yù)測與分類模型和估計模型不同,預(yù)測模型的目的在于確定未

22、來的輸出結(jié)果而不是當(dāng)前的行為。預(yù)測模型的輸出屬性(一個或多個)可以是分類的或數(shù)值型的。,有指導(dǎo)學(xué)習(xí)的類型,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),預(yù)測任務(wù)的例子預(yù)測2002 年全美橄欖球聯(lián)盟(NFL)賽季中跑衛(wèi)的觸地總得分。確定一個信用卡客戶是否可使用其信用卡賬單提供的優(yōu)惠。預(yù)測下周道瓊斯工業(yè)指數(shù)的收盤價格。預(yù)測在未來的3個月內(nèi),哪些電話用戶最有可能改變他們的供應(yīng)商。,有指導(dǎo)學(xué)習(xí)的類型,數(shù)據(jù)挖掘的基本技術(shù),

23、,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),心臟病病人數(shù)據(jù),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),心臟病病人數(shù)據(jù),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF 169< Maximum Heart Rate <202THEN Concept Class = Healthy規(guī)則準(zhǔn)確度:85.07%規(guī)則覆蓋率:34.55%,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)

24、,警告1 正常狀態(tài)下測量你的最大心率,若該值偏低,你可能有患心臟病的危險。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),警告2 如果你患有心臟病,可以預(yù)期你的最大心率會降低 。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),警告3 最大心率偏低將導(dǎo)致患心臟病 。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),數(shù)據(jù)挖掘,可以指出屬性間的關(guān)系,但是不能弄清這些關(guān)系間是否隱含著因果關(guān)系。

25、,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),Acme信用卡公司信用卡促銷數(shù)據(jù)庫,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),假設(shè)Acme 信用卡公司己經(jīng)批準(zhǔn)了一個與上表所列的以前的促銷相似的新的壽險促銷活動。這個促銷材料將作為信用卡賬單的一部分發(fā)送給非零余額的所有信用卡持有者。我們將使用數(shù)據(jù)挖掘來幫助我們把賬單發(fā)送到選定的一組客戶手中,他們當(dāng)前沒有信用卡余額,但有可能利用促銷機(jī)會。我們的問題要求有

26、指導(dǎo)數(shù)據(jù)挖掘使用壽險促銷作為輸出屬性。我們的目的是開發(fā)一個可能利用壽險促銷的客戶的特征文件,該壽險促銷是通過該客戶下一次信用卡結(jié)算表來宣傳的。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF 性別=Female & 19<=Age<= 43 THEN 壽險促銷=Yes規(guī)則準(zhǔn)確度:100.00% 規(guī)則覆蓋率:66.67%,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF Se

27、x=Male & Income Range=40-50KTHEN壽險促銷=No規(guī)則準(zhǔn)確度:100.00%規(guī)則覆蓋率:50.00%,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF 信用卡保險=YesTHEN壽險促銷=Yes規(guī)則準(zhǔn)確度:100.00%規(guī)則覆蓋率:33.33%,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF 收入=30-40K & 手表促銷=YesTHE

28、N壽險促銷=Yes規(guī)則準(zhǔn)確度:100.00%規(guī)則覆蓋率:33.33%,數(shù)據(jù)挖掘的基本技術(shù),,無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類,與有指導(dǎo)學(xué)習(xí)不同,無指導(dǎo)聚類(unsupervised clustering )為無預(yù)定義類數(shù)據(jù)建立模型。數(shù)據(jù)實例根據(jù)聚類系統(tǒng)定義的相似分類機(jī)制進(jìn)行分組,在一種或多種評估技術(shù)的支持下,最終由我們確定所構(gòu)造聚類的含義。,數(shù)據(jù)挖掘的基本技術(shù),,無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類,Acme 投資有限公司代理帳戶數(shù)

29、據(jù),數(shù)據(jù)挖掘的基本技術(shù),,無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類,有指導(dǎo)學(xué)習(xí)的典型問題我可以開發(fā)一個在線投資人的一般特征文件嗎?如果可以,區(qū)分在線投資者和使用經(jīng)紀(jì)人的投資者的特征是什么?有一個新客戶,他最初并沒有開設(shè)交易保證金賬戶,我是否可以確定他在將來會開設(shè)這樣的賬戶?我們能建立一個準(zhǔn)確預(yù)測新投資人每月交易平均數(shù)的模型嗎?女性和男性投資人有什么不同特征?,數(shù)據(jù)挖掘的基本技術(shù),,無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類,無指導(dǎo)聚類的典型問題

30、哪些屬性相似性決定Acme 投資公司的客戶分組?屬性值的哪些不同之處分割了客戶數(shù)據(jù)庫?,數(shù)據(jù)挖掘的基本技術(shù),,無指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無指導(dǎo)聚類,通過無指導(dǎo)聚類將客戶劃分為3類,IF 保證金帳戶=Yes & 年齡=20—29 & 收入=40-59K THEN Cluster=1準(zhǔn)確度=0.80 覆蓋率=0.50 IF 帳戶類型 = Custodial & 愛好=Skiing & 收入=

31、 80-90KTHEN Cluster=2準(zhǔn)確度=0.95覆蓋率=0.35 IF 帳戶類型=Joint & 交易量/月>5 & 交易方式=OnlineTHEN Cluster=3準(zhǔn)確度=0.82覆蓋率=0.65,數(shù)據(jù)挖掘的基本技術(shù),,關(guān)聯(lián)規(guī)則挖掘技術(shù),關(guān)聯(lián)規(guī)則(association rule)挖掘技術(shù)用于發(fā)現(xiàn)數(shù)據(jù)庫中屬性之間的有趣聯(lián)系。和傳統(tǒng)的產(chǎn)生式規(guī)則不同,關(guān)聯(lián)規(guī)則可以有一個或多個輸出屬

32、性。同時,一個規(guī)則的輸出屬性可以是另一規(guī)則的輸入屬性。關(guān)聯(lián)規(guī)則分析有時也叫購物籃分析,是因為它可以找尋出潛在的令人感興趣的所有的產(chǎn)品組合。由此,有限數(shù)目的屬性可能生成上百條關(guān)聯(lián)規(guī)則。,數(shù)據(jù)挖掘的基本技術(shù),,關(guān)聯(lián)規(guī)則挖掘技術(shù),通過apriori關(guān)聯(lián)規(guī)則挖掘算法,從Acme公司信用卡促銷數(shù)據(jù)庫可以得到以下關(guān)聯(lián)規(guī)則:,IF 性別=Female & 年齡=over40 & 信用卡保險=NoTHEN 壽險促銷=YesIF 性

33、別=Male & 年齡=over40 & 信用卡保險=No THEN壽險促銷=NoIF 性別=Female & Age= over40THEN 信用卡保險=No & 壽險促銷=Yes,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,算法步驟,A.假設(shè)T為訓(xùn)練實例集B.選擇一個最能區(qū)別T中實例的屬性(屬性的優(yōu)度值最大)C.創(chuàng)建一個樹結(jié)點(diǎn),它的值為所選擇的屬性。創(chuàng)建該結(jié)點(diǎn)的子鏈,每個子

34、鏈代表所選屬性的一個唯一值。D.對C所創(chuàng)建的每個子類:a.如果子類中的實例滿足預(yù)定義的標(biāo)準(zhǔn)(如達(dá)到最小訓(xùn)練集分類準(zhǔn)確度),或者,沿這條路徑的剩余可選的屬性集為空,為沿此決策路徑的新實例指定類別。b.如果子類不滿足預(yù)定義的標(biāo)準(zhǔn)并且至少有一個屬性能進(jìn)一步細(xì)分樹的路徑,設(shè)T為當(dāng)前子類實例集合,返回步驟B,,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,屬性優(yōu)度值,按某一屬性對訓(xùn)練實例集進(jìn)行分類,分類的準(zhǔn)確度除以分支的個數(shù)

35、,即為該屬性的優(yōu)度值。如:按屬性A對訓(xùn)練實例集進(jìn)行分類,可以得到n個子類,而分類的準(zhǔn)確度(正確分類的實例數(shù)/實例總數(shù))為p, 則屬性的優(yōu)度值為 p/n,,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,,Acme信用卡公司信用卡促銷數(shù)據(jù)庫,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,以收入范圍作為分類屬性,,,分類準(zhǔn)確度: 11/15=0.73屬性優(yōu)度 0.73/4=0.183,數(shù)據(jù)挖掘的基

36、本算法,,C4.5 —— 建立決策樹的算法,以信用卡保險作為分類屬性,,,分類準(zhǔn)確度: 9/15=0.6 屬性優(yōu)度 0.6/2=0.3,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,以性別作為分類屬性,,,分類準(zhǔn)確度: 10/15=0.67 屬性優(yōu)度 0.67/2=0.33,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,以年齡作為分類屬性,,,年齡是數(shù)值屬性,須先對其進(jìn)行排序

37、,然后作二元劃分,19 27 29 35 38 39 40 41 42 43 43 43 45 55 55 Y N Y Y Y Y Y Y N Y Y N N N N 年齡19,19 27 29 35 38 39 40 41 42 43 43 43 45 55 55 Y N Y Y Y Y Y Y N Y Y N N

38、 N N 年齡42,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,以年齡作為分類屬性,,,分類準(zhǔn)確度: 12/15=0.8 屬性優(yōu)度 0.8/2=0.4,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,年齡屬性的優(yōu)度值最大,以此形成第1個結(jié)點(diǎn),,,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹的算法,年齡<=43的分支以性別屬形成第2個結(jié)點(diǎn),,,數(shù)據(jù)挖掘的基本算法,,C4.5 ——

39、建立決策樹的算法,性別=male的分支以信用卡保險屬形成第3個結(jié)點(diǎn),,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,假設(shè)我們想確定顧客對下列4 種食品店食品的購買傾向,是否存在有趣的聯(lián)系:牛奶奶酪面包雞蛋可能包括下列的關(guān)聯(lián):如果顧客購買牛奶,那么他們也會購買面包。如果顧客購買面包,那么他們也會購買牛奶。如果顧客購買牛奶和雞蛋,那么他們也會購買奶酪和面包。如果顧客購買牛奶、奶酪和雞蛋,

40、那么他們也會購買面包。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,關(guān)聯(lián)規(guī)則的置信度:關(guān)聯(lián)規(guī)則在在滿足前提的情況下,其結(jié)論可能出現(xiàn)的概率。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,關(guān)聯(lián)規(guī)則:如果顧客購買牛奶,那么他們也會購買面包。如果顧客購買面包,那么他們也會購買牛奶。是不是一樣呢?,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,如果有10000次顧客交易里購買

41、了牛奶,而且其中的5000個也購買了面包,則購買牛奶的情況下,購買面包的置信度為5000/10000=50% 假設(shè)有20000 次顧客交易里購買了面包,其中5000個也購買了牛奶。在購買面包的情況下,購買牛奶的置信度是25%。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,關(guān)聯(lián)規(guī)則的支持度:包含關(guān)聯(lián)規(guī)則中出現(xiàn)的屬性值的交易占所有交易的百分比。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,對

42、于關(guān)聯(lián)規(guī)則:如果顧客購買牛奶,那么他們也會購買面包。如果在1000次交易中,如果有300次交易即購買了牛奶又購買了面包,則上述規(guī)則的支持度是30%,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,算法步驟:按給定的最小支持度由數(shù)據(jù)庫生成條目集。按給定的最小置信度由條目集創(chuàng)建一組關(guān)聯(lián)規(guī)則。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,Acme信用卡公司信用卡促銷數(shù)據(jù)庫,數(shù)據(jù)挖掘的基本算法

43、,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,假設(shè)最小支持度為25%(即每一條規(guī)則至少要有15*0.25≈4個實例出現(xiàn)規(guī)則中的屬性)假設(shè)最小置信度為80%,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,生成單項集合,雜志促銷=Yes條目數(shù): 7(加入),數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,生成單項集合,雜志促銷=No條目數(shù): 3(放棄),數(shù)據(jù)挖掘的基本算法,,aprio

44、ri —— 關(guān)聯(lián)規(guī)則挖掘算法,,單項集合,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,生成雙項集合,雜志促銷=Yes &手表促銷=Yes條目數(shù): 3(放棄),數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,生成雙項集合,雜志促銷=Yes &手表促銷=No條目數(shù): 4(加入),數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,雙項集合,數(shù)據(jù)挖掘的基本算法

45、,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,三項集合,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,由雙項與三項集合表生成關(guān)聯(lián)規(guī)則,對所有不能滿足最小置信度的規(guī)則予以丟棄。,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,由雙項集合 雜志促銷=Yes & 壽險促銷=Yes 可生成關(guān)聯(lián)規(guī)則:IF雜志促銷=Yes THEN壽險促銷=Yes(5/7)置信度=5/7=0.71<0.

46、8(放棄規(guī)則),數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,由三項集合 手表促銷=No & 壽險促銷=No & 信用卡保險=No 可以生成關(guān)聯(lián)規(guī)則可以包括:IF 手表促銷=No & 壽險促銷=No THEN 信用卡保險=No (4/4 保留)IF手表促銷=No THEN 壽險促銷=No & 信用卡保險=No(4/6 放棄)IF 信用卡保險=NoTHEN 手表促

47、銷=No & 壽險促銷=No(4/8 放棄),數(shù)據(jù)挖掘的基本算法,,其它數(shù)據(jù)挖掘算法,,K-平均值算法(一種無指導(dǎo)聚類算法)遺傳算法(可用于有指導(dǎo)學(xué)習(xí)的算法)神經(jīng)網(wǎng)絡(luò)算法(可用于有指導(dǎo)學(xué)習(xí)的算法),iDA——基于Excel的數(shù)據(jù)挖掘軟件工具,,iDA簡介,,iDA是上個基于Excel的數(shù)據(jù)挖掘工具,主要包括兩個工具:,ESX:是一個基于樣本的數(shù)據(jù)挖掘工具,即可用于的指導(dǎo)的學(xué)習(xí),也可以用于無指導(dǎo)的聚類。Neural N

48、etwork: 基于神經(jīng)網(wǎng)絡(luò)算法的數(shù)據(jù)挖掘工具,用于有指導(dǎo)學(xué)習(xí)的反向傳播神經(jīng)網(wǎng)絡(luò)和用于無指導(dǎo)聚類的自組織特征映射。,iDA——基于Excel的數(shù)據(jù)挖掘軟件工具,,iDA安裝,,修改Excel宏安全級別到中或低安裝Java運(yùn)行庫安裝iDA,iDA——基于Excel的數(shù)據(jù)挖掘軟件工具,,iDAV 格式的數(shù)據(jù)挖掘,,第1行的各列是屬性名第2 行的每一列為C或R 。如果對應(yīng)的屬性數(shù)據(jù)類型為分類的(標(biāo)稱),則在第2 行的該列上放置一

49、個C。如果輸入的數(shù)據(jù)是實際的值(數(shù)值型的),則在第2 行的該列土放置一個R 。第3 行說明了有關(guān)ESX 屬性用途的信息。I:輸入的屬性;U:不使用的屬性;D:不用于分類或聚類的屬性,但屬性值匯總信息顯示在所有的輸出報表里;O:輸出的屬性從第4行開始,輸入實際值,每個新行包括一個數(shù)據(jù)實例。,iDA——基于Excel的數(shù)據(jù)挖掘軟件工具,,用于無指導(dǎo)聚類的5 步法,,將要挖掘的數(shù)據(jù)輸入到個新的Excel 文件中。執(zhí)行一個數(shù)據(jù)挖掘會話

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論