數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘基礎(chǔ)第7章分類與預(yù)測(cè)趙志升_第1頁(yè)
已閱讀1頁(yè),還剩30頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1、分類和預(yù)測(cè)的基本概念2、常用分類方法3、預(yù)測(cè)方法4、分類法的準(zhǔn)確性,第七章 分類與預(yù)測(cè),數(shù)據(jù)庫(kù)內(nèi)容豐富,蘊(yùn)涵大量信息,可以用于作出智能的商務(wù)決策。分類和預(yù)測(cè)是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。分類是預(yù)測(cè)分類標(biāo)號(hào)(離散值),預(yù)測(cè)建立連續(xù)值函數(shù)模型。,第七章 分類與預(yù)測(cè),許多分類和預(yù)測(cè)方法被機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計(jì)學(xué)和神經(jīng)生物學(xué)方面的學(xué)者提出; 分類和預(yù)測(cè)的大部分算法是內(nèi)存駐留

2、算法,通常假設(shè)數(shù)據(jù)量較??; 可伸縮的分類和預(yù)測(cè)技術(shù),能夠處理大量的駐留磁盤的數(shù)據(jù); 數(shù)據(jù)分類的基本技術(shù)有:判定樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等; 預(yù)測(cè)的方法主要有:線性的、非線性的、廣義線性回歸。,第七章 分類與預(yù)測(cè),第一節(jié) 分類和預(yù)測(cè)的基本概念,1、 數(shù)據(jù)分類(data classification) 數(shù)據(jù)分類是一個(gè)兩步的過(guò)程: 學(xué)習(xí):用分類算法分析訓(xùn)練數(shù)據(jù); 分類:測(cè)試數(shù)據(jù)用于評(píng)估分類規(guī)則的

3、準(zhǔn)確率。,第一節(jié) 分類和預(yù)測(cè)的基本概念,1、 數(shù)據(jù)分類 學(xué)習(xí):建立一個(gè)模型,描述預(yù)定義的數(shù)據(jù)類集或概念集。 通過(guò)分析由屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。 假設(shè)每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)稱作類標(biāo) 號(hào)屬性的屬性確定。 對(duì)于分類,數(shù)據(jù)元組也稱為樣本、實(shí)例或?qū)ο蟆?為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。 訓(xùn)練數(shù)據(jù)集中的單個(gè)元組稱作訓(xùn)練樣本,隨機(jī)從樣本 群中選取。,第一節(jié) 分

4、類和預(yù)測(cè)的基本概念,1、 數(shù)據(jù)分類 學(xué)習(xí)過(guò)程:,第一節(jié) 分類和預(yù)測(cè)的基本概念,1、 數(shù)據(jù)分類 分類:使用模型進(jìn)行分類。首先評(píng)估分類模型的預(yù)測(cè)準(zhǔn)確率。 保持方法是一種使用類標(biāo)號(hào)樣本測(cè)試集的簡(jiǎn) 單方法。 模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型 分類的測(cè)試樣本的百分比。,第一節(jié) 分類和預(yù)測(cè)的基本概念,1、 數(shù)據(jù)分類 分類過(guò)程:,第一節(jié) 分類和預(yù)測(cè)的基本概念,2、

5、 預(yù)測(cè) 預(yù)測(cè):就是構(gòu)造和使用模型評(píng)估無(wú)標(biāo)號(hào)樣本類,或評(píng)估給定樣本可能具有的屬性值或值區(qū)間。 分類和回歸是兩類主要的預(yù)測(cè)問(wèn)題: 分類是預(yù)測(cè)離散或標(biāo)稱值,用預(yù)測(cè)法預(yù)測(cè)類 標(biāo)號(hào)為分類; 回歸勇于預(yù)測(cè)連續(xù)或有序值,用預(yù)測(cè)法預(yù)測(cè) 連續(xù)值為預(yù)測(cè)。,第一節(jié) 分類和預(yù)測(cè)的基本概念,3、分類和預(yù)測(cè)方法的評(píng)估 分類和預(yù)測(cè)的方法可以根據(jù)下列標(biāo)準(zhǔn)比較和評(píng)估: 預(yù)測(cè)的準(zhǔn)確性:正確預(yù)測(cè)新的類標(biāo)

6、號(hào)的能力; 速度:產(chǎn)生和使用模型的計(jì)算花費(fèi); 強(qiáng)壯性:對(duì)于給定噪聲或具有空缺值數(shù)據(jù),模型正確 預(yù)測(cè)的能力; 可伸縮性:對(duì)于給定大量數(shù)據(jù),有效構(gòu)造模型的能力。 可解釋性:學(xué)習(xí)模型提供的理解的層次。,第二節(jié) 常用分類方法,判定樹歸納分類 貝葉斯分類 神經(jīng)網(wǎng)絡(luò) 其他分類方法,第二節(jié) 常用分類方法,1、判定樹歸納分類 判定樹是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝

7、代表一個(gè)輸出,而每個(gè)樹葉節(jié)點(diǎn)代表類或類分布。樹的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。,第二節(jié) 常用分類方法,1、判定樹歸納分類 一棵典型的判定樹如:,第二節(jié) 常用分類方法,1、判定樹歸納分類 判定樹歸納的基本算法是貪心算法,它以自頂向下遞歸的方式構(gòu)造判定樹,比較著名的判定樹歸納算法ID3版本。其基本策略如: 樹以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)開始; 如果樣本都在同一個(gè)類,則該節(jié)點(diǎn)成為樹葉,并用該類 標(biāo)記; 否則,算

8、法使用信息增益的基于熵的度量作為啟發(fā)信息, 選擇能夠最好地將樣本分類的屬性。該屬性成為該節(jié)點(diǎn) 的“測(cè)試”或“判定”屬性。所有屬性是分類的,是離散值。,第二節(jié) 常用分類方法,1、判定樹歸納分類 對(duì)測(cè)試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分枝,并據(jù)此劃 分樣本; 算法使用同樣的過(guò)程,遞歸地形成每個(gè)劃分上的樣本判 定樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不必考慮該 節(jié)點(diǎn)的任何后代上; 遞歸劃分步驟僅

9、當(dāng)下列條件之一成立時(shí)停止: 給定節(jié)點(diǎn)的所有樣本屬于同一類; 沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本; 分枝沒(méi)有樣本。,第二節(jié) 常用分類方法,2、貝葉斯分類 貝葉斯分類是統(tǒng)計(jì)學(xué)的方法,可以預(yù)測(cè)類成員關(guān)系的可能性,如給定樣本屬于一個(gè)特定類的概率。 貝葉斯分類基于貝葉斯定理。其中,樸素貝葉斯分類算法可以與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美。當(dāng)應(yīng)用于大型數(shù)據(jù)庫(kù)時(shí),貝葉斯分類也已表現(xiàn)出高準(zhǔn)確率與高速度。如,Oracle 9

10、i具有貝葉斯分類、關(guān)聯(lián)規(guī)則挖掘功能。,第二節(jié) 常用分類方法,2、貝葉斯分類 貝葉斯分類主要有: 樸素貝葉斯分類:假定一個(gè)屬性值對(duì)給定類的 影響?yīng)毩⒂谄渌麑傩缘闹?,這一假定稱作類條 件獨(dú)立。假定簡(jiǎn)化所需計(jì)算,稱為“樸素”。 貝葉斯信念網(wǎng)絡(luò):是圖形模型,可以表示屬性 子集間的依賴。,第二節(jié) 常用分類方法,2、貝葉斯分類 樸素貝葉斯分類舉例。 設(shè)有數(shù)據(jù)庫(kù)數(shù)據(jù)元組訓(xùn)練集

11、,如表所示。類標(biāo)號(hào)屬性buys_computer有兩個(gè)不同值{yes,no},因此有兩個(gè)不同的類C1和C2,分別對(duì)應(yīng)于yes和no。類有9個(gè)樣本,類有5個(gè)樣本。希望分類的未知樣本為: X=(age=“<=30”,income=“medium”, student=“yes”,credit_rating=“fair”),第二節(jié) 常用分類方法,2、貝葉斯分類,第二節(jié)

12、 常用分類方法,2、貝葉斯分類 求最大化P(X|Ci)P(Ci),i=1,2。需要根據(jù)訓(xùn)練樣本計(jì)算每個(gè)類的先驗(yàn)概率P(Ci)有: P(buys_computer=“yes”)=9/14=0.643 P(buys_computer=“no”)=5/14=0.357,第二節(jié) 常用分類方法,2、貝葉斯分類為計(jì)算P(X|Ci),i=1,2。需要計(jì)算條件概率:P(age=“<30”|buys_computer=

13、“yes”)=2/9=0.222P(age=“<30”|buys_computer=“no”)=3/5=0.600P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.400P(student=“yes”|buys_computer=“yes”)=6/9=0.667P(student=“yes

14、”|buys_computer=“no”)=1/5=0.200P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.400,第二節(jié) 常用分類方法,2、貝葉斯分類使用以上概率,可以得到:P(X|buys_computer=“yes”)

15、 =0.222*0.444 *0.667 *0.667=0.044P(X|buys_computer=“no”) =0.600*0.400 *0.200 *0.400=0.019P(X|buys_computer=“yes”) P(buys_computer=“yes”) =0.0

16、44*0.643=0.028P(X|buys_computer=“no”) P(buys_computer=“no”) =0.019*0.357=0.007因此,對(duì)于樣本X,樸素貝葉斯分類預(yù)測(cè): buys_computer=“yes”,第二節(jié) 常用分類方法,2、貝葉斯分類 貝葉斯信念網(wǎng)絡(luò):變量之間存在依賴的情形

17、,提供一種因果關(guān)系的圖形,可以在其上進(jìn)行學(xué)習(xí)。 主要由兩部分定義: 有向無(wú)環(huán)圖 每個(gè)屬性條件概率表。,第二節(jié) 常用分類方法,2、貝葉斯分類 貝葉斯信念網(wǎng)絡(luò)的有向無(wú)環(huán)圖和每個(gè)屬性條件概率表。,第二節(jié) 常用分類方法,3、后向傳播分類 后向傳播分類是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。神經(jīng)網(wǎng)絡(luò)最早由心理學(xué)家和神經(jīng)生物學(xué)家提出,期望尋求開發(fā)和測(cè)試神經(jīng)的計(jì)算模擬。簡(jiǎn)單地,神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,

18、其中每個(gè)連接都與一個(gè)權(quán)相相聯(lián)。在學(xué)習(xí)階段,通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確類標(biāo)號(hào)來(lái)學(xué)習(xí)。,第二節(jié) 常用分類方法,3、后向傳播分類 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特點(diǎn): 需要很長(zhǎng)的訓(xùn)練時(shí)間; 需要大量的參數(shù),主要靠經(jīng)驗(yàn)確定,如網(wǎng)絡(luò) 拓?fù)洌?對(duì)噪聲數(shù)據(jù)的高承受能力; 對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)分類模式的能力; 訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)可以提取規(guī)則。,第二節(jié) 常用分類方法,3、后向傳播分類 后向傳播算法在多

19、層前饋(multilayer feed-forward)神經(jīng)網(wǎng)絡(luò)上的學(xué)習(xí)。,第二節(jié) 常用分類方法,4、其他分類方法 最臨近分類 基于案例的推理 遺傳算法 粗慥集方法,第三節(jié) 預(yù)測(cè)方法,預(yù)測(cè)連續(xù)值可以用回歸統(tǒng)計(jì)技術(shù)建模。常用預(yù)測(cè)方法有: 線性回歸 多元回歸 非線性回歸 廣義線性模型,第四節(jié) 分類法的準(zhǔn)確性,估計(jì)分類法的準(zhǔn)確性是重要的,這樣可以估計(jì)一個(gè)給定的分類法對(duì)未來(lái)的數(shù)據(jù)正確標(biāo)號(hào)的準(zhǔn)確率。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論