版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2024/3/20,第二章 數(shù)據(jù)預(yù)處理,,2024/3/20,1,為什么要進(jìn)行數(shù)據(jù)挖掘?,現(xiàn)實(shí)世界的數(shù)據(jù)是臟的不完整: 缺乏屬性值,缺乏有意義的屬性,或者只包含了匯總數(shù)據(jù)e.g., occupation=“ ”有噪聲: 包含錯(cuò)誤的數(shù)據(jù)或異常值e.g., Salary=“-10”不一致: 在代碼或者名字中存在矛盾或不一致e.g., Age=“42” Birthday=“03/07/1997”e.g., Was rating
2、“1,2,3”, now rating “A, B, C”e.g., discrepancy between duplicate records,2024/3/20,2,為什么數(shù)據(jù)預(yù)處理重要?,No quality data, no quality mining results!Quality decisions must be based on quality datae.g., duplicate or missing dat
3、a may cause incorrect or even misleading statistics.Data warehouse needs consistent integration of quality dataData extraction, cleaning, and transformation comprises the majority of the work of building a data warehou
4、se,2024/3/20,3,2024/3/20,4,數(shù)據(jù)預(yù)處理的主要內(nèi)容:,2024/3/20,數(shù)據(jù)預(yù)處理的主要內(nèi)容,一、原始數(shù)據(jù)的表述二、數(shù)據(jù)清理三、數(shù)據(jù)變換四、元組的歸約五、屬性的歸約,2024/3/20,5,,數(shù)據(jù)樣本是數(shù)據(jù)挖掘過程的基本組成部分。,一、原始數(shù)據(jù)的表述,2024/3/20,6,每個(gè)樣本都用幾個(gè)特征來描述,每個(gè)特征有不同類型的值。,2024/3/20,2024/3/20,常見的數(shù)據(jù)類型有:數(shù)值型和分類型。
5、數(shù)值型包括實(shí)型變量和整型變量注:具有數(shù)值型值的特征有兩個(gè)重要的屬性:其值有順序關(guān)系和距離關(guān)系。,7,2024/3/20,2024/3/20,一個(gè)有兩個(gè)值的分類型變量:分類型變量的兩個(gè)值可以平等或不平等。原則上可以轉(zhuǎn)化成一個(gè)二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有兩個(gè)值:0或1;而有N值的分類型變量原則上可以轉(zhuǎn)化成一個(gè)二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有N個(gè)值。,8,2024/3/20,2024/3/20,例如:如果變量“眼睛顏
6、色”有4個(gè)值:黑色、藍(lán)色、綠色、褐色。 特征值 編碼 黑色 1000 藍(lán)色 0100 綠色 0010 褐色 0001,9,2024/3/20,2024/3/20,變量的分類:連續(xù)型變量和離散型變量。連續(xù)型變量也認(rèn)為是定量型或是量度型,是指在一定區(qū)間內(nèi)可以任意取值的變量。離散型變量也叫定性型變量,是指全部可能取到的不相同的值是有限
7、個(gè)的變量。注:一種特殊類型的離散型變量是周期變量,例如:星期、月和年中的日期。,10,2024/3/20,2024/3/20,與時(shí)間有關(guān)的數(shù)據(jù)分類:靜態(tài)數(shù)據(jù)——數(shù)據(jù)不隨時(shí)間變化而變化動(dòng)態(tài)數(shù)據(jù)(時(shí)間數(shù)據(jù))——隨時(shí)間變化而變化的屬性。注:大多數(shù)數(shù)據(jù)挖掘方法更適用于靜態(tài)數(shù)據(jù),在對(duì)動(dòng)態(tài)數(shù)據(jù)進(jìn)行挖掘時(shí)要有特殊的考慮和預(yù)處理。,11,2024/3/20,二、數(shù)據(jù)清理——缺失值的填補(bǔ),2024/3/20,對(duì)數(shù)據(jù)挖掘的實(shí)際應(yīng)用而言,即使數(shù)據(jù)
8、量很大,具有完整數(shù)據(jù)的案例也非常少,這樣就面臨數(shù)據(jù)的缺失問題。應(yīng)用數(shù)據(jù)挖掘方法之前如何處理這樣現(xiàn)象,最簡(jiǎn)單的辦法是減少數(shù)據(jù)集,去掉所有有缺失值的樣本。如果我們不想扔掉這些有缺失值的樣本,就必須找到它們的缺失值,用什么方法來實(shí)現(xiàn)呢?填補(bǔ)缺失值。,12,2024/3/20,1、單一填補(bǔ)法(1)均值填補(bǔ)法。均值填補(bǔ)法是根據(jù)與含缺失值的目標(biāo)屬性相關(guān)性高的其它屬性的信息將樣品分為若干組,然后分別計(jì)算各組目標(biāo)屬性的均值,將各組均值作為組內(nèi)
9、所有缺失項(xiàng)的填補(bǔ)值。均值填補(bǔ)的優(yōu)點(diǎn)是操作簡(jiǎn)便,并且可以有效地降低其點(diǎn)估計(jì)的偏差。但它的缺點(diǎn)也比較突出:首先,由于同組中的缺失值由同一個(gè)值填補(bǔ),填補(bǔ)結(jié)果歪曲了目標(biāo)屬性的分布;其次,也導(dǎo)致在均值和總量估計(jì)中對(duì)方差的低估。,2024/3/20,13,例:,2024/3/20,14,均值填補(bǔ):,2024/3/20,15,2024/3/20,,(2)隨機(jī)填補(bǔ)法。隨機(jī)填補(bǔ)法是采用某種概率抽樣的方式,從有完整信息的元組中抽取缺失數(shù)據(jù)的填補(bǔ)值的方
10、法。它雖然能夠避免均值填補(bǔ)中填補(bǔ)值過于凝集以及容易扭曲目標(biāo)屬性分布的弱點(diǎn),使得填補(bǔ)值的分布與真值分布更為接近。但它卻增大了估計(jì)量的方差,并且穩(wěn)定性不夠。,2024/3/20,16,2024/3/20,(3)熱卡填補(bǔ)法。熱卡填補(bǔ)法(hot deck imputation)是規(guī)定一個(gè)或多個(gè)排序?qū)傩?,按其觀察值大小對(duì)全部觀察單位排序,如果選擇的是兩個(gè)以上的屬性,排序按屬性的入選順序依次進(jìn)行。排序?qū)傩灾低耆嗤挠^察單位稱為匹配,缺失值就
11、用與之匹配的觀察單位的屬性值來填補(bǔ)。如果有多例相匹配,可取第一例或隨機(jī)取其一。如果沒有相匹配的,可以每次減少一個(gè)排序?qū)傩?,再找相匹配的元組。如果直到最后一個(gè)排序?qū)傩?,還沒有找到相匹配的,則需要重新規(guī)定排序?qū)傩浴?2024/3/20,17,2024/3/20,,(4)回歸填補(bǔ)法。回歸填補(bǔ)法是指在現(xiàn)有觀察值基礎(chǔ)上,以含有缺失值的目標(biāo)屬性為因變量,以與目標(biāo)屬性相關(guān)性高的其它屬性為自變量,建立最小二乘回歸模型或判別模型,以估計(jì)缺失值。注意:
12、以上幾種方法都存在扭曲樣本分布的問題,如均值填補(bǔ)會(huì)降低屬性之間的相關(guān)關(guān)系,回歸填補(bǔ)則會(huì)人為地加大變量之間的相關(guān)關(guān)系等。,2024/3/20,18,例:,2024/3/20,19,2024/3/20,2024/3/20,(二)異常值(孤立點(diǎn))探測(cè),在大型數(shù)據(jù)集中,通常存在著不遵循數(shù)據(jù)模型的普遍行為的樣本,這些樣本和其他殘余部分?jǐn)?shù)據(jù)有很大不同或不一致,叫做異常點(diǎn)。異常點(diǎn)可能是由測(cè)量誤差造成的,也可能是數(shù)據(jù)故有的可變性結(jié)果。例如:在檢測(cè)銀
13、行交易中的信用卡欺詐行為時(shí),異常點(diǎn)是可能揭示欺詐行為的典型例子。,20,2024/3/20,2024/3/20,異常值的探測(cè)方法,第一,一維樣本異常點(diǎn)的檢測(cè)方法例如:如果所給的數(shù)據(jù)集用20個(gè)不同的值描述年齡特征: 3, 56, 23, 39, 156, 52, 41, 22, 9,28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37 均值=39.9; 標(biāo)準(zhǔn)差=45.65
14、閾值=均值±2×標(biāo)準(zhǔn)差那么,所有在[-54.1, 131.2]區(qū)間以外的數(shù)據(jù)都是潛在的異常點(diǎn)。根據(jù)實(shí)際可以把區(qū)間縮減到[0, 131.2],由這個(gè)標(biāo)準(zhǔn)發(fā)現(xiàn)3個(gè)異常點(diǎn):156, 139, -67。,21,2024/3/20,2024/3/20,第二,基于距離的異常點(diǎn)檢測(cè)(二維以上數(shù)據(jù)),例如:數(shù)據(jù)集為:S={S1,S2,S3,S4,S5,S6,S7}={(2,4),(3,2),(1,1),(4,3),(1,6
15、),(5,3),(4,2)} 歐氏距離 d=[(X1-X2)2+(Y1-Y2)2]1/2 取閾值距離為 d=3,22,異常點(diǎn),2024/3/20,23,,根據(jù)所用程序的結(jié)果和所給的閾值,可選擇S3和S5作為異常點(diǎn)。,2024/3/20,24,2024/3/20,第三:基于分類預(yù)測(cè)模型的異常值探測(cè)異常值的探測(cè)也可以認(rèn)為是一類特殊的分類問題。因?yàn)閷?duì)于一般的分類問題,考慮的是如何將各種類別有效地分開,而在異常值探測(cè)中
16、,分類的目標(biāo)是準(zhǔn)確地描述總體的正常行為特征,在此之外大范圍的其它對(duì)象被視為異常值。其基本思想是:對(duì)總體的特征建立分類模型,形成正常行為的特征庫(kù);然后針對(duì)新的數(shù)據(jù)判斷其是否屬于正常行為,從而認(rèn)定其是否與總體偏離,發(fā)生偏離的即是異常值。根據(jù)所建立的分類器的不同,異常值的探測(cè)方法有以下幾種:決策樹分類;貝葉斯分類;神經(jīng)網(wǎng)絡(luò)分類;聚類。,2024/3/20,25,2024/3/20,異常值探測(cè)的應(yīng)用,信用卡、保險(xiǎn)行業(yè)以及電信用戶欺詐行為的探
17、測(cè)。異常值探測(cè)對(duì)于欺詐行為的發(fā)現(xiàn),主要是基于這樣的思想:任何人在使用信用卡、投保和電信消費(fèi)的正常行為都是有一定的規(guī)律的,并且可以通過這些行為產(chǎn)生的信息總結(jié)出這些規(guī)律;由于欺詐行為和正常的行為存在嚴(yán)重的差異,檢查出這些差異就可以探測(cè)出是否存在欺詐發(fā)生。因此可以認(rèn)為,欺詐行為的發(fā)現(xiàn)過程就是一種異常數(shù)據(jù)的挖掘過程。,2024/3/20,26,2024/3/20,具體的實(shí)現(xiàn)途徑是:利用聚類、神經(jīng)網(wǎng)絡(luò)和決策樹等分類方法,通過分析用戶的購(gòu)買、
18、投保或消費(fèi)習(xí)慣,細(xì)分客戶,以此分辨出偏離模式的信用卡欺詐行為;然后,推導(dǎo)出合法交易的定義,建立模型;利用模型來分析一個(gè)新的交易是合法還是非法。也可以通過六西格瑪探測(cè)、聚類等方法,尋找出與正常投保行為有極大差別的不正常行為,即有可能的欺詐行為。除了利用上述技術(shù)對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別外,還可以通過關(guān)聯(lián)規(guī)則的Apriori算法尋找異常數(shù)據(jù)間的隱含模型,從而達(dá)到反欺詐的目的。,2024/3/20,27,2024/3/20,例如:對(duì)電信用戶的欺詐
19、行為探測(cè)的具體做法是:首先,將目標(biāo)屬性定為無(wú)意欠費(fèi)客戶和惡意欠費(fèi)兩類;其次,選擇屬性作為輸入屬性,通常包括服務(wù)合同屬性(如服務(wù)類型、服務(wù)時(shí)間、交費(fèi)類型等)、客戶的基本狀態(tài)(如性別、年齡、收入、婚姻狀況、受教育年限/學(xué)歷、職業(yè)、居住地區(qū)等)以及經(jīng)?;蚨ㄆ诟淖兊臄?shù)據(jù)(如每月消費(fèi)金額、交費(fèi)紀(jì)錄等);然后,將分類方法用于預(yù)先選定的包含客戶欠費(fèi)狀態(tài)的訓(xùn)練集中,從而挖掘歸納出規(guī)則集;最后,利用所獲取的規(guī)則,對(duì)電信企業(yè)新用戶的繳費(fèi)情況進(jìn)行預(yù)測(cè)
20、分類,從而達(dá)到預(yù)防欺詐的目的。,2024/3/20,28,2024/3/20,三、數(shù)據(jù)變換,數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。數(shù)據(jù)變換可能涉及到如下內(nèi)容:數(shù)據(jù)規(guī)范化數(shù)據(jù)平滑數(shù)據(jù)概化,2024/3/20,29,為什么要進(jìn)行標(biāo)準(zhǔn)化?,一些數(shù)據(jù)挖掘方法,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化以獲得最佳的效果。例如,對(duì)于分類算法,如涉及神經(jīng)網(wǎng)絡(luò)的算法或諸如最臨近分類和聚類的距離度量分類算法,都需要將訓(xùn)練樣本屬性度量輸入值規(guī)范化,這樣有助于加快學(xué)習(xí)階
21、段的速度。對(duì)于基于距離的方法,規(guī)范化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬性相比,權(quán)重過大。,2024/3/20,30,(一)規(guī)范化(標(biāo)準(zhǔn)化),小數(shù)縮放移動(dòng)小數(shù)點(diǎn),但是要仍然保持原始數(shù)據(jù)的特征。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴于X的最大絕對(duì)值。典型的縮放是保持?jǐn)?shù)值在-1和1范圍內(nèi),可以用格式描述:,1、小數(shù)縮放,規(guī)范化是指通過將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如0.0到1.0,對(duì)屬性規(guī)范化。,2024/3/20,
22、31,2、最小-最大規(guī)范化,2024/3/20,32,最小-最大規(guī)范化是對(duì)原始數(shù)據(jù)進(jìn)行線性變換。最小-最大規(guī)范化的格式: 從而將X的值映射到[0,1]中。,2024/3/20,3、標(biāo)準(zhǔn)差規(guī)范化(z-score規(guī)范化),標(biāo)準(zhǔn)差規(guī)范化是將某個(gè)屬性的值基于其平均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化。標(biāo)準(zhǔn)差規(guī)范化的格式是 其中: 是均值; 是標(biāo)準(zhǔn)差。注意:該方法適用于當(dāng)屬性X的最大和最小值未知
23、,或孤立點(diǎn)左右了最大-最小規(guī)范化的情況下。,2024/3/20,33,為什么要進(jìn)行數(shù)據(jù)的平滑?,一個(gè)數(shù)值型的特征可能包含許多不同的值。對(duì)許多數(shù)據(jù)挖掘技術(shù)來說,這些值之間小小的區(qū)別并不重要,但可能會(huì)降低挖掘方法的性能并影響最終的結(jié)果。因此,對(duì)變量的值進(jìn)行平滑處理很重要。,2024/3/20,34,(二)數(shù)據(jù)平滑(離散化),2024/3/20,2024/3/20,數(shù)據(jù)平滑:是指去掉數(shù)據(jù)中的噪聲。這種技術(shù)包括分箱技術(shù)、聚類和回歸。,35,例如
24、:進(jìn)行圓整處理。如果給定特征的值的集合是平滑后的集合是,2024/3/20,1、分箱,分箱方法是通過考察“鄰居”來平滑存儲(chǔ)數(shù)據(jù)的值。存儲(chǔ)的值被分布到一些“桶”或“箱”中。由于分箱方法參考的是相鄰的值,因此,它進(jìn)行的是局部平滑。分箱方法有以下幾種:按箱平均值平滑按箱中值平滑按箱邊值平滑。,2024/3/20,36,2024/3/20,例如:某產(chǎn)品的價(jià)格排序后的數(shù)據(jù)為:4、8、15、21、21、24、25、28、34。首先,
25、將上述數(shù)據(jù)劃分為等深的箱: 箱1:4、8、15 箱2:21、21、24 箱3:25、28、34(1)按箱中值平滑: 箱1:8、8、8 箱2:21、21、21 箱3:28、28、28,2024/3/20,37,2024/3/20,排序后的數(shù)據(jù)為:4、8、15
26、、21、21、24、25、28、34。 箱1:4、8、15 箱2:21、21、24 箱3:25、28、34(2)按箱平均值平滑: 箱1:9、9、9 箱2:22、22、22 箱3:29、29、29,2024/3/20,38,,排序后的數(shù)據(jù)為:4、8、15、2
27、1、21、24、25、28、34。 箱1:4、8、15 箱2:21、21、24 箱3:25、28、34(3)按箱邊界值平滑: 箱1:4、4、15 箱2:21、21、24 箱3:25、25、34,2024/3/20,39,對(duì)于按箱邊值平滑來說,箱中的最大和最小值被視為箱
28、邊界。箱中每一個(gè)值被最近的邊界值替換。,2、回歸,,,,,,,,,,,,,,,,,x,y,y = x + 1,,,,X1,Y1,Y1’,2024/3/20,40,3、通過自然劃分分段,3-4-5規(guī)則可以將數(shù)值數(shù)據(jù)劃分成相對(duì)一致和“自然”區(qū)間。如果一個(gè)區(qū)間在最高有效位上包含3, 6, 7或9個(gè)不同的值,則將該區(qū)間劃分為3個(gè)區(qū)間(對(duì)于3、6和9劃分為3個(gè)等寬區(qū)間;對(duì)于7,按2-3-2分組,劃分為3個(gè)區(qū)間);如果最高有效位上包含2, 4或
29、8個(gè)不同的值,則將區(qū)間劃分為4個(gè)等寬區(qū)間;如果最高有效位上包含1, 5或10個(gè)不同的值,則將區(qū)間劃分為5個(gè)等寬區(qū)間.,2024/3/20,41,Example,,(-$400 -$5,000),,,,,,Step 4:,2024/3/20,42,為什么要進(jìn)行數(shù)據(jù)概化?,數(shù)據(jù)庫(kù)通常存放有大量的細(xì)節(jié)數(shù)據(jù),但我們通常希望看到的是以簡(jiǎn)潔的、更一般的描述形式來觀察數(shù)據(jù)的特點(diǎn)。例如:對(duì)于一個(gè)銷售經(jīng)理來說,面對(duì)顧客數(shù)據(jù)庫(kù),他可能不想考察每個(gè)顧客的
30、事務(wù),而更愿意概化到高層的數(shù)據(jù),比如說,根據(jù)地區(qū)按顧客的分組匯總,來觀察每組顧客的購(gòu)買頻率和顧客的收入,以此來分析區(qū)域差異。,2024/3/20,43,(三)數(shù)據(jù)概化,2024/3/20,數(shù)據(jù)概化:是一個(gè)過程,它將大的任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層。使用概念分層,用高層次概念替換低層次“原始”數(shù)據(jù)。例如,分類的屬性,“street”,可以概化為較高層的概念,如“city”或“country”;再如,“年齡”可以概化
31、為“青年”、“中年”和“老年”等。,2024/3/20,44,2024/3/20,四、元組的歸約,為什么要進(jìn)行離散化?在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中,已經(jīng)發(fā)展了處理離散型數(shù)據(jù)的很多算法,如決策樹、關(guān)聯(lián)規(guī)則及基于粗糙集理論的許多方法,而這些算法對(duì)于連續(xù)型數(shù)據(jù)卻不適用;另外,有些算法即使能處理連續(xù)型數(shù)據(jù),挖掘和學(xué)習(xí)也沒有處理離散型數(shù)據(jù)有用和有效。離散化后可以達(dá)到歸約元祖的目的。,2024/3/20,45,連續(xù)屬性的離散化就是將數(shù)值屬性的值域劃分
32、為若干子區(qū)間,每個(gè)區(qū)間對(duì)應(yīng)一個(gè)離散值。離散化方法依據(jù)不同的標(biāo)準(zhǔn)主要有以下幾種劃分:有監(jiān)督和無(wú)監(jiān)督、動(dòng)態(tài)和靜態(tài)、全局和局部、自頂向下和自底向上等。,2024/3/20,46,2024/3/20,按照離散化過程中是否考慮類別信息,可以將離散化算法分為有監(jiān)督算法和無(wú)監(jiān)督算法。有監(jiān)督算法是其輸入樣本集中除了待離散化的數(shù)值屬性外,還有一個(gè)或多個(gè)離散型的類別屬性。這種算法在離散化時(shí),將類別信息作為參考。無(wú)監(jiān)督離散化是在離散化過程中不考慮類別
33、信息的方法,其輸入樣本集中僅含有待離散化的屬性。早期的等寬、等頻的離散化方法是無(wú)監(jiān)督方法的典型代表。無(wú)監(jiān)督的方法的缺陷在于它對(duì)分布不均勻的數(shù)據(jù)不適用,對(duì)異常點(diǎn)比較敏感。,2024/3/20,47,1、有監(jiān)督離散化和無(wú)監(jiān)督離散化,2、動(dòng)態(tài)和靜態(tài)離散化,動(dòng)態(tài)離散化方法是在建立分類模型的同時(shí)對(duì)連續(xù)特征進(jìn)行離散化,例如,C4.5算法。在靜態(tài)離散化方法中,離散化是先于分類任務(wù)進(jìn)行的。,2024/3/20,48,2024/3/20,自頂向下的
34、方法是離散化開始于空的分割點(diǎn)(分裂點(diǎn))列表,通過“分裂”區(qū)間增加新的分割點(diǎn)到列表中的離散化過程。自底向上是開始于屬性的全部連續(xù)值作為分割點(diǎn)的完全列表,以通過“合并”區(qū)間來移除它們中的一部分作為離散化的過程。,2024/3/20,49,3、自頂向下和自底向上,4、局部和全局離散化,局部離散化方法是僅對(duì)每一個(gè)屬性的屬性值進(jìn)行劃分,如等寬區(qū)間法、等頻區(qū)間法和最大熵法等。全局離散化則是考慮全部條件屬性的屬性值進(jìn)行劃分的方法,如全局聚類分析方
35、法。,2024/3/20,50,2024/3/20,(二)典型離散化的過程,一個(gè)局部單個(gè)屬性的離散化過程主要由以下四步組成(自底向上):(1)對(duì)要離散化的屬性的連續(xù)值排序。(2)根據(jù)一定的規(guī)則產(chǎn)生候選斷點(diǎn)集,構(gòu)造初始區(qū)間。(3)按照合并的規(guī)則,合并相鄰的初始區(qū)間。(4)制定停止標(biāo)準(zhǔn),使得合并一直進(jìn)行到符合停止標(biāo)準(zhǔn)為止。,2024/3/20,51,2024/3/20,(三)離散化方法的評(píng)價(jià),(1)區(qū)間的總數(shù)。這是對(duì)模型簡(jiǎn)潔性的要
36、求。理論上來說,離散得到的區(qū)間數(shù)越少越好,便于理解;但區(qū)間數(shù)的減少另一方面也會(huì)導(dǎo)致數(shù)據(jù)的可理解性變差。(2)由離散化引起的不一致性的數(shù)目。所謂不一致性是指當(dāng)兩個(gè)樣本所有的條件屬性取值相同而類別屬性的取值不同時(shí),就稱這兩個(gè)樣本是不一致的。離散化后的不一致性數(shù)目至少應(yīng)該比在離散化前原始數(shù)據(jù)的不一致性數(shù)目少,且不一致性數(shù)目越少越好。(3)預(yù)測(cè)精確度。根據(jù)訓(xùn)練樣本集預(yù)測(cè)新樣本類別的準(zhǔn)確率即是預(yù)測(cè)精確度,預(yù)測(cè)精確度越高,當(dāng)然就說明此離散
37、化方法越好。,2024/3/20,52,2024/3/20,1、直方圖方法直方圖方法是將要離散化的變量值從小到大排序,然后對(duì)這些數(shù)值進(jìn)行分組,最后,對(duì)這些進(jìn)行賦值。依據(jù)分組的方式該方法又可以分為等寬和等頻兩種。等寬是指所分組是等距式分組。等頻是指所有的分組的次數(shù)是相等的。,2024/3/20,(四)具體的離散化方法,53,2024/3/20,采用Iris樣本集進(jìn)行統(tǒng)計(jì)模擬(數(shù)據(jù)來源:加州大學(xué)UCI Machine Learnin
38、g 的數(shù)據(jù)庫(kù)中Iris樣本集)。Iris樣本集是對(duì)3種鳶尾花:剛毛鳶(yuan)尾花、變色鳶尾花、佛吉尼亞鳶尾花各抽取50個(gè)樣本。屬性是sepal length in cm萼片長(zhǎng)度、sepal width in cm萼片寬度、petal length in cm花瓣長(zhǎng)度、petal width in cm花瓣寬度。,2024/3/20,等寬直方圖離散化的應(yīng)用,54,我們現(xiàn)在以花萼長(zhǎng)( sepal length in cm )屬性為例,
39、來進(jìn)行連續(xù)型值屬性的離散化。具體步驟為如下:(1)對(duì)要離散化的屬性的連續(xù)值排序。(2)根據(jù)一定的規(guī)則產(chǎn)生候選斷點(diǎn)集,構(gòu)造初始區(qū)間。,2024/3/20,55,2024/3/20,,2024/3/20,56,2024/3/20,(3)按照合并的規(guī)則,合并相鄰的初始區(qū)間。根據(jù)斯特杰公式有:n=1+3.3lgN=1+3.3lg150≈8那么,組距為 d=R/n =(7.9-4.3)/8=0.45現(xiàn)分組如右:,
40、2024/3/20,57,2024/3/20,(4)制定停止標(biāo)準(zhǔn),使得合并一直進(jìn)行到符合停止標(biāo)準(zhǔn)為止。(5)防止過度擬合。為防止過度擬合,應(yīng)使得每個(gè)區(qū)間的頻數(shù)大于等于總體單位數(shù)的平方根。sqrt(150)≈12,2024/3/20,58,2024/3/20,59,,,,2024/3/20,進(jìn)行重新分組:使得每個(gè)區(qū)間的頻數(shù)大于12,2024/3/20,60,2024/3/20,2、聚類,聚類算法可以用來將數(shù)據(jù)劃分為群或簇。每一個(gè)簇
41、形成概念分層的一個(gè)節(jié)點(diǎn),而所有的節(jié)點(diǎn)在同一個(gè)概念層。每一個(gè)簇可以進(jìn)一步分成若干子簇,形成較低的概念層簇也可以聚集在一起,以形成分層結(jié)構(gòu)中較高的概念層。,2024/3/20,61,,具體方法是:首先,將元組劃分為群或簇,使得在每一個(gè)簇中的對(duì)象“類似”,但與其他簇中的對(duì)象“不類似”。其次,為這些簇賦值,所有包含在同一個(gè)簇中的對(duì)象的值相同。注意:這種方法的有效性依賴于數(shù)據(jù)的性質(zhì),數(shù)據(jù)必須能夠組織成不同的聚類;另外,它只適用于無(wú)監(jiān)督的離散
42、化。,2024/3/20,62,2024/3/20,例如:見IRIS樣本集,在不考慮類別信息的情況下,現(xiàn)用聚類方法離散化屬性“sepal length in cm ”。有:,2024/3/20,63,2024/3/20,3、基于熵的離散化方法,信息熵的概念信息論中的熵:是信息的度量單位,是一種 對(duì)屬性“不確定性的度量”。屬性的不確定性越大,把它搞清楚所需要的信息量也就越大,熵也就越大。Shannon公式: 其中,I(A)度量
43、事件A發(fā)生所提供的信息量,稱之為事件A的自信息,P(A)為事件A發(fā)生的概率。,2024/3/20,,64,,如果一個(gè)屬性有N個(gè)可能的取值,且它們出現(xiàn)的概率分別為 ,那么這個(gè)屬性的信息熵為:一個(gè)系統(tǒng)越是有序,信息熵就越低。,2024/3/20,65,貪心算法,所謂貪心算法是指,在對(duì)問題求解時(shí),總是做出在當(dāng)前看來是最好的選擇。也就是說,不從整體最優(yōu)上加以考慮,他所做出的僅是在某種意義上的局部最優(yōu)解。,2024/3/
44、20,66,例如:假設(shè)有四種硬幣,它們的面值分別為二角五分、一角、五分和一分?,F(xiàn)在要找給某顧客六角三分錢。這時(shí),我們會(huì)不假思索地拿出2個(gè)二角五分的硬幣,1個(gè)一角的硬幣和3個(gè)一分的硬幣交給顧客。這種找硬幣方法與其他的找法相比,所拿出的硬幣個(gè)數(shù)是最少的。這里,我們下意識(shí)地使用了這樣的找硬幣算法:首先選出一個(gè)面值不超過六角三分的最大硬幣,即二角五分;然后從六角三分中減去二角五分,剩下三角八分;再選出一個(gè)面值不超過三角八分的最大硬幣,即又一
45、個(gè)二角五分,如此一直做下去。這個(gè)找硬幣的方法實(shí)際上就是貪心算法。顧名思義,貪心算法總是作出在當(dāng)前看來是最好的選擇。也就是說貪心算法并不從整體最優(yōu)上加以考慮,它所作出的選擇只是在某種意義上的局部最優(yōu)選擇。,2024/3/20,67,但是:如果硬幣的面值改為一分、五分和一角一分3種,而要找給顧客的是一角五分錢。還用貪心算法,我們將找給顧客1個(gè)一角一分的硬幣和4個(gè)一分的硬幣。然而3個(gè)五分的硬幣顯然是最好的找法。顯然貪心算法不是對(duì)所有問
46、題都能得到整體最優(yōu)解,但對(duì)范圍相當(dāng)廣的許多問題它能產(chǎn)生整體最優(yōu)解。如,圖的單源最短路徑問題。在一些情況下,即使貪心算法不能得到整體最優(yōu)解,但其最終結(jié)果卻是最優(yōu)解的很好的近似解。,2024/3/20,68,基于熵的離散化方法是通過貪心算法搜尋給定數(shù)據(jù)區(qū)間內(nèi)的具有熵值最小的數(shù)據(jù)點(diǎn)作為斷點(diǎn)。該方法將區(qū)間內(nèi)的每一個(gè)數(shù)值作為候選斷點(diǎn),計(jì)算其熵值,然后從中選出具有最小熵值的數(shù)據(jù)點(diǎn)作為斷點(diǎn),將區(qū)間一分為二,然后再對(duì)得到的區(qū)間遞歸地應(yīng)用以上方法進(jìn)行
47、離散化。停止準(zhǔn)則是當(dāng)?shù)玫降拿總€(gè)區(qū)間中的類標(biāo)簽都是一致時(shí),即停止離散化過程;或者達(dá)到某個(gè)停止標(biāo)準(zhǔn)時(shí),停止。,2024/3/20,69,基于熵的離散化方法,2024/3/20,基于熵的離散化方法,2024/3/20,一個(gè)給定的樣本分類所需要的信息,某種劃分的期望信息,70,2024/3/20,2024/3/20,舉例:iris樣本集的具體步驟,71,2024/3/20,首先,從第一個(gè)分割點(diǎn)開始,將屬性值分為兩部分即[4.3,4.4)和[4
48、.4,7.9],則分割后新的類別熵為:,2024/3/20,72,2024/3/20,以此類推,如把屬性值分為[4.3,5.6)和[5.6,7,9]兩個(gè)區(qū)間時(shí),產(chǎn)生的新的類別熵為:,2024/3/20,73,2024/3/20,對(duì)所有的分割點(diǎn)將屬性值分為兩個(gè)區(qū)間的新類別熵計(jì)算出來,有,2024/3/20,,74,2024/3/20,,從上表中可以看到,將屬性值分為[4.3,5.6)和[5.6,7,9]兩個(gè)區(qū)間時(shí),類別熵最小,因此首先把屬
49、性值分為兩大部分。按照上述步驟, 分別再找出區(qū)間 [4.3,5.6)和[5.6,7,9]的二分點(diǎn),以此類推,逐漸將區(qū)間分割為更小的區(qū)間,直到滿足某個(gè)終止條件為止。,2024/3/20,75,2024/3/20,2024/3/20,,,,,,76,2024/3/20,2024/3/20,4、chimerge算法,77,2024/3/20,2024/3/20,78,2024/3/20,2024/3/20,79,2024/3/20,2024
50、/3/20,80,2024/3/20,應(yīng)用,采用Iris樣本集進(jìn)行統(tǒng)計(jì)模擬?,F(xiàn)在以花萼長(zhǎng)( sepal length in cm )屬性為例,來進(jìn)行連續(xù)型值屬性的離散化。,2024/3/20,81,2024/3/20,2024/3/20,,,,,,,,,82,2024/3/20,具體步驟:,(1)觀察各區(qū)間,先將類分布完全相同的區(qū)間進(jìn)行合并。,2024/3/20,83,2024/3/20,2024/3/20,(2)考察[4.3,4.9)
51、與[4.9,5),看其是否能夠合并??jī)蓞^(qū)間的卡方統(tǒng)計(jì)量和為5.87,大于臨界值,因此兩區(qū)間不能合并。,表1:兩區(qū)間的列聯(lián)表,表2:計(jì)算各項(xiàng)的eij,表3:兩區(qū)間的卡方統(tǒng)計(jì)量值,84,,,,2024/3/20,2024/3/20,(3)繼續(xù)考察區(qū)間[4.9,5)與[5.0,5.3) ,看其是否能夠合并,直到所有的區(qū)間卡方統(tǒng)計(jì)量大于閥值為止。,85,2024/3/20,五、屬性的歸約,屬性的歸約包括兩類方法:屬性的提
52、取和屬性子集的選擇。(一)屬性的提取屬性的提取是通過映射(或變換)的方法,將高維的屬性空間壓縮為低維的屬性空間,即將原始屬性變換為較少的新屬性。此時(shí),“較少的新屬性”是原始屬性的某種線性組合,也可以稱為“二次屬性”。,2024/3/20,86,2024/3/20,屬性提取的最大的優(yōu)點(diǎn)在于:這樣的線性組合比屬性選擇中的最優(yōu)子集有更好的判別能力。但相應(yīng)的問題是,這樣的線性組合的實(shí)際意義卻不明顯,有時(shí)難以解釋。到目前為止,對(duì)屬性提取的
53、研究主要是從線性和非線性的數(shù)據(jù)變換角度進(jìn)行的。用的比較多的線性數(shù)據(jù)變換方法是:主成分分析、因子分析、判別分析、聚類分析、多維標(biāo)度、投影尋蹤以及小波變換等。非線性的數(shù)據(jù)變換,主要是基于自組織映射的屬性抽取方法、基于核的主成分分析和基于核的判別分析方法等。,2024/3/20,87,2024/3/20,1、主成分分析(因子分析),主成分分析和因子分析都是多元統(tǒng)計(jì)分析中的一種常用方法,是數(shù)學(xué)上處理降維的一種方法。主成分分析的基本思想:
54、設(shè)法將原始屬性重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合屬性,同時(shí)根據(jù)需要從中選取少數(shù)幾個(gè)綜合屬性來盡可能多地反映原來指標(biāo)的信息。綜合指標(biāo)的選取使用的是方差最大法。,2024/3/20,88,2、因子分析,因子分析的基本思想:通過變量(或樣本)的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究,找出能控制所有變量的少數(shù)幾個(gè)因子去描述多個(gè)變量之間的相關(guān)關(guān)系;然后,根據(jù)相關(guān)性的大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同組之間相關(guān)性較低。,2024/
55、3/20,89,2024/3/20,主成分分析和因子分析的對(duì)比,2024/3/20,主成分分析,因子分析,由因子的線性組合來解釋變量,90,,主成份分析和因子分析的優(yōu)點(diǎn),因子(主成份)之間的線性相關(guān)關(guān)系不顯著。主成份參與數(shù)據(jù)建模能夠有效地解決變量多重共線性等分析應(yīng)用帶來的問題。因子能夠反映原有變量的絕大部分信息。因子的方差貢獻(xiàn)和方差貢獻(xiàn)率是衡量因子重要性的關(guān)鍵指標(biāo)。該值越高,說明相應(yīng)因子的重要性越高。aij因子載荷反映了某i個(gè)變
56、量在第j因子上的相對(duì)重要性。因子得分是因子分析的最終體現(xiàn)。在后續(xù)的分析中可以用因子變量代替原有變量進(jìn)行建模,或者利用因子變量對(duì)樣本分類、評(píng)價(jià)或排序等研究。,2024/3/20,91,,,3、聚類分析——K均值聚類分析,K均值法是麥奎因(MacQueen,1967)提出的,這種算法的基本思想是將每一個(gè)樣品分配給最近中心(均值)的類中.具體的算法至少包括以下三個(gè)步驟:1.將所有的樣品分成K個(gè)初始類;2.通過歐氏距離將某個(gè)樣品劃
57、入離中心最近的類中,并對(duì)獲得樣品與失去樣品的類,重新計(jì)算中心坐標(biāo);3.重復(fù)步驟2,直到所有的樣品都不能再分配時(shí)為止。,2024/3/20,92,2024/3/20,(二)屬性子集的選擇,屬性子集的選擇是通過刪除不相關(guān)的屬性來減少數(shù)據(jù)量。屬性子集選擇的目標(biāo)是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。,2024/3/20,93,2024/3/20,屬性子集的選擇方法一般有兩個(gè)組成部分:一是高效率的屬性子集搜
58、索策略,即在允許的時(shí)間內(nèi),用以找出最小的、最能描述類別的屬性組合的搜索方法;二是確定評(píng)價(jià)函數(shù),是衡量屬性組合是否最優(yōu)的標(biāo)準(zhǔn)。屬性子集的選擇一般分兩步進(jìn)行:首先,產(chǎn)生屬性子集;然后,對(duì)子集進(jìn)行評(píng)價(jià),如果滿足停止條件則停止,否則重復(fù)前述兩步直到條件滿足為止。,2024/3/20,94,通過該標(biāo)準(zhǔn),要能夠衡量哪組屬性子集的分類效果最好,即使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布;或者能夠衡量哪組屬性子集的分類效果最好,
59、即最能夠代表全部的屬性集合對(duì)樣本的劃分。,2024/3/20,1、搜索策略,按照搜索屬性形成屬性子集的方式,搜索策略可以分為:窮舉法、啟發(fā)式和隨機(jī)搜索。啟發(fā)式搜索即貪心算法?;镜膯l(fā)式屬性選擇算法主要有:逐步向前選擇(SFS)、逐步向后選擇(SBG )以及向前選擇和向后刪除相結(jié)合的方法等。,2024/3/20,95,2024/3/20,(1)逐步向前選擇逐步向前選擇方法是一種自下而上的搜索方法,它是由空屬性集開始,依次從未入
60、選的屬性中選擇一個(gè)屬性,使它與已入選的屬性組合在一起時(shí)所得的評(píng)價(jià)函數(shù)達(dá)到最大值(或最小值,依評(píng)價(jià)函數(shù)選取的不同,取最大或最小值),直到評(píng)價(jià)函數(shù)的值不再增加(或減?。r(shí)為止,亦或者達(dá)到指定的屬性數(shù)為止。,2024/3/20,96,96,能夠衡量哪組屬性子集的分類效果最好,最能夠代表全部的屬性集合對(duì)樣本的劃分。,,,這種算法的不足是:在算法中雖然考慮了所選屬性與已入選屬性之間的相關(guān)性,但卻未考慮未入選屬性之間的統(tǒng)計(jì)相關(guān)性,并且一旦某個(gè)屬性已
61、入選,即使由于后加入的屬性使它變?yōu)槎嘤?,也無(wú)法再剔除。,2024/3/20,97,2024/3/20,(2)逐步向后刪除逐步向后刪除是一種自上而下搜索的方法,它由整個(gè)屬性集開始,在每一步刪除掉在屬性集中最壞的屬性,評(píng)判屬性好壞的準(zhǔn)則是,如果剔除該屬性后,屬性集的評(píng)價(jià)函數(shù)達(dá)到最大(或最?。┲?,那么這個(gè)屬性是最壞的。,2024/3/20,98,98,(3)逐步向前選擇和逐步向后刪除相結(jié)合向前選擇和向后刪除結(jié)合的方法則是將向前選擇和向后刪
62、除方法結(jié)合在一起,每一步選擇一個(gè)最好的屬性,并在其剩余的屬性中刪除掉一個(gè)最壞的屬性。這兩種方法也存在著與逐步向前選擇方法相同的缺點(diǎn)。,2024/3/20,99,2024/3/20,(4)廣義逐步向前選擇廣義逐步向前選擇方法是逐步向前選擇方法的推廣,針對(duì)逐步向前選擇方法“未能考慮未入選屬性之間的統(tǒng)計(jì)相關(guān)性”的缺點(diǎn),該方法每次從未入選的屬性中挑選的不止是一個(gè)屬性而是多個(gè)屬性。廣義逐步向前選擇方法的缺點(diǎn)是:計(jì)算量要比逐步向前選擇方法大很
63、多,并且也未解決“一旦某個(gè)屬性已入選,即使由于后加入的屬性使它變?yōu)槎嘤?,也無(wú)法再剔除”的問題。,2024/3/20,100,100,2024/3/20,2、屬性子集選擇中的評(píng)價(jià)函數(shù),在屬性子集選擇中,找出最具代表性的屬性子集需要一個(gè)子集優(yōu)劣的評(píng)價(jià)標(biāo)準(zhǔn)。通過該標(biāo)準(zhǔn),使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布;如果沒有類屬性,則能夠衡量哪組屬性子集的分類效果最好,最能夠代表全部的屬性集合對(duì)樣本的劃分。這種評(píng)價(jià)標(biāo)準(zhǔn)以函數(shù)的形式表示
64、出來就是評(píng)價(jià)函數(shù)。它在模式識(shí)別中,也被稱為類別可分性判據(jù)。,2024/3/20,101,2024/3/20,評(píng)價(jià)函數(shù)在屬性子集的選擇中是非常關(guān)鍵的,不同的評(píng)價(jià)函數(shù)可能會(huì)得出不同的結(jié)果。評(píng)價(jià)函數(shù)的建立形式是多種多樣的:基于距離的評(píng)價(jià)函數(shù)、基于相關(guān)性的評(píng)價(jià)函數(shù)(無(wú)監(jiān)督屬性子集的選擇方法)?;谝恢滦缘脑u(píng)價(jià)函數(shù)、分類錯(cuò)誤率以及基于信息熵的評(píng)價(jià)函數(shù)等(有監(jiān)督屬性子集選擇方法)。,2024/3/20,102,3、評(píng)價(jià)函數(shù)的要求,2024/3/
65、20,103,2024/3/20,4、模式識(shí)別中基于距離的評(píng)價(jià)函數(shù),2024/3/20,104,2024/3/20,2024/3/20,105,2024/3/20,屬性子集選擇方法的應(yīng)用,主要思路:通過因子分析和相關(guān)分析為逐步向前選擇算法找到每一次選用子集的最優(yōu)屬性。選用2004年各地區(qū)城鎮(zhèn)居民家庭人均全年消費(fèi)性支出樣本集對(duì)逐步向前的屬性子集選擇方法進(jìn)行模擬。具體步驟如下:首先,對(duì)這個(gè)樣本集作KMO (Kaiser-Meyer-
66、Olkin)檢驗(yàn),KMO值為0.87,表明該數(shù)據(jù)集適合作因子分析。KMO值是用于比較變量間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo)。KMO值在0.9以上表式非常適合作因子分析,在0.8~0.9之間表示適合,在0.7~0.8表示一般,在0.6~0.7之間表示不太適合,0.6以下表示極不適合。,2024/3/20,106,2024/3/20,107,2024/3/20,108,因子初始解,第二列說明提取公因子后,變量可以被因子解釋的信息有多少,,2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第二章--統(tǒng)計(jì)學(xué)-數(shù)據(jù)的搜集
- 統(tǒng)計(jì)學(xué)第二章描述
- 統(tǒng)計(jì)學(xué)第二章--統(tǒng)計(jì)數(shù)據(jù)的采集
- [學(xué)習(xí)]統(tǒng)計(jì)學(xué)ppt課件第二章數(shù)據(jù)與統(tǒng)計(jì)資料
- 醫(yī)藥統(tǒng)計(jì)學(xué)-第二章-隨機(jī)事件與概率
- 統(tǒng)計(jì)學(xué)第二章描述性統(tǒng)計(jì)分析
- 概率統(tǒng)計(jì)第二章.
- 第2章統(tǒng)計(jì)學(xué)統(tǒng)計(jì)數(shù)據(jù)收集
- 第二章 統(tǒng)計(jì)調(diào)查
- [學(xué)習(xí)]統(tǒng)計(jì)學(xué)第1章導(dǎo)論第二版
- 統(tǒng)計(jì)學(xué)(第二版)
- 數(shù)據(jù)挖掘第二章作業(yè)
- 統(tǒng)計(jì)學(xué)數(shù)據(jù)分析 統(tǒng)計(jì)學(xué)
- 統(tǒng)計(jì)學(xué)專業(yè)
- 第二章地圖學(xué)
- 教育學(xué)第二章
- 生態(tài)學(xué)第二章
- 農(nóng)業(yè)推廣學(xué)第二章
- 統(tǒng)計(jì)學(xué)第二版01-第1章-總論
- 第二章 新聞采訪的策劃與準(zhǔn)備
評(píng)論
0/150
提交評(píng)論