2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)預(yù)處理,,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理技術(shù)主要是接受并理解用戶的挖掘要求,確定挖掘任務(wù),抽取與挖掘任務(wù)相關(guān)的數(shù)據(jù)源,根據(jù)領(lǐng)域知識(shí)中的約束規(guī)則對(duì)數(shù)據(jù)進(jìn)行合法性檢查,通過(guò)清理和規(guī)約等操作,生成挖掘算法所需要的目標(biāo)數(shù)據(jù),他匯集了原始數(shù)據(jù)中與數(shù)據(jù)挖掘任務(wù)相關(guān)的所有數(shù)據(jù)的總體特征,是最原始的知識(shí)模板。,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理研究?jī)?nèi)容數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過(guò)程中的一個(gè)重要步驟,尤其是在對(duì)包含有噪聲、不完整,甚至不一致數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí)

2、,更需要進(jìn)行數(shù)據(jù)的預(yù)處理,以提高數(shù)據(jù)挖掘的質(zhì)量,并最終達(dá)到提高數(shù)據(jù)挖掘所獲模式知識(shí)質(zhì)量的目的。,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理的重要性 1)數(shù)據(jù)預(yù)處理可以去掉數(shù)據(jù)中的噪聲 (eg.領(lǐng)導(dǎo)講話)2)糾正不正確的屬性值(人機(jī)輸入時(shí)錯(cuò)誤 )3)對(duì)于不一致的數(shù)據(jù)進(jìn)行清理(填寫缺失值、光滑噪聲數(shù)據(jù)、識(shí)別刪除離群點(diǎn))4)數(shù)據(jù)預(yù)處理可以提高數(shù)據(jù)挖掘的效率(壓縮數(shù)據(jù)集不損害數(shù)據(jù)挖掘結(jié)果),數(shù)據(jù)預(yù)處理任務(wù),一個(gè)全面的金融智能解決方案必須通過(guò)數(shù)據(jù)挖掘

3、解決數(shù)據(jù)一致性與集成化問(wèn)題,能夠從所有傳統(tǒng)環(huán)境與平臺(tái)中采集數(shù)據(jù),并對(duì)其數(shù)據(jù)進(jìn)行高效的轉(zhuǎn)換。這個(gè)解決方案就是ETL。,數(shù)據(jù)預(yù)處理任務(wù),通常數(shù)據(jù)預(yù)處理的過(guò)程主要包括以下幾個(gè)方面任務(wù)數(shù)據(jù)清洗數(shù)據(jù)集成 數(shù)據(jù)變換 數(shù)據(jù)歸約,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)清洗數(shù)據(jù)清洗是要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),去除空白數(shù)據(jù)域和知識(shí)背景上的白噪聲,考慮時(shí)間順序和數(shù)據(jù)變化等。主要包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理,并完成一些數(shù)據(jù)類型的

4、轉(zhuǎn)換。數(shù)據(jù)清洗分為有監(jiān)督(領(lǐng)域?qū)<抑笇?dǎo)下)和無(wú)監(jiān)督(樣本數(shù)據(jù)訓(xùn)練算法)兩類。,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)集成數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)義的模糊性。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問(wèn)題以及不一致數(shù)據(jù)的處理問(wèn)題。 由于數(shù)據(jù)可能來(lái)自多個(gè)實(shí)際系統(tǒng),所以存在異構(gòu)數(shù)據(jù)的轉(zhuǎn)換問(wèn)題。另外,多個(gè)數(shù)據(jù)源的數(shù)據(jù)之間,還存在許多不一致的地方,如命名、結(jié)構(gòu)、單位和含義等。,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)變換數(shù)據(jù)變換主要是找到

5、數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、切換、旋轉(zhuǎn)和投影等操作。(eg. 2e+10; 出生年月&年齡 vs 孩子數(shù)量&家庭成員數(shù)),數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)歸約數(shù)據(jù)歸約是在對(duì)挖掘任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量。,數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)清洗方法現(xiàn)實(shí)世界的數(shù)據(jù)常常是有噪聲、不

6、完全的和不一致的。數(shù)據(jù)清洗過(guò)程通過(guò)填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一致的數(shù)據(jù)。,數(shù)據(jù)清洗方法,遺漏數(shù)據(jù)處理如果在分析數(shù)據(jù)時(shí),發(fā)現(xiàn)有多個(gè)記錄中的屬性值為空,可以采用以下方法進(jìn)行處理: ① 忽略該記錄(eg.出勤) ② 手工填補(bǔ)遺漏值 ③ 利用默認(rèn)值填補(bǔ)遺漏值 ④ 利用均值填補(bǔ)遺漏值(eg.考試) ⑤ 利用同類別均值填補(bǔ)遺漏值 ⑥ 利用最可能的值填補(bǔ)遺漏值(回歸、決策樹(shù)等預(yù)測(cè)),數(shù)據(jù)清洗方法,噪聲數(shù)據(jù)處理

7、噪聲是指被測(cè)變量的一個(gè)隨機(jī)錯(cuò)誤和變化: ① Bin方法。通過(guò)利用相應(yīng)被平滑數(shù)據(jù)點(diǎn)的周圍點(diǎn),對(duì)一組排序數(shù)據(jù)進(jìn)行平滑 ② 聚類方法(通過(guò)聚類分析可以幫助發(fā)現(xiàn)異常數(shù)據(jù)) ③ 人機(jī)結(jié)合檢查方法 ④ 回歸方法(利用擬合函數(shù)對(duì)數(shù)據(jù)進(jìn)行平滑),數(shù)據(jù)清洗方法,① Bin方法,數(shù)據(jù)清洗方法,不一致數(shù)據(jù)處理數(shù)據(jù)庫(kù)中經(jīng)常出現(xiàn)數(shù)據(jù)記錄內(nèi)容的不一致,其中一些數(shù)據(jù)的不一致可以利用他們與外部的關(guān)聯(lián)手工加以解決。,數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)集成方法數(shù)據(jù)挖掘任務(wù)常

8、常涉及數(shù)據(jù)集成操作,即將來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),如:數(shù)據(jù)庫(kù)、數(shù)據(jù)立方(data cubes)、普通文件等,結(jié)合在一起并形成一個(gè)統(tǒng)一數(shù)據(jù)集合,以便為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。,數(shù)據(jù)集成方法,模式集成問(wèn)題如何使來(lái)自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體相互匹配,涉及到實(shí)體識(shí)別問(wèn)題(如何確定一個(gè)數(shù)據(jù)庫(kù)中的customer_id與另一個(gè)數(shù)據(jù)庫(kù)中的cust_number表示同一實(shí)體?元數(shù)據(jù)可以幫助避免發(fā)生錯(cuò)誤),數(shù)據(jù)集成方法,冗余問(wèn)題若一個(gè)

9、屬性可以從其他屬性中推演出來(lái),那么這個(gè)屬性就是冗余屬性;屬性命名不一致也會(huì)導(dǎo)致集成后數(shù)據(jù)集出現(xiàn)不一致數(shù)據(jù)值沖突檢測(cè)與消除(來(lái)自不同數(shù)據(jù)源的屬性值可能不同,eg.比例尺度,貨幣單位),數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)轉(zhuǎn)換方法所謂數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換或歸已構(gòu)成一個(gè)適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包含以下處理內(nèi)容。 1)平滑處理。 2)合計(jì)處理。 3)數(shù)據(jù)泛化處理(Generali

10、zation) 4)規(guī)格化。 5)屬性構(gòu)造。,數(shù)據(jù)轉(zhuǎn)換方法,平滑處理該過(guò)程幫助除去數(shù)據(jù)中的噪聲,如Bin方法、聚類方法、回歸方法等合計(jì)處理對(duì)數(shù)據(jù)進(jìn)行總結(jié)或合計(jì)操作(eg.從每天銷售額獲得每月或每年銷售額)泛化處理泛化處理是用更抽象的概念來(lái)取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象(eg.年齡屬性可以映射到年輕、中年、老年),數(shù)據(jù)轉(zhuǎn)換方法,規(guī)格化將有關(guān)屬性數(shù)據(jù)按照比例投射到特定小范圍之中(eg.將

11、工資收入屬性值映射到0.0~1.0)屬性構(gòu)造根據(jù)已有屬性集構(gòu)造新的屬性,以幫助數(shù)據(jù)挖掘過(guò)程(eg. Y=aX1+bX2+cX3),數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)歸約方法數(shù)據(jù)規(guī)約技術(shù)正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合,并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡(jiǎn)數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來(lái)的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。,數(shù)據(jù)歸約方法,數(shù)據(jù)立方合計(jì)這類聚集操作作用于數(shù)據(jù)立方中的數(shù)據(jù),對(duì)該

12、數(shù)據(jù)進(jìn)行處理。,數(shù)據(jù)歸約方法,維數(shù)歸約檢測(cè)并刪除不相關(guān)、弱相關(guān)或冗余的屬性或維。 (eg.預(yù)測(cè)是否購(gòu)買基金的規(guī)則時(shí)電話號(hào)碼可能與挖掘任務(wù)無(wú)關(guān))通常使用屬性子集選擇方法(Attribute Subset Selection),目標(biāo)就是尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來(lái)的數(shù)據(jù)集的概率分布。方法有逐步添加方法,每次選擇一個(gè)當(dāng)前最優(yōu)屬性(收入、年齡、職業(yè)等)逐步消減方法,每次從屬性子集選擇當(dāng)前最差屬性除去(身份

13、證、身高、性別等)決策樹(shù)歸納法,對(duì)初始數(shù)據(jù)進(jìn)行分類歸納學(xué)習(xí),獲得初始決策樹(shù),沒(méi)有出現(xiàn)在決策樹(shù)的均為無(wú)關(guān)屬性,數(shù)據(jù)歸約方法,數(shù)據(jù)壓縮主要用于監(jiān)測(cè)和消除無(wú)關(guān)、弱相關(guān)、或冗余的屬性,并使用編碼機(jī)制壓縮數(shù)據(jù)集。小波分析,是一種線性信號(hào)處理技術(shù),該技術(shù)方法可以將一個(gè)數(shù)據(jù)向量D轉(zhuǎn)換為另一個(gè)數(shù)據(jù)向量D’,兩個(gè)向量具有相同長(zhǎng)度。但是后者可以舍棄其中一些小波相關(guān)系數(shù)。主因素分析,利用其進(jìn)行數(shù)據(jù)壓縮時(shí),假設(shè)數(shù)據(jù)由N個(gè)數(shù)據(jù)行組成,有K個(gè)維度。PCA從

14、K個(gè)維度中尋找c個(gè)共軛向量,從而實(shí)現(xiàn)對(duì)初始數(shù)據(jù)進(jìn)行有效的數(shù)據(jù)壓縮。,數(shù)據(jù)歸約方法,離散化和概念層次樹(shù)生成離散化和概念分層將屬性的原始值用區(qū)間值或較高層的概念替換。概念分層允許挖掘多個(gè)抽象層上的數(shù)據(jù),是數(shù)據(jù)挖掘一種強(qiáng)有力的工具。,,,,,,,,,,,青年,中年,壯年,18 …,25,26 …,35,36 …,55,數(shù)據(jù)預(yù)處理方法,用于Web挖掘的預(yù)處理由于日志記錄和HTTP協(xié)議的自身原因,日志數(shù)據(jù)

15、是雜亂的,Web使用挖掘預(yù)處理是在Web使用挖掘前,對(duì)Web日志所記錄的數(shù)據(jù)進(jìn)行清理、過(guò)濾以及重新組合過(guò)程。Web使用預(yù)處理的目的是剔除日志中對(duì)挖掘過(guò)程無(wú)用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的保存形式。,用于Web挖掘的預(yù)處理,使用預(yù)處理Web日志文件清楚地記錄了站點(diǎn)訪問(wèn)者的瀏覽行為,記錄了每一次網(wǎng)頁(yè)請(qǐng)求信息。它是使用挖掘的最主要數(shù)據(jù)來(lái)源,絕大多數(shù)Web使用挖掘都是直接利用Web日志來(lái)進(jìn)行。,日志文件,數(shù)據(jù)凈化,用戶

16、會(huì)話識(shí)別,瀏覽頁(yè)識(shí)別,路徑補(bǔ)充,服務(wù)器會(huì)話文件,路徑補(bǔ)充,事務(wù)文件,使用統(tǒng)計(jì),站點(diǎn)結(jié)構(gòu)和內(nèi)容,用于Web挖掘的預(yù)處理,結(jié)構(gòu)預(yù)處理結(jié)構(gòu)挖掘的預(yù)處理主要是通過(guò)Web站點(diǎn)結(jié)構(gòu)及網(wǎng)頁(yè)特征信息的抽取和過(guò)濾,為結(jié)構(gòu)挖掘準(zhǔn)備數(shù)據(jù)。,Web,URL集合,URL處理,地址路徑處理,路徑補(bǔ)充,數(shù)據(jù)庫(kù),網(wǎng)頁(yè)分析,URL提取,超鏈過(guò)濾,輸入初 始URL,讀取,分配URL,用于Web挖掘的預(yù)處理,內(nèi)容預(yù)處理Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。多媒體挖掘處

17、于起步階段,仍停留在從多媒體的屬性進(jìn)行挖掘,對(duì)于文本挖掘的預(yù)處理,通過(guò)以下幾個(gè)步驟完成,站點(diǎn)文件,分類算法,文本分類,分詞處理,文本特征表示,特征提取,對(duì)元數(shù)據(jù)(特征項(xiàng))進(jìn)行量化,有意義地抽取關(guān)鍵詞項(xiàng)的相關(guān)信息,數(shù)據(jù)預(yù)處理工具,評(píng)價(jià)ETL工具的標(biāo)準(zhǔn)評(píng)價(jià)ETL工具的標(biāo)準(zhǔn)可以從對(duì)平臺(tái)的支持(Windows,Linux,UNIX)、對(duì)數(shù)據(jù)源的支持(Excel,SQL Server,Text,XML)、數(shù)據(jù)轉(zhuǎn)換功能(字段映射、拆分、行列變換等

18、)、管理和調(diào)度功能、對(duì)元數(shù)據(jù)管理(映射規(guī)則、轉(zhuǎn)換規(guī)則、加載策略都屬于元數(shù)據(jù)范疇)和集成和開(kāi)放性等幾個(gè)方面考慮。,數(shù)據(jù)預(yù)處理工具,主流的ETL工具 目前的ETL工具在一定范圍內(nèi)解決了數(shù)據(jù)的抽取和轉(zhuǎn)換。但這些工具基本都不能自動(dòng)完成數(shù)據(jù)的抽取,用戶還需利用這些工具編寫適當(dāng)?shù)霓D(zhuǎn)換程序,對(duì)用戶的技術(shù)水平要求較高。Oracle Warehouse BuilderInformatica PowerCenterMicrosoft SQL Se

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論