數據分析與挖掘習題_第1頁
已閱讀1頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據分析與挖掘習題數據分析與挖掘習題第一章作業(yè)1.1什么是數據挖掘?在你的回答中,強調以下問題:什么是數據挖掘?在你的回答中,強調以下問題:(a)它是又一個騙局嗎?它是又一個騙局嗎?數據挖掘,在人工智能領域,習慣上又稱為數據庫中知識發(fā)現(KnowledgeDiscoveryinDatabaseKDD),也有人把數據挖掘視為數據庫中知識發(fā)現過程的一個基本步驟。數據挖掘可以與用戶或知識庫交互。并非所有的信息發(fā)現任務都被視為數據挖掘。例如,使

2、用數據庫管理系統查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(infmationretrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特征來創(chuàng)建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。(b)它是一種從數據庫,統計學和機器學習發(fā)展的技術的簡單轉換嗎?它是一種從數據庫,統計學和機器學

3、習發(fā)展的技術的簡單轉換嗎?硬要去區(qū)分DataMining和Statistics的差異其實是沒有太大意義的。一般將之定義為DataMining技術的CART、CHAID或模糊計算等等理論方法,也都是由統計學者根據統計理論所發(fā)展衍生,換另一個角度看,DataMining有相當大的比重是由高等統計學中的多變量分析所支撐。但是為什么DataMining的出現會引發(fā)各領域的廣泛注意呢?主要原因在相較于傳統統計分析而言,DataMining有下列幾

4、項特性:1.處理大量實際數據更強勢,且無須太專業(yè)的統計背景去使用DataMining的工具2.數據分析趨勢為從大型數據庫抓取所需數據并使用專屬計算機分析軟件,DataMining的工具更符合企業(yè)需求;3.純就理論的基礎點來看,DataMining和統計分析有應用上的差別,畢竟DataMining目的是方便企業(yè)終端用戶使用而非給統計學家檢測用的。(c)解釋數據庫技術發(fā)展如何導致數據挖掘解釋數據庫技術發(fā)展如何導致數據挖掘近年來,數據挖掘引起

5、了信息產業(yè)界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。數據挖掘利用了來自如下一些領域的思想:(1)來自統計學的抽樣、估計和假設檢驗,(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優(yōu)化、進化計算、信息論、信號處理、可

6、視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要數據庫系統提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,并且當數據不能集中到一起處理時更是至關重要。(d)當把數據挖掘看作知識發(fā)現過程時,描述數據挖掘所涉及的步驟。當把數據挖掘看作知識發(fā)現過程時,描述數據挖掘所涉及的步驟。知識發(fā)現過程以下三個階段組成:(1)數據準備,(2)數據挖掘,(3)結果

7、表達和解釋。1.2給出一個例子,其中數據挖掘對于一種商務的成功至關重要的。這種商務需要什么數給出一個例子,其中數據挖掘對于一種商務的成功至關重要的。這種商務需要什么數據挖掘功能?他們能夠由數據查詢處理或簡單的統計分析來實現嗎?據挖掘功能?他們能夠由數據查詢處理或簡單的統計分析來實現嗎?由于統計學基礎的建立在計算機的發(fā)明和發(fā)展之前,所以常用的統計學工具包含很多可數據數據倉庫側重于數據分析工作,是按照主題存儲的“與時間相關”:數據庫保存信息

8、的時候,并不強調一定有時間信息。數據倉庫則不同,出于決策的需要,數據倉庫中的數據都要標明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對于決策者意義是不同的。“不可修改”:數據倉庫中的數據并不是最新的,而是來源于其它數據源。數據倉庫反映的是歷史信息,并不是很多數據庫處理的那種日常事務數據(有的數據庫例如電信計費數據庫甚至處理實時信息)。因此,數據倉庫中的數據是極少

9、或根本不修改的當然,向數據倉庫添加數據是允許的。數據倉庫的出現,并不是要取代數據庫。目前,大部分數據倉庫還是用關系數據庫管理系統來管理的??梢哉f,數據庫、數據倉庫相輔相成、各有千秋。為了更好地為前端應用服務,數據倉庫必須有如下幾點優(yōu)點,否則是失敗的數據倉庫方案。1.效率足夠高??蛻粢蟮姆治鰯祿话惴譃槿?、周、月、季、年等,可以看出,日為周期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數據分析。由于有的企業(yè)每日的數

10、據量很大,設計不好的數據倉庫經常會出問題,延遲13日才能給出數據,顯然不行的。2.數據質量??蛻粢锤鞣N信息,肯定要準確的數據,但由于數據倉庫流程至少分為3步,2次ETL,復雜的架構會更多層次,那么由于數據源有臟數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。3.擴展性。之所以有的大型數據倉庫系統架構設計復雜,是因為考慮到了未來35年的擴展性,這樣的話,客戶不用太快花錢去重建數

11、據倉庫系統,就能很穩(wěn)定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩沖,不至于數據量大很多,就運行不起來了。第二章作業(yè)1.簡述以下高級數據庫系統和應用:面向對象數據庫、空間數據庫、文本數據庫、多媒體簡述以下高級數據庫系統和應用:面向對象數據庫、空間數據庫、文本數據庫、多媒體數據庫和數據庫和WWW。面向對象是一種認識方法學,也是一種新的程序設計方法學。把面向對象的方法和數據庫技術結合起來可以使數據庫

12、系統的分析、設計最大程度地與人們對客觀世界的認識相一致。面向對象數據庫面向對象數據庫系統是為了滿足新的數據庫應用需要而產生的新一代數據庫系統。在數據庫中提供面向對象的技術是為了滿足特定應用的需要。隨著許多基本設計應用(如MACD和ECAD)中的數據庫向面向對象數據庫的過渡,面向對象思想也逐漸延伸到其它涉及復雜數據的應用中,其中包括輔助軟件工程(CASE)、計算機輔助印刷(CAP)和材料需求計劃(MRP)。這些應用如同設計應用一樣在程序設

13、計方面和數據類型方面都是數據密集型的,它們需要識別于類型關系的存儲技術,并能對相近數據備份進行調整.空間數據庫空間數據庫指的是地理信息系統在計算機物理存儲介質上存儲的與應用相關的地理空間數據的總和,一般是以一系列特定結構的文件的形式組織在存儲介質之上的??臻g數據庫的研究始于20世紀70年代的地圖制圖與遙感圖像處理領域其目的是為了有效地利用衛(wèi)星遙感資源迅速繪制出各種經濟專題地圖。由于傳統的關系數據庫在空間數據的表示、存儲、管理、檢索上存在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論