數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與olap技術_第1頁
已閱讀1頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第3章 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術,2,第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術,什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結構數(shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)立方體的進一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘,3,什么是數(shù)據(jù)倉庫?,有不同的方法定義, 但不是嚴格的.是一個決策支持數(shù)據(jù)庫, 它與組織機構的操作數(shù)據(jù)庫分別維護數(shù)據(jù)倉庫系統(tǒng)允許將各種應用系統(tǒng)集成在一起, 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺, 支持信息處理.W. H. Inmon的定

2、義: 數(shù)據(jù)倉庫是 面向主題的(subject-oriented), 集成的(integrated), 時變的(time-variant), 和非易失的( nonvolatile) 數(shù)據(jù)集合, 支持管理決策過程建立數(shù)據(jù)倉庫(Data warehousing):構造和使用數(shù)據(jù)倉庫的過程,4,數(shù)據(jù)倉庫—面向主題的,圍繞重要的主題( 如顧客、產(chǎn)品、銷售等) 組織.關注決策制定者的數(shù)據(jù)建模與分析, 而不是日常的操作和事務處理.數(shù)據(jù)倉庫排除

3、對于決策過程無用的數(shù)據(jù), 提供特定主題的簡明視圖.,5,數(shù)據(jù)倉庫— 集成的,通過將多個異種的數(shù)據(jù)源集成在一起, 而構造比如,關系數(shù)據(jù)庫, 一般文件, 聯(lián)機事務記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術.確保命名約定, 編碼結構, 屬性度量等的一致性例如, 飯店價格: 貨幣種類, 稅, 是否含早餐, 等.當數(shù)據(jù)裝入數(shù)據(jù)倉庫時, 數(shù)據(jù)將被轉換.,6,數(shù)據(jù)倉庫— 時變的,數(shù)據(jù)倉庫的時間跨度顯著地比操作數(shù)據(jù)庫長.操作數(shù)據(jù)庫數(shù)據(jù): 當前值數(shù)據(jù).

4、數(shù)據(jù)倉庫數(shù)據(jù): 從歷史的角度提供數(shù)據(jù) (例如, 過去 5-10 年)數(shù)據(jù)倉庫中的每個鍵結構顯式或隱式地包含時間元素,但是, 操作數(shù)據(jù)的鍵可能包含, 也可能不包含“時間元素”.,7,數(shù)據(jù)倉庫— 非易失的,從操作環(huán)境轉換過來的數(shù)據(jù)物理地分離存放.數(shù)據(jù)的更新不在數(shù)據(jù)倉庫環(huán)境中出現(xiàn).不需要事務處理, 恢復, 和并發(fā)控制機制只需要兩種數(shù)據(jù)存取操作: 數(shù)據(jù)的初始化裝入 和 數(shù)據(jù)訪問.,8,數(shù)據(jù)倉庫和異種DBMS,傳統(tǒng)的異種數(shù)據(jù)庫集成

5、: 在異種數(shù)據(jù)庫上建立一個包裝程序(wrappers)或中介程序(/mediators)查詢驅動的方法當查詢提交給一個站點時, 使用元數(shù)據(jù)詞典將查詢轉換成所涉及的異構站點上的相應查詢, 查詢的結果被集成為一個全局回答的集合 需要:復雜的信息過濾, 對資源的競爭數(shù)據(jù)倉庫: 更新驅動的, 高性能來自異種信息源的數(shù)據(jù)被預先集成并存儲在數(shù)據(jù)倉庫中, 直接用于查詢和分析,9,數(shù)據(jù)倉庫VS.操作數(shù)據(jù)庫,OLTP (on-line tra

6、nsaction processing, 聯(lián)機事務處理)傳統(tǒng)關系 DBMS的主要任務涵蓋日常操作: 購買, 庫存, 銀行, 制造, 工資單, 注冊, 記帳, 等.OLAP (on-line analytical processing, 聯(lián)機分析處理)數(shù)據(jù)倉庫系統(tǒng)的主要任務數(shù)據(jù)分析和決策制定上提供服務不同的特點 (OLTP vs. OLAP):用戶和系統(tǒng)的面向性: 顧客 vs. 市場數(shù)據(jù)內(nèi)容: 當前的, 細節(jié)的 vs. 歷

7、史的, 合并的數(shù)據(jù)庫設計: ER + 應用 vs. 星型 + 主題視圖: 當前的, 局部的 vs. 進化的, 集成的訪問模式: 更新 vs. 只讀的, 但是復雜的查詢,10,OLTP vs. OLAP,,11,為什么建立分離的數(shù)據(jù)倉庫?,為了兩個系統(tǒng)的高性能DBMS— 目的是 OLTP: 存取方法, 索引, 并發(fā)控制, 恢復數(shù)據(jù)倉庫—目的是 OLAP: 復雜的 OLAP 查詢, 多維視圖, 統(tǒng)一.不同的功能和不同的數(shù)據(jù):

8、缺少數(shù)據(jù): 決策支持需要歷史數(shù)據(jù), 通常操作數(shù)據(jù)庫并不維護這些數(shù)據(jù)數(shù)據(jù)統(tǒng)一: 決策支持需要將來自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一 (聚集, 匯總)數(shù)據(jù)質量: 不同的數(shù)據(jù)源通常使用不同的數(shù)據(jù)表示, 編碼, 和應當遵循的格式,12,第2章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術,什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結構數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進一步發(fā)展,13,由表和電子數(shù)據(jù)表到數(shù)據(jù)方,數(shù)據(jù)倉庫基于 多維數(shù)據(jù)模型 ,

9、 多維數(shù)據(jù)模型將數(shù)據(jù)視為數(shù)據(jù)方(data cube)形式數(shù)據(jù)方( 如sales) 可以將數(shù)據(jù)建模, 并允許由多個維進行觀察維表, 如 item (item_name, brand, type), 或 time(day, week, month, quarter, year) 事實表包含度量 (如 dollars_sold) 和每個相關維表的鍵在數(shù)據(jù)倉庫的文獻中, 一個 n-D 基本立方體 稱作基本方體(base cuboid).

10、 最頂部的 0-D方體存放最高層的匯總, 稱作頂點方體( apex cuboid). 方體的格形成數(shù)據(jù)方.,14,立方體: 方體的格,,,,,,,,,,,,,,,,,all,time,item,location,supplier,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,time,item,time,location,time,supplier,item,location,item,supplier,locat

11、ion,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time, item, location, supplier,0-D(頂點) 方體,1-D 方體,2-D方體,3-D方體,4-D(基本)方體,15,數(shù)據(jù)倉庫的概念建模,數(shù)據(jù)倉庫建模: 多維模型,涉及維和度量星型模式: 事實表在中央, 連接一組維

12、表雪花模式 : 星型模式的精煉, 其中一些維分層結構被規(guī)范化成一組較小的維表, 形成類似于雪花的形狀,減少冗余事實星座: 多個事實表共享維表, 可以看作星星的集合, 因此稱作星系模式, 或事實星座,16,星型模式的例子,,,事實表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,,,,,,,,17

13、,雪花模式的例子,,Sales Fact Table,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,,,,,,,,,,18,事實星座的例子,,Sales Fact Table,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollar

14、s_sold,,avg_sales,Measures,,,,,,,,,Shipping Fact Table,,time_key,item_key,,shipper_key,,from_location,,to_location,,dollars_cost,,units_shipped,,,,,,,,,,,19,數(shù)據(jù)挖掘查詢語言 DMQL: 語言原語,立方體定義 (事實表)define cube []: 維定義 ( 維表)d

15、efine dimension as ()特殊情況 (共享維表)第一次, 如 “cube definition”define dimension as in cube ,20,用DMQL定義星型模式,define cube sales_star [time, item, branch, location]:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales

16、_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branc

17、h_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country),21,用DMQL定義雪花模式,define cube sales_snowflake [time, item, branch, location]:dollars_sold = sum(sales_i

18、n_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(suppli

19、er_key, supplier_type))define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country)),22,用DMQL定義事實星座,define cube sales [

20、time, item, branch, location]:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension i

21、tem as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube

22、 shipping [time, item, shipper, from_location, to_location]:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dime

23、nsion shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales,23,三類度量(數(shù)值函數(shù))

24、,分布的(distributive): 將數(shù)據(jù)劃分為n個集合, 函數(shù)在每一部分上的計算得到一個聚集值. 如果將函數(shù)用于n個聚集值得到的結果, 與將函數(shù)用于所有數(shù)據(jù)得到的結果一樣, 則該函數(shù)可以用分布方式計算.例, count(), sum(), min(), max().代數(shù)的(algebraic):如果它能夠由一個具有M(其中, M是一個整數(shù)界)個參數(shù)的代數(shù)函數(shù)計算, 而每個參數(shù)都可以用一個分布聚集函數(shù)求得 .例, av

25、g(), min_N(), standard_deviation().整體的(holistic):如果描述它的子聚集所需的存儲沒有一個常數(shù)界 . 例, median(), mode(), rank().,24,一個概念分層: 維Location,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,...,...,...,..

26、.,...,...,,,,,,,,,,,,,,,,,all,region,office,,,,,country,,,,,Toronto,Frankfurt,city,25,數(shù)據(jù)倉庫和分層結構視圖,26,多維數(shù)據(jù),多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的多個抽象層銷售量作為 product, month, 和 region的函數(shù),,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Product,Region,Mont

27、h,,,維: Product, Location, Time的分層結構,Industry Region YearCategory Country QuarterProduct City Month Week Office Day,,,,,,,,,,,27,一個數(shù)據(jù)方的樣本,,TV 在 U.S.A.的總銷售,28,對應于數(shù)據(jù)

28、方的方體,,,,,,,,,all,,,,,,,,,,,,,product,date,country,product,date,product,country,date, country,product, date, country,0-D(頂點) 方體,1-D方體,2-D方體,3-D(基本)方體,29,瀏覽數(shù)據(jù)方,可視化OLAP 的能力交互式操作,30,典型的OLAP操作,上卷(Roll up)/上鉆 (drill-up): 匯總數(shù)

29、據(jù)下鉆(Drill down)/下卷 (roll down): 上卷的逆操作切片(Slice)和切塊 : 投影和選擇 轉軸(Pivot)/旋轉 (rotate): 調整數(shù)據(jù)方, 目視操作, 3D 到 2D 平面.其它操作鉆過(drill across): 涉及多個事實表鉆透(drill through): 通過數(shù)據(jù)方的最底層, 到它背后的關系表 (使用 SQL),31,OLAP 操作: 上卷,上卷(Roll up)/

30、上鉆 (drill-up): 匯總數(shù)據(jù)通過沿概念分層攀升或通過維歸約在 location上卷(由 cities 到 countries),32,OLAP 操作: 下鉆,下鉆(Drill down)/下卷 (roll down): 上卷的逆操作由較高層的匯總到較低層的匯總或詳細數(shù)據(jù), 或者引進新的維在 time下鉆 (由 quarters 到 months),33,OLAP 操作:切片,切片(Slice) : 投影和選擇,對一個

31、維進行選擇,導致子方體切片條件: time=“Q2”,34,OLAP 操作: 切塊,切塊 : 對兩個或多個維執(zhí)行選擇,導致子方體切塊條件: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home entertainment” or “computer”),35,OLAP 操作: 轉軸,轉軸(Pivot)/旋轉 (rotate):

32、調整數(shù)據(jù)方, 可視化操作,提供數(shù)據(jù)的替代表示.,36,其他操作,其它操作鉆過(drill across): 涉及多個事實表鉆透(drill through): 通過數(shù)據(jù)方的最底層, 到它背后的關系表 (使用 SQL)統(tǒng)計計算比率、方差;增長率分析建模,等,37,第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術,什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結構數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進一步發(fā)展,38,數(shù)據(jù)倉庫設

33、計,數(shù)據(jù)倉庫設計中,必須考慮四種視圖 自頂向下視圖選擇數(shù)據(jù)倉庫所需的有關信息數(shù)據(jù)源視圖揭示(操作)數(shù)據(jù)庫系統(tǒng)捕獲、存儲、和管理的信息 數(shù)據(jù)倉庫視圖由事實表和維表組成商務查詢視圖 從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù),39,數(shù)據(jù)倉庫設計過程,自頂向下, 自底向上方法或二者的結合自頂向下: 由總體設計和規(guī)劃開始 (成熟)自底向上: 由實驗和原型開始 (快速)軟件工程的觀點瀑布式: 在進行下一步之前, 每一步都進行結構

34、化和系統(tǒng)的分析 螺旋式 :功能漸增的系統(tǒng)的快速產(chǎn)生, 相繼版本之間的間隔很短 , 快速轉向典型的數(shù)據(jù)倉庫設計過程選取待建模的商務處理, 例如, 訂單, 發(fā)票, 庫存等.選取商務處理的粒度 (原子層數(shù)據(jù)), 例如,單個事務、一天的快照等 選取用于每個事實表記錄的維, 如,時間、商品、顧客、供應商、倉庫、事務類型和狀態(tài) 等選取將安放在事實表中的度量. 典型的度量是可加的數(shù)值量, 如dollars_sold和units_sold

35、,40,,多層結構,,數(shù)據(jù)倉庫,,,OLAP引擎,分析查詢報告數(shù)據(jù)挖掘,Monitor&Integrator,元數(shù)據(jù),,數(shù)據(jù)源,終端工具,輸出,,,,,,數(shù)據(jù)集市,,,,,,,,,數(shù)據(jù)存儲,,,,,OLAP 服務器,,41,三層數(shù)據(jù)倉庫模型,企業(yè)倉庫搜集了關于主題的所有信息, 跨越整個組織 數(shù)據(jù)集市數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集, 對于特定的用戶是有用的. 其范圍限于選定的主題, 如銷售數(shù)據(jù)獨立的 vs.

36、依賴的 (直接來自數(shù)據(jù)倉庫) 數(shù)據(jù)集市虛擬倉庫操作數(shù)據(jù)庫上視圖的集合 只有部分可能的匯總視圖被物化,42,,,,,,,數(shù)據(jù)倉庫開發(fā): 一種推薦的方法,定義一個高層企業(yè)數(shù)據(jù)模型,數(shù)據(jù)集市,,,,,,,,,,,,,,,,分布式數(shù)據(jù)集市,多層數(shù)據(jù)倉庫,企業(yè)數(shù)據(jù)倉庫,模型 提煉,數(shù)據(jù)集市,模 型 提 煉,43,OLAP 服務器結構,關系OLAP (ROLAP) 使用關系或擴充關系的 DBMS 存放和管理倉庫數(shù)據(jù), 使用OLAP中

37、間件支持其它部分包含一個優(yōu)化的 DBMS 后端, 聚集導航邏輯的實現(xiàn), 以及附加的工具和服務 較大的可伸縮性多維 OLAP (MOLAP) 基于數(shù)組的多維存儲引擎 (稀疏矩陣技術)對預計算的匯總數(shù)據(jù)快速索引混合 OLAP (HOLAP)彈性, 底層: 關系的, 高層: 數(shù)組. 專門的 SQL 服務器對星型/雪花型模式上的SQL查詢提供特殊的支持,44,元數(shù)據(jù)存儲,元數(shù)據(jù)是定義數(shù)據(jù)倉庫的數(shù)據(jù). 有如下類型 描述數(shù)據(jù)倉

38、庫的結構模式, 視圖, 維, 分層結構, 數(shù)據(jù)源定義, 數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)數(shù)據(jù)血統(tǒng) (數(shù)據(jù)變遷歷史和轉換路徑), 數(shù)據(jù)流通 (主動, 存檔, 或凈化), 管理信息 (數(shù)據(jù)倉庫使用統(tǒng)計, 錯誤報告, 審計跟蹤)用于匯總的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射涉及系統(tǒng)性能的數(shù)據(jù)倉庫模式, 視圖和導出數(shù)據(jù)的定義商務數(shù)據(jù)商務術語和定義, 數(shù)據(jù)的所有者, 收費政策,45,數(shù)據(jù)倉庫的后端工具和實用程序,數(shù)據(jù)提取:由多個異種,

39、 外部數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤, 可能時訂正它們 數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉換成數(shù)據(jù)倉庫格式 裝載:排序, 綜合, 加固, 計算視圖, 檢查整體性, 并建立索引和劃分 刷新傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新,46,第2章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術,什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結構數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進一步發(fā)展,47,數(shù)據(jù)方的有效計算,數(shù)據(jù)方可以視為方

40、體的格 最下面的方體是基本方體最上面的 (頂點) 方體只包含一個單元具有L層的n-D數(shù)據(jù)方包含多少個方體?其中Li是與維i相關聯(lián)的層數(shù)數(shù)據(jù)方的物化(Materialization)物化每一個方體 (全物化), 不物化任何方體(不物化), 或物化某些方體(部分物化)物化方體的選擇基于大小, 共享, 訪問頻率, 等.,48,數(shù)據(jù)方計算,用DMQL定義和計算數(shù)據(jù)方define cube sales[item, city

41、, year]: sum(sales_in_dollars)compute cube sales將它變換成類——SQL語句 (用新的操作 cube by擴充, 由Gray 等’96引進)SELECT item, city, year, SUM (amount)FROM SALESCUBE BY item, city, year需要計算的分組 (city, item, year),(city,item),(city, ye

42、ar), (item, city),(city), (item), (year)(),,,,(item),,,,,,,,(city),(),,,(year),(city, item),(city, year),(item, year),(city, item, year),49,數(shù)據(jù)方計算: 基于ROLAP的方法(1),有效的方計算方法基于ROLAP的方計算算法 (Agarwal et al’96)基于數(shù)組的方計算算法 (Zha

43、o et al’97)自底向上的方法 (Beyer & Ramarkrishnan’99)混合的方法 (Han, Pei, Dong & Wang:SIGMOD’01)基于ROLAP的方計算算法排序, 散列,和分組操作用于維屬性, 以便對相關元組重新排序和分簇在某些子聚集上分組,作為“部分分組” 由以前計算的聚集計算新的聚集,而不必由基本事實表計算,50,數(shù)據(jù)方計算: 基于ROLAP的方法(2),取自研究論文

44、基于Hash/排序 的方法 (Agarwal 等. VLDB’96)最小雙親(Smallest-parent): 由最小的, 先前計算的方體計算方體存儲結果(Cache-results): 存儲先前計算的方體, 由它可以計算其它方體, 以減少磁盤I/O分攤掃描(Amortize-scans): 同時計算盡可能多的方體, 以分攤磁盤的讀操作開銷共享排序(Share-sorts): 使用基于排序的方法時, 在多個方體之間共享排

45、序開銷共享劃分(Share-partitions): 使用基于hash的方法時, 在多個方體之間共享劃分開銷,51,索引OLAP 數(shù)據(jù),為了有效的訪問,大部分數(shù)據(jù)倉庫系統(tǒng)支持索引結構兩種常用的方法對OLAP數(shù)據(jù)進行索引位圖索引 bitmap indexing連接索引 join indexing,52,索引OLAP 數(shù)據(jù): 位圖索引,在一個特定列上索引列上的每個值是一個位向量 : 位操作很快位向量的長度: 基本表的記錄數(shù)如果

46、數(shù)據(jù)表中給定行的屬性值為v, 則在位圖索引的對應行, 表示該值的位為1, 該行的其它位均為0 不適合勢(不同值個數(shù))很高的域,基本表,在 Region上索引,在 Type上索引,53,索引OLAP 數(shù)據(jù): 連接索引,連接索引: JI(R-id, S-id) , 其中 R (R-id, …) ?? S (S-id, …)將關系的連接物化在JI文件中, 加快了關系連接的速度數(shù)據(jù)倉庫中, 連接索引將星型模式維表的值關聯(lián)到事實表的行.例

47、, 事實表Sales 和兩個維 city 和 productcity 上的連接索引對每個不同的城市, 維護一張記錄該城市銷售的元組的R連接索引可以擴展到多維,54,OLAP查詢的有效處理,物化方體和構造OLAP索引結構的目的是加快數(shù)據(jù)立方體的查詢處理速度。查詢處理按如下步驟進行:確定哪些操作可以在可用的方體上進行 :將下鉆, 上卷等操作變換成對應的SQL和/或OLAP操作, 例如, dice = selection + pro

48、jection確定相關的操作應當使用哪些物化的方體.,55,第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術,什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結構數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進一步發(fā)展,56,數(shù)據(jù)倉庫使用,數(shù)據(jù)倉庫應用的三種類型信息處理支持查詢, 基本統(tǒng)計分析, 使用交叉表, 表, 圖表和圖進行報告分析處理數(shù)據(jù)倉庫數(shù)據(jù)的多維分析支持基本的 OLAP 操作, 切片-切塊, 上下鉆, 轉軸數(shù)據(jù)挖掘隱

49、藏模式的知識發(fā)現(xiàn) 支持關聯(lián), 構造分析模型, 進行分類和預測, 并使用可視化工具提供挖掘結果.三類任務的差別,57,從聯(lián)機分析處理到聯(lián)機分析挖掘,為什么要進行聯(lián)機分析挖掘(OLAM)?數(shù)據(jù)倉庫中數(shù)據(jù)的高質量數(shù)據(jù)倉庫包含集成的, 一致的, 清理過的數(shù)據(jù)圍繞數(shù)據(jù)倉庫的有價值的信息處理基礎設施ODBC, OLEDB, Web 訪問, 服務機制, 報告 和 OLAP 工具基于OLAP的探測式數(shù)據(jù)分析使用上下鉆, 切片, 切塊,

50、轉軸等進行挖掘.數(shù)據(jù)挖掘功能的聯(lián)機選擇集成多種挖掘功能, 算法和任務, 并進行切換.OLAM的結構,58,,,,,OLAM 的結構,數(shù)據(jù)倉庫,元數(shù)據(jù),MDDB,,,,OLAM引擎,OLAP引擎,,,,,,,,,,,,,,,用戶 GUI API,數(shù)據(jù)立方體 API,,,,,,數(shù)據(jù)庫 API,,,數(shù)據(jù)清理,數(shù)據(jù)集成,,,,第3層OLAP/OLAM,第2層MDDB,第1層數(shù)據(jù)存儲,第4層用戶界面,,,,過濾和集成,過濾,Da

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論