網(wǎng)站訪(fǎng)問(wèn)點(diǎn)擊流分析與基于SSIS的ETL設(shè)計(jì)實(shí)現(xiàn).pdf_第1頁(yè)
已閱讀1頁(yè),還剩141頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、你真的了解自己的網(wǎng)站嗎?每天有多少人訪(fǎng)問(wèn)您的網(wǎng)站?現(xiàn)在有誰(shuí)正在您的網(wǎng)站上?他們做了什么?他們從何而來(lái)?搜索引擎為您帶來(lái)多少點(diǎn)擊?訪(fǎng)問(wèn)者搜索的關(guān)鍵詞是什么?您的哪個(gè)欄目哪個(gè)網(wǎng)頁(yè)更受歡迎?這些問(wèn)題的解決就是本文的目的,其手段是通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的形式,因?yàn)閯?chuàng)建數(shù)據(jù)倉(cāng)庫(kù)作為企業(yè)管理決策支持系統(tǒng)的基礎(chǔ)已得到越來(lái)越多企業(yè)領(lǐng)導(dǎo)者的認(rèn)同,也是企業(yè)經(jīng)營(yíng)管理決策與信息化結(jié)合的趨勢(shì)所在。 傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)是針對(duì)某個(gè)主題,對(duì)傳統(tǒng)操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行抽取、清

2、洗和轉(zhuǎn)換,加載到數(shù)據(jù)倉(cāng)庫(kù)中,形成多維數(shù)據(jù)集。決策者可通過(guò)OLAP(在線(xiàn)分析處理)或數(shù)據(jù)挖掘工具對(duì)從不知曉的企業(yè)運(yùn)營(yíng)的內(nèi)在知識(shí)進(jìn)行挖掘,挖掘隱含在內(nèi)部的商業(yè)知識(shí)、商業(yè)模式,或針對(duì)企業(yè)以往發(fā)展,探索成功與失敗的原因。 點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源與一般數(shù)據(jù)倉(cāng)庫(kù)不同,來(lái)自點(diǎn)擊流數(shù)據(jù),通過(guò)收集、整理、轉(zhuǎn)換這些數(shù)據(jù),建立針對(duì)Web點(diǎn)擊信息的各種維度,進(jìn)而分析網(wǎng)站用戶(hù)的行為并最終探索導(dǎo)致這些行為的內(nèi)在原因是點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)初衷。通過(guò)點(diǎn)擊流數(shù)

3、據(jù)倉(cāng)庫(kù)將描述用戶(hù)行為的數(shù)據(jù)轉(zhuǎn)為決策者可以利用的有效信息,為網(wǎng)站經(jīng)營(yíng)者提供決策支持。 通常,Web分析工具能提供一些有利于分析網(wǎng)站基本流量和訪(fǎng)問(wèn)模式的概要級(jí)信息,了解網(wǎng)站的基本運(yùn)行狀況。但要探究導(dǎo)致網(wǎng)站用戶(hù)行為的內(nèi)在因素或其他一些商務(wù)問(wèn)題時(shí),Web分析工具則顯得力不從心。 點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)的建立完全遵從傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)建立的原則,其優(yōu)勢(shì)源于點(diǎn)擊流數(shù)據(jù)是一種真正改進(jìn)了的數(shù)據(jù)資源集,加上數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)本身的成熟應(yīng)用,使點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)具

4、有其他方式或工具無(wú)法比擬的優(yōu)勢(shì)。 首先,點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)能夠更好地組織和管理點(diǎn)擊流數(shù)據(jù),能描繪Web用戶(hù)完整的行為視圖; 其次點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常經(jīng)過(guò)抽取、轉(zhuǎn)換和清洗,因而在數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行點(diǎn)擊流數(shù)據(jù)分析可免去許多數(shù)據(jù)預(yù)處理的工作; 點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)中集成了大量的歷史數(shù)據(jù),而對(duì)用戶(hù)行為分析的大多數(shù)問(wèn)題也與時(shí)間有關(guān),因此,借助點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行點(diǎn)擊流分析更利于理解用戶(hù)的行為。 同時(shí),商業(yè)智能通常被理解為將企

5、業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。商業(yè)智能系統(tǒng)是建立在數(shù)據(jù)倉(cāng)庫(kù)、OLAP(聯(lián)機(jī)分析)和數(shù)據(jù)挖掘等技術(shù)的基礎(chǔ)之上,通過(guò)收集、整理和分析企業(yè)內(nèi)外部的各種數(shù)據(jù),為企業(yè)管理層提供科學(xué)的決策依據(jù)。 而Microsoft SQL Server2005是用于大規(guī)模聯(lián)機(jī)事務(wù)處理(OLTP)、數(shù)據(jù)倉(cāng)庫(kù)和電子商務(wù)應(yīng)用的數(shù)據(jù)庫(kù)和數(shù)據(jù)分析平臺(tái)。在商業(yè)智能方面SQLServer2005提供了三大服務(wù)和一個(gè)工具來(lái)實(shí)現(xiàn)系統(tǒng)的整合

6、。三大服務(wù)是SQLServer Analysis Services(SSAS分析服務(wù))、SQL Server IntegrationServices(SSIS集成服務(wù))、SQL Server Reporting Services(SSRS報(bào)表服務(wù))和一個(gè)工具是SQL Server Busilless Intelligence Development Studio(BIDS)。 ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過(guò)抽取、清洗轉(zhuǎn)換之后加載

7、到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析的依據(jù)。ETL是OLTP系統(tǒng)和OLAP系統(tǒng)之間的橋梁,是數(shù)據(jù)從源系統(tǒng)流入數(shù)據(jù)倉(cāng)庫(kù)的通道。ETL是BI項(xiàng)目最重要的一個(gè)環(huán)節(jié),通常情況下ETL會(huì)花掉整個(gè)項(xiàng)目的1/3的時(shí)間,ETL設(shè)計(jì)的好壞直接關(guān)系到BI項(xiàng)目的成敗。ETL也是一個(gè)長(zhǎng)期的過(guò)程,只有不斷的發(fā)現(xiàn)問(wèn)題并解決問(wèn)題,才能使ETL運(yùn)行效率更高,為項(xiàng)目后期開(kāi)發(fā)提供準(zhǔn)確的數(shù)據(jù)。ETL的實(shí)現(xiàn)有多種方法,

8、SQLServer2005的SSIS服務(wù)提供了較為完好的ETL解決方案。 因此,應(yīng)用點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)對(duì)網(wǎng)站訪(fǎng)問(wèn)進(jìn)行統(tǒng)計(jì)分析,在ETL數(shù)據(jù)加載方面使用SQL Server2005的SSIS集成服務(wù),這也是本文主要的應(yīng)用設(shè)計(jì)。主要內(nèi)容章節(jié)安排如下: 第一章緒論部分。主要介紹課題的研究背景,概述課題的研究意義,目的和實(shí)際價(jià)值。主要針對(duì)網(wǎng)站訪(fǎng)問(wèn)點(diǎn)擊流分析,深入挖掘客戶(hù)訪(fǎng)問(wèn)信息,全面掌握網(wǎng)站運(yùn)營(yíng)情況。舉例分析國(guó)內(nèi)外產(chǎn)品的研究及應(yīng)用情

9、況,指出課題的主要研究?jī)?nèi)容。 第二章商業(yè)智能的技術(shù)構(gòu)成與點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)部分。介紹商業(yè)智能、點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)的定義及相關(guān)概念,并對(duì)SQL,Server2005實(shí)現(xiàn)BI的體系結(jié)構(gòu)進(jìn)行了解,分析SSIS設(shè)計(jì)流程,了解SSIS的典型應(yīng)用。 第三章Web服務(wù)器日志與點(diǎn)擊流數(shù)據(jù)源部分。主要對(duì)Web服務(wù)器日志文件格式進(jìn)行分析,研究日志文件與點(diǎn)擊流數(shù)據(jù)源的關(guān)系。 第四章數(shù)據(jù)預(yù)處理和基本維度數(shù)據(jù)加載部分。主要分析對(duì)W3C日志文件進(jìn)行

10、預(yù)處理的方法、URL的編碼及解碼實(shí)現(xiàn)和在后面數(shù)據(jù)倉(cāng)庫(kù)中用到的基本維度如時(shí)間、操作系統(tǒng)、瀏覽器及地區(qū)維度的數(shù)據(jù)加載;其中,主要解決IP地址到地區(qū)維度的映射。 第五章數(shù)據(jù)倉(cāng)庫(kù)建模及ETL設(shè)計(jì)實(shí)現(xiàn)部分。主要對(duì)點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)的建模和基于SSIS的ETL的設(shè)計(jì)實(shí)現(xiàn),其中提出了在數(shù)據(jù)倉(cāng)庫(kù)建模中的一些建議及SSIS性能優(yōu)化的方式。 第六章網(wǎng)站日志分析與展現(xiàn)部分。主要是利用Analysis Services創(chuàng)建多維數(shù)據(jù)集,部署多維數(shù)據(jù)集

11、到Analysis Services數(shù)據(jù)庫(kù);再利用ProClarity Desktop Professional和Excel2007來(lái)完成BI前端展現(xiàn)。 第七章總結(jié)與展望。主要對(duì)對(duì)本文的研究工作進(jìn)行概括和總結(jié)。 本文主要的亮點(diǎn)主要解決了IP地址到地區(qū)維度、接入商維度的映射,借助接入商分析功能,可以了解網(wǎng)站訪(fǎng)問(wèn)者中各接入商的比例,從而確定所需要設(shè)置的鏡像服務(wù)器的比例。能夠通過(guò)深入挖掘客戶(hù)訪(fǎng)問(wèn)信息,全面掌握網(wǎng)站運(yùn)營(yíng)情況。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論