數據挖掘的新技術研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-11 格式：pdf 頁數：109 大小：5.12MB 人氣指數：12 舉報 版權申訴

已閱讀1頁，還剩108頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、隨著Internet的發(fā)展，網上購物、電子政務、網上信息檢索等活動日益頻繁，人們對網絡服務的需求成為網絡發(fā)展的巨大動力。但面對網上巨大的數據量和眾多的網站，人們在選擇網絡服務、檢索信息時往往感到無從下手，如何使網絡服務適應不同用戶的個性化需求已成為網絡服務提供者急切關心的問題。要滿足用戶的個性化需求，關鍵的問題是如何發(fā)現用戶的訪問模式，對Web進行數據挖掘的目標之一就是要發(fā)現用戶的訪問模式。 Web數據挖掘可分為三種類型，即：W

2、eb使用挖掘、Web結構挖掘和Web內容挖掘，而挖掘用戶的頻繁訪問序列是發(fā)現用戶的訪問模式的主要方法，也是Web使用挖掘的一項重要任務。Web使用挖掘可以從Web日志或訪問者的行為中發(fā)現知識，并且可以從不同用戶的訪問中發(fā)現不同用戶的行為之間的內在關系。挖掘的結果可以用于改進Web站點的設計和向用戶提供服務的方式，以盡可能地滿足不同用戶的需求。本文在深入研究了OLTP、OLAP數據庫的設計特點和Web日志挖掘的已有算法及其相關知識的基礎上

3、，對原AprioriAll算法進行了改進。在Web日志挖掘過程中，通過對Web日志數據按“用戶維”進行切片，不僅可以將所有用戶看作一個整體進行挖掘，而且還實現了對不同的用戶個體的行為進行獨立地挖掘，從而使挖掘出的結果能夠滿足對用戶個性化使用的需求。這一改進同時實現了對Web日志的增量挖掘，使對Web日志的動態(tài)挖掘成為可能。實驗表明，改進后的算法較原算法減少了挖掘過程中候選集的大小和對數據庫的掃描次數，使時空效率得以提高。針對表

4、示和存儲Web事務要占用大量內存，以及Apriori類算法在挖掘過程中要產生大量候選集和對數據庫進行頻繁掃描的缺點，本文提出了Web事務編碼技術和逆-Apriori算法。Web事務編碼技術使用一個數字表示一個Web事務，可以對Web事務數據庫進行壓縮，減少內存的占用；而逆-Apriori算法可以反向獲取用戶的最大頻繁訪問序列，并在此基礎上發(fā)現關聯規(guī)則，避免了Apriori類算法逐次產生候選頻繁項集的煩瑣過程。通過分析用戶瀏覽網

5、頁的行為和網站對用戶請求的反應，本文還提出了利用用戶訪問網頁的駐留時間進行Web日志挖掘的方法。駐留時間反映了用戶瀏覽網頁的行為，通過在挖掘前設定用戶訪問網頁的駐留時間的區(qū)間值，使挖掘者可以選擇和縮減挖掘的范圍，提高了挖掘算法與使用者之間的交互能力?；谶@一思想的新算法，首先通過對Web日志的預處理，產生帶有駐留時間的Web訪問記錄集，然后以駐留時間為限制條件，構建駐留時間頻繁訪問序列樹，用以存儲和壓縮帶有駐留時間的數據庫，并記錄網頁的

6、支持數量。最后以駐留時間頻繁訪問序列樹為挖掘對象，在最小支持度的限制下，通過采用深度優(yōu)先的方法對駐留時間頻繁訪問序列樹進行遍歷，發(fā)現用戶訪問網站的駐留時間最大頻繁訪問序列，對比實驗表明該算法對Web日志挖掘有較高的效率。模糊神經網絡是數據挖掘研究領域的又一大熱點問題。本文依據最大似然原則，推導出用于模糊神經網絡分類算法的交叉熵函數準則，同時構建了新的激活函數?；诮徊骒販蕜t和新的激活函數的模糊神經網絡分類算法與基于誤差平方和準則的BP算

7、法相比，有更快的學習速率而又不致使學習過程失穩(wěn)，不易陷入局部極小點。新的激活函數的優(yōu)點在于不僅可以取到0、1值，而且還具有根據總誤差調節(jié)函數曲線斜率的能力，加快了算法的收斂速度，提高了算法的效率，改善了算法的動態(tài)性能。最后，本文提出了引入生物信息技術解決Web挖掘中的用戶識別問題的設想，并提出了基于隱馬爾科夫模型構建虹膜識別系統(tǒng)的方法，該方法僅需要虹膜的方向域作為輸入參數，與需要許多虹膜細節(jié)的常規(guī)方法相比，它對虹膜圖像的噪聲與

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數據挖掘的新技術研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

數據挖掘的新技術研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載