2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p><b>  目 錄</b></p><p><b>  摘要1</b></p><p><b>  關(guān)鍵詞1</b></p><p>  Abstract1</p><p>  Keywords1</p><p>  一、We

2、b日志挖掘2</p><p> ?。ㄒ唬?、數(shù)據(jù)預(yù)處理2</p><p> ?。ǘ?、模式發(fā)現(xiàn)4</p><p> ?。ㄈ?、模式分析5</p><p><b>  二、關(guān)聯(lián)分析5</b></p><p><b> ?。ㄒ唬╆P(guān)聯(lián)規(guī)則5</b></p>

3、<p>  (二)Apriori方法簡介7</p><p><b>  四、實(shí)證分析8</b></p><p> ?。ㄒ唬?shù)據(jù)預(yù)處理8</p><p><b> ?。ǘ┠J桨l(fā)現(xiàn)9</b></p><p>  (三)模式分析10</p><p>  五、個

4、性化推薦11</p><p><b>  六 、結(jié)束語12</b></p><p><b>  參考文獻(xiàn)13</b></p><p><b>  附錄15</b></p><p>  基于關(guān)聯(lián)分析的Web日志挖掘</p><p>  摘要:web

5、日志挖掘是web數(shù)據(jù)挖掘中的一個重要組成部分,通過從Web訪問日志中發(fā)現(xiàn)用戶的訪問模式,預(yù)測用戶的瀏覽行為。本文主要介紹了web數(shù)據(jù)挖掘的一般過程及方法,對Apriori關(guān)聯(lián)分析方法作了重點(diǎn)闡述,并利用該方法對某網(wǎng)站某天的部分web日志數(shù)據(jù)進(jìn)行了實(shí)證分析,得出了用戶瀏覽模式及網(wǎng)頁內(nèi)容之間的關(guān)聯(lián)規(guī)則,找到單個用戶在瀏覽頁面興趣愛好以及群體用戶的瀏覽習(xí)慣,繼而對網(wǎng)站的網(wǎng)頁規(guī)劃布局提出了個性化的意見。</p><p>

6、  關(guān)鍵詞:web日志挖掘;關(guān)聯(lián)分析;實(shí)證分析 </p><p>  Web Log Mining Based On Association Analysis</p><p>  Abstract: Web log mining is an important part of web data mining, finding the user's access pattern i

7、n the Web access logs ,the researcher can predict the user's browsing behavior. This essay introduces the method of Association analysis in Web log mining,espacally the method of Apriori, at the same time ,

8、we use this method to analysis a particular site’s log data to find the users’ browsing patterns and association rules between web pages ;It also finds the browsing interest of a single user a</p><p>  Keyw

9、ords: Web log mining; Association analysis; Positive analysis</p><p>  隨著WWW在深度和廣度上的發(fā)展,Internet也前所未有地改變著我們的生活,數(shù)據(jù)信息已經(jīng)在這個時代爆炸了。但是,我們又不得不面對“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識”的現(xiàn)實(shí)。隨著興起與20世紀(jì)80年代末的數(shù)據(jù)挖掘在web上的應(yīng)用,從某種程度上改善了上述情況。根據(jù)所挖掘的W

10、eb 數(shù)據(jù)的類型,可以將Web 數(shù)據(jù)挖掘分為以下三類:Web 內(nèi)容挖掘(Web Content Mining)、Web 結(jié)構(gòu)挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也稱為Web日志挖掘)。Web日志挖掘是指采用數(shù)據(jù)挖掘的技術(shù),通過對Web服務(wù)器日志中大量的用戶訪問記錄深入分析,發(fā)現(xiàn)用戶的訪問模式和興趣愛好等有趣、新穎、潛在有用的以及可理解的未知信息和知識,用于分析站點(diǎn)的使用

11、情況,從而輔助管理和支持決策。當(dāng)前,web日志挖掘主要被用于個性化服務(wù)與定制、改進(jìn)系統(tǒng)性能和結(jié)構(gòu)、站點(diǎn)修改、商業(yè)智能以及web特征描述等諸多領(lǐng)域。</p><p><b>  一、Web日志挖掘</b></p><p>  Web日志挖掘主要是通過對web瀏覽的日志數(shù)據(jù)的分析,發(fā)現(xiàn)用戶的瀏覽模式,更好地規(guī)劃站點(diǎn)。</p><p>  下面是一段

12、日志:① 2006-10-17 00:00:00②202.200.44.43 ③ 218.77.130.24 80 ④ GET ⑤/favicon.ico ⑥ Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426+Firefox/1.5.0.3。主要包括:①訪問時間;②用戶IP地址;③訪問的URL,端口;④請求方法(“GET”、“POST”

13、等);⑤訪問模式;⑥agent,即用戶使用的操作系統(tǒng)類型和瀏覽器軟件。</p><p>  Web日志挖掘一般都包含以下幾個過程:</p><p><b> ?。ㄒ唬?shù)據(jù)預(yù)處理</b></p><p>  數(shù)據(jù)預(yù)處理是Web 日志挖掘的首要環(huán)節(jié), 其任務(wù)是將原始日志數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的格式, 預(yù)處理可以直接簡化數(shù)據(jù)挖掘過程,

14、使結(jié)果更具客觀性。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)凈化、用戶識別、會話識別、路徑補(bǔ)充四個步驟。</p><p><b>  1.?dāng)?shù)據(jù)凈化</b></p><p>  數(shù)據(jù)凈化, 是指將待處理的日志數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)庫,刪除Web日志數(shù)據(jù)中的錯誤值、缺失值等,同時把與Web數(shù)據(jù)挖掘無關(guān)的變量或數(shù)據(jù)進(jìn)行清理,已達(dá)到簡便運(yùn)算的目的;</p><p><b&g

15、t;  2.用戶識別</b></p><p>  用戶識別, 是從Web日志數(shù)據(jù)中找出每個用戶的訪問地址,避免挖掘的重復(fù)性。目前, 由于本地緩存、代理服務(wù)器和防火墻的存在, 為用戶動態(tài)的分配IP 地址, 想要識別出每一個用戶變得很復(fù)雜??梢酝ㄟ^以下 3 種方法來識別用戶:</p><p>  ( 1) 如果Web 服務(wù)器提供Cookie , 則具有相同Cookie 值的頁面請求

16、是來自同一個用戶;</p><p>  ( 2) 如果Web 服務(wù)器沒有提供Cookie , 但每個網(wǎng)站用戶都要一個登錄標(biāo)識符( 用戶ID) 方可訪問站點(diǎn), 則利用登錄標(biāo)識符識別用戶;</p><p>  ( 3) 如果Web 服務(wù)器既沒有Cookie 也沒有用戶ID,最常用的方法就是采用啟發(fā)式規(guī)則。根據(jù)我們的日志格式采用兩條啟發(fā)式規(guī)則:①不同的IP地址代表不同的用戶;② 如果IP地址相同

17、,但是操作系統(tǒng)類型或者瀏覽器軟件不同我們認(rèn)為是不同的用戶。</p><p><b>  3.會話識別</b></p><p>  會話, 是指同一個用戶連續(xù)請求的頁面。在跨越時間區(qū)段較大的Web 服務(wù)器日志中, 用戶可能多次訪問該站點(diǎn)。會話識別的目的是將用戶的所有訪問序列分成單個的訪問序列。常用的算法有以下幾種:</p><p> ?。?)對用

18、戶在整個網(wǎng)站的停留時間設(shè)一個閾值T。如果兩個相鄰的瀏覽頁面之間的訪問時間超過T, 則認(rèn)為用戶又開始了一個新的會話。一般T取30min。</p><p> ?。?)對用戶在一個頁面停留時間設(shè)一個域值△t。如果2 個連續(xù)請求的時間間隔沒有超過這個值△t, 則屬于同一會話。否則, 分屬于兩個會話?!鱰 一般取10min。</p><p>  (3)利用用戶的訪問歷史和引用頁來劃分。如果一個用戶的

19、請求不能通過引用頁的鏈接進(jìn)入, 則屬于另一個會話。</p><p> ?。?)最大向前引用算法( MF) 。設(shè)一個用戶會話里不會出現(xiàn)用戶以前已經(jīng)訪問過的頁面, 如果用戶在向前瀏覽到一個網(wǎng)</p><p><b>  4. 路徑補(bǔ)充</b></p><p>  用戶會話對數(shù)據(jù)挖掘來講,顯得粗糙,仍不夠精確,需把會話進(jìn)一步分成具有一定語意的事務(wù),如

20、同籃子數(shù)據(jù)中顧客一次購買的商品。可以把Web頁簡單地分為兩類:內(nèi)容頁和導(dǎo)航頁。在編程中采用的區(qū)分導(dǎo)航頁和內(nèi)容頁的方法是時間點(diǎn)法,即設(shè)定一時間值,實(shí)際中時間點(diǎn)的取值為30秒。當(dāng)用戶對該網(wǎng)頁訪問的時間小于時間點(diǎn)為導(dǎo)航頁,大于時間點(diǎn)則為內(nèi)容頁。用戶對網(wǎng)頁的訪問時間為用戶前后兩次訪問該網(wǎng)頁的時間差,通過調(diào)用SQL語句可以查找到用戶訪問網(wǎng)頁的時間,進(jìn)而區(qū)分出導(dǎo)航頁和內(nèi)容頁。</p><p><b> ?。ǘ┠J?/p>

21、發(fā)現(xiàn)</b></p><p>  模式發(fā)現(xiàn), 是對預(yù)處理后的數(shù)據(jù)用數(shù)據(jù)挖掘算法來分析數(shù)據(jù)。分有統(tǒng)計、分類、聚類、關(guān)聯(lián)規(guī)則、路徑分析等多種方法。</p><p>  (1)統(tǒng)計。統(tǒng)計方法是從Web 站點(diǎn)中抽取知識的最常用方法, 它通過分析會話文件, 對瀏覽時間、瀏覽路徑等進(jìn)行頻度、平均值等統(tǒng)計分析。雖然缺乏深度, 但仍可用于改進(jìn)網(wǎng)站結(jié)構(gòu), 增強(qiáng)系統(tǒng)安全性, 提高網(wǎng)站訪問的效率等。

22、</p><p> ?。?)分類。分類包括的挖掘技術(shù)將找出定義了一個項(xiàng)或事件是否屬于數(shù)據(jù)中某特定子集或類的規(guī)則。該類技術(shù)是最廣泛應(yīng)用于各類業(yè)務(wù)問題的一類挖掘技術(shù)。分類算法最知名的是決策樹方法,此外還有神經(jīng)元網(wǎng)絡(luò)、Bayesian分類等。</p><p>  (3)聚類。聚類是將數(shù)據(jù)集劃分為多個類,使得在同一類中的數(shù)據(jù)之間有較高的相似度,而在不同類中的數(shù)據(jù)差別盡可能大。在聚類技術(shù)中,沒有預(yù)先

23、定義好的類別和訓(xùn)練樣本存在,所有記錄都根據(jù)彼此相似程度來加以歸類。主要算法有k—means、DBSCAN等。</p><p>  (4)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,自動探測以前未發(fā)現(xiàn)的隱藏著的模式,關(guān)聯(lián)分析經(jīng)常被表達(dá)為規(guī)則的形式。目前采用的主要關(guān)聯(lián)規(guī)則挖掘算法有Apriori、FP-growth算法等。</p><p>  (5)路徑分析。路徑分析可以用來確定網(wǎng)站

24、上的頻繁訪問路徑, 從而調(diào)整和優(yōu)化網(wǎng)站結(jié)構(gòu), 使得用戶訪問所需網(wǎng)頁更加簡單快捷, 還可以根據(jù)用戶典型的瀏覽模式用于智能推薦和有針對性的電子商務(wù)活動。</p><p><b> ?。ㄈ┠J椒治?lt;/b></p><p>  基于以上的所有過程,對原始數(shù)據(jù)進(jìn)行進(jìn)一步分析,找出用戶的瀏覽模式規(guī)律,即用戶的興趣愛好及習(xí)慣,并使其可視化,為網(wǎng)頁的規(guī)劃及網(wǎng)站建設(shè)的決策提供具體理論

25、依據(jù)。其主要方法有:查詢、OLAP 技術(shù)和可視化技術(shù)等。</p><p><b>  二、關(guān)聯(lián)分析</b></p><p><b> ?。ㄒ唬╆P(guān)聯(lián)規(guī)則</b></p><p>  顧名思義,關(guān)聯(lián)規(guī)則(association rule)挖掘技術(shù)用于于發(fā)現(xiàn)數(shù)據(jù)庫中屬性之間的有趣聯(lián)系。</p><p> 

26、 設(shè)交易(transaction) 的集合,,這里交易是項(xiàng)的集合,可以表述為:并且。中的元素稱為項(xiàng)。對應(yīng)每一個交易有唯一的標(biāo)識,如交易號,記作。設(shè)是數(shù)據(jù)集中所有項(xiàng)的集合,是二進(jìn)制文字的集合。中的任何子集稱為項(xiàng)目集(itemset),若,則稱集合為項(xiàng)集。設(shè)和分別為中的事務(wù)和項(xiàng)目集,如果,稱事務(wù)包含項(xiàng)目集。項(xiàng)目集的支持率,若不小于用戶指定的最小支持率(記作:minsupport),則稱為頻繁項(xiàng)目集,否則稱為非頻繁項(xiàng)目集。設(shè),是數(shù)據(jù)集中的項(xiàng)目

27、集。若,則;若,如果是非頻繁項(xiàng)目集,則也是非頻繁項(xiàng)目集;若,如果是頻繁項(xiàng)目集,則也是頻繁項(xiàng)目集。</p><p>  一個關(guān)聯(lián)規(guī)則是形如的蘊(yùn)涵式,這里,都是項(xiàng)目集,且,,并且,,分別稱為關(guān)聯(lián)規(guī)則的前提和結(jié)論。</p><p>  一般使用支持度(support)和置信度(confidence)兩個參數(shù)來描述關(guān)聯(lián)規(guī)則的屬性。 </p><p><b>  1

28、.支持度</b></p><p>  規(guī)則在數(shù)據(jù)庫中的支持度是交易集中同時包含, 的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為 。支持度描述了,這兩個項(xiàng)集在所有事務(wù)中同時出現(xiàn)的概率。</p><p><b>  2.置信度</b></p><p>  規(guī)則在事務(wù)集中的置信度(confidence)是指同時包含,的事務(wù)數(shù)與包含的事務(wù)數(shù)之比,它用來衡

29、量關(guān)聯(lián)規(guī)則的可信程度。記為</p><p><b>  規(guī)則 A C:</b></p><p>  支持度 = support({A}{C}) = 50%</p><p>  置信度 = support({A}{C})/support({A}) = 66.6%</p><p>  圖1:支持度計算圖解</p>

30、;<p> ?。ǘ〢priori方法簡介</p><p>  Apriori算法最先是由Agrawal等人于1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度項(xiàng)集,用頻繁的(k—1)-項(xiàng)集生成候選的頻繁k-項(xiàng)集;其次利用大項(xiàng)集產(chǎn)生所需的規(guī)則;任何頻繁項(xiàng)集的所有子集一定是頻繁項(xiàng)集是其核心。</p><p>  Apriori算法需要兩個步驟:第一個是生成

31、條目集;第二個是使用生成的條目集創(chuàng)建一組關(guān)聯(lián)規(guī)則。</p><p><b>  1.算法偽代碼</b></p><p>  Ck: 長度為 k的候選項(xiàng)集</p><p>  Lk : 長度為k的頻繁項(xiàng)集</p><p>  L1 = {頻繁項(xiàng)};</p><p>  for (k = 1; Lk

32、!=; k++) do begin</p><p>  Ck+1 = 由 Lk產(chǎn)生的候選;</p><p>  for each 數(shù)據(jù)庫中的事務(wù) t do</p><p>  增加包含在t 中的所有候選Ck+1的計數(shù)</p><p>  Lk+1 = Ck+1 中滿足 min_support的候選</p><p>

33、  圖2:Apriori算法圖解</p><p><b>  三、實(shí)證分析</b></p><p>  本數(shù)據(jù)來源為某網(wǎng)站某天的全部Web日志數(shù)據(jù)。</p><p><b> ?。ㄒ唬?shù)據(jù)預(yù)處理</b></p><p>  由于Web日志數(shù)據(jù)時一個非常龐大的數(shù)據(jù)集體,因此選用數(shù)據(jù)庫作為分析工具,將原

34、始數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,取出前10000行日志數(shù)據(jù),處理如下:</p><p>  1.數(shù)據(jù)凈化:存在缺失值的整行->刪除,訪問方式除GET、POST、OPTIONS以外的整行->刪除;</p><p>  2. 用戶識別:由于數(shù)據(jù)中不存在IP地址相同,但是操作系統(tǒng)類型或者瀏覽器軟件不同的情況,從而認(rèn)為不同的IP地址代表不同的用戶;</p><p>  3.會

35、話識別、及路徑補(bǔ)充:用戶會話被定義為用戶在對網(wǎng)站的一次訪問過程中所請求的URL的集合,若某一用戶發(fā)出連續(xù)兩個URL的請求的時間差不超過規(guī)定的時間閾值,則這兩次請求被劃分在同一用戶會話中,否則分別屬于兩個不同的用戶會話,對與本數(shù)據(jù), 時間閾值設(shè)為30分鐘。</p><p><b>  (二)模式發(fā)現(xiàn)</b></p><p><b>  1.描述性統(tǒng)計</

36、b></p><p>  對數(shù)據(jù)進(jìn)行簡單處理,得出以下描述性統(tǒng)計:</p><p><b>  總用戶數(shù):1469</b></p><p><b>  總鏈接數(shù):146</b></p><p>  TOP10訪問頁面: </p><p>  /new/clubmain/

37、newimg/num3.gif, 1066;</p><p>  /new/clubmain/newimg/num1.gif, 1056;</p><p>  /new/clubmain/newimg/num4.gif,1052;</p><p>  /new/clubmain/newimg/num2.gif,1010;</p><p>  

38、/newimg/num3.gif;873;</p><p>  /newimg/num1.gif,863;</p><p>  /newimg/num2.gif,854;</p><p>  /newimg/num4.gif,853;</p><p>  /default.asp,453;</p><p>  /new

39、/publicforum/content.asp,329.</p><p>  2. Apriori關(guān)聯(lián)分析</p><p><b> ?。?)生成數(shù)據(jù)庫集</b></p><p>  從描述性統(tǒng)計中得到的不同用戶作為數(shù)據(jù)庫集的行自變量,不同的鏈接作為列自變量;當(dāng)用戶i瀏覽過鏈接j,則其對應(yīng)項(xiàng)=1,否則=0;設(shè)置相應(yīng)的覆蓋要求,這樣我們可以同時

40、得到單項(xiàng)集合。</p><p><b> ?。?)生成關(guān)聯(lián)規(guī)則</b></p><p>  從單項(xiàng)集合中,生成可能的雙項(xiàng)集合規(guī)則,分別計算置信度。</p><p><b> ?。?)結(jié)果部分</b></p><p>  見表1:關(guān)聯(lián)度計算結(jié)果表</p><p><b&g

41、t;  (三)模式分析 </b></p><p>  當(dāng)我們把最小置信度設(shè)為85%,通過關(guān)聯(lián)規(guī)則的形成以及對應(yīng)置信度的計算,我們可以從中得到以下有用的信息:</p><p>  1.置信度大于最小置信度時:我們可以這樣認(rèn)為,用戶群體在瀏覽相關(guān)網(wǎng)頁時,所呈列的鏈接之間是有很大關(guān)聯(lián)的,他們是用戶群的共同愛好,通過網(wǎng)頁布局的調(diào)整,從某種意義上,可以帶來更高的點(diǎn)擊率及潛在客戶;<

42、/p><p>  2.置信度小于最小置信度時:我們可以這樣認(rèn)為,用戶群體對所呈列鏈接之間沒太多的關(guān)聯(lián),亦或關(guān)聯(lián)規(guī)則中的鏈接在爭奪用戶。</p><p>  表1:關(guān)聯(lián)度計算結(jié)果表</p><p><b> ?。ㄋ惴ㄔ斠姼戒洠?lt;/b></p><p><b>  四、個性化推薦</b></p>

43、<p>  通過以上的關(guān)聯(lián)分析,有了用戶頻繁訪問路徑和鏈接之間的興趣度,可以構(gòu)建個性化推薦系統(tǒng)模型。對于以上的實(shí)證例子,我們可以在置信度高于最低置信度的相關(guān)鏈接之間,建立某種信息快速互聯(lián)的橋梁,亦或是在網(wǎng)頁規(guī)劃中,充分考慮鏈接之間的關(guān)聯(lián)關(guān)系,從而為更人性化、合理化的網(wǎng)頁設(shè)計提供決策依據(jù)。如:當(dāng)客戶瀏覽/newimg/num1.gif時,有0.91的概率會瀏覽/newimg/num4.gif,那么,在兩者之間就存在很高的關(guān)聯(lián)

44、性,從而我們有必要對這兩個鏈接建立某種跟緊密的聯(lián)系。</p><p><b>  五 、結(jié)束語</b></p><p>  本文先研究了web日志挖掘當(dāng)前研究成果,介紹了web日志挖掘的基本流程,然后著重介紹了如何利用Apririo關(guān)聯(lián)規(guī)則算法來挖掘出用戶頻繁訪問模式,找出瀏覽頁面之間的關(guān)聯(lián)規(guī)則,為個性化推薦系統(tǒng)模型提供了依據(jù)。</p><p>

45、;  Web 日志挖掘作為Web數(shù)據(jù)挖掘的嶄新研究方向,今年來已經(jīng)取得了一些突破性的進(jìn)展, 但是由于Web 的不確定性和多樣性,以及Web的不斷壯大,還有很多問題亟待解決, 有待于我們進(jìn)一步去研究和探索。</p><p><b>  參考文獻(xiàn)</b></p><p>  [1].李國慧.Web數(shù)據(jù)挖掘研究.數(shù)據(jù)庫與信息管理本,2008年1月12日</p>

46、<p>  [2]. 王玉珍.Web數(shù)據(jù)挖掘的分析與探索[ J ].電腦開發(fā)與應(yīng)用 2003年4月</p><p>  [3].張莉.基于模糊聚類的案例聚類算法研究.教育與教學(xué)研究,2009年4月第四期</p><p>  [4].蘇晶.web數(shù)據(jù)挖掘的技術(shù)研究.中國新技術(shù)新產(chǎn)品,2008 NO.12(上) </p><p>  [5].葉苗群.web

47、日志挖掘研究.寧波工程學(xué)院學(xué)報,2005年6月</p><p>  [6].郭欣,許林英.改進(jìn)的關(guān)聯(lián)的關(guān)聯(lián)規(guī)則算法在電子商務(wù)中的應(yīng)用.微機(jī)處理, 2008年10月5期</p><p>  [7].Richard J.Roiger, Michael W.Geatz.數(shù)據(jù)挖掘教程[M].清華大學(xué)出版社,2003版 </p><p>  [8]. 高哲,魏海平,王福威,趙

48、曉碧.基于Web日志挖掘的Web文檔聚類.計算機(jī)工程與設(shè)計,2008年9月</p><p>  [9].王麗娜,Web 日志挖掘技術(shù)研究,光盤技術(shù),2008年第4期</p><p>  [10].張健沛,劉建東等.基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計算機(jī)工程與應(yīng)用,2003.10.</p><p>  [11].徐章艷,劉美玲,張師超等.Apriori

49、算法的三種優(yōu)化方法[J].計算機(jī)工程與應(yīng)用,2004,25(2):190—192</p><p>  [12]. 李珊,袁方.基于Web日志挖掘的頁面興趣度方法的改進(jìn).計算機(jī)時代,2007年第3期</p><p>  [13]. Ellen Speaus.Mining structural information on the web.In:Proceedings of the 6th I

50、nternational World Wide Web Conference,April 1997</p><p>  [14].Jaideep Srivastava,Robert Cooley,Mukund Deshpand,Pang-Ning Tan.Web usage mining discovery and application of usage patterns from web data.SIGKD

51、D Explorations,2000,1(2):12—23</p><p>  [15].朱明.數(shù)據(jù)挖掘[M].中國科學(xué)技術(shù)大學(xué)出版社,2002年.附錄</p><p><b>  #用戶和文件交叉表</b></p><p>  ctab=read.csv("ctab.csv",header=T)</p>&

52、lt;p>  ctab=ctab[,-1]</p><p>  #計算每個文件被訪問次數(shù)(忽略重復(fù)訪問)</p><p>  fun1<-function(val){</p><p>  return(sum(val>0))</p><p><b>  }</b></p><p>

53、;  simc=apply(ctab,2,fun1)</p><p>  #兩個文件被同一用戶訪問的次數(shù)</p><p>  mtab=read.csv("mtab.csv",header=T)</p><p>  mtab=mtab[,-1]</p><p>  #兩個文件被同時訪問的關(guān)聯(lián)度</p><

54、;p>  gld=read.csv("gld.csv",header=T)</p><p>  gld=as.matrix(gld[,-1])</p><p>  daty<-read.csv("lie2.csv",header=F) #文件名單</p><p>  tempname=as.vector(daty

55、[,1])</p><p>  n=length(tempname)</p><p>  tempx=array(0,dim=c(n,0))</p><p>  for(i in 1:n) tempx=data.frame(tempx,c(tempname))</p><p>  tempx=as.matrix(tempx)</p>

56、;<p>  tempy=t(tempx)</p><p>  tempn=array(0,dim=c(n,0))</p><p>  for(i in 1:n) tempn=data.frame(tempn,c(simc))</p><p>  tempn=as.matrix(tempn)</p><p>  關(guān)聯(lián)度=gld[

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論