版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著Internet的發(fā)展及其廣泛應(yīng)用,網(wǎng)絡(luò)信息呈爆炸式增長,互聯(lián)網(wǎng)已經(jīng)成為了人們獲取信息的重要來源。為了能幫助人們快速找到所需要的信息,于是便有了搜索引擎技術(shù)。方便了人們查找信息,節(jié)省了時(shí)間,已經(jīng)成為了人們經(jīng)常使用的一項(xiàng)網(wǎng)絡(luò)服務(wù)。
但是據(jù)中國互聯(lián)網(wǎng)信息中心統(tǒng)計(jì)報(bào)告顯示,重復(fù)結(jié)果太多是用戶在使用搜索引擎時(shí)遇到的主要問題。據(jù)統(tǒng)計(jì),Internet上大約有30%左右的重復(fù)網(wǎng)頁,大部分是由于轉(zhuǎn)載造成的。網(wǎng)頁重復(fù)問題對搜索引擎帶來了一
2、定的影響,重復(fù)網(wǎng)頁不僅浪費(fèi)了存儲空間,也增加了搜索引擎的處理時(shí)間。同時(shí)搜索引擎的檢索結(jié)果包含了很多內(nèi)容重復(fù)的網(wǎng)頁,降低了檢索質(zhì)量,所以網(wǎng)頁消重已經(jīng)成為搜索引擎中一項(xiàng)必不可少的工作。
本文研究了網(wǎng)頁消重的起源、及其發(fā)展現(xiàn)狀,進(jìn)行了以下幾方面的研究工作:
?。?)高質(zhì)量的網(wǎng)頁消重都是基于網(wǎng)頁正文文本的,本文首先研究了網(wǎng)頁的內(nèi)部結(jié)構(gòu),提出了基于DOM的網(wǎng)頁正文抽取算法,通過將網(wǎng)頁分塊,聚合,過濾,得到網(wǎng)頁的正文文本,將其作為
3、消重的對象。實(shí)驗(yàn)證明該算法具有較高的準(zhǔn)確率。
(2)設(shè)計(jì)了一個(gè)在線網(wǎng)頁消重系統(tǒng),實(shí)現(xiàn)了兩種消重算法:摘要消重和全文消重。該系統(tǒng)通過對搜索引擎的檢索結(jié)果進(jìn)行消重處理,提高了檢索質(zhì)量。
?。?)提出了兩種網(wǎng)頁消重算法:基于字頻特征的消重算法和基于分段特征的消重算法。
(4)基于字頻的消重算法抽取網(wǎng)頁正文文字的字頻作為網(wǎng)頁主特征串,同時(shí)將字頻的附加信息作為網(wǎng)頁的輔特征串。算法使用編輯距離樹對特征串進(jìn)行比較,減少了兩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 搜索引擎系統(tǒng)網(wǎng)頁消重的研究與實(shí)現(xiàn).pdf
- 網(wǎng)頁消重算法研究.pdf
- 搜索引擎系統(tǒng)中網(wǎng)頁消重的研究與實(shí)現(xiàn).pdf
- 基于布隆過濾器算法的網(wǎng)頁消重技術(shù)的實(shí)現(xiàn)與應(yīng)用.pdf
- 搜索引擎中網(wǎng)頁凈化與消重技術(shù)研究.pdf
- 基于文本聚類的網(wǎng)頁消重算法研究.pdf
- 相似網(wǎng)頁去重算法的并行化研究與實(shí)現(xiàn).pdf
- 基于內(nèi)容的網(wǎng)頁查重技術(shù)研究.pdf
- 網(wǎng)頁消重和聚類算法在高校搜索引擎中的研究與應(yīng)用.pdf
- 新聞網(wǎng)頁抽取技術(shù)的研究與實(shí)現(xiàn).pdf
- 中文網(wǎng)頁分類技術(shù)的研究與實(shí)現(xiàn).pdf
- 網(wǎng)頁木馬特征掃描技術(shù)的研究與實(shí)現(xiàn).pdf
- 網(wǎng)頁防篡改安全技術(shù)的研究與實(shí)現(xiàn).pdf
- 網(wǎng)頁排重技術(shù)研究及應(yīng)用.pdf
- 網(wǎng)頁信息過濾技術(shù)的分析與實(shí)現(xiàn).pdf
- 面向主題型的網(wǎng)頁分類技術(shù)的研究與實(shí)現(xiàn).pdf
- 偽裝型垃圾網(wǎng)頁檢測技術(shù)的研究與實(shí)現(xiàn).pdf
- 中文網(wǎng)頁自動分類技術(shù)的研究與實(shí)現(xiàn).pdf
- 隱藏型垃圾網(wǎng)頁檢測技術(shù)的研究與實(shí)現(xiàn).pdf
- 網(wǎng)頁正文提取及去重技術(shù)研究.pdf
評論
0/150
提交評論