版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)上的資源日趨豐富,通用搜索引擎已經(jīng)不能滿足人們對個性化信息檢索服務(wù)日益增長的需要,面向主題的搜索引擎應(yīng)運而生,提供信息分類更細致精確的網(wǎng)絡(luò)搜索服務(wù)。主題爬蟲是面向主題搜索引擎的一個關(guān)鍵組成部分。主題爬蟲根據(jù)用戶定義的目標主題,智能化地從Web上收集主題相關(guān)的網(wǎng)頁,能夠快速、準確地得到網(wǎng)絡(luò)中的有用信息資源。
本文首先分析了主題爬蟲的技術(shù)原理、工作流程,然后重點分析了爬蟲的主題表示、主題相關(guān)性判
2、斷、主題預(yù)測及主題搜索策略。主要研究工作如下:
第一,在主題表示方面,通用的基于關(guān)鍵詞的主題表示精確度不高,為此,本文提出了利用交互策略進行基于關(guān)鍵詞的主題表示。即,先經(jīng)過程序分析,提供候選主題表示關(guān)鍵詞,再由用戶通過程序提供的接口進行關(guān)鍵詞的修改。通過這種人工交互的半自動化方式,主題表示可以準確、全面地表達用戶的需求。
第二,本文提出了基于鏈接結(jié)構(gòu)和網(wǎng)頁內(nèi)容的主題相關(guān)性判斷方法,綜合考慮了父網(wǎng)頁的主題相關(guān)度、鏈入網(wǎng)
3、頁數(shù)目、網(wǎng)頁文本內(nèi)容及錨文本信息。這四個因素結(jié)合起來可以充分發(fā)揮各自的優(yōu)點,準確判斷網(wǎng)頁是否主題相關(guān)。
第三,本文分析了Shark-Search搜索策略算法的優(yōu)缺點,并對算法進行改進。在Shark-Search中,主題預(yù)測算法采用了鏈接上下文信息,但是鏈接上下文信息通常充滿嗓音,難以準確預(yù)測網(wǎng)頁主題,而大部分網(wǎng)頁的URL地址則包含了與網(wǎng)頁內(nèi)容相關(guān)聯(lián)的語義標記,這些標記可以準確計算該URL主題相關(guān)性優(yōu)先級,本文提出利用URL地址
4、的主題相關(guān)性優(yōu)先級代替Shark-Search算法中的鏈接上下文主題預(yù)測值。此外,Shark-Search算法存在很大貪婪性,難以在全局范圍內(nèi)找到最優(yōu)解,所以本文在Shark-Search算法中引入隧道分析技術(shù)來解決算法的貪婪性問題。實驗證明,應(yīng)用改進的Shark-Search搜索策略,主題爬蟲的“準確率”和“召回率”得到顯著提高。
第四,本文在上述理論分析的基礎(chǔ)上,實現(xiàn)了一個主題爬蟲系統(tǒng)。實驗結(jié)果表明,該系統(tǒng)提供的數(shù)據(jù)有較高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 主題爬蟲關(guān)鍵技術(shù)研究.pdf
- 主題爬蟲關(guān)鍵技術(shù)研究及應(yīng)用.pdf
- 主題爬蟲搜索策略及關(guān)鍵技術(shù)研究.pdf
- 主題爬蟲的實現(xiàn)及其關(guān)鍵技術(shù)研究.pdf
- 主題爬蟲關(guān)鍵技術(shù)的研究.pdf
- 聚焦爬蟲關(guān)鍵技術(shù)研究.pdf
- 基于網(wǎng)頁分塊的論壇爬蟲關(guān)鍵技術(shù)研究.pdf
- 面向web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究
- 網(wǎng)絡(luò)攻防關(guān)鍵技術(shù)研究.pdf
- EDGE網(wǎng)絡(luò)關(guān)鍵技術(shù)研究.pdf
- 機會網(wǎng)絡(luò)路由關(guān)鍵技術(shù)研究.pdf
- 延時容忍網(wǎng)絡(luò)關(guān)鍵技術(shù)研究.pdf
- 蜂窩網(wǎng)絡(luò)MIMO關(guān)鍵技術(shù)研究.pdf
- Ad Hoc網(wǎng)絡(luò)關(guān)鍵技術(shù)研究.pdf
- 延遲容忍網(wǎng)絡(luò)關(guān)鍵技術(shù)研究.pdf
- 面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究與實現(xiàn).pdf
- 主題搜索引擎關(guān)鍵技術(shù)研究.pdf
- 智能光網(wǎng)絡(luò)關(guān)鍵技術(shù)研究.pdf
- SpaceWire冗余網(wǎng)絡(luò)關(guān)鍵技術(shù)研究.pdf
- WCDMA網(wǎng)絡(luò)管理關(guān)鍵技術(shù)研究.pdf
評論
0/150
提交評論