版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著計(jì)算機(jī)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為世界上最大的信息資源庫,通用搜索引擎如百度瀏覽器、谷歌瀏覽器等可以通過關(guān)鍵詞查詢返回大量與關(guān)鍵詞相關(guān)的結(jié)果,能夠滿足大部分用戶的查詢需求。但是對于少數(shù)用戶,他們僅僅對某一個行業(yè)或領(lǐng)域的信息感興趣,所以他們希望搜索引擎僅僅返回自己感興趣的信息。為了獲得與某一個行業(yè)或者領(lǐng)域有關(guān)的信息,利用主題爬蟲算法對通用搜索引擎進(jìn)行改進(jìn)。
論文中應(yīng)用實(shí)體分析、網(wǎng)絡(luò)結(jié)構(gòu)分析并加以算法上的改進(jìn),提出了基于URL及上下
2、文的主題爬蟲算法,本算法對主題進(jìn)行了實(shí)體分析,根據(jù)中文同義詞詞庫將主題描述詞進(jìn)行擴(kuò)展,作為主題相關(guān)度分析算法的輸入。同時本算法將網(wǎng)頁分成若干個信息塊,在網(wǎng)絡(luò)結(jié)構(gòu)與文本內(nèi)容兩個方面分析每個信息塊中的鏈接及本文內(nèi)容,根據(jù)信息塊中主題描述詞的詞頻和權(quán)重信息得出該鏈接在文本內(nèi)容方面的評分。如果評分大于設(shè)定的閾值,則將該鏈接認(rèn)為是與主題相關(guān)的,否則與主題不相關(guān)。實(shí)驗(yàn)結(jié)果充分說明本論文提出的基于URL及上下文的主題爬蟲可以實(shí)現(xiàn)很好的搜索效果。
3、> 本文主要包括以下幾個研究內(nèi)容:
1.在查詢時,為了提高查詢速度使用高性能的全文檢索工具Lucene.Net,將網(wǎng)頁內(nèi)容中的鏈接、錨文本、上下文信息等內(nèi)容創(chuàng)建索引,實(shí)現(xiàn)索引搜索。創(chuàng)建索引雖然會消耗一定的時間,但是創(chuàng)建索引通常在后臺進(jìn)行,而且索引創(chuàng)建之后可以重復(fù)利用,具有一勞永逸的作用。
2.本文在實(shí)現(xiàn)中文分詞時,通過比較Lucene.Net提供的各種分詞方法和盤古中文分詞,最終選擇使用盤古分詞。為了實(shí)現(xiàn)良好的分詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于URL及上下文的并行分塊處理主題爬蟲研究.pdf
- 基于上下文的容遲網(wǎng)絡(luò)路由算法研究.pdf
- 基于上下文感知的網(wǎng)絡(luò)用戶行為分析.pdf
- 基于上下文的隱喻理解研究.pdf
- 基于社會上下文約束和物品上下文約束的協(xié)同推薦.pdf
- 基于自適應(yīng)上下文主題模型的建立方法.pdf
- 基于上下文的目標(biāo)檢測研究.pdf
- 基于上下文的圖像標(biāo)注研究.pdf
- 基于上下文感知的推薦算法研究.pdf
- 上下文感知推薦.pdf
- 網(wǎng)絡(luò)爬蟲外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存
- 基于上下文的服務(wù)選擇問題的研究.pdf
- 基于上下文的圖像理解算法研究.pdf
- 基于上下文的去隔行算法研究.pdf
- 基于TAP的上下文知曉框架研究.pdf
- 基于無線傳感器網(wǎng)絡(luò)的覺察上下文的研究.pdf
- 基于上下文的視頻多語義標(biāo)注研究及實(shí)現(xiàn).pdf
- 基于主題模型的用戶興趣挖掘及上下文感知推薦系統(tǒng)算法研究.pdf
- 基于上下文信息的語義圖像分類研究.pdf
- 基于RFID的上下文感知系統(tǒng)研究.pdf
評論
0/150
提交評論