版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、近年來,互聯(lián)網(wǎng)技術(shù)得到了前所未有的巨大發(fā)展。它給我們帶來了一種全新的生活方式,對我們的生活帶來了極大的方便?;ヂ?lián)網(wǎng)成功的關(guān)鍵在于其龐大的信息容量以及它的內(nèi)容不需要集中進行控制。這在為用戶獲取信息提供極大的便利的同時也使得用戶對信息的查找猶如大海撈針。新的信息獲取技術(shù).搜索引擎技術(shù)應(yīng)運而生,并得到了飛速的發(fā)展。Web技術(shù)已經(jīng)發(fā)展到現(xiàn)在的2.0,目前的互聯(lián)網(wǎng)中的網(wǎng)頁已經(jīng)不再是其誕生時以文本信息為主的模樣,網(wǎng)頁中大量的多媒體信息(圖片,視頻剪
2、輯,音樂)使得我們的互聯(lián)網(wǎng)內(nèi)容變得豐富多彩。這同時也促使了我們對搜索內(nèi)容提出了更高的要求,比如我們想搜索某些圖片。加上基于文本的搜索技術(shù)的成熟,所以本文就以基于文本的Web圖片搜索引擎為研究對象,在對其相關(guān)技術(shù)進行了詳細的分析的基礎(chǔ)上,提出了一個較完整的系統(tǒng)設(shè)計方案,并且實現(xiàn)了一個初步的基于文本的Web圖片搜索引擎系統(tǒng)。 本文首先介紹了圖片搜索的背景,并對當(dāng)前一些主流的圖片搜索引擎進行了簡要的分析。之后簡介了搜索引擎相關(guān)的技術(shù),
3、包括其典型架構(gòu)、網(wǎng)頁抓取、信息提取、索引、結(jié)果相關(guān)性排序等,作為本文的最基本的理論基礎(chǔ)。本文所使用的網(wǎng)頁庫的spider——WIRE,在第三章進行了相關(guān)的介紹。 本文在第四章通過細致地分析HFML文件的標(biāo)記、標(biāo)記、圖片uRL、網(wǎng)頁標(biāo)題、網(wǎng)頁的超鏈接文本、關(guān)聯(lián)的和結(jié)構(gòu)、標(biāo)記、
評論
0/150
提交評論