2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩128頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第四章 網(wǎng)絡(luò)信息資源及其檢索,,第四章 網(wǎng)絡(luò)信息資源及其檢索,第一節(jié) 網(wǎng)絡(luò)信息資源及其組織方式 第二節(jié) 網(wǎng)絡(luò)信息資源檢索*第三節(jié) 網(wǎng)絡(luò)信息資源檢索工具-搜索引擎,第一節(jié) 網(wǎng)絡(luò)信息資源及其組織方式,1、網(wǎng)絡(luò)信息資源的定義網(wǎng)絡(luò)信息資源又稱電子信息資源,因特網(wǎng)信息資源等,它是以電子化、數(shù)字化的形式存儲在網(wǎng)絡(luò)節(jié)點中的,借助于計算機(jī)網(wǎng)絡(luò)進(jìn)行傳播和利用的信息產(chǎn)品和信息系統(tǒng)的的集合體。,2. 網(wǎng)絡(luò)信息資源特點,

2、1) 信息源豐富;2) 信息內(nèi)容多樣性;3) 信息表現(xiàn)形式多樣化;4) 信息時效性;5) 信息交互性;6) 信息關(guān)聯(lián)性;7) 信息的開放性;8) 免費(fèi)信息資源豐富;9) 信息組織的局部有序性與整體無序性,,1) 信息源豐富Internet 是個開放的信息傳播平臺,任何機(jī)構(gòu)、任何人都可以將自己擁有的且愿意讓他人共享的信息上網(wǎng)。在這個龐大的信息供應(yīng)源中,起主導(dǎo)作用的主要有:公共圖書館、網(wǎng)絡(luò)信息服務(wù)商、傳統(tǒng)媒體、傳統(tǒng)聯(lián)機(jī)服務(wù)

3、商、高等院校、科研機(jī)構(gòu)、各類商業(yè)公司等。,2) 信息內(nèi)容多樣性,網(wǎng)絡(luò)是信息的載體,信息是網(wǎng)絡(luò)的靈魂。沒有信息,網(wǎng)絡(luò)就沒有使用價值。Internet是信息的海洋,信息內(nèi)容幾乎無所不包。有科學(xué)技術(shù)領(lǐng)域的各種業(yè)信息,也有與大眾日常生活息息相關(guān)的信息;有嚴(yán)肅主題信息,也有體育、娛樂、旅游、消遣和奇聞趣事;有歷史檔案信息,也有顯示現(xiàn)實世界的信息;有知識性和教育性的信息,也有消息和新聞的傳媒信息;有學(xué)術(shù)、教育、產(chǎn)業(yè)和文化方面的信息,也有經(jīng)

4、濟(jì)、金融和商業(yè)信息。,3) 信息表現(xiàn)形式多樣化,Internet 是一個集聲音、圖像、文字、照片、圖形、動畫、電影、音樂為一體的包羅萬象的綜合性信息系統(tǒng)。你可以伴著優(yōu)雅的音樂,循著鏈路隨意在網(wǎng)上漫游,看看精美的網(wǎng)頁、閱讀精彩的文件,使學(xué)習(xí)成為一種浪漫、愉快的旅程。4) 信息時效性利用Internet 信息制作技術(shù),能很快地將信息傳播到世界各地。由于幾乎在事件發(fā)生的同一時間內(nèi),就能將信息快速制作、上網(wǎng),因此,網(wǎng)上信息的更新周期短、內(nèi)容

5、新穎。,5) 信息交互性,Internet 是交互性的,不僅可以從中獲取信息,也可以向網(wǎng)上發(fā)布信息。Internet 提供討論、交流的渠道。在Internet 上可以找到提供各種信息的人:科學(xué)家、工程技術(shù)專家、醫(yī)生、律師、教育家、明星以及具備各種專長和愛好人們;也可以找到一些專題討論小組,通過交流、咨詢獲得專家和其他用戶的幫助,同時也可發(fā)表個人的見解。6) 信息關(guān)聯(lián)性Internet 的信息組織是基于超文本的,因此,有關(guān)聯(lián)的信息之間

6、通過鏈接形成一個相互聯(lián)系的信息渠道,人們可以由此及彼、由遠(yuǎn)而近、順藤摸瓜、找到想要的信息。,7) 信息的開放性,由于Internet 是一個全球性分布的結(jié)構(gòu),大量信息分別存儲在世界各地的服務(wù)器與主機(jī)上,隨著時間的推移和知識的更新,在不斷補(bǔ)充新的信息同時也不斷淘汰舊的信息,以保證其信息的整體數(shù)量和使用價值及網(wǎng)絡(luò)靈活性。8) 免費(fèi)信息資源豐富Internet 大部分是免費(fèi)的,只要你有時間、有一定的檢索經(jīng)驗,肯定可以從網(wǎng)上找到大量的你所需

7、要的免費(fèi)信息。9) 信息組織的局部有序性與整體無序性各搜索引擎和站點目錄都收集大量Internet 的站點,并按照專業(yè)和文獻(xiàn)信息類型分類,實現(xiàn)了信息組織的局部有序化。但是,由于Internet 急劇膨脹,仍有大量信息被淹沒在信息的海洋里,這種無序性必將影響信息檢索的系統(tǒng)性、完整性和準(zhǔn)確性。,2. 網(wǎng)絡(luò)信息資源種類,政府信息資源1) 按信息來源劃分 公眾信息資源 商用等信息

8、資源 圖書館目錄資源 書目與索引資源 2)按信息類型劃分 全文資料及電子出版物資源 數(shù)據(jù)庫信息資源 www 信息資源 Telnet 信息資源

9、 FTP 信息資源 用戶服務(wù)組信息資源 3) 按網(wǎng)絡(luò)傳輸協(xié)議劃分 Gopher 信息資源 電子郵件型信息資源 BBS電子公告牌 網(wǎng)絡(luò)聊天,,,,2. 網(wǎng)絡(luò)信息資源種

10、類,網(wǎng)絡(luò)信息資源可按照信息來源、信息類型性或網(wǎng)絡(luò)傳輸協(xié)議來分類。1) 按信息來源劃分網(wǎng)絡(luò)信息資源按信息來源可劃分為政府、公眾、商用等信息資源。(1)政府信息資源。各國政府紛紛在Internet 上發(fā)布有關(guān)該國家與政府的各種公開信息,進(jìn)行國家與政府的形象展示。政府信息主要包括各種新聞、統(tǒng)計信息、政策法規(guī)文件、政府檔案、政府部門介紹、政府取得成就等。,,(2)公眾信息資源。公眾信息資源,即為社會公眾服務(wù)的機(jī)構(gòu)所擁有信息資源,包括:公

11、共圖書資源、科技信息資源、新聞出版資源、廣播電視信息資源等。(3)商用信息資源。商用信息資源,即商情咨詢機(jī)構(gòu)或商業(yè)性公司為生產(chǎn)經(jīng)營者或消費(fèi)者提供的有償或無償?shù)纳逃眯畔?,包括產(chǎn)品、商情、咨詢等類型的信息。,2) 按信息類型劃分,(1)電子郵件型信息資源。凡是通過電子郵件方式進(jìn)行交流的信息都屬于E-mail 型的信息資源。它并不局限于個人之間的通信,還包括報告、論文、文獻(xiàn)目錄、甚至整本書、整本期刊。(2)圖書館目錄資源。網(wǎng)絡(luò)上的圖書館

12、目錄不再受時空限制,用戶可以在家里或辦公室查閱、檢索。(3)書目與索引資源。Internet 上有大量歷史、政治、經(jīng)濟(jì)、物理、化學(xué)、礦業(yè)、化工、建筑等許多學(xué)科的書目與期刊索引資源。(4)全文資料及電子出版物資源。全文資料及電子出版物已越來越多地通過Internet提供有償或無償使用。(5)數(shù)據(jù)庫信息資源。數(shù)據(jù)庫信息資源是Internet 中最為龐大的部分,又可分為科學(xué)技術(shù)數(shù)據(jù)庫、商業(yè)廣告數(shù)據(jù)庫、教育娛樂數(shù)據(jù)庫等。,3) 按網(wǎng)絡(luò)傳輸

13、協(xié)議劃分,(1)www 信息資源。www(World Wide Web,簡稱www 或Web)信息資源是建立在超文本、超媒體技術(shù)以及超文本傳輸協(xié)議HTTP(Hyper Text Transfer Protocol)的基礎(chǔ)上,集文本、圖形、圖像、聲音為一體,并以直觀的圖形用戶截面展現(xiàn)和提供信息的網(wǎng)絡(luò)資源形式。www 其實是Internet 中一個特殊的網(wǎng)絡(luò)區(qū)域,這個區(qū)域是由網(wǎng)上所有超文本格式的文檔(網(wǎng)頁)集合而成。超文本文檔里既有數(shù)據(jù)又

14、有包含指向其他文擋的鏈(Links)。鏈?zhǔn)沟貌煌臋n里的相關(guān)信息連接在一起,這些相互鏈接的文檔可以在一個www 服務(wù)器里,也可以分布在網(wǎng)絡(luò)上的不同地點。通過這些鏈,用戶在www 上查找信息時可以從一個文檔跳到另一個文檔,而不必考慮這些文檔在網(wǎng)絡(luò)上的具體地點。,(2)Telnet 信息資源。,Telnet 信息資源是指借助遠(yuǎn)程登錄,在網(wǎng)絡(luò)通信協(xié)議(Telecom-munication Network Protocol)的支持下,可以訪問共

15、享的遠(yuǎn)程計算機(jī)中的資源。Telnet 使用戶可以在本地計算機(jī)上注冊到遠(yuǎn)程計算機(jī)中的資源。使Telnet,用戶可以與全世界許多信息中心、圖書館及其他信息資源聯(lián)系。Telnet 遠(yuǎn)程登錄的使用主要有兩種情況:第一種是用戶在遠(yuǎn)程主機(jī)上有自己的帳號,即用戶擁有注冊的用戶名和口令;第二種是許多Internet 主機(jī)為用戶提供了某種形式的公共Telnet 信息資源,這種資源對于每一個Internet 用戶都是開放的。,(3)FTP 信息資源

16、。,FTP 信息資源是指利用文件傳輸協(xié)議FTP ( File TransferProtocol)可以獲取的信息資源。FTP 使用戶可以在本地計算機(jī)和遠(yuǎn)程計算機(jī)之間發(fā)送和接收文件,F(xiàn)TP 不僅允許從遠(yuǎn)程計算機(jī)上獲取、下載文件(Download),也可以將文件從本地計算機(jī)拷貝傳輸?shù)竭h(yuǎn)程計算機(jī)(Upload)。FTP 是目前Internet 上獲取免費(fèi)軟件和共享軟件資源不可缺少的工具。,(4)用戶服務(wù)組信息資源。,Internet 上各種各樣

17、的用戶通信或服務(wù)組是最受歡迎的信息交流形式,包括:新聞組(Usenet News Group)、郵件列表(Mailinglist)、專題討論組(Discussion Group)、興趣組(Interest Group)等。這些討論組都是由一組對某一特定主題有共同興趣的網(wǎng)絡(luò)用戶組成的電子論壇,在電子論壇中所傳遞與交流的信息就構(gòu)成了Internet 上最流行的一種信息資源。,(5)Gopher 信息資源。,Gopher 是一種基于菜單的網(wǎng)絡(luò)

18、服務(wù),它為用戶提供了豐富的信息,并允許用戶以一種簡單的、一致的方法快速找到并訪問所需的網(wǎng)絡(luò)資源。全部操作是在一級級菜單的指引下,用戶只需在菜單中選擇項目和瀏覽相關(guān)內(nèi)容,就可完成Internet 上遠(yuǎn)程聯(lián)機(jī)信息系統(tǒng)的訪問,無需知道信息的存放位置和掌握有關(guān)的操作命令。,3、網(wǎng)絡(luò)信息資源的組織方式,在www、Telnet、FTP、用戶服務(wù)組、Gopher 這些資源中發(fā)展最快的是www。www的超媒體、超文本的特性使之在Internet 信息存

19、儲與檢索領(lǐng)域獨站鰲頭,目前Internet 大多數(shù)信息的組織與發(fā)布都是采用超文本這種特殊的信息組織方式。,(1).超文本,所謂超文本(Hypertext),就是非線性文本。一般人們閱讀的文本(text)都是從上而下,從左到右排列,但在超文本中,內(nèi)容是按超鏈接(Hyperlink)組織。用戶單擊文本中加以標(biāo)注的一些特殊的關(guān)鍵詞或圖像,就能打開另一個文本。比如說,你在www 上找到最新上映的新片的介紹,點擊感興趣的鏈接,就可以連到有關(guān)的影

20、評、演員劇照、甚至可以欣賞精彩片段,點擊相關(guān)鏈接,又可以訪問出售該片海報、唱片、和其他宣傳品的網(wǎng)上超市等等。用戶根本無須知道信息存儲的具體位置,只需輕輕點擊鼠標(biāo),按照事先安排好的鏈接,一層層地瀏覽、查詢下去。,,而超媒體(Hypermedia)又進(jìn)一步擴(kuò)展了超文本所鏈接的信息類型,利用超級鏈接將超文本和各種媒體信息連接在一起。用戶不僅能從一個文本跳到另一個文本,而且可以激活一段聲音,顯示一個圖形,或播放一段視頻圖像。在Internet

21、中,每個Web 服務(wù)器不僅提供其自身擁有的信息數(shù)據(jù),還利用超級鏈接指向其他的擁有相關(guān)信息的Web 服務(wù)器,而這些服務(wù)器又指向更多服務(wù)器,通過這種內(nèi)部的鏈接機(jī)制,使遍布全球的主機(jī)形成了一個相互聯(lián)系、資源共享的有機(jī)整體。,(2). 超文本傳輸協(xié)議,超文本信息傳輸協(xié)議HTTP(Hyper Text Transfer Protocol)是瀏覽器直接與Web 服務(wù)器之間相互通信的協(xié)議,即www 客戶機(jī)和服務(wù)器用于在網(wǎng)上傳輸、響應(yīng)用戶請求的協(xié)議。任

22、何一個HTTP 會話包括四個步驟:連接、請求、應(yīng)答與關(guān)閉。(3). 超文本標(biāo)識語言超文本標(biāo)識語言HTML(Hyper Text Markup Language)是一種為www 建立超文本文件的專門編程語言。它通過標(biāo)記和屬性對一段文本的語義進(jìn)行描述,進(jìn)行文件與文件及文件內(nèi)部不同部分之間的鏈接。HTML 文檔由文件、格式代碼和到其他文檔的鏈接組成。,(4). WWW即環(huán)球網(wǎng),也叫萬維網(wǎng),WWW (World Wide Web)是建立在

23、客戶機(jī)/服務(wù)器模式之上,以HTML 語言和HTTP協(xié)議為基礎(chǔ),通過Internet 把遍布世界各地的服務(wù)器連接起來,構(gòu)成的一個環(huán)球信息網(wǎng)絡(luò)空間。其特點是:(1)使用超文本技術(shù)。利用文本加連接技術(shù),用戶只要用鼠標(biāo)點擊頁面有特殊顏色或有下劃線的文字時,就會出現(xiàn)新的解釋或訪問更多的信息。(2)使用HTML 語言。使用HTML 語言使信息的組織與顯示更加規(guī)范有序,讓www瀏覽器可以識別。(3)采用客戶機(jī)/服務(wù)器模式。采用客戶機(jī)/服務(wù)器模

24、式,即在Web 上,由客戶機(jī)提出請求,連接到服務(wù)器,找到相應(yīng)的由HTML 語言描述的文本,用戶可以在客戶機(jī)上瀏覽這些信息。(4)功能強(qiáng)大,使用簡單方便。www 設(shè)計的界面友好、接口簡單。用戶只要知道要找的信息的服務(wù)器及其要瀏覽的文擋名,輸入它的網(wǎng)址,就可以利用www 系統(tǒng)達(dá)到網(wǎng)上檢索信息的目的。,(5).統(tǒng)一資源定位器,統(tǒng)一資源定位器(Uniform Resource Locator,簡稱URL),是www 系統(tǒng)使用的一種特殊地址。每

25、一個文件無論它以何種方式存在何種服務(wù)器上,都有一個唯一的URL 地址,該地址不僅指明信息資源所在目錄和文件名,還指明信息文件存在于網(wǎng)絡(luò)的哪個節(jié)點的計算機(jī)上,以及可以訪問的方式等。只要用戶正確地給出了一個文件的URL 地址,www 服務(wù)器就能準(zhǔn)確無誤地將它找到并且傳送到發(fā)出檢索請求的www 客戶機(jī)上去。因此,URL 可以看成是一個文件在Internet 上的標(biāo)準(zhǔn)通用地址。,URL 的一般格式如下:,:////其中,:指提供文件的服務(wù)器所

26、使用的通信協(xié)議。如www 的HTTP 協(xié)議,Gopher 的Gopher 協(xié)議,F(xiàn)TP 的FTP 協(xié)議等;:指上述服務(wù)器所在主機(jī)的IP 地址;:該文件在上述主機(jī)的路徑;:該文件的名稱。例如,HTTP: //Library_web.ahut.edu.cn 代表www 上安徽工業(yè)大學(xué)圖書館主頁的URL。由此可見,通過www 瀏覽器可提供多種Internet 服務(wù)的訪問。www 瀏覽器實際上為用戶提供了一個統(tǒng)一的、一致性的交互接口,

27、該接口利用URL 中的信息來選擇相應(yīng)的客戶程度,以訪問相應(yīng)的Internet 上主機(jī)或服務(wù)器的信息.,(6). 主頁,所謂主頁(homepage),從表面上理解,就是某個單位、學(xué)校、企業(yè)甚至政府、城市、國家在Internet 上為自己建立起來的門面。人們從Internet 訪問這些地方的網(wǎng)站,首先都會接觸到這個門面,并根據(jù)它的引導(dǎo)進(jìn)一步查詢該網(wǎng)站上的有關(guān)內(nèi)容。用戶首先在鍵盤上輸入一個IP 地址,接著系統(tǒng)響應(yīng)其訪問請求,并通過網(wǎng)絡(luò)將對方

28、的主頁信息傳遞到用戶的計算機(jī)上,這時屏幕上出現(xiàn)的通常是經(jīng)過精心設(shè)計的圖形界面,就是通常所說的主頁。按照微軟公司的比喻,如果把www 當(dāng)作是Internet 上的大型圖書館,則每個站點就是一本書,每個Web 頁面就是書的一頁,主頁則是書的封面和目錄。用戶可以從主頁開始,通過Web 鏈接訪問各類信息資源,在www 世界中漫游。,(7). 超文本信息瀏覽,利用Web 瀏覽器就可以閱讀超文本信息。Web 瀏覽器是一種應(yīng)用于www 的網(wǎng)絡(luò)軟件,

29、安裝于客戶端的應(yīng)用程序。目前,網(wǎng)絡(luò)用戶比較熟悉的是使用圖形界面的瀏覽器,如Netscape、Internet Explore(IE)。這些瀏覽器在Windows 平臺上運(yùn)行,不僅可以瀏覽文本信息,還可以顯示與文本內(nèi)容想配合的動畫、圖片、圖形和聲音。,4、在因特網(wǎng)上可以做些什么?,訪問虛擬圖書館和虛擬博物館查檢圖書館聯(lián)機(jī)目錄獲取電子出版物獲取科研、學(xué)習(xí)資料(訪問各種數(shù)據(jù)庫)咨詢各方面專家接受遠(yuǎn)程教育獲取全球最新政治、財經(jīng)、商業(yè)

30、、教育、科技消息購書、預(yù)訂機(jī)票和車票查找旅游、度假等資料上網(wǎng)聊天、玩網(wǎng)絡(luò)游戲、發(fā)電子郵件及賀卡等,第二節(jié) 網(wǎng)絡(luò)信息資源檢索,要想在Internet 上獲得自己所需要的信息,就必須知道這些信息存儲在那里,也就是說要知道提供這些信息的服務(wù)器在Internet 上的地址,然后通過該地址去訪問服務(wù)器提供的信息。 在Internet 上,www 信息資源的一般查詢方法有:基于超文本的信息查詢、基于目錄的信息查詢和基于搜索引擎的信息查

31、詢。,第二節(jié) 網(wǎng)絡(luò)信息資源檢索方法,1、基于超文本的信息查詢2、基于目錄的信息查詢3、基于搜索引擎的信息查詢,1、基于超文本的信息查詢,(1)含義: 通過超文本鏈接逐步遍歷龐大的Internet,從一個www 服務(wù)器到另一個www 服務(wù)器,從一個目錄到另一個目錄,從一篇文章到另一篇文章,瀏覽查找所需信息的方法稱為瀏覽,也稱基于超文本的信息查詢方法。,基于超文本的瀏覽模式是一種有別于傳統(tǒng)信息檢索技術(shù)的新型檢索方式,它已成為I

32、nternet 上最基本的查詢模式。 利用瀏覽模式進(jìn)行檢索時,用戶只需以一個節(jié)點作為入口,根據(jù)節(jié)點中文本的內(nèi)容了解嵌入其中的熱鏈指向的主題,然后選擇自己感興趣的節(jié)點進(jìn)一步搜索。在搜索過程中,用戶會發(fā)現(xiàn)許多相關(guān)的節(jié)點內(nèi)容根本沒被自己所預(yù)想到,而是在瀏覽過程中不斷蹦出來,提醒用戶注意它。,(2)基于超文本的瀏覽模式,隨著www 服務(wù)器的急劇增加,通過一步步瀏覽來查找所需信息已非常困難。為幫助用戶快速方便地搜尋所需信息,各種www 信息

33、查詢工具便應(yīng)運(yùn)而生,其中最有代表性的是基于目錄和基于搜索引擎的信息查詢工具,而利用這些工具來查找信息的方法就被稱為基于目錄和基于搜索引擎的信息查詢方法。,(3)基于超文本瀏覽的問題,2、 在URL中輸入你要訪問的網(wǎng)站的主頁的地址(域名或IP地址),即可打開該主頁,2、基于目錄的信息查詢,(1)含義 為了幫助Internet 上用戶方便地查詢到所需要的信息,人們按照圖書館管理書目的方法設(shè)置了目錄。網(wǎng)上目錄一般以主題方式來組織,

34、大主題下又包括若干小主題,這樣一層一層地查下去,直到比較具體的信息標(biāo)題。目錄存放在www 服務(wù)器里,各個主題通過超文本的方式組織在一起,用戶通過目錄最終可得到所需信息的網(wǎng)址,即可到相應(yīng)的地方查找信息,這種通過目錄幫助的方法獲得所需信息的網(wǎng)址繼而查找信息的方法稱為基于目錄的信息查詢方法。,有許多機(jī)構(gòu)專門收集Internet 上的信息地址,并編制成目錄提供給網(wǎng)上用戶。Yahoo就是一個非常著名的基于目錄幫助的網(wǎng)站,其目錄按照一般主題組織,

35、頂層按網(wǎng)頁、資訊、知識、音樂、圖片、網(wǎng)址等分成6 大類目錄,每一大類又分成若干子類,層層遞進(jìn)。見下圖:,,,,,目錄,3、基于搜索引擎的信息查詢,搜索引擎又稱www 檢索工具,是www 上的一種信息檢索軟件。www 檢索工具的工作原理與傳統(tǒng)的信息檢索系統(tǒng)類似,都是對信息集合和用戶信息需求集合的匹配和選擇?;谒阉鞴ぞ叩臋z索方法接近于我們通常所熟悉的檢索方式,即輸入檢索詞以及各檢索詞之間的邏輯關(guān)系,然后檢索軟件根據(jù)輸入信息在索引庫中搜

36、索,獲得檢索結(jié)果(在Internet 上是一系列節(jié)點地址)并輸出給用戶。搜索引擎實際上是Internet 的服務(wù)站點,有免費(fèi)為公眾提供服務(wù)的,也有進(jìn)行收費(fèi)服務(wù)的。不同的檢索服務(wù)可能會有不同界面,不同的側(cè)重內(nèi)容,但有一點是共同的,就是都有一個龐大的索引數(shù)據(jù)庫。這個索引庫是向用戶提供檢索結(jié)果的依據(jù),其中收集了Internet 上數(shù)百萬甚至數(shù)千萬主頁信息,包括該主頁的主題、地址,包含于其中的被鏈接文檔主題,以及每個文檔中出現(xiàn)的單詞的頻率、位

37、置等。,第三節(jié) 網(wǎng)絡(luò)信息資源檢索工具-搜索引擎,1、什么是搜索引擎?簡單地說,所謂搜索引擎,就是采用信息自動跟蹤標(biāo)引等技術(shù)、建立在因特網(wǎng)上專門提供網(wǎng)絡(luò)信息資源導(dǎo)航服務(wù)檢索工具。它能夠通過Internet 接受用戶的查詢指令,并向用戶提供符合其查詢要求的信息資源網(wǎng)址。,,它是一些在Web 中主動搜索信息(網(wǎng)頁上的單詞和特定的描述內(nèi)容)并將其自動索引的Web 網(wǎng)站,其索引內(nèi)容存儲在可供檢索的大型數(shù)據(jù)庫中,建立索引和目錄服務(wù)。一些搜索引擎

38、搜索網(wǎng)頁的每一個單詞,而另一些搜索引擎則只搜索網(wǎng)頁的前二百至五百個單詞。當(dāng)用戶輸入關(guān)鍵詞(Keyword)查詢時,該搜索引擎會告訴用戶包含該關(guān)鍵詞信息的所有網(wǎng)址,并提供通向該網(wǎng)絡(luò)的鏈接。搜索引擎既是用于檢索的軟件又是提供查詢、檢索的網(wǎng)站。所以,搜索引擎也可稱為Internet 上具有檢索功能的網(wǎng)頁。,2、搜索引擎的工作原理,搜索引擎由網(wǎng)上機(jī)器人(Spider 或Robot)自動在網(wǎng)頁上按某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索與獲取,并生成本地索引。

39、Spider 或Robot 是一種軟件,它沿著WWW文件的鏈接在網(wǎng)上漫游,記錄URL、文件的簡明摘要、關(guān)鍵字或索引,形成一個很大的數(shù)據(jù)庫,這種數(shù)據(jù)庫包括標(biāo)題、摘要、關(guān)鍵詞和URL、文件的大小、語種以及詞出現(xiàn)的頻率。,3、搜索引擎的主要任務(wù),(1) 信息搜集。各個搜索引擎都派出綽號為蜘蛛(Spider)或機(jī)器人(Robots)的“網(wǎng)頁搜索軟件”,在各網(wǎng)頁中爬行,訪問網(wǎng)絡(luò)中公開區(qū)域的每一個站點并記錄其網(wǎng)址,將它們帶回搜索引擎,從而創(chuàng)建出

40、一個詳盡的網(wǎng)絡(luò)目錄。由于網(wǎng)絡(luò)文檔的不斷變化,機(jī)器人也不斷地把以前已經(jīng)分類組織的目錄更新。,(2) 信息處理。,將“網(wǎng)頁搜索軟件”帶回的信息進(jìn)行分類整理,建立搜索引擎數(shù)據(jù)庫,并定時更新數(shù)據(jù)庫內(nèi)容。在進(jìn)行信息分類整理階段,不同的搜索引擎會在搜索結(jié)果的數(shù)量和質(zhì)量上產(chǎn)生明顯的差異。有的搜索引擎把“網(wǎng)頁搜索軟件”發(fā)往每一個站點,記錄下每一頁的所有文本內(nèi)容,并收入到數(shù)據(jù)庫中從而形成全文搜索引擎;而另一些搜索引擎只記錄網(wǎng)頁的地址、篇名、特點的段落和

41、重要的詞。故有的搜索引擎數(shù)據(jù)庫很大,而有的則較小。當(dāng)然,最重要的是數(shù)據(jù)庫的內(nèi)容必須經(jīng)常更新、重建,以保持與信息世界的同步發(fā)展。,(3) 信息查詢。,每個搜索引擎都必須向用戶提供一個良好的信息查詢界面,一般包括分類目錄及關(guān)鍵詞兩種信息查詢途徑。分類目錄查詢是以資源結(jié)構(gòu)為線索,將網(wǎng)上的信息資源按內(nèi)容進(jìn)行層次分類,使用戶能依線性結(jié)構(gòu)逐層逐類檢索信息。關(guān)鍵詞查詢是利用建立的網(wǎng)絡(luò)資源索引數(shù)據(jù)庫向網(wǎng)上用戶提供查詢“引擎”。用戶只要把想要查找的關(guān)

42、鍵詞或短語輸入查詢框中,并按“Search”按鈕,搜索引擎就會根據(jù)輸入的提問,在索引數(shù)據(jù)庫中查找相應(yīng)的詞語,并進(jìn)行必要的邏輯運(yùn)算,最后給出查詢的命中結(jié)果(均為超文本鏈接形式)。用戶只要通過搜索引擎提供的鏈接,就可以立刻訪問到相關(guān)信息。,4、搜索引擎的種類,檢索型搜索引擎:它使用自動索引軟件來發(fā)現(xiàn)、收集并標(biāo)引網(wǎng)頁,建立數(shù)據(jù)庫,并以Web形式讓用戶找到所需信息資源。比較著名的有:AltaVista、Google、天網(wǎng)、百度、悠游等。目錄型

43、搜索引擎:這類引擎將信息系統(tǒng)地分門歸類,經(jīng)過人工整理后形成龐大而有序的分類目錄體系,用戶可以在目錄體系的導(dǎo)引下通過逐級瀏覽,發(fā)現(xiàn)、檢索到有關(guān)的信息。雅虎就是以卓越的分類目錄型導(dǎo)航服務(wù)而稱譽(yù)全球?;旌闲退阉饕妫核嬗袡z索型和目錄型兩種方式。如:新浪、搜狐、網(wǎng)易、中華等門戶網(wǎng)站。多元搜索引擎:也稱為集合型搜索引擎。它是將多個搜索引擎集成在一起,通過統(tǒng)一的檢索界面進(jìn)行網(wǎng)絡(luò)信息多元搜索 的檢索工具。按照工作方式的不同可分為并行處理式和串行

44、處理式兩大類。著名的有:Dogpile、Mamma和萬維搜索(Http:///www.widewaysearch.com)等。,5、搜索引擎的一般查詢規(guī)則,利用搜索引擎既可以檢索出Internet 上的文獻(xiàn)信息,還可以查找到公司和個人的信息;既可以通過輸入單詞、詞組或短語進(jìn)行檢索,還可以使用邏輯算符及位置算符等對多個詞進(jìn)行組合檢索;既可以以詞語查詢有關(guān)主題的頁面信息,也可以以特定的域名、主機(jī)名、URL 等查找有關(guān)的網(wǎng)站信息。搜索引擎是

45、基于一些基本的查詢規(guī)則來實現(xiàn)這些查詢條件的,但各個搜索引擎所采用的查詢規(guī)則又不盡相同。下面介紹的是常用的一般查詢規(guī)則。,. 布爾邏輯算符,(1) 邏輯“與”邏輯“與”一般用“AND”表示,有的搜索引擎還可以用“&”表示。使用邏輯“與”是為了要求檢索結(jié)果的Web 頁面中同時出現(xiàn)所有輸入的檢索詞,提高查準(zhǔn)率。(2) 邏輯“或”邏輯“或”一般用“OR”表示,有的搜索引擎還可以用“|”表示。使用邏輯“或”是為了允許檢索結(jié)果的Web

46、 頁面中出現(xiàn)輸入檢索詞的任何一個,提高查全率。(3) 邏輯“非”邏輯“非”一般用“NOT”表示,有的搜索引擎還可用“!”表示。使用邏輯“非”是為了要求檢索結(jié)果的Web 頁面中出現(xiàn)NOT 前的檢索詞,但排除含有NOT 后的檢索詞的頁面信息,以縮小檢索范圍。,. 連接符,連接符有加號(+)和減號(-)。(1) 在檢索詞前使用“+”時,表示所有檢索結(jié)果的頁面中都必須包含該詞。例如:檢索式“+A+B”,表示查得的頁面中應(yīng)出現(xiàn)“A”和“B

47、”方面的信息;而檢索式“A+B”,則表示在檢索結(jié)果頁面中一定含有“B”,但不一定有“A”的信息。(2) 檢索詞前使用“-”時,表示任何檢索結(jié)果的頁面中都不能包含該詞。例如:檢索式“microwave-ceramic”,則表示查找關(guān)于microwave 的頁面,但排除那些和ceramic 有關(guān)的頁面。,,. 截詞符截詞符一般用星號(*)表示。當(dāng)“*”置于一個詞的未尾時,表示將相同詞干的詞全部檢索出來。例如;檢索式“compu*”,則

48、表示可以檢索到computer、computing、compulsion 等詞。有一些搜索引擎支持自動截詞,用戶不需要專門輸入截詞符,系統(tǒng)自動將相同詞干的詞全部找出來。注意:“*”不能用在檢索詞的開始和中間。. 鄰近符鄰近符(NEAR)用于檢索在一定區(qū)域范圍內(nèi)同時出現(xiàn)的檢索詞的文獻(xiàn),它指定了檢索詞之間的距離。用NEAR/n(n 為1,2,3…)精確控制檢索詞之間的距離,表示檢索詞的間距最大不超過n 個單詞。例如:檢索式“Comput

49、er near/10 Network”,可查找出computer 和Network 兩詞之間插入不大于10 個單詞的文獻(xiàn),檢索結(jié)果輸出時,間隔越小的排列位置越靠前。,. 空格、逗號、括號、引號的作用,(1) 空格空格的作用與邏輯“與”(AND)相同。例如:檢索式“aircraft engine”,表示可查出含有“aircraft”及“engine”的頁面。在漢字作為關(guān)鍵詞輸入時,切記不要在構(gòu)成關(guān)鍵詞的兩個字之間插入空格,否則,就會發(fā)

50、生兩個字之間進(jìn)行邏輯“與”的檢索錯誤。例如:用戶要查找“飛機(jī)”這個關(guān)鍵詞,但卻輸入了“飛機(jī)”,由于“飛”和“機(jī)”兩字之間插入了空格,而被處理為“與”的關(guān)系,查出所有同時含有“飛”和“機(jī)”兩個字的頁面。這個檢索結(jié)果的范圍要比“飛機(jī)”作關(guān)鍵詞的結(jié)果擴(kuò)大了很多,許多結(jié)果中已不含有與“飛機(jī)”相關(guān)的信息。,,(2) 逗號逗號(,)的作用類似于邏輯“或”(OR),也是查找那些至少含有一個指定關(guān)鍵詞的頁面,區(qū)別是,檢索結(jié)果輸出時,包含指定關(guān)鍵詞越

51、多的頁面,其排列的位置越靠前。例如,檢索式“計算機(jī),網(wǎng)絡(luò),多媒體”,可查出包含三個關(guān)鍵詞中的任何一個或幾個的頁面,而同時含有“計算機(jī)”、“網(wǎng)絡(luò)”和“多媒體”的頁面輸出時排在前面。(3) 括號括號“( )”的作用是使括在其中的運(yùn)算符優(yōu)先執(zhí)行,用于改變復(fù)雜檢索式中固有邏輯運(yùn)算符優(yōu)先級的次序。例如,檢索式“多媒體and (計算機(jī)or 網(wǎng)絡(luò))”,表示要求先執(zhí)行括號中的“OR”運(yùn)算,再執(zhí)行括號外的“AND”運(yùn)算。,,(4) 引號引號( “

52、 ” )的作用是,括在其中的多個詞被當(dāng)作一個短語來檢索。絕大部分主要搜索引擎都支持短語檢索,找到含有與短語詞序和意義完全相同的頁面。例如,檢索式“electronic magazine” ,表示把electronic magazine 當(dāng)作一個短語來搜索。如果不加引號,搜索引擎就會把兩詞之間的空格按“與”處理,查出包含electronic 和magazine 的頁面,結(jié)果應(yīng)與用戶要求的主題內(nèi)容相去甚遠(yuǎn)。,6、國外綜合型檢索工具,目前有

53、記錄可查的國外的搜索引擎數(shù)量已達(dá)到2500個,其中有不少優(yōu)秀的綜合型搜索引擎,如: Google、 Yahoo!、AltaVista、Excite、Infoseek、Lycos、HotBot、OpenText等。訪問AltaVista(http://www.altavista.com) 的次數(shù)超過1億次。HotBot( http://www.hotbot.com )是美國享有盛譽(yù)的綜合型、混合型搜索引擎。,7、著名綜合型檢索工具Go

54、ogle,網(wǎng)址:http://www.google.com,,(1)、概述Google 是從第一代搜索引擎中脫穎而出的第二代搜索引擎的代表。1998 年,兩位斯坦福大學(xué)的博士生Larry Page 和Sergey Brin 創(chuàng)立了Google,它的使命就是要為用戶提供網(wǎng)上最好的查詢服務(wù),促進(jìn)全球信息的交流。Google 開發(fā)出了世界上最大的搜索引擎,提供了最便捷的網(wǎng)上信息查詢方法。通過對40 多億網(wǎng)頁進(jìn)行整理,可為世界各地的用戶提供適

55、合需要的搜索結(jié)果,而且搜索時間通常不到半秒。現(xiàn)在Google 每天需要提供1.5億次查詢服務(wù)。(2)、特點:支持多達(dá)132種語言;提供40多億個搜索網(wǎng)頁,涵蓋內(nèi)容齊全;搜索速度快;結(jié)果命中率高;搜索結(jié)果摘錄查詢網(wǎng)頁的部分具體內(nèi)容,而不僅是網(wǎng)站簡介;智能化的“手氣不錯”功能,提供可能最符合要求的網(wǎng)頁;“網(wǎng)頁快照”功能,能從Google服務(wù)器里直接取出緩存的網(wǎng)頁。,,(3)、檢索功能 基本檢索:邏輯“與”:檢索框中的兩個關(guān)鍵

56、詞之間用空格隔開則默認(rèn)為是“AND”(“與”運(yùn)算)連接。邏輯“非”:用“—”(減號)表示,同時要求在減號前保留一個空格。邏輯“或”:用“OR”表示。雙引號、斜線、問號、等號、省略號都可以作為短語的連接符號查找名言或?qū)S忻~。,,邏輯“與”,中間是空格,邏輯“非”,中間是空格,第二個詞前有“-”號連接,邏輯“或”,中間是連接符“OR”連接兩個關(guān)鍵詞,,字段限定檢索site:限定在某個特定的域或站點中進(jìn)行檢索。命令格式: 檢索詞

57、site:域名示例:要搜索北京大學(xué)山鷹社的信息。檢索式:山鷹社site:pku.edu.cn inurl:表示限定搜索結(jié)果,網(wǎng)頁的URL必須包含所規(guī)定的字符串。命令格式: inurl:限定的字符串檢索詞示例:搜索電子商務(wù)軟件環(huán)境的專題資料。許多中文網(wǎng)站都以“dzsw”作為電子商務(wù)專題目錄或頻道名稱。檢索式: inurl:dzsw軟件環(huán)境 filetype:用來限定命中文件的類型。命令格式:filetype:文件類型檢索

58、詞 試析檢索式: filetype:ppt信息檢索,指定網(wǎng)域查詢,,(4)、使用時應(yīng)注意的問題:不區(qū)分英文字母的大小寫,所有字母均作小寫對待。例如:輸入“george washington”(喬治·華盛頓),或是“George Washington”, 再或是“gEoRgE wAsHiNgToN”,結(jié)果都是一樣的。通配符問題。Google對通配符的支持有限,只能用“*”代替單個字符,而且必須將檢索詞用引號引起來,如“以

59、*治國”。忽略的字符與強(qiáng)制檢索。Google對一些出現(xiàn)頻率極高的英文單詞,如“i”、“com”、“www”等,以及一些符號如“*”、“.”等,作忽略處理。如果必須進(jìn)行強(qiáng)制檢索,在這些字符前后用“+”,如“+www+的歷史”,或用英文的引號。,強(qiáng) 制 搜 索,強(qiáng)制搜索輸入格式,(5)、檢索方法,(1)分類檢索在Google 首頁中選擇“網(wǎng)頁目錄”(Directory),即可進(jìn)入Google 分類目錄檢索界面,點擊“網(wǎng)頁目錄”,分類檢索

60、,,Google 網(wǎng)頁目錄是依網(wǎng)頁主題歸類,分為藝術(shù)(Arts)、住房(Home)、宗教(Religion)、商業(yè)(Business)、青少年(Kids and Teens)、科學(xué)(Science)、計算機(jī)(Computer)、新聞(News)、購物(Shopping)、游戲(Games)、休閑(Recrea-tion)、社會(Society)、健康(Health)、參考(Reference)、體育(Sports)、世界(World)十

61、八個大類,每個大類又細(xì)分為若干小類。該目錄里目前收錄了來自一百五十萬個以上網(wǎng)站的網(wǎng)頁。用戶可按相關(guān)類目進(jìn)行檢索。例如,在Google 目錄的Science >Astronomy 類別中搜索“Saturn”,可以找到只與Saturn(土星)有關(guān)的信息。而不會找到“Saturn”牌汽車、“Saturn”游戲系統(tǒng),或“Saturn”的其它含義。,(2)關(guān)鍵詞檢索,Google 關(guān)鍵詞檢索分為基本檢索和高級檢索,1、輸入檢索詞,2、點按“

62、搜索”即可,基本檢索界面,高級檢索界面,輸入檢索詞,限制區(qū)域,,高級檢索功能:可排除某個特定站點的網(wǎng)頁(限定網(wǎng)域)可對檢索結(jié)果頁面的語言類型進(jìn)行限制(限定語種)可限定檢索結(jié)果的時間范圍(更新日期)可限定關(guān)鍵詞出現(xiàn)的位置(字詞位置)可檢索鏈向某一個網(wǎng)頁的所有頁面(鍵連功能)可檢索與某一個網(wǎng)頁相關(guān)的所有網(wǎng)頁(相似網(wǎng)頁檢索),,Google提供的服務(wù)內(nèi)容,,Google的其他杰出功能網(wǎng)頁快照 單詞英文解釋 網(wǎng)頁翻譯 單詞糾

63、錯 繁簡轉(zhuǎn)換 搜索結(jié)果過濾,網(wǎng)頁快照,在訪問網(wǎng)站時,會將看過的網(wǎng)頁復(fù)制一份網(wǎng)頁快照,以備在找不到原來的網(wǎng)頁時使用。單擊“網(wǎng)頁快照”時,將看到Google 將該網(wǎng)頁編入索引時的頁面。Google 依據(jù)這些快照來分析網(wǎng)頁是否符合用戶的需求。在顯示網(wǎng)頁快照時,其頂部有一個標(biāo)題,用來提醒這不是實際的網(wǎng)頁。符合搜索條件的詞語在網(wǎng)頁快照上突出顯示,便于快速查找所需的相關(guān)資料。尚未編入索引的網(wǎng)站沒有“網(wǎng)頁快照”,另外,如果網(wǎng)站的所有者要求Goo

64、gle 刪除其快照,這些網(wǎng)站也沒有“網(wǎng)頁快照”。,類似網(wǎng)頁,單擊“類似網(wǎng)頁”時,Google 偵察兵便開始尋找與這一網(wǎng)頁相關(guān)的網(wǎng)頁。Google 偵察兵可以“一兵多用”。如果您對某一網(wǎng)站的內(nèi)容很感興趣,但又嫌資料不夠,Google 偵察兵會幫您找到其他有類似資料的網(wǎng)站;如果您在尋找產(chǎn)品信息,Google 偵察兵會為您提供相關(guān)信息,供您比較;如果在某一領(lǐng)域做學(xué)問,Google 偵察兵會成為您的助手,幫您快速找到大量資料。Google 偵察

65、兵已為成千上萬的網(wǎng)頁找到了類似網(wǎng)頁,但網(wǎng)頁越有個性,能找到的類似網(wǎng)頁就越少。,手氣不錯,按下“手氣不錯”按鈕將自動進(jìn)入Google 查詢到的第一個網(wǎng)頁。您將完全看不到其它的搜索結(jié)果。使用“手氣不錯”進(jìn)行搜索表示用于搜索網(wǎng)頁的時間較少而用于檢查網(wǎng)頁的時間較多。例如,要查找安徽工業(yè) 大學(xué)的主頁,只需在搜索字段中輸入“安徽工業(yè)大學(xué)”,然后單擊“手氣不錯”按鈕。Google 將直接帶您進(jìn)入安徽工業(yè)大學(xué)的官方主頁,1、輸入檢索詞“安徽工業(yè)大學(xué)”

66、,2、點“手氣不錯”按鈕,直接顯示“安徽工業(yè)大學(xué)”官方主頁,根據(jù)自己的需要定制檢索方式,8、雅虎Yahoo!綜合搜索引擎(http//www.Yahoo.com),Yahoo!是Internet 上最受歡迎的搜索引擎,也是訪問頻率最高的一個門戶網(wǎng)站。它是由美國斯坦福大學(xué)的華裔博士楊致遠(yuǎn)與他的同學(xué)David Filo 于1994 年開發(fā)的,目前,由美國多家公司與個人資助。Yahoo 具有覆蓋范圍廣、連接速度快、數(shù)據(jù)容量大、使用方法簡單等特

67、點;,英文雅虎主頁,中文雅虎主頁,,常用鏈接,提供了兩種模式的檢索方式:分類目錄檢索和關(guān)鍵詞檢索。,,分類目錄檢索,,,,,,,分類目錄,雅虎在各國家和地區(qū)主頁的鏈接,,,關(guān)鍵詞檢索,1、輸入檢索詞,2、點按“Search”進(jìn)行檢索,,檢索結(jié)果,單擊題名即可鏈接到該文獻(xiàn)的頁面,高級檢索,9、綜合型中文搜索引擎,目前形成規(guī)模的綜合型中文搜索引擎有:搜狐、網(wǎng)易、新浪、天網(wǎng)、北極星、搜索狗、悠游、中國搜索、263在線搜索引擎、21cn搜索引擎

68、、TOM中文搜索、常春藤、焦點搜索引擎、看中國、中國搜索、中國導(dǎo)航等。,百度搜索引擎,百度(http://www.baidu.com):百度搜索引擎是目前最有影響的中文網(wǎng)絡(luò)信息檢索系統(tǒng)。它的檢索詞可以是中文、英文、數(shù)字,或中英文數(shù)字的混合體。百度提供邏輯與、或、非檢索,多個關(guān)鍵詞之間必須留一個空格,系統(tǒng)默認(rèn)為邏輯“與”檢索,其他同Google的檢索方法。百度的字段限定檢索同Google,,www.sogou.com,e.pku.ed

69、u.cn,10、專題型搜索引擎,專題型檢索工具專門提供某一學(xué)科/主題范圍的網(wǎng)絡(luò)信息資源導(dǎo)航系統(tǒng)。塞迪網(wǎng)“IT羅盤”(http://itsearch.ccidnet.com):塞迪網(wǎng)是國內(nèi)著名的面向IT行業(yè)提供全面信息服務(wù)的垂直門戶站點。因特網(wǎng)法律資源指南(Internet Legal Resource Guide ,簡稱ILRG。(http://www.ilrg.com):是1995年 美國推出的第一家系統(tǒng)、全面提供法律網(wǎng)絡(luò)信息資源

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論