畢業(yè)論文基于web的信息檢索系統(tǒng)的研究

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-11-24 格式：docx 頁(yè)數(shù)：30 大小：89.13KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩29頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　基于Web的信息檢索系統(tǒng)的研究　　摘要　　基于Web的信息檢索系統(tǒng)的研究，討論了信息檢索的原理、評(píng)價(jià)方法、研究現(xiàn)狀和發(fā)展方向，也研究了主流的信息檢索算法，對(duì)信息檢索進(jìn)行了仿真實(shí)驗(yàn)。重點(diǎn)介紹了信息檢索的理論、算法和技術(shù)框架。提出了面向Web的個(gè)性化語(yǔ)義信息檢索技術(shù)。為了解決或減少檢索算法中Has

2、h地址的“碰撞”,把HASH的思想和索引順序表檢索的思想,以及二分檢索法的思想結(jié)合起來(lái)提出一種基于HASH表的二分檢索法，通過(guò)理論分析和實(shí)驗(yàn)證明，該算法檢索效率極高。　　關(guān)鍵詞：信息檢索；原理；算法；軟件框架　　目錄　　第 I 條一、前言3<

3、;p>　　第 II 條二、信息檢索的研究目的3　　節(jié) 2.01（一）研究目的3　　第 III 條三、信息檢索的原理與技術(shù)方法3　　節(jié) 3.01（一）、信息檢索原理3　　節(jié) 3.02（二）信息檢索的技術(shù)方法6

4、　　第 IV 條四、信息檢索仿真實(shí)驗(yàn)12　　節(jié) 4.01（一）、文本處理與倒排文檔的建立12　　第 V 條總結(jié)29　　第 VI 條參考文獻(xiàn)29　　第 VII 條致謝30　　一、前言

5、　　1990年以前，沒(méi)有任何人能夠檢索互聯(lián)網(wǎng)上的信息。應(yīng)該說(shuō)，所有的網(wǎng)絡(luò)信息檢索工具都是從1990年的Alan Emtage等人發(fā)明的Archie開(kāi)的，雖然它只可以實(shí)現(xiàn)簡(jiǎn)單意義上的FTP文件檢索。隨著world wide web 的出現(xiàn)和發(fā)展，基于網(wǎng)頁(yè)的信息檢索工具出現(xiàn)并迅速發(fā)展起來(lái)。1995年基于網(wǎng)絡(luò)信息檢索工具本身的檢索工具元搜索引擎由美國(guó)華盛頓大學(xué)的Eric Selb

6、erg等發(fā)明。伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，網(wǎng)絡(luò)信息檢索技術(shù)工具也取得了十足的發(fā)展，已成為人們獲取信息的重要手段。　　本文對(duì)信息檢索的研究?jī)?nèi)容和研究目的、信息檢索的研究現(xiàn)狀、傳統(tǒng)檢索模型等基礎(chǔ)內(nèi)容進(jìn)行簡(jiǎn)單介紹；在此基礎(chǔ)上，重點(diǎn)介紹了個(gè)性化信息檢索的相關(guān)理論、算法和技術(shù)框架。　　二、信息檢索的研究目的

7、（一）研究目的　　隨著計(jì)算機(jī)的普及和互聯(lián)網(wǎng)的發(fā)展，要想從海量的信息中找到自己需要的信息無(wú)疑是一項(xiàng)極具挑戰(zhàn)性的工作。顯然，僅僅依靠人工搜索和提取，其操作過(guò)程將非常繁瑣，并且速度和效率極低，信息質(zhì)量也得不到保證。解決人們獲取信息的困難，迫切需要一些自動(dòng)化的工具幫助人們快速找到真正需要的信息，這就是信息檢索的任務(wù)。信息檢索是互聯(lián)網(wǎng)上最基礎(chǔ)、最核心的技術(shù)。一個(gè)搜索引擎就是一個(gè)檢索系統(tǒng)

8、，它掌控著人們從信息海洋中獲取有用信息的路徑。　　三、信息檢索的原理與技術(shù)方法　　（一）、信息檢索原理　　廣義地講，信息檢索包含信息儲(chǔ)存和信息檢索兩個(gè)過(guò)程。信息儲(chǔ)存是對(duì)文獻(xiàn)進(jìn)行收集、標(biāo)引及著錄，并加以有序化編排，編制信息檢索的工具的過(guò)程；信息檢索是從大量的信息中查找出用戶所需的特定信息的過(guò)程。而實(shí)施檢索的主要方法

9、就是利用各種檢索工具（見(jiàn)圖3.1）。　　信息存儲(chǔ)過(guò)程　　信息檢索過(guò)程　　圖3.1 信息檢索的原理　　1.信息儲(chǔ)存

10、信息儲(chǔ)存的工作內(nèi)容，主要是由標(biāo)引人員通過(guò)對(duì)原始文獻(xiàn)的閱讀分析，對(duì)文獻(xiàn)中的信息進(jìn)行鑒別、提煉和濃縮，并采用特定的方式予以整理、保存起來(lái)。它大致有如下幾個(gè)步驟：　?。?）選擇文獻(xiàn)。根據(jù)信息檢索系統(tǒng)的主題、性質(zhì)及任務(wù)等，結(jié)合原始文獻(xiàn)本身的研究水平、角度及其信息質(zhì)量，對(duì)原始文獻(xiàn)進(jìn)行適當(dāng)?shù)脑u(píng)價(jià)，從中篩選出符合要求的文獻(xiàn)。　?。?）文獻(xiàn)的概念分析。對(duì)所選文獻(xiàn)進(jìn)行仔細(xì)

11、的主題分析，提煉出文獻(xiàn)所論述的內(nèi)容主題，歸納為代表文獻(xiàn)內(nèi)容的若干主題概念，并確定這些主題概念之間的關(guān)系。　　（3）詞匯轉(zhuǎn)換。把文獻(xiàn)的主題概念轉(zhuǎn)換為適當(dāng)?shù)奈墨I(xiàn)標(biāo)識(shí)（或標(biāo)引詞），并以這此標(biāo)識(shí)來(lái)表達(dá)文獻(xiàn)的主題內(nèi)容。這種轉(zhuǎn)換需要嚴(yán)謹(jǐn)?shù)亟⒃趦蓚€(gè)依據(jù)之上：一是必須以對(duì)文獻(xiàn)的主題概念分析為依據(jù)，二是必須以信息檢索語(yǔ)言為依據(jù)。前者主要決定轉(zhuǎn)換什么的問(wèn)題，即需要對(duì)文獻(xiàn)中的哪些信息主題做出轉(zhuǎn)換；后者主要決定怎樣轉(zhuǎn)

12、換的問(wèn)題，即把主題概念轉(zhuǎn)換為哪些標(biāo)識(shí)。　?。?）信息檢索工具的編制。概括地講，檢索工具是信息檢索系統(tǒng)的核心和概括，它主要包括兩個(gè)有序化的序列，即文獻(xiàn)序列和文獻(xiàn)標(biāo)識(shí)序列。　　文獻(xiàn)序列是由文獻(xiàn)描述體或文獻(xiàn)本身按照一定的方式組織形成的有序化序列，構(gòu)成文獻(xiàn)庫(kù)。文獻(xiàn)描述體是對(duì)原始文獻(xiàn)內(nèi)容的濃縮，常見(jiàn)的有文摘、題錄等，這是信息檢索所采用的傳統(tǒng)和主要的方式。其主要作用

13、是，使用戶能夠?qū)ξ墨I(xiàn)內(nèi)容有較為全面和準(zhǔn)確的了解，進(jìn)而做出是否需要獲取原始文獻(xiàn)的選擇。隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的發(fā)展，現(xiàn)在已經(jīng)有越來(lái)越多的信息檢索系統(tǒng)采用全文本的方式，直接把原始文獻(xiàn)本身組織為有序化的序列，尤其是因特網(wǎng)的迅猛發(fā)展，為全文本檢索拓展了更大的發(fā)展空間。　　文獻(xiàn)標(biāo)識(shí)的序列，是由文獻(xiàn)標(biāo)識(shí)按照特定的順序形成的有序化序列，構(gòu)成文獻(xiàn)庫(kù)的索引。最常見(jiàn)的排列方式為字順，即按照字母順序或漢語(yǔ)拼音，排列

14、為文獻(xiàn)標(biāo)識(shí)的序列。其作用主要是依靠字順組織，提供對(duì)文獻(xiàn)標(biāo)識(shí)的快速查找，并與提問(wèn)標(biāo)識(shí)加以比較，據(jù)此做出文獻(xiàn)是否與提問(wèn)相符的判斷。這個(gè)標(biāo)識(shí)比較的過(guò)程，也稱(chēng)為檢索的匹配。　　2．信息檢索　　信息檢索的工作內(nèi)容，主要是由檢索人員接受用戶的檢索提問(wèn)，對(duì)提問(wèn)進(jìn)行細(xì)致的主題分析，提煉出檢索的主題概念，并編制出相應(yīng)的檢索策略。<

15、;/p>　　其工作步驟如下：　?。?）用戶提問(wèn)。在特定的條件下，用戶會(huì)把頭腦中信息需求轉(zhuǎn)變?yōu)榫唧w的檢索行為。　?。?）提問(wèn)的概念分析。分析檢索提問(wèn)，識(shí)別檢索的真正主題內(nèi)容，把檢索主題分解為若干概念，并明確這些概念之間的關(guān)系。　　（3）詞匯轉(zhuǎn)換。把檢

16、索提問(wèn)的主題概念轉(zhuǎn)換為相應(yīng)的提問(wèn)標(biāo)識(shí)（或稱(chēng)為檢索詞），并以這些標(biāo)識(shí)來(lái)表達(dá)檢索提問(wèn)的主題內(nèi)容。其依據(jù)同樣有兩個(gè)方面：一是對(duì)提問(wèn)的主題概念分析，二是信息檢索語(yǔ)言。　　（4）檢索的實(shí)施。根據(jù)所得到的提問(wèn)標(biāo)識(shí)，在文獻(xiàn)標(biāo)識(shí)序列中，按照其排序的規(guī)則，迅速地進(jìn)行查找，并對(duì)文獻(xiàn)標(biāo)識(shí)與提問(wèn)標(biāo)識(shí)進(jìn)行匹配比較。如果文獻(xiàn)標(biāo)識(shí)與提問(wèn)標(biāo)識(shí)相同，那就表明包含有該標(biāo)識(shí)的文獻(xiàn)與用戶提問(wèn)相符合，該文獻(xiàn)被作為命中文獻(xiàn)而進(jìn)行檢索輸出；

17、如果文獻(xiàn)標(biāo)識(shí)與提問(wèn)標(biāo)識(shí)不相同，則表明文獻(xiàn)與用戶提問(wèn)不相符合，該文獻(xiàn)被作為不命中的文獻(xiàn)而排除。　　綜合上述信息儲(chǔ)存和檢索兩個(gè)方面，信息檢索的原理是：由標(biāo)引人員以文獻(xiàn)或文獻(xiàn)描述體構(gòu)成文獻(xiàn)庫(kù)，同時(shí)把文獻(xiàn)壓縮轉(zhuǎn)換為文獻(xiàn)標(biāo)識(shí)，以此表達(dá)文獻(xiàn)的特征和主題內(nèi)容，并對(duì)這些文獻(xiàn)庫(kù)和文獻(xiàn)標(biāo)識(shí)，按一定的方式分別予以有序化組織，從而形成信息檢索系統(tǒng)。這也就是信息儲(chǔ)存的過(guò)程。檢索時(shí)，把用戶的檢索提問(wèn)壓縮轉(zhuǎn)換為提問(wèn)標(biāo)識(shí)（檢索

18、詞），以此表達(dá)提問(wèn)的特征和主題內(nèi)容，并將提問(wèn)標(biāo)識(shí)與信息檢索系統(tǒng)中的文獻(xiàn)標(biāo)識(shí)進(jìn)行對(duì)比，進(jìn)而依據(jù)匹配與否，做出文獻(xiàn)是否符合檢索提問(wèn)的判斷。這也就是信息檢索的過(guò)程。　　因此，信息檢索的原理就是提問(wèn)標(biāo)識(shí)與文獻(xiàn)標(biāo)識(shí)的對(duì)比。　?。ǘ?信息檢索的技術(shù)方法　　1．手工信息檢索的技術(shù)方法

19、;　?。?）手工信息檢索工具　　在手工信息檢索工具中，目前主要使用的檢索工具包括：　?。?）目錄　　目錄是圖書(shū)或其他單獨(dú)出版物規(guī)律化、系統(tǒng)化的記載，主要用于檢索出版單位和藏書(shū)單位是否擁有信息檢索者所需要的書(shū)刊。目錄只涉及這些出版物的外部特征，如書(shū)名、卷數(shù)、作者、出版年月、版本

20、號(hào)、出版社名稱(chēng)、頁(yè)數(shù)等，但有的附有十分簡(jiǎn)單明了的內(nèi)容摘要。目錄是歷史上最早出現(xiàn)的信息檢索工具，種類(lèi)繁多，其中較為重要的有：國(guó)家書(shū)目、出版社目錄、書(shū)店目錄、館藏目錄、聯(lián)合目錄、專(zhuān)題目錄等。　　（3）索引　　索引是把一種或多種書(shū)刊里的具體內(nèi)容按一定的方式分別摘錄，并注明出處，以便檢索的一種工具。索引的種類(lèi)也很多。按尋找文

21、獻(xiàn)內(nèi)容特征的編制方法來(lái)分，有分類(lèi)索引與主題索引；按取材來(lái)源，又分為圖書(shū)索引、期刊索引、報(bào)紙索引及其他文獻(xiàn)索引；按著錄對(duì)象，可分為篇目索引、主題索引、條目索引、詞語(yǔ)索引及輔助索引等。　?。?）文摘　　文摘是把文獻(xiàn)資料的主要內(nèi)容，如主要論點(diǎn)、論據(jù)、原理、重要數(shù)據(jù)、結(jié)論、適用范圍等，由有一定水平和經(jīng)驗(yàn)的編者將其準(zhǔn)確、簡(jiǎn)要地

22、摘錄出來(lái)，并注明出處后，經(jīng)分類(lèi)排序而編制成的檢索工具。文摘的主要作用是供快速而準(zhǔn)確的閱讀和檢索，對(duì)查全率和查準(zhǔn)率要求比較高。因此，文摘的編纂遠(yuǎn)較目錄、索引來(lái)得艱巨、復(fù)雜，但所含的信息量遠(yuǎn)高于目錄和索引。文摘主要類(lèi)型包括指示性文摘、報(bào)道性文摘、統(tǒng)計(jì)性文摘等。　?。?）年鑒　　年鑒是以描述和統(tǒng)計(jì)的方式逐年提供某年度某一領(lǐng)

23、域信息的工具書(shū)。年鑒包含的內(nèi)容很豐富，從一部商貿(mào)年鑒中可以得到專(zhuān)家對(duì)某一行業(yè)或市場(chǎng)的綜述、分析、回顧和展望，了解新出臺(tái)的政策法規(guī)，最新的統(tǒng)計(jì)數(shù)據(jù)和企業(yè)介紹、調(diào)研報(bào)告、經(jīng)濟(jì)團(tuán)體和研究機(jī)構(gòu)的名錄、經(jīng)貿(mào)知識(shí)、理論研究、重要或最新產(chǎn)品、大事記、經(jīng)濟(jì)形勢(shì)分析和預(yù)測(cè)等，因而最適合于各類(lèi)現(xiàn)行資料的查詢。作為一種年度出版物，年鑒還能連續(xù)地反映事物的發(fā)展、停滯甚至倒退的趨勢(shì)。年鑒種類(lèi)很多，如中國(guó)經(jīng)濟(jì)年鑒、中國(guó)商業(yè)年鑒、中國(guó)廣告年鑒、中國(guó)金融年鑒、中國(guó)物價(jià)

24、年鑒、中國(guó)證券業(yè)年鑒等。　?。?）手冊(cè)　　手冊(cè)是匯集某一學(xué)科領(lǐng)域或業(yè)務(wù)部門(mén)專(zhuān)門(mén)知識(shí)的工具書(shū)，多是針對(duì)當(dāng)前實(shí)踐中的需要，以簡(jiǎn)明扼要的方式提供具體、實(shí)用的資料，供隨時(shí)翻檢查閱，故又稱(chēng)便覽，也常冠以“概鑒”、“大全”、“要覽”、“指南”、“必備”等名稱(chēng)。英文用Handbook和Manual表示，前者側(cè)重反映“何物”（wha

25、t）一類(lèi)的信息，如數(shù)據(jù)、事實(shí)等，后者偏重“如何做”（how-to）之類(lèi)的問(wèn)題。手冊(cè)種類(lèi)也相當(dāng)繁多，如市場(chǎng)預(yù)測(cè)實(shí)務(wù)全書(shū)、公司開(kāi)辦與經(jīng)營(yíng)手冊(cè)等。　?。?）百科全書(shū)　　百科全書(shū)是薈萃一切門(mén)類(lèi)或某一門(mén)類(lèi)知識(shí)、以概要方式介紹為主的多功能工具書(shū)。如果說(shuō)詞典的功能僅僅說(shuō)明某一概念，則百科全書(shū)是“接著定義往下說(shuō)”的工具書(shū)，它可以回答

26、諸如“何時(shí)”、“何地”、“如何”、“為何”等背景性知識(shí)，內(nèi)容詳盡完備，查閱、檢索功能都很突出，條目多由標(biāo)題、釋文、圖表和參考文獻(xiàn)組成，有的內(nèi)容專(zhuān)深，卷帳浩繁，是補(bǔ)充知識(shí)的常用工具。中國(guó)大百科全書(shū)，不列顛百科全書(shū)等都是非常實(shí)用的檢索工具。　　2.手工信息檢索工具的排檢技術(shù)　?。?）字順排檢技術(shù)&

27、lt;p>　　字順排檢技術(shù)是指將檢索工具的內(nèi)容按字、詞的一定順序或規(guī)律，有系統(tǒng)地組織排列起來(lái)的技術(shù)。　?。?）分類(lèi)排檢技術(shù)　　分類(lèi)排檢技術(shù)是指將信息素材按學(xué)科或事物性質(zhì)系統(tǒng)地加以排列。該技術(shù)有按一種方式單獨(dú)編排的，也有與按時(shí)間、地區(qū)排列技術(shù)相互配合使用的。<b&g

28、t;　?。?）主題排檢技術(shù)　　主題排檢技術(shù)是指以規(guī)范化的自然語(yǔ)言為標(biāo)識(shí)符號(hào)，來(lái)標(biāo)引信息內(nèi)容的排檢技術(shù)。主題排檢技術(shù)的一般形式是以主題詞來(lái)揭示信息素材記述的中心內(nèi)容或?qū)ο螅黝}詞本身按讀音或筆畫(huà)或字母順序加以排序。這種排檢技術(shù)把屬于不同學(xué)科、不同知識(shí)體系中論述同一問(wèn)題的信息素材集中標(biāo)引出來(lái)，揭示信息素材內(nèi)容比較深入、廣泛。<b&g

29、t;　?。?）時(shí)序排檢技術(shù)　　時(shí)序排檢技術(shù)是指按時(shí)間的順序組合信息素材的技術(shù)，多用于編制年表、年譜等檢索工具。　?。?）地序排檢技術(shù)　　地序排檢技術(shù)是指按一定時(shí)期的行政區(qū)域來(lái)排列信息素材的技術(shù)。這種技術(shù)可以把同一地區(qū)的有關(guān)信息素材集中在一起，全面地反映某一

30、地區(qū)、某一國(guó)家的歷史和現(xiàn)狀。　　3、計(jì)算機(jī)信息檢索的技術(shù)方法　?。?）聯(lián)機(jī)信息檢索的技術(shù)原理　　聯(lián)機(jī)檢索起源于20世紀(jì)60年代的美國(guó)。目前，聯(lián)機(jī)檢索業(yè)已形成了覆蓋全球的信息檢索系統(tǒng)，如 DIALOG、OCLC等。我國(guó)從20世紀(jì) 80年代開(kāi)始從事國(guó)際聯(lián)機(jī)檢索，經(jīng)過(guò)20余年的發(fā)展也已建立起了自己的聯(lián)機(jī)信息檢索系統(tǒng)，

31、如 ISTIC、MEIRS等。　　聯(lián)機(jī)信息檢索系統(tǒng)是一個(gè)典型的計(jì)算機(jī)信息系統(tǒng)，能完成數(shù)據(jù)收集、分析、加工處理、存儲(chǔ)、傳遞通信和檢索信息的全過(guò)程。在信息存儲(chǔ)的過(guò)程中，由系統(tǒng)按一定的規(guī)律對(duì)信息進(jìn)行加工處理，并賦予特征標(biāo)識(shí)；在信息檢索的過(guò)程中，由用戶通過(guò)系統(tǒng)提供的檢索指令，向系統(tǒng)提交含有需求特征的檢索表達(dá)式。計(jì)算機(jī)信息檢索系統(tǒng)接收到正確的指令后，自動(dòng)地將相關(guān)信息集合的特征標(biāo)識(shí)與用戶提交的檢索特征進(jìn)行“

32、匹配”。這種匹配完全是一種字符串的類(lèi)比運(yùn)算。匹配結(jié)束，系統(tǒng)自動(dòng)給出存儲(chǔ)信息的特征與檢索提問(wèn)的特征相符的記錄篇數(shù)，即命中數(shù)量。用戶通過(guò)顯示命中記錄的內(nèi)容，判斷檢索是否成功，這就是聯(lián)機(jī)信息檢索技術(shù)的基本原理。　?。?）聯(lián)機(jī)信息檢索的服務(wù)方式　　聯(lián)機(jī)信息檢索的服務(wù)方式主要有以下幾種：　　1）定題信息提供。這種服務(wù)是由檢

33、索系統(tǒng)工作人員將用戶信息需求轉(zhuǎn)換成一定的檢索提問(wèn)式，并將此提問(wèn)式存入計(jì)算機(jī)中，信息檢索系統(tǒng)定期從新的文獻(xiàn)信息中為用戶檢索，并按用戶指定的格式為用戶加以編排和打印。利用SDI服務(wù)，用戶可定期獲得所需要的最新信息，及時(shí)掌握同類(lèi)專(zhuān)題的動(dòng)態(tài)和進(jìn)展。　　2）專(zhuān)題回溯檢索。這是用戶對(duì)檢索系統(tǒng)中積累多年文獻(xiàn)資料的數(shù)據(jù)庫(kù)進(jìn)行檢索，查找一定時(shí)間范圍以內(nèi)或特定時(shí)間以前的文獻(xiàn)，通常采用聯(lián)機(jī)檢索方式進(jìn)行。此種服務(wù)的結(jié)果

34、一般要求切題，但又無(wú)大的遺漏，盡量做到省機(jī)時(shí)、省費(fèi)用。通過(guò)專(zhuān)題回溯檢索進(jìn)行專(zhuān)題查詢或情報(bào)調(diào)研時(shí)，可全面系統(tǒng)地了解有關(guān)文獻(xiàn)的線索。　　3）聯(lián)機(jī)訂購(gòu)原文。聯(lián)機(jī)檢索的結(jié)果通常是一些文摘或題錄形式的二次文獻(xiàn)形式。用戶通過(guò)閱讀這些二次文獻(xiàn)了解大致的內(nèi)容，然后根據(jù)這些文獻(xiàn)線索查找全文或通過(guò)E-mail方式索取。　　4．光盤(pán)信息檢索

35、;　　光盤(pán)是繼紙張、縮微膠片、磁存儲(chǔ)器之后的一種用激光束記錄和再現(xiàn)信息的存儲(chǔ)載體。用于檢索和閱讀的光盤(pán)通常為只讀光盤(pán)（CD-ROM）。它是一種信息載體，而要對(duì)其中的信息進(jìn)行檢索和利用則需要計(jì)算機(jī)的配合。光盤(pán)產(chǎn)品自20世紀(jì)70年代出現(xiàn)以來(lái)，最初只用于娛樂(lè)，直到1985年人們才研制出第一種專(zhuān)用于信息服務(wù)的光盤(pán)。自此，以光盤(pán)為載體的數(shù)據(jù)庫(kù)產(chǎn)品層出不窮，為信息產(chǎn)業(yè)的發(fā)展注入了新的生命力，特別是光盤(pán)與計(jì)算

36、機(jī)的結(jié)合，使得信息檢索模式發(fā)生了革命性的變化。　　（1）光盤(pán)信息檢索技術(shù)　　光盤(pán)信息檢索系統(tǒng)由微機(jī)、驅(qū)動(dòng)器及連接設(shè)備、CD－ROM數(shù)據(jù)庫(kù)（光盤(pán)）及其檢索軟件構(gòu)成。　　使用CD-ROM光盤(pán)需要在計(jì)算機(jī)上裝配CD-ROM驅(qū)動(dòng)器，驅(qū)動(dòng)器可安裝在諸如 IBMPC、XT、AT、Pentium以及絕大多數(shù)IBM兼容機(jī)上。驅(qū)動(dòng)

37、器是讀取光盤(pán)數(shù)據(jù)的專(zhuān)用設(shè)備，在微機(jī)擴(kuò)展槽上插入CD-ROM驅(qū)動(dòng)器的接口卡就可將微機(jī)與驅(qū)動(dòng)器連成一體。CD-ROM驅(qū)動(dòng)器有內(nèi)置式和外置式兩種，前者裝在微機(jī)機(jī)箱內(nèi)?？晒?jié)省臺(tái)面空間，價(jià)格較便宜；后者可很方便地移動(dòng)到不同的計(jì)算機(jī)上。選擇驅(qū)動(dòng)器時(shí)主要考慮以下性能：一是速度，一般為185-500ms之間；二是查找速度，一般在 250-400ms之間；三是數(shù)據(jù)緩沖區(qū)越大，可直接從存儲(chǔ)器存取的數(shù)據(jù)就越多，節(jié)省查詢時(shí)間；四是數(shù)據(jù)傳送速度，有單速、雙倍速乃

38、至40倍速以上的驅(qū)動(dòng)器。　?。?）光盤(pán)信息檢索方法　　光盤(pán)檢索系統(tǒng)的功能與指令與聯(lián)機(jī)檢索沒(méi)有很大區(qū)別，但更方便。各個(gè)系統(tǒng)一般都有如下功能鍵：Help（幫助）、Index（索引）、History（查閱歷史）、Display（顯示）、Print（打?。?、Select Database（選擇數(shù)據(jù)庫(kù)）、Format Window（格式窗）、Quit（退出）等。當(dāng)

39、然，系統(tǒng)一般不顯示當(dāng)前沒(méi)有使用的功能鍵，只列出正在使用的功能鍵。　　檢索信息時(shí)可用單元詞、多元詞（短語(yǔ)）、數(shù)字及布爾運(yùn)算符和位置運(yùn)算符把幾個(gè)檢索術(shù)語(yǔ)組配成一個(gè)提問(wèn)邏輯式。在編制提問(wèn)式時(shí)，可以用有關(guān)功能鍵彈出索引菜單，通過(guò)瀏覽各種索引獲取數(shù)據(jù)庫(kù)記錄中的關(guān)鍵詞、詞組和系統(tǒng)提供的主題詞表，以便選擇拼法、可能的截?cái)嘈g(shù)語(yǔ)和查找范圍。當(dāng)系統(tǒng)將檢中的記錄用標(biāo)題形式顯示出來(lái)時(shí)，用戶可以用方向鍵在屏幕上移動(dòng)至所需

40、題名，然后以全記錄形式顯示或打印它。　　系統(tǒng)保持著用戶的一切提問(wèn)和每一結(jié)果，因此，用戶可以隨時(shí)回顧其查找歷史，重新使用或修改以前的任何提問(wèn)。也可以在另一數(shù)據(jù)庫(kù)中選擇回顧歷史并執(zhí)行同樣的檢索策略，而不必重復(fù)鍵入或重新處理檢索術(shù)語(yǔ)。　　屏幕幫助是光盤(pán)數(shù)據(jù)庫(kù)最常用，也是重要的功能之一，對(duì)計(jì)算機(jī)檢索不熟悉的用戶在幾乎每一個(gè)重要步驟都可以得到指導(dǎo)。幫助的菜單內(nèi)容一

41、般是針對(duì)正在檢索中的某一個(gè)步驟，其內(nèi)容有：了解系統(tǒng)功能、提問(wèn)句法、檢索策略、記錄字段的描述、限制符、禁用詞和標(biāo)點(diǎn)、索引的使用、主題查找、從記錄中抽詞、截?cái)嗪团帕?、如何顯示記錄、改變顯示格式、打印記錄、保留記錄、結(jié)束查找、獲得文獻(xiàn)以及各種功能鍵的使用法。　　5．網(wǎng)絡(luò)信息檢索的技術(shù)方法　?。?）網(wǎng)絡(luò)信息檢索技術(shù)　　自

42、20世紀(jì)90年代以來(lái)，Internet已成為世界上最大的信息資源寶庫(kù)，網(wǎng)絡(luò)信息的查找和檢索，已遠(yuǎn)遠(yuǎn)超出了信息檢索領(lǐng)域，基于Internet的信息檢索系統(tǒng)成為網(wǎng)絡(luò)信息檢索階段的代表。網(wǎng)絡(luò)信息檢索的特點(diǎn)是：信息檢索范圍寬，用戶操作方便，但信息檢索準(zhǔn)確率不高。　　1）布爾檢索　　即按照布爾邏輯，采用邏輯算符將檢索提問(wèn)轉(zhuǎn)換為

43、相應(yīng)的邏輯表達(dá)式進(jìn)行檢索。一般情況下，邏輯加用“+”為運(yùn)算符，表示概念的聯(lián)合；邏輯乘以“*”為運(yùn)算符，表示概念的限定；邏輯非以“-”為運(yùn)算符，表示概念的排除。計(jì)算機(jī)根據(jù)表達(dá)式給出的關(guān)系進(jìn)行檢索匹配，予以輸出。　　使用布爾檢索，可以利用上述演算符，通過(guò)邏輯復(fù)雜的演算方式，對(duì)信息資源進(jìn)行確切查找。這對(duì)具有海量信息的檢索系統(tǒng)中信息資源的查找十分有效。例：以“北京*空氣污染*（汽車(chē)+可吸入顆粒物）-冬季

44、”表示對(duì)“北京除冬季外汽車(chē)和可吸入顆粒物造成的空氣污染狀況”這一主題的檢索。　　2）截詞檢索　　即采用截?cái)嗟姆绞?，利用詞的片段進(jìn)行檢索。通常用“*”符號(hào)來(lái)表示截?cái)?。截詞檢索又分為：　　①右截詞，如infor*，可檢索出所有以infor字符開(kāi)頭的語(yǔ)詞的資源。

45、　?、谧蠼卦~，如*infor，可檢索出所有結(jié)尾為infor字符的語(yǔ)詞的資源。　?、壑虚g截詞，如inf*mation，可檢索出所有以inf頭，以mation結(jié)尾的語(yǔ)詞的資源。　?、茏笥医卦~，如*format*，可檢索出所有中部具有format語(yǔ)詞的資源。　　截詞檢索是一種用字面相近度檢索相關(guān)資

46、料的檢索方法，具有提高檢全率的作用，在英文等西文檢索中十分普遍。漢字檢索時(shí)，一般只在對(duì)標(biāo)引詞精確匹配時(shí)才使用。此外不少系統(tǒng)還具有模糊檢索、容錯(cuò)檢索等功能，這實(shí)際上也是截詞檢索的一種應(yīng)用。　　3）精確檢索　　即通過(guò)規(guī)定各種檢索方式，限定和縮小檢索對(duì)象范圍，提高檢準(zhǔn)率。　　①精確

47、匹配檢索，即只能檢出與一語(yǔ)詞完全一致的資源。通常采用以“”括起的短語(yǔ)檢索。如以“信息存儲(chǔ)與檢索”表示檢索與檢索提問(wèn)完全一致的信息資源。　　②在英文檢索中區(qū)分大小寫(xiě)字母，一般使用小寫(xiě)字母的檢索詞可以同時(shí)檢出大小寫(xiě)字母的語(yǔ)詞；使用大寫(xiě)字母的檢索詞，只能與文本中采用大寫(xiě)字母的對(duì)應(yīng)語(yǔ)詞匹配。　?、巯噜彾葯z索。規(guī)定檢索詞與詞的距離，用于限定檢索的條件，例；以“信息

48、檢索near圖形文獻(xiàn)”表示檢索對(duì)象只有在兩詞的距離不超過(guò)10個(gè)詞或?qū)儆谕蛔匀欢螘r(shí)才符合檢索要求。　　采用精確匹配，用戶可以通過(guò)對(duì)檢索條件加以限定，檢索特征與用戶要求最為接近的信息資源。　　4）限定范圍檢索　　可以通過(guò)規(guī)定檢索范圍，針對(duì)性地選擇相應(yīng)的對(duì)象檢索。不少網(wǎng)絡(luò)搜索引擎

49、領(lǐng)域根據(jù)資源構(gòu)成成分的特點(diǎn)，規(guī)定了多種限定可能，供用戶選擇。　?、僖?guī)定進(jìn)行檢索的對(duì)象是網(wǎng)站還是包括網(wǎng)頁(yè)。　?、谝?guī)定進(jìn)行檢索匹配的對(duì)象是所有成分、還是文摘、題名還是網(wǎng)址（URL）。　?、巯薅z索的語(yǔ)言、地區(qū)、時(shí)間等的范圍，以文本框的形式提供語(yǔ)言、地區(qū)、時(shí)間的選擇列表或由用戶選擇。

50、 　?、芤?guī)定檢索的范疇對(duì)象，如通過(guò)建立頻道或選擇框的形式，提供圖像、新聞、產(chǎn)品、商業(yè)、購(gòu)物、教育、政府娛樂(lè)等類(lèi)型信息資源的檢索選擇等。　?、萁Y(jié)合類(lèi)目體系進(jìn)行檢索，將檢索限制在特定范疇下。　　5）相關(guān)檢索</

51、p>　　即提供各種相關(guān)資料檢索的手段，以提高查全率，改進(jìn)檢索效果。　?。?）網(wǎng)絡(luò)信息檢索模式　　網(wǎng)絡(luò)信息檢索模式有兩層含義。廣義理解為如何對(duì)網(wǎng)絡(luò)上的海量多態(tài)信息進(jìn)行組織，如何對(duì)這些信息建立索引，如何能動(dòng)態(tài)地維護(hù)索引，即對(duì)索引及時(shí)更新；如何設(shè)計(jì)檢索算法以對(duì)檢索提問(wèn)在查全、查準(zhǔn)、響應(yīng)時(shí)間、檢索結(jié)果控制與顯示方面表現(xiàn)良好；如何為用戶

52、設(shè)計(jì)一個(gè)簡(jiǎn)單易用的友好界面等方面。狹義的網(wǎng)絡(luò)信息檢索模式則只是以網(wǎng)絡(luò)（如 Internet）為媒介，利用網(wǎng)上已提供的一些信息檢索工具，探索如何使用這些工具及如何綜合各工具，使它們揚(yáng)長(zhǎng)避短，最后能實(shí)現(xiàn)對(duì)信息提問(wèn)的檢索查詢的一種方法與技術(shù)。　　廣義的網(wǎng)絡(luò)信息檢索模式是從根本上解決有效利用網(wǎng)絡(luò)信息資源的關(guān)鍵。沒(méi)有結(jié)構(gòu)合理的索引與高效的檢索算法，就無(wú)法實(shí)現(xiàn)完美的信息查詢；沒(méi)有對(duì)索引的動(dòng)態(tài)維護(hù)與及時(shí)的信息

53、更新，就有可能檢到信息垃圾，誤導(dǎo)信息用戶；沒(méi)有友好的用戶界面，用戶就在選擇與利用信息檢索工具時(shí)，錯(cuò)過(guò)對(duì)該工具的選擇，即使選擇了它，也可能因易用性差而得不到良好的查詢結(jié)果。對(duì)于面向最終用戶的信息檢索工具而言，友好的用戶界面較信息服務(wù)中介的時(shí)代有著更為重要的意義。　　狹義的信息檢索模式是在現(xiàn)實(shí)世界中有效利用網(wǎng)絡(luò)資源的核心。Internet上目前就已有大量的信息查詢工具為用戶服務(wù)。它們不但是利用網(wǎng)上信

54、息資源的重要工具，而且它們本身也是網(wǎng)絡(luò)信息資源的一個(gè)重要組成部分，對(duì)這些工具的開(kāi)發(fā)利用，也是開(kāi)發(fā)利用網(wǎng)絡(luò)信息資源的重要內(nèi)容之一。更為重要的是在對(duì)這些工具的多次利用、比較、分析、研究的過(guò)程中，可以得出網(wǎng)絡(luò)信息檢索模式的廣義內(nèi)涵，可以為開(kāi)發(fā)新型的網(wǎng)絡(luò)信息檢索工具提供重要的參考依據(jù)。　　四、信息檢索仿真實(shí)驗(yàn)　?。ㄒ唬?、文本處理與倒排文檔的建立</p&g

55、t;　　1.實(shí)驗(yàn)?zāi)康模?lt;/b>　　通過(guò)用高級(jí)語(yǔ)言編程實(shí)現(xiàn)倒排文檔組織，深刻理解倒排文檔的結(jié)構(gòu)和組成，掌握自動(dòng)抽詞標(biāo)引、建立倒排文檔的基本原理和實(shí)現(xiàn)方法。　　2．實(shí)驗(yàn)內(nèi)容：　?。?）系統(tǒng)功能

56、;　　建立文獻(xiàn)信息條目的順排文檔；對(duì)標(biāo)題字段、文摘或全文字段進(jìn)行自動(dòng)抽詞標(biāo)引；建立倒排文檔組織。　?。?）處理方法與思想　　根據(jù)文獻(xiàn)中詞頻、詞性與詞的區(qū)分能力之間的關(guān)系，具有好的區(qū)分能力的詞應(yīng)是中等詞頻有實(shí)際意義的詞，根據(jù)這一思想去掉停用詞，對(duì)文本進(jìn)行詞干化處理。然后根據(jù)一定的關(guān)鍵詞賦權(quán)方法進(jìn)行自動(dòng)標(biāo)引和抽詞，生

57、成K-D文件和倒排文檔。　?。?）算法流程與數(shù)據(jù)結(jié)構(gòu)　　①．從磁盤(pán)中讀入一篇文獻(xiàn) 　?、冢畬?duì)文獻(xiàn)文本進(jìn)行預(yù)處理： 　　詞匯分析 　　刪除停用詞

58、　　詞干處理　　選擇標(biāo)引詞　　建立概念等級(jí)關(guān)系 　?、蹖?duì)選出的標(biāo)引詞及其地址和記錄號(hào)進(jìn)行輸出并存儲(chǔ)在磁盤(pán)空間中，生成標(biāo)引詞表wordlist.txt文件　　對(duì)檢索入

59、口詞進(jìn)行規(guī)范化處理，通過(guò)屏幕輸入檢索詞進(jìn)行檢索，并驗(yàn)證倒排文檔的生成　　（4）源程序　　以下采用 c 程序設(shè)計(jì)語(yǔ)言實(shí)現(xiàn)上述算法　　#include<stdio.h>　　#include<string.h><

60、;/p>　　#include<conio.h>　　#include<ctype.h>　　#define MAX_LENGTH 6　　#define MAX_COUNT 1000 　　#define

61、 STOPLIST_COUNT 20　　char xx[50][80];　　int maxline=0; /*the Total Line Of The d1.txt*/　　typedef struct node{　　char word[20];</

62、p>　　char num[10];　　int row;　　int col;　　} WNODE;　　WNODE wordList[M

63、AX_COUNT];　　char* stopList[]={"a","an","and","are","as","at","be","by","for","from","in",

64、"is","of","on","or","our","the","to","with","we"};　　int SearchWord(char *str){

65、　int i=0;　　for(;i<STOPLIST_COUNT;i++)　　if(strcmp(stopList[i],str)==0) return 1;　　return 0;　　} &

66、lt;/b>　　int ReadWord(char *document)　　{　　FILE *fp;　　int i=0;<

67、p>　　char *p;　　if((fp=fopen(document,"r" ))==NULL) return 1;　　while(fgets(xx[i],80,fp)!=NULL){　　p=strchr(xx[i],'\n');&

68、lt;/p>　　if(p) *p=0;　　i++;　　}　　maxline=i;　　fclose(fp);

69、　return 0;　　}　　void Word(char *docu_num){　　clrscr();　　int i,j,k,m,n,ll,h=0,t=0,r=0,flag;

70、　　char yy[20];　　for(i=0;i<maxline;i++){　　ll=strlen(xx[i]);　　//printf("%d\n",ll);　　//for(j=0;j<ll;j+

71、+) printf("%c\n",xx[i][j]);　　k=n=0; 　　for(j=0;j<ll;j++){　　//if(isalpha(xx[i][j])) k++;　　if(isalpha(xx[

72、i][j])){flag=1;yy[n++]=xx[i][j];}　　else{　　yy[n]='\0';　　if(flag){　　if(!SearchWord(yy)){ <

73、;/p>　　for(t=0;t<=n;t++) wordList[h].word[t]=yy[t];　　//wordList[h].word=yy;　　for(r=0;r<=4;r++) wordList[h].num[r]=docu_num[r];　　wordList[h

74、].row=i;　　wordList[h].col=j-n; 　　}　　h++;　　n=0;</p&

75、gt;　　flag=0;　　k=0;　　}　　}　　}<

76、;/p>　　yy[n]='\0';　　if(flag){　　if(!SearchWord(yy)){ 　　for(t=0;t<=n;t++) wordList[h].word[t]=yy[t];<

77、p>　　for(r=0;r<=4;r++) wordList[h].num[r]=docu_num[r];　　wordList[h].row=i;　　wordList[h].col=j-n; 　　}</p&

78、gt;　　h++;　　n=0;　　flag=0;　　k=0;　　}</b&

79、gt;　　}　　}　　void WriteWord()　　{　　FILE *fp;</b&g

80、t;　　int i;　　clrscr();　　fp=fopen("WordList.txt","a");　　for(i=0;i<MAX_COUNT;i

81、++){　　if(strlen(wordList[i].word)){　　fprintf(fp,"%s\t",wordList[i].word);　　fprintf(fp,"%s\t",wordList[i].num);　　fpri

82、ntf(fp,"%d\t",wordList[i].row);　　fprintf(fp,"%d\n",wordList[i].col);　　}　　}　　fc

83、lose(fp);　　} 　　void main()　　{　　clrscr();　　FILE *f

84、p;　　char document[10],num[10];　　printf(" CopyRight By Lvshuagnwu ");　　printf("\n");　　printf("Enter th

85、e document-File name:\n");　　scanf("%s",document);　　while(strcmp(document,"end")){　　printf("Enter the document number(3 wei):\n&

86、quot;);　　scanf("%s",num);　　if(ReadWord(document)){　　printf("Cann't Open File:%s！\n\007",document);　　ret

87、urn;　　}　　Word(num);　　WriteWord();　　printf("Get Word from %s Succeed!\n",document);<

88、;p>　　printf("Enter the next document-File name:\n");　　scanf("%s",document); 　　} }　　（5）算法效率與改進(jìn)<p&

89、gt;　　標(biāo)引算法的比較次數(shù)為文獻(xiàn)詞匯量與停用詞數(shù)量乘積，從磁盤(pán)空間讀入文獻(xiàn)和停用詞表需要一定的時(shí)間，可以通過(guò)先比較詞頻生成臨時(shí)文件，再與停用詞表進(jìn)行比較，同時(shí)擴(kuò)大內(nèi)存將停用詞表直接放入內(nèi)存，以空間換時(shí)間的方式來(lái)提高標(biāo)引和檢索速度。　?。ǘ?順排文檔檢索算法的實(shí)現(xiàn)　　1．實(shí)驗(yàn)?zāi)康模?lt;/b><

90、p>　　通過(guò)用高級(jí)語(yǔ)言編程實(shí)現(xiàn)菊池敏典算法，深刻理解順排文檔的檢索技術(shù)和算法設(shè)計(jì)原理。　　實(shí)驗(yàn)內(nèi)容：　　（1）算法流程　?、?、從提問(wèn)文檔中讀取N個(gè)提問(wèn)式，并進(jìn)行語(yǔ)法檢查

91、②、生成提問(wèn)展開(kāi)表　　展開(kāi)表的生成，根據(jù)算法描述的順序方向劃分為兩大部分：前處理部分和后處理部分。　　設(shè)level(Ai) 表示經(jīng)過(guò)正向掃描以后 Ai 項(xiàng)在展開(kāi)表中的層次值, AFD(Ai) 表示檢索項(xiàng)目詞Ai 的“ 匹配一致時(shí)轉(zhuǎn)向地址”, NFD(Ai) 表示檢索項(xiàng)目詞Ai 的“ 匹配不一致時(shí)轉(zhuǎn)向地址”： </p&g

92、t;　　前處理部分,也叫正向掃描處理部分。按照邏輯提問(wèn)式各項(xiàng)因子出現(xiàn)的先后順序從左到右依次處理,設(shè)Ai為當(dāng)前處理項(xiàng).　　①掃描到檢索詞項(xiàng),則把Ai的匹配比較條件、項(xiàng)目檢索詞Ai、檢索類(lèi)型標(biāo)識(shí)符等有關(guān)信息置入展開(kāi)表中響應(yīng)位置，地址計(jì)數(shù)器加1并送到表中地址位，　　②掃描到“(”時(shí), level=level+1&l

93、t;p>　　掃描到“）”時(shí)，level=level-1　?、蹝呙璧竭壿嫵恕?”運(yùn)算符時(shí)，繼續(xù)搜索下一檢索項(xiàng)目詞，把它的地址位的值置入AFD(Ai)中，并有l(wèi)evel(Ai) level　?、軖呙璧竭壿嫾印?”，繼續(xù)搜索下一個(gè)檢索項(xiàng)目詞，把它的地址位的值置入NFD(Ai)中，并有l(wèi)evel(Ai) level

94、　?、輶呙璧竭壿嬏釂?wèn)結(jié)束符“.”時(shí),把檢索最終“成功”標(biāo)記置入最后一個(gè)檢索項(xiàng)目詞Ai的AFD(Ai)中,同時(shí)把檢索最終“失敗”標(biāo)記置入NFD(Ai)　　后處理部分: 也叫逆向掃描處理部分。逆向掃描從展開(kāi)表的倒數(shù)第二項(xiàng)開(kāi)始直到展開(kāi)表的第一項(xiàng)處理完為止。　?、倌嫦驋呙栌鲆?jiàn)NFD(Ai)欄目為空，則應(yīng)向回搜索，依次判別各level(Ai)值

95、。當(dāng)滿足條件level（ Ai）> level（ Aj），則立即停止向后搜索，并進(jìn)行以下操作：　　NFD(Ai) NFD(Aj)　　②逆向掃描遇見(jiàn)AFD(Ai) 為空時(shí)，同樣應(yīng)向回搜索，依次判別各項(xiàng)level（Aj）值。當(dāng)滿足條件level（ Ai）> level（ Aj）或者搜索到提問(wèn)邏輯式中最后一個(gè)檢索項(xiàng)目詞時(shí)，進(jìn)行以下操作：

96、　　AFD(Ai) AFD(Aj)　　3、分析提問(wèn)式　　Q=A+B*（C+D*（E+F））+G*H　　Q=01+02*（03+04*（05+06））+07*08

97、4、檢索處理流程　　從順排文檔中依次讀出一篇文獻(xiàn)記錄，然后與提問(wèn)文檔中所有的提問(wèn)式進(jìn)行匹配檢索，如滿足提問(wèn)表達(dá)式所要求的條件，該文獻(xiàn)記錄就作為提問(wèn)式的命中文獻(xiàn)輸出。系統(tǒng)需要對(duì)提問(wèn)文檔中各提問(wèn)式分批進(jìn)行處理，先從提問(wèn)式文檔中取N個(gè)提問(wèn)式處理，當(dāng)這N個(gè)提問(wèn)式與所有數(shù)據(jù)庫(kù)中文獻(xiàn)記錄匹配完畢后，再?gòu)奶釂?wèn)式文檔中取N個(gè)提問(wèn)式重復(fù)以上處理過(guò)程，一直到提問(wèn)式文檔中數(shù)據(jù)處理完為止。</

98、p>　　（1）數(shù)據(jù)結(jié)構(gòu)　?、贆z索詞表結(jié)構(gòu)　　檢索詞表是為了描述提問(wèn)式中出現(xiàn)的提問(wèn)檢索詞而設(shè)計(jì)的。因?yàn)樵趯?shí)際提問(wèn)式處理過(guò)程中，提問(wèn)檢索詞只是以其在檢索詞表中檢索詞號(hào)形式出現(xiàn)，而不是檢索詞本身。

99、?、谡归_(kāi)表結(jié)構(gòu)　　表8.1 檢索詞表的結(jié)構(gòu)　　地址是指該行所在展開(kāi)表中地址　　匹配成功時(shí)轉(zhuǎn)向地址AFD，給出一旦在檢索詞與文獻(xiàn)記錄中標(biāo)引詞匹配成功時(shí)，下步應(yīng)該處理的提問(wèn)檢索詞在提問(wèn)表中的地址。　　匹配不成功時(shí)轉(zhuǎn)向地址NFD，給出一旦檢索詞與標(biāo)引詞匹配失

100、敗以后應(yīng)該轉(zhuǎn)向展開(kāi)表中的地址。　　層次值給出層次計(jì)數(shù)器在完成展開(kāi)表填寫(xiě)時(shí)的當(dāng)前處理值。　　③標(biāo)引詞標(biāo)識(shí)表結(jié)構(gòu)　　是為了描述文獻(xiàn)記錄中各標(biāo)引詞特征而設(shè)立的，它的設(shè)立為提問(wèn)文檔與文獻(xiàn)記錄的匹配奠定了基礎(chǔ)。　　表8.2 標(biāo)引詞標(biāo)識(shí)表結(jié)構(gòu)&l

101、t;/p>　　標(biāo)引詞標(biāo)識(shí)號(hào)是系統(tǒng)賦予從文獻(xiàn)記錄中抽出標(biāo)引詞的類(lèi)編碼，實(shí)際上是屬性項(xiàng)號(hào)。　　有效位是指標(biāo)引詞在匹配中的有效長(zhǎng)度。　　項(xiàng)目詞是指具體的標(biāo)引詞　　3.源程序　　以下采用 c 程序設(shè)計(jì)語(yǔ)言實(shí)現(xiàn)上述算

102、法　　# include <stdio.h>　　main()　　{int b[20],a[20][4];　　int i,h,j,k,l,level;　　printf("i

103、nput query:\n");　　i=0;　　do {scanf("%c",&b[i]); i++;}　　while(b[i]!='.');　　h=i;<

104、/b>　　for(i=0;i<h;i++)　　a[i][0]=i+1;　　j=0;level=0;　　for(i=0;i<h;i++)　　{if((b[i]>='A')&&(

105、b[i]<='Z'))　　{j++; a[j][4]=b[i];}　　if(b[i]=='+')　　{a[j][2]=a[j+1][0]; a[j][3]=level;}　　if(b[j]=='*') {a[

106、j][1]=a[j+1][0];a[j][3]=level;}　　if(b[i]=='(') level+=1;　　if(b[i]==')') level-=1;　　if(b[i]=='.') {a[j][1]='Y'; a[j][2]

107、='N'; l=j;} 　　}　　for(j=l;j>0;j--)　　{if(a[j-1][3]>a[j][3])　　{if(a[j-1][1]!=0)　　a[j

108、-1][2]=a[j][2];　　if(a[j-1][2]!=0)　　a[j-1][1]=a[j][1];　　}　　if(a[j-1][3]==a[j][3])　　{if(a[j-1][1]!

109、=0)　　a[j-1][2]=a[j][2];　　if(a[j-1][2]!=0)　　a[j-1][1]=a[l][1];}　　if(a[j-1][3]<a[j][3])　　{ if(a[j-1][1]!=0)</p&

110、gt;　　{for(k=j;k<=l;k++)　　{if(a[k][3]<=a[j-1][3])　　a[j-1][2]=a[k][2];　　}　　}</p&

111、gt;　　if(a[j-1][2]!=2)　　{for(k=j;k<=l;k++)　　{if(a[k][3]<=a[j-1][3])　　a[j-1][1]=a[k][1];　　} } }

112、;　　printf("add afd nfd level word\n");　　for(j=1;j<l+1;j++)　　{for(i=0;i<5;i++)　　printf("%d ",&a[j][i]);<p&

113、gt;　　printf("\n");　　} } }　　4．算法改進(jìn)　　算法的不足　　A. 比較匹配策略花費(fèi)的機(jī)時(shí)可觀，比較次數(shù)m*n&

114、lt;/p>　　B. 不同提問(wèn)式中相同提問(wèn)詞重復(fù)的比較和匹配處理；　　C. 展開(kāi)表采用固定長(zhǎng)格式占用過(guò)多的內(nèi)存空間，以及對(duì)一個(gè)提問(wèn)式中提問(wèn)詞數(shù)量的限制；　　D. 標(biāo)引詞標(biāo)識(shí)表中同一屬性項(xiàng)號(hào)下的各檢索詞應(yīng)該組織一下，以減少查詢時(shí)間；　　E. 對(duì)否定的處理有一定的限制，不能處理邏輯非作用在

115、子表達(dá)式上這種情況。　　改進(jìn)：　　對(duì)于B的不足，通過(guò)增加一標(biāo)識(shí)變量，來(lái)記錄體溫次出現(xiàn)的次數(shù)，只對(duì)第一次出現(xiàn)該提問(wèn)詞時(shí)進(jìn)行比較，重復(fù)出現(xiàn)時(shí)不予比較。　　對(duì)于E 的不足，通過(guò)逆序算法進(jìn)行邏輯非運(yùn)算，實(shí)現(xiàn)對(duì)檢索提問(wèn)中否定的處理。　?。ㄈ?、

116、倒排文檔檢索算法的實(shí)現(xiàn)　　1．實(shí)驗(yàn)?zāi)康模?lt;/b>　　通過(guò)用高級(jí)語(yǔ)言編程實(shí)現(xiàn)福島算法，深刻理解倒排文檔的檢索技術(shù)和算法設(shè)計(jì)原理。　　實(shí)驗(yàn)內(nèi)容：　　（1）算法描述<

117、/p>　?、?、輸入檢索式，并進(jìn)行語(yǔ)法檢查，顯示出錯(cuò)信息；　?、?、將提問(wèn)表達(dá)式轉(zhuǎn)換為等價(jià)的逆波蘭表達(dá)式形式　?。?）根據(jù)表達(dá)式的語(yǔ)法規(guī)則,給每一個(gè)算子賦上一個(gè)優(yōu)先數(shù),以決定在處理過(guò)程中它們進(jìn)入算子保留棧的順序;　?。?）設(shè)立兩個(gè)數(shù)據(jù)存貯區(qū),一個(gè)是提問(wèn)算子保留棧,另一個(gè)是形成的結(jié)果保留區(qū)

118、,用于存放逆波蘭表達(dá)式;　　（4）原始提問(wèn)表達(dá)式存放區(qū),數(shù)據(jù)在該區(qū)從左到右讀入處理;　?。?）從原始提問(wèn)式存貯區(qū)中讀數(shù)據(jù)時(shí),若遇到算項(xiàng), 逆波蘭數(shù)據(jù)區(qū)計(jì)數(shù)器加1,并將算項(xiàng)存入;　　（6）讀入數(shù)據(jù)時(shí),若遇見(jiàn)算子,則將當(dāng)前所處理的算子項(xiàng)的優(yōu)先數(shù)與算子保留棧棧頂中算子的優(yōu)先數(shù)進(jìn)行比較:<p

119、>　　若其優(yōu)先數(shù)大于棧頂算子的優(yōu)先級(jí),則將算子保留棧計(jì)數(shù)器加1,并將當(dāng)前算子項(xiàng)存入算子保留棧中;　　若其優(yōu)先數(shù)不大于棧頂算子的優(yōu)先級(jí), 并且當(dāng)前項(xiàng)又不是括號(hào),此時(shí)應(yīng)將則將算子保留棧計(jì)數(shù)器減1,取出棧頂算子項(xiàng),同時(shí)將逆波蘭區(qū)計(jì)數(shù)器加1, 并將其存入, 再轉(zhuǎn)向（5）　　（7）若掃描中遇見(jiàn)左括號(hào),則將算子計(jì)數(shù)器加1后存入算子保留棧中;

120、　?。?）遇見(jiàn)右括號(hào),表示要對(duì)左右括號(hào)內(nèi)所包括的子表達(dá)式進(jìn)行運(yùn)算。將算子保留棧棧頂項(xiàng)依次退出棧中，并存放在逆波蘭表達(dá)式存貯區(qū)中，直到棧頂元素項(xiàng)是左括號(hào)時(shí)，將兩個(gè)配對(duì)括號(hào)拋棄為止。　?。?）若遇見(jiàn)提問(wèn)表達(dá)式結(jié)束標(biāo)記時(shí)，則將算子保留棧棧頂元素項(xiàng)依次送入逆波蘭表達(dá)式存貯區(qū)中。　　3、將逆波蘭表達(dá)式轉(zhuǎn)換為檢索指令表

121、　　順序掃描逆波蘭輸出區(qū), 在臨時(shí)工作數(shù)據(jù)區(qū)中找出一個(gè)未使用單元, 把該單元地址送入當(dāng)前檢索指令項(xiàng)第三操作數(shù)地址欄目中。同時(shí)將該單元封閉起來(lái)，置入使用標(biāo)記。將檢索詞的地址置入第一操作數(shù)地址欄目，把當(dāng)前檢索指令項(xiàng)的操作數(shù)欄目?jī)?nèi)置入　　在倒排文檔基礎(chǔ)之上利用檢索指令表進(jìn)行檢索處理　?。?）數(shù)據(jù)結(jié)構(gòu)<

122、;/p>　　處理環(huán)節(jié)有以下三個(gè)環(huán)節(jié)構(gòu)成：　?、侔延脩舻奶釂?wèn)邏輯式轉(zhuǎn)換成與之在邏輯語(yǔ)義上等價(jià)的逆波蘭表達(dá)式； 　?、诎研纬傻哪娌ㄌm表達(dá)式轉(zhuǎn)換成利于系統(tǒng)內(nèi)部檢索處理的形式------ 檢索指令結(jié)構(gòu)形式； 　?、劾靡呀?jīng)形成的檢索指令序列，在倒排文檔上進(jìn)行檢索，將檢索的命中文獻(xiàn)記錄等其它有關(guān)

123、信息輸出給用戶。 　　第一個(gè)環(huán)節(jié)：輸入數(shù)據(jù)是提問(wèn)表達(dá)式，輸出的是加工處理后的逆波蘭表達(dá)式。　　參照算符優(yōu)先級(jí)對(duì)照表與檢索詞與地址對(duì)照表定義提問(wèn)式算子存貯區(qū)、逆波蘭表達(dá)式輸出區(qū)與提問(wèn)式輸出區(qū)。　　第二個(gè)環(huán)節(jié)：輸入數(shù)據(jù)是逆波蘭表達(dá)式，輸出數(shù)據(jù)是與之等價(jià)的檢索指令系列。<

124、;b>　　檢索指令的數(shù)據(jù)結(jié)構(gòu)　　ON 檢索指令操作碼，　　AD1 第一操作數(shù)地址，　　AD2 第二操作數(shù)地址，　　AD3 第三操作數(shù)地址。　　輸入指令<

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

畢業(yè)論文基于web的信息檢索系統(tǒng)的研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

畢業(yè)論文基于web的信息檢索系統(tǒng)的研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載