2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  基于Web的信息檢索系統(tǒng)的研究</p><p><b>  摘 要</b></p><p>  基于Web的信息檢索系統(tǒng)的研究,討論了信息檢索的原理、評(píng)價(jià)方法、研究現(xiàn)狀和發(fā)展方向,也研究了主流的信息檢索算法,對(duì)信息檢索進(jìn)行了仿真實(shí)驗(yàn)。重點(diǎn)介紹了信息檢索的理論、算法和技術(shù)框架。提出了面向Web的個(gè)性化語(yǔ)義信息檢索技術(shù)。為了解決或減少檢索算法中Has

2、h地址的“碰撞”,把HASH的思想和索引順序表檢索的思想,以及二分檢索法的思想結(jié)合起來(lái)提出一種基于HASH表的二分檢索法,通過(guò)理論分析和實(shí)驗(yàn)證明,該算法檢索效率極高。</p><p>  關(guān)鍵詞:信息檢索; 原理;算法;軟件框架</p><p><b>  目錄</b></p><p>  第 I 條一、前言3</p><

3、;p>  第 II 條二、信息檢索的研究目的3</p><p>  節(jié) 2.01(一)研究目的3</p><p>  第 III 條三、信息檢索的原理與技術(shù)方法3</p><p>  節(jié) 3.01(一)、信息檢索原理3</p><p>  節(jié) 3.02(二) 信息檢索的技術(shù)方法6</p><p>

4、  第 IV 條四、信息檢索仿真實(shí)驗(yàn)12</p><p>  節(jié) 4.01(一)、 文本處理與倒排文檔的建立12</p><p>  第 V 條 總 結(jié)29</p><p>  第 VI 條 參考文獻(xiàn)29</p><p>  第 VII 條 致 謝30</p><p><b>  一、前言

5、</b></p><p>  1990年以前,沒(méi)有任何人能夠檢索互聯(lián)網(wǎng)上的信息。應(yīng)該說(shuō),所有的網(wǎng)絡(luò)信息檢索工具都是從1990年的Alan Emtage等人發(fā)明的Archie開(kāi)的,雖然它只可以實(shí)現(xiàn)簡(jiǎn)單意義上的FTP文件檢索。隨著world wide web 的出現(xiàn)和發(fā)展,基于網(wǎng)頁(yè)的信息檢索工具出現(xiàn)并迅速發(fā)展起來(lái)。1995年基于網(wǎng)絡(luò)信息檢索工具本身的檢索工具元搜索引擎由美國(guó)華盛頓大學(xué)的Eric Selb

6、erg等發(fā)明。伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息檢索技術(shù)工具也取得了十足的發(fā)展,已成為人們獲取信息的重要手段。</p><p>  本文對(duì)信息檢索的研究?jī)?nèi)容和研究目的、信息檢索的研究現(xiàn)狀、傳統(tǒng)檢索模型等基礎(chǔ)內(nèi)容進(jìn)行簡(jiǎn)單介紹;在此基礎(chǔ)上,重點(diǎn)介紹了個(gè)性化信息檢索的相關(guān)理論、算法和技術(shù)框架。</p><p>  二、信息檢索的研究目的</p><p><b>  

7、(一)研究目的</b></p><p>  隨著計(jì)算機(jī)的普及和互聯(lián)網(wǎng)的發(fā)展,要想從海量的信息中找到自己需要的信息無(wú)疑是一項(xiàng)極具挑戰(zhàn)性的工作。顯然,僅僅依靠人工搜索和提取,其操作過(guò)程將非常繁瑣,并且速度和效率極低,信息質(zhì)量也得不到保證。解決人們獲取信息的困難,迫切需要一些自動(dòng)化的工具幫助人們快速找到真正需要的信息,這就是信息檢索的任務(wù)。信息檢索是互聯(lián)網(wǎng)上最基礎(chǔ)、最核心的技術(shù)。一個(gè)搜索引擎就是一個(gè)檢索系統(tǒng)

8、,它掌控著人們從信息海洋中獲取有用信息的路徑。</p><p>  三、信息檢索的原理與技術(shù)方法</p><p>  (一)、信息檢索原理</p><p>  廣義地講,信息檢索包含信息儲(chǔ)存和信息檢索兩個(gè)過(guò)程。信息儲(chǔ)存是對(duì)文獻(xiàn)進(jìn)行收集、標(biāo)引及著錄,并加以有序化編排,編制信息檢索的工具的過(guò)程;信息檢索是從大量的信息中查找出用戶所需的特定信息的過(guò)程。而實(shí)施檢索的主要方法

9、就是利用各種檢索工具(見(jiàn)圖3.1)。</p><p><b>  信息存儲(chǔ)過(guò)程</b></p><p><b>  信息檢索過(guò)程</b></p><p>  圖3.1 信息檢索的原理</p><p><b>  1.信息儲(chǔ)存</b></p><p>  

10、信息儲(chǔ)存的工作內(nèi)容,主要是由標(biāo)引人員通過(guò)對(duì)原始文獻(xiàn)的閱讀分析,對(duì)文獻(xiàn)中的信息進(jìn)行鑒別、提煉和濃縮,并采用特定的方式予以整理、保存起來(lái)。它大致有如下幾個(gè)步驟:</p><p> ?。?)選擇文獻(xiàn)。根據(jù)信息檢索系統(tǒng)的主題、性質(zhì)及任務(wù)等,結(jié)合原始文獻(xiàn)本身的研究水平、角度及其信息質(zhì)量,對(duì)原始文獻(xiàn)進(jìn)行適當(dāng)?shù)脑u(píng)價(jià),從中篩選出符合要求的文獻(xiàn)。</p><p> ?。?)文獻(xiàn)的概念分析。對(duì)所選文獻(xiàn)進(jìn)行仔細(xì)

11、的主題分析,提煉出文獻(xiàn)所論述的內(nèi)容主題,歸納為代表文獻(xiàn)內(nèi)容的若干主題概念,并確定這些主題概念之間的關(guān)系。</p><p>  (3)詞匯轉(zhuǎn)換。把文獻(xiàn)的主題概念轉(zhuǎn)換為適當(dāng)?shù)奈墨I(xiàn)標(biāo)識(shí)(或標(biāo)引詞),并以這此標(biāo)識(shí)來(lái)表達(dá)文獻(xiàn)的主題內(nèi)容。這種轉(zhuǎn)換需要嚴(yán)謹(jǐn)?shù)亟⒃趦蓚€(gè)依據(jù)之上:一是必須以對(duì)文獻(xiàn)的主題概念分析為依據(jù),二是必須以信息檢索語(yǔ)言為依據(jù)。前者主要決定轉(zhuǎn)換什么的問(wèn)題,即需要對(duì)文獻(xiàn)中的哪些信息主題做出轉(zhuǎn)換;后者主要決定怎樣轉(zhuǎn)

12、換的問(wèn)題,即把主題概念轉(zhuǎn)換為哪些標(biāo)識(shí)。</p><p> ?。?)信息檢索工具的編制。概括地講,檢索工具是信息檢索系統(tǒng)的核心和概括,它主要包括兩個(gè)有序化的序列,即文獻(xiàn)序列和文獻(xiàn)標(biāo)識(shí)序列。</p><p>  文獻(xiàn)序列是由文獻(xiàn)描述體或文獻(xiàn)本身按照一定的方式組織形成的有序化序列,構(gòu)成文獻(xiàn)庫(kù)。文獻(xiàn)描述體是對(duì)原始文獻(xiàn)內(nèi)容的濃縮,常見(jiàn)的有文摘、題錄等,這是信息檢索所采用的傳統(tǒng)和主要的方式。其主要作用

13、是,使用戶能夠?qū)ξ墨I(xiàn)內(nèi)容有較為全面和準(zhǔn)確的了解,進(jìn)而做出是否需要獲取原始文獻(xiàn)的選擇。隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的發(fā)展,現(xiàn)在已經(jīng)有越來(lái)越多的信息檢索系統(tǒng)采用全文本的方式,直接把原始文獻(xiàn)本身組織為有序化的序列,尤其是因特網(wǎng)的迅猛發(fā)展,為全文本檢索拓展了更大的發(fā)展空間。</p><p>  文獻(xiàn)標(biāo)識(shí)的序列,是由文獻(xiàn)標(biāo)識(shí)按照特定的順序形成的有序化序列,構(gòu)成文獻(xiàn)庫(kù)的索引。最常見(jiàn)的排列方式為字順,即按照字母順序或漢語(yǔ)拼音,排列

14、為文獻(xiàn)標(biāo)識(shí)的序列。其作用主要是依靠字順組織,提供對(duì)文獻(xiàn)標(biāo)識(shí)的快速查找,并與提問(wèn)標(biāo)識(shí)加以比較,據(jù)此做出文獻(xiàn)是否與提問(wèn)相符的判斷。這個(gè)標(biāo)識(shí)比較的過(guò)程,也稱(chēng)為檢索的匹配。</p><p><b>  2.信息檢索</b></p><p>  信息檢索的工作內(nèi)容,主要是由檢索人員接受用戶的檢索提問(wèn),對(duì)提問(wèn)進(jìn)行細(xì)致的主題分析,提煉出檢索的主題概念,并編制出相應(yīng)的檢索策略。<

15、;/p><p><b>  其工作步驟如下:</b></p><p> ?。?)用戶提問(wèn)。在特定的條件下,用戶會(huì)把頭腦中信息需求轉(zhuǎn)變?yōu)榫唧w的檢索行為。</p><p> ?。?)提問(wèn)的概念分析。分析檢索提問(wèn),識(shí)別檢索的真正主題內(nèi)容,把檢索主題分解為若干概念,并明確這些概念之間的關(guān)系。</p><p>  (3)詞匯轉(zhuǎn)換。把檢

16、索提問(wèn)的主題概念轉(zhuǎn)換為相應(yīng)的提問(wèn)標(biāo)識(shí)(或稱(chēng)為檢索詞),并以這些標(biāo)識(shí)來(lái)表達(dá)檢索提問(wèn)的主題內(nèi)容。其依據(jù)同樣有兩個(gè)方面:一是對(duì)提問(wèn)的主題概念分析,二是信息檢索語(yǔ)言。</p><p>  (4)檢索的實(shí)施。根據(jù)所得到的提問(wèn)標(biāo)識(shí),在文獻(xiàn)標(biāo)識(shí)序列中,按照其排序的規(guī)則,迅速地進(jìn)行查找,并對(duì)文獻(xiàn)標(biāo)識(shí)與提問(wèn)標(biāo)識(shí)進(jìn)行匹配比較。如果文獻(xiàn)標(biāo)識(shí)與提問(wèn)標(biāo)識(shí)相同,那就表明包含有該標(biāo)識(shí)的文獻(xiàn)與用戶提問(wèn)相符合,該文獻(xiàn)被作為命中文獻(xiàn)而進(jìn)行檢索輸出;

17、如果文獻(xiàn)標(biāo)識(shí)與提問(wèn)標(biāo)識(shí)不相同,則表明文獻(xiàn)與用戶提問(wèn)不相符合,該文獻(xiàn)被作為不命中的文獻(xiàn)而排除。</p><p>  綜合上述信息儲(chǔ)存和檢索兩個(gè)方面,信息檢索的原理是:由標(biāo)引人員以文獻(xiàn)或文獻(xiàn)描述體構(gòu)成文獻(xiàn)庫(kù),同時(shí)把文獻(xiàn)壓縮轉(zhuǎn)換為文獻(xiàn)標(biāo)識(shí),以此表達(dá)文獻(xiàn)的特征和主題內(nèi)容,并對(duì)這些文獻(xiàn)庫(kù)和文獻(xiàn)標(biāo)識(shí),按一定的方式分別予以有序化組織,從而形成信息檢索系統(tǒng)。這也就是信息儲(chǔ)存的過(guò)程。檢索時(shí),把用戶的檢索提問(wèn)壓縮轉(zhuǎn)換為提問(wèn)標(biāo)識(shí)(檢索

18、詞),以此表達(dá)提問(wèn)的特征和主題內(nèi)容,并將提問(wèn)標(biāo)識(shí)與信息檢索系統(tǒng)中的文獻(xiàn)標(biāo)識(shí)進(jìn)行對(duì)比,進(jìn)而依據(jù)匹配與否,做出文獻(xiàn)是否符合檢索提問(wèn)的判斷。這也就是信息檢索的過(guò)程。</p><p>  因此,信息檢索的原理就是提問(wèn)標(biāo)識(shí)與文獻(xiàn)標(biāo)識(shí)的對(duì)比。</p><p> ?。ǘ?信息檢索的技術(shù)方法</p><p>  1. 手工信息檢索的技術(shù)方法</p><p>

19、; ?。?)手工信息檢索工具</p><p>  在手工信息檢索工具中,目前主要使用的檢索工具包括:</p><p><b> ?。?)目錄</b></p><p>  目錄是圖書(shū)或其他單獨(dú)出版物規(guī)律化、系統(tǒng)化的記載,主要用于檢索出版單位和藏書(shū)單位是否擁有信息檢索者所需要的書(shū)刊。目錄只涉及這些出版物的外部特征,如書(shū)名、卷數(shù)、作者、出版年月、版本

20、號(hào)、出版社名稱(chēng)、頁(yè)數(shù)等,但有的附有十分簡(jiǎn)單明了的內(nèi)容摘要。目錄是歷史上最早出現(xiàn)的信息檢索工具,種類(lèi)繁多,其中較為重要的有:國(guó)家書(shū)目、出版社目錄、書(shū)店目錄、館藏目錄、聯(lián)合目錄、專(zhuān)題目錄等。</p><p><b>  (3)索引</b></p><p>  索引是把一種或多種書(shū)刊里的具體內(nèi)容按一定的方式分別摘錄,并注明出處,以便檢索的一種工具。索引的種類(lèi)也很多。按尋找文

21、獻(xiàn)內(nèi)容特征的編制方法來(lái)分,有分類(lèi)索引與主題索引;按取材來(lái)源,又分為圖書(shū)索引、期刊索引、報(bào)紙索引及其他文獻(xiàn)索引;按著錄對(duì)象,可分為篇目索引、主題索引、條目索引、詞語(yǔ)索引及輔助索引等。</p><p><b> ?。?)文摘</b></p><p>  文摘是把文獻(xiàn)資料的主要內(nèi)容,如主要論點(diǎn)、論據(jù)、原理、重要數(shù)據(jù)、結(jié)論、適用范圍等,由有一定水平和經(jīng)驗(yàn)的編者將其準(zhǔn)確、簡(jiǎn)要地

22、摘錄出來(lái),并注明出處后,經(jīng)分類(lèi)排序而編制成的檢索工具。文摘的主要作用是供快速而準(zhǔn)確的閱讀和檢索,對(duì)查全率和查準(zhǔn)率要求比較高。因此,文摘的編纂遠(yuǎn)較目錄、索引來(lái)得艱巨、復(fù)雜,但所含的信息量遠(yuǎn)高于目錄和索引。文摘主要類(lèi)型包括指示性文摘、報(bào)道性文摘、統(tǒng)計(jì)性文摘等。</p><p><b> ?。?)年鑒</b></p><p>  年鑒是以描述和統(tǒng)計(jì)的方式逐年提供某年度某一領(lǐng)

23、域信息的工具書(shū)。年鑒包含的內(nèi)容很豐富,從一部商貿(mào)年鑒中可以得到專(zhuān)家對(duì)某一行業(yè)或市場(chǎng)的綜述、分析、回顧和展望,了解新出臺(tái)的政策法規(guī),最新的統(tǒng)計(jì)數(shù)據(jù)和企業(yè)介紹、調(diào)研報(bào)告、經(jīng)濟(jì)團(tuán)體和研究機(jī)構(gòu)的名錄、經(jīng)貿(mào)知識(shí)、理論研究、重要或最新產(chǎn)品、大事記、經(jīng)濟(jì)形勢(shì)分析和預(yù)測(cè)等,因而最適合于各類(lèi)現(xiàn)行資料的查詢。作為一種年度出版物,年鑒還能連續(xù)地反映事物的發(fā)展、停滯甚至倒退的趨勢(shì)。年鑒種類(lèi)很多,如中國(guó)經(jīng)濟(jì)年鑒、中國(guó)商業(yè)年鑒、中國(guó)廣告年鑒、中國(guó)金融年鑒、中國(guó)物價(jià)

24、年鑒、中國(guó)證券業(yè)年鑒等。</p><p><b> ?。?)手冊(cè)</b></p><p>  手冊(cè)是匯集某一學(xué)科領(lǐng)域或業(yè)務(wù)部門(mén)專(zhuān)門(mén)知識(shí)的工具書(shū),多是針對(duì)當(dāng)前實(shí)踐中的需要,以簡(jiǎn)明扼要的方式提供具體、實(shí)用的資料,供隨時(shí)翻檢查閱,故又稱(chēng)便覽,也常冠以“概鑒”、“大全”、“要覽”、“指南”、“必備”等名稱(chēng)。英文用Handbook和Manual表示,前者側(cè)重反映“何物”(wha

25、t)一類(lèi)的信息,如數(shù)據(jù)、事實(shí)等,后者偏重“如何做”(how-to)之類(lèi)的問(wèn)題。手冊(cè)種類(lèi)也相當(dāng)繁多,如市場(chǎng)預(yù)測(cè)實(shí)務(wù)全書(shū)、公司開(kāi)辦與經(jīng)營(yíng)手冊(cè)等。</p><p><b> ?。?)百科全書(shū)</b></p><p>  百科全書(shū)是薈萃一切門(mén)類(lèi)或某一門(mén)類(lèi)知識(shí)、以概要方式介紹為主的多功能工具書(shū)。如果說(shuō)詞典的功能僅僅說(shuō)明某一概念,則百科全書(shū)是“接著定義往下說(shuō)”的工具書(shū),它可以回答

26、諸如“何時(shí)”、“何地”、“如何”、“為何”等背景性知識(shí),內(nèi)容詳盡完備,查閱、檢索功能都很突出,條目多由標(biāo)題、釋文、圖表和參考文獻(xiàn)組成,有的內(nèi)容專(zhuān)深,卷帳浩繁,是補(bǔ)充知識(shí)的常用工具。中國(guó)大百科全書(shū),不列顛百科全書(shū)等都是非常實(shí)用的檢索工具。</p><p>  2.手工信息檢索工具的排檢技術(shù)</p><p><b> ?。?)字順排檢技術(shù)</b></p>&

27、lt;p>  字順排檢技術(shù)是指將檢索工具的內(nèi)容按字、詞的一定順序或規(guī)律,有系統(tǒng)地組織排列起來(lái)的技術(shù)。</p><p><b> ?。?)分類(lèi)排檢技術(shù)</b></p><p>  分類(lèi)排檢技術(shù)是指將信息素材按學(xué)科或事物性質(zhì)系統(tǒng)地加以排列。該技術(shù)有按一種方式單獨(dú)編排的,也有與按時(shí)間、地區(qū)排列技術(shù)相互配合使用的。</p><p><b&g

28、t; ?。?)主題排檢技術(shù)</b></p><p>  主題排檢技術(shù)是指以規(guī)范化的自然語(yǔ)言為標(biāo)識(shí)符號(hào),來(lái)標(biāo)引信息內(nèi)容的排檢技術(shù)。主題排檢技術(shù)的一般形式是以主題詞來(lái)揭示信息素材記述的中心內(nèi)容或?qū)ο螅黝}詞本身按讀音或筆畫(huà)或字母順序加以排序。這種排檢技術(shù)把屬于不同學(xué)科、不同知識(shí)體系中論述同一問(wèn)題的信息素材集中標(biāo)引出來(lái),揭示信息素材內(nèi)容比較深入、廣泛。</p><p><b&g

29、t; ?。?)時(shí)序排檢技術(shù)</b></p><p>  時(shí)序排檢技術(shù)是指按時(shí)間的順序組合信息素材的技術(shù),多用于編制年表、年譜等檢索工具。</p><p><b> ?。?)地序排檢技術(shù)</b></p><p>  地序排檢技術(shù)是指按一定時(shí)期的行政區(qū)域來(lái)排列信息素材的技術(shù)。這種技術(shù)可以把同一地區(qū)的有關(guān)信息素材集中在一起,全面地反映某一

30、地區(qū)、某一國(guó)家的歷史和現(xiàn)狀。</p><p>  3、 計(jì)算機(jī)信息檢索的技術(shù)方法</p><p> ?。?)聯(lián)機(jī)信息檢索的技術(shù)原理</p><p>  聯(lián)機(jī)檢索起源于20世紀(jì)60年代的美國(guó)。目前,聯(lián)機(jī)檢索業(yè)已形成了覆蓋全球的信息檢索系統(tǒng),如 DIALOG、OCLC等。我國(guó)從20世紀(jì) 80年代開(kāi)始從事國(guó)際聯(lián)機(jī)檢索,經(jīng)過(guò)20余年的發(fā)展也已建立起了自己的聯(lián)機(jī)信息檢索系統(tǒng),

31、如 ISTIC、MEIRS等。</p><p>  聯(lián)機(jī)信息檢索系統(tǒng)是一個(gè)典型的計(jì)算機(jī)信息系統(tǒng),能完成數(shù)據(jù)收集、分析、加工處理、存儲(chǔ)、傳遞通信和檢索信息的全過(guò)程。在信息存儲(chǔ)的過(guò)程中,由系統(tǒng)按一定的規(guī)律對(duì)信息進(jìn)行加工處理,并賦予特征標(biāo)識(shí);在信息檢索的過(guò)程中,由用戶通過(guò)系統(tǒng)提供的檢索指令,向系統(tǒng)提交含有需求特征的檢索表達(dá)式。計(jì)算機(jī)信息檢索系統(tǒng)接收到正確的指令后,自動(dòng)地將相關(guān)信息集合的特征標(biāo)識(shí)與用戶提交的檢索特征進(jìn)行“

32、匹配”。這種匹配完全是一種字符串的類(lèi)比運(yùn)算。匹配結(jié)束,系統(tǒng)自動(dòng)給出存儲(chǔ)信息的特征與檢索提問(wèn)的特征相符的記錄篇數(shù),即命中數(shù)量。用戶通過(guò)顯示命中記錄的內(nèi)容,判斷檢索是否成功,這就是聯(lián)機(jī)信息檢索技術(shù)的基本原理。</p><p> ?。?)聯(lián)機(jī)信息檢索的服務(wù)方式</p><p>  聯(lián)機(jī)信息檢索的服務(wù)方式主要有以下幾種:</p><p>  1)定題信息提供。這種服務(wù)是由檢

33、索系統(tǒng)工作人員將用戶信息需求轉(zhuǎn)換成一定的檢索提問(wèn)式,并將此提問(wèn)式存入計(jì)算機(jī)中,信息檢索系統(tǒng)定期從新的文獻(xiàn)信息中為用戶檢索,并按用戶指定的格式為用戶加以編排和打印。利用SDI服務(wù),用戶可定期獲得所需要的最新信息,及時(shí)掌握同類(lèi)專(zhuān)題的動(dòng)態(tài)和進(jìn)展。</p><p>  2)專(zhuān)題回溯檢索。這是用戶對(duì)檢索系統(tǒng)中積累多年文獻(xiàn)資料的數(shù)據(jù)庫(kù)進(jìn)行檢索,查找一定時(shí)間范圍以內(nèi)或特定時(shí)間以前的文獻(xiàn),通常采用聯(lián)機(jī)檢索方式進(jìn)行。此種服務(wù)的結(jié)果

34、一般要求切題,但又無(wú)大的遺漏,盡量做到省機(jī)時(shí)、省費(fèi)用。通過(guò)專(zhuān)題回溯檢索進(jìn)行專(zhuān)題查詢或情報(bào)調(diào)研時(shí),可全面系統(tǒng)地了解有關(guān)文獻(xiàn)的線索。</p><p>  3)聯(lián)機(jī)訂購(gòu)原文。聯(lián)機(jī)檢索的結(jié)果通常是一些文摘或題錄形式的二次文獻(xiàn)形式。用戶通過(guò)閱讀這些二次文獻(xiàn)了解大致的內(nèi)容,然后根據(jù)這些文獻(xiàn)線索查找全文或通過(guò)E-mail方式索取。</p><p><b>  4.光盤(pán)信息檢索</b>

35、;</p><p>  光盤(pán)是繼紙張、縮微膠片、磁存儲(chǔ)器之后的一種用激光束記錄和再現(xiàn)信息的存儲(chǔ)載體。用于檢索和閱讀的光盤(pán)通常為只讀光盤(pán)(CD-ROM)。它是一種信息載體,而要對(duì)其中的信息進(jìn)行檢索和利用則需要計(jì)算機(jī)的配合。光盤(pán)產(chǎn)品自20世紀(jì)70年代出現(xiàn)以來(lái),最初只用于娛樂(lè),直到1985年人們才研制出第一種專(zhuān)用于信息服務(wù)的光盤(pán)。自此,以光盤(pán)為載體的數(shù)據(jù)庫(kù)產(chǎn)品層出不窮,為信息產(chǎn)業(yè)的發(fā)展注入了新的生命力,特別是光盤(pán)與計(jì)算

36、機(jī)的結(jié)合,使得信息檢索模式發(fā)生了革命性的變化。</p><p>  (1)光盤(pán)信息檢索技術(shù)</p><p>  光盤(pán)信息檢索系統(tǒng)由微機(jī)、驅(qū)動(dòng)器及連接設(shè)備、CD-ROM數(shù)據(jù)庫(kù)(光盤(pán))及其檢索軟件構(gòu)成。</p><p>  使用CD-ROM光盤(pán)需要在計(jì)算機(jī)上裝配CD-ROM驅(qū)動(dòng)器,驅(qū)動(dòng)器可安裝在諸如 IBMPC、XT、AT、Pentium以及絕大多數(shù)IBM兼容機(jī)上。驅(qū)動(dòng)

37、器是讀取光盤(pán)數(shù)據(jù)的專(zhuān)用設(shè)備,在微機(jī)擴(kuò)展槽上插入CD-ROM驅(qū)動(dòng)器的接口卡就可將微機(jī)與驅(qū)動(dòng)器連成一體。CD-ROM驅(qū)動(dòng)器有內(nèi)置式和外置式兩種,前者裝在微機(jī)機(jī)箱內(nèi)??晒?jié)省臺(tái)面空間,價(jià)格較便宜;后者可很方便地移動(dòng)到不同的計(jì)算機(jī)上。選擇驅(qū)動(dòng)器時(shí)主要考慮以下性能:一是速度,一般為185-500ms之間;二是查找速度,一般在 250-400ms之間;三是數(shù)據(jù)緩沖區(qū)越大,可直接從存儲(chǔ)器存取的數(shù)據(jù)就越多,節(jié)省查詢時(shí)間;四是數(shù)據(jù)傳送速度,有單速、雙倍速乃

38、至40倍速以上的驅(qū)動(dòng)器。</p><p> ?。?)光盤(pán)信息檢索方法</p><p>  光盤(pán)檢索系統(tǒng)的功能與指令與聯(lián)機(jī)檢索沒(méi)有很大區(qū)別,但更方便。各個(gè)系統(tǒng)一般都有如下功能鍵:Help(幫助)、Index(索引)、History(查閱歷史)、Display(顯示)、Print(打?。?、Select Database(選擇數(shù)據(jù)庫(kù))、Format Window(格式窗)、Quit(退出)等。當(dāng)

39、然,系統(tǒng)一般不顯示當(dāng)前沒(méi)有使用的功能鍵,只列出正在使用的功能鍵。</p><p>  檢索信息時(shí)可用單元詞、多元詞(短語(yǔ))、數(shù)字及布爾運(yùn)算符和位置運(yùn)算符把幾個(gè)檢索術(shù)語(yǔ)組配成一個(gè)提問(wèn)邏輯式。在編制提問(wèn)式時(shí),可以用有關(guān)功能鍵彈出索引菜單,通過(guò)瀏覽各種索引獲取數(shù)據(jù)庫(kù)記錄中的關(guān)鍵詞、詞組和系統(tǒng)提供的主題詞表,以便選擇拼法、可能的截?cái)嘈g(shù)語(yǔ)和查找范圍。當(dāng)系統(tǒng)將檢中的記錄用標(biāo)題形式顯示出來(lái)時(shí),用戶可以用方向鍵在屏幕上移動(dòng)至所需

40、題名,然后以全記錄形式顯示或打印它。</p><p>  系統(tǒng)保持著用戶的一切提問(wèn)和每一結(jié)果,因此,用戶可以隨時(shí)回顧其查找歷史,重新使用或修改以前的任何提問(wèn)。也可以在另一數(shù)據(jù)庫(kù)中選擇回顧歷史并執(zhí)行同樣的檢索策略,而不必重復(fù)鍵入或重新處理檢索術(shù)語(yǔ)。</p><p>  屏幕幫助是光盤(pán)數(shù)據(jù)庫(kù)最常用,也是重要的功能之一,對(duì)計(jì)算機(jī)檢索不熟悉的用戶在幾乎每一個(gè)重要步驟都可以得到指導(dǎo)。幫助的菜單內(nèi)容一

41、般是針對(duì)正在檢索中的某一個(gè)步驟,其內(nèi)容有:了解系統(tǒng)功能、提問(wèn)句法、檢索策略、記錄字段的描述、限制符、禁用詞和標(biāo)點(diǎn)、索引的使用、主題查找、從記錄中抽詞、截?cái)嗪团帕?、如何顯示記錄、改變顯示格式、打印記錄、保留記錄、結(jié)束查找、獲得文獻(xiàn)以及各種功能鍵的使用法。</p><p>  5.網(wǎng)絡(luò)信息檢索的技術(shù)方法</p><p> ?。?)網(wǎng)絡(luò)信息檢索技術(shù)</p><p>  自

42、20世紀(jì)90年代以來(lái),Internet已成為世界上最大的信息資源寶庫(kù),網(wǎng)絡(luò)信息的查找和檢索,已遠(yuǎn)遠(yuǎn)超出了信息檢索領(lǐng)域,基于Internet的信息檢索系統(tǒng)成為網(wǎng)絡(luò)信息檢索階段的代表。網(wǎng)絡(luò)信息檢索的特點(diǎn)是:信息檢索范圍寬,用戶操作方便,但信息檢索準(zhǔn)確率不高。</p><p><b>  1)布爾檢索</b></p><p>  即按照布爾邏輯,采用邏輯算符將檢索提問(wèn)轉(zhuǎn)換為

43、相應(yīng)的邏輯表達(dá)式進(jìn)行檢索。一般情況下,邏輯加用“+”為運(yùn)算符,表示概念的聯(lián)合;邏輯乘以“*”為運(yùn)算符,表示概念的限定;邏輯非以“-”為運(yùn)算符,表示概念的排除。計(jì)算機(jī)根據(jù)表達(dá)式給出的關(guān)系進(jìn)行檢索匹配,予以輸出。</p><p>  使用布爾檢索,可以利用上述演算符,通過(guò)邏輯復(fù)雜的演算方式,對(duì)信息資源進(jìn)行確切查找。這對(duì)具有海量信息的檢索系統(tǒng)中信息資源的查找十分有效。例:以“北京*空氣污染*(汽車(chē)+可吸入顆粒物)-冬季

44、”表示對(duì)“北京除冬季外汽車(chē)和可吸入顆粒物造成的空氣污染狀況”這一主題的檢索。</p><p><b>  2)截詞檢索</b></p><p>  即采用截?cái)嗟姆绞?,利用詞的片段進(jìn)行檢索。通常用“*”符號(hào)來(lái)表示截?cái)?。截詞檢索又分為:</p><p>  ①右截詞,如infor*,可檢索出所有以infor字符開(kāi)頭的語(yǔ)詞的資源。</p>

45、<p> ?、谧蠼卦~,如*infor,可檢索出所有結(jié)尾為infor字符的語(yǔ)詞的資源。</p><p> ?、壑虚g截詞,如inf*mation,可檢索出所有以inf頭,以mation結(jié)尾的語(yǔ)詞的資源。</p><p> ?、茏笥医卦~,如*format*,可檢索出所有中部具有format語(yǔ)詞的資源。</p><p>  截詞檢索是一種用字面相近度檢索相關(guān)資

46、料的檢索方法,具有提高檢全率的作用,在英文等西文檢索中十分普遍。漢字檢索時(shí),一般只在對(duì)標(biāo)引詞精確匹配時(shí)才使用。此外不少系統(tǒng)還具有模糊檢索、容錯(cuò)檢索等功能,這實(shí)際上也是截詞檢索的一種應(yīng)用。</p><p><b>  3)精確檢索</b></p><p>  即通過(guò)規(guī)定各種檢索方式,限定和縮小檢索對(duì)象范圍,提高檢準(zhǔn)率。</p><p>  ①精確

47、匹配檢索,即只能檢出與一語(yǔ)詞完全一致的資源。通常采用以“”括起的短語(yǔ)檢索。如以“信息存儲(chǔ)與檢索”表示檢索與檢索提問(wèn)完全一致的信息資源。</p><p>  ②在英文檢索中區(qū)分大小寫(xiě)字母,一般使用小寫(xiě)字母的檢索詞可以同時(shí)檢出大小寫(xiě)字母的語(yǔ)詞;使用大寫(xiě)字母的檢索詞,只能與文本中采用大寫(xiě)字母的對(duì)應(yīng)語(yǔ)詞匹配。</p><p> ?、巯噜彾葯z索。規(guī)定檢索詞與詞的距離,用于限定檢索的條件,例;以“信息

48、檢索near圖形文獻(xiàn)”表示檢索對(duì)象只有在兩詞的距離不超過(guò)10個(gè)詞或?qū)儆谕蛔匀欢螘r(shí)才符合檢索要求。</p><p>  采用精確匹配,用戶可以通過(guò)對(duì)檢索條件加以限定,檢索特征與用戶要求最為接近的信息資源。</p><p><b>  4)限定范圍檢索</b></p><p>  可以通過(guò)規(guī)定檢索范圍,針對(duì)性地選擇相應(yīng)的對(duì)象檢索。不少網(wǎng)絡(luò)搜索引擎

49、領(lǐng)域根據(jù)資源構(gòu)成成分的特點(diǎn),規(guī)定了多種限定可能,供用戶選擇。</p><p> ?、僖?guī)定進(jìn)行檢索的對(duì)象是網(wǎng)站還是包括網(wǎng)頁(yè)。</p><p> ?、谝?guī)定進(jìn)行檢索匹配的對(duì)象是所有成分、還是文摘、題名還是網(wǎng)址(URL)。</p><p> ?、巯薅z索的語(yǔ)言、地區(qū)、時(shí)間等的范圍,以文本框的形式提供語(yǔ)言、地區(qū)、時(shí)間的選擇列表或由用戶選擇。

50、 </p><p> ?、芤?guī)定檢索的范疇對(duì)象,如通過(guò)建立頻道或選擇框的形式,提供圖像、新聞、產(chǎn)品、商業(yè)、購(gòu)物、教育、政府娛樂(lè)等類(lèi)型信息資源的檢索選擇等。</p><p> ?、萁Y(jié)合類(lèi)目體系進(jìn)行檢索,將檢索限制在特定范疇下。</p><p><b>  5)相關(guān)檢索</b></

51、p><p>  即提供各種相關(guān)資料檢索的手段,以提高查全率,改進(jìn)檢索效果。</p><p> ?。?)網(wǎng)絡(luò)信息檢索模式</p><p>  網(wǎng)絡(luò)信息檢索模式有兩層含義。廣義理解為如何對(duì)網(wǎng)絡(luò)上的海量多態(tài)信息進(jìn)行組織,如何對(duì)這些信息建立索引,如何能動(dòng)態(tài)地維護(hù)索引,即對(duì)索引及時(shí)更新;如何設(shè)計(jì)檢索算法以對(duì)檢索提問(wèn)在查全、查準(zhǔn)、響應(yīng)時(shí)間、檢索結(jié)果控制與顯示方面表現(xiàn)良好;如何為用戶

52、設(shè)計(jì)一個(gè)簡(jiǎn)單易用的友好界面等方面。狹義的網(wǎng)絡(luò)信息檢索模式則只是以網(wǎng)絡(luò)(如 Internet)為媒介,利用網(wǎng)上已提供的一些信息檢索工具,探索如何使用這些工具及如何綜合各工具,使它們揚(yáng)長(zhǎng)避短,最后能實(shí)現(xiàn)對(duì)信息提問(wèn)的檢索查詢的一種方法與技術(shù)。</p><p>  廣義的網(wǎng)絡(luò)信息檢索模式是從根本上解決有效利用網(wǎng)絡(luò)信息資源的關(guān)鍵。沒(méi)有結(jié)構(gòu)合理的索引與高效的檢索算法,就無(wú)法實(shí)現(xiàn)完美的信息查詢;沒(méi)有對(duì)索引的動(dòng)態(tài)維護(hù)與及時(shí)的信息

53、更新,就有可能檢到信息垃圾,誤導(dǎo)信息用戶;沒(méi)有友好的用戶界面,用戶就在選擇與利用信息檢索工具時(shí),錯(cuò)過(guò)對(duì)該工具的選擇,即使選擇了它,也可能因易用性差而得不到良好的查詢結(jié)果。對(duì)于面向最終用戶的信息檢索工具而言,友好的用戶界面較信息服務(wù)中介的時(shí)代有著更為重要的意義。</p><p>  狹義的信息檢索模式是在現(xiàn)實(shí)世界中有效利用網(wǎng)絡(luò)資源的核心。Internet上目前就已有大量的信息查詢工具為用戶服務(wù)。它們不但是利用網(wǎng)上信

54、息資源的重要工具,而且它們本身也是網(wǎng)絡(luò)信息資源的一個(gè)重要組成部分,對(duì)這些工具的開(kāi)發(fā)利用,也是開(kāi)發(fā)利用網(wǎng)絡(luò)信息資源的重要內(nèi)容之一。更為重要的是在對(duì)這些工具的多次利用、比較、分析、研究的過(guò)程中,可以得出網(wǎng)絡(luò)信息檢索模式的廣義內(nèi)涵,可以為開(kāi)發(fā)新型的網(wǎng)絡(luò)信息檢索工具提供重要的參考依據(jù)。</p><p>  四、信息檢索仿真實(shí)驗(yàn)</p><p> ?。ㄒ唬?、 文本處理與倒排文檔的建立</p&g

55、t;<p><b>  1.實(shí)驗(yàn)?zāi)康模?lt;/b></p><p>  通過(guò)用高級(jí)語(yǔ)言編程實(shí)現(xiàn)倒排文檔組織,深刻理解倒排文檔的結(jié)構(gòu)和組成,掌握自動(dòng)抽詞標(biāo)引、建立倒排文檔的基本原理和實(shí)現(xiàn)方法。</p><p><b>  2.實(shí)驗(yàn)內(nèi)容:</b></p><p><b> ?。?)系統(tǒng)功能</b>

56、;</p><p>  建立文獻(xiàn)信息條目的順排文檔;對(duì)標(biāo)題字段、文摘或全文字段進(jìn)行自動(dòng)抽詞標(biāo)引;建立倒排文檔組織。</p><p> ?。?)處理方法與思想</p><p>  根據(jù)文獻(xiàn)中詞頻、詞性與詞的區(qū)分能力之間的關(guān)系,具有好的區(qū)分能力的詞應(yīng)是中等詞頻有實(shí)際意義的詞,根據(jù)這一思想去掉停用詞,對(duì)文本進(jìn)行詞干化處理。然后根據(jù)一定的關(guān)鍵詞賦權(quán)方法進(jìn)行自動(dòng)標(biāo)引和抽詞,生

57、成K-D文件和倒排文檔。</p><p> ?。?)算法流程與數(shù)據(jù)結(jié)構(gòu)</p><p>  ①.從磁盤(pán)中讀入一篇文獻(xiàn) </p><p> ?、冢畬?duì)文獻(xiàn)文本進(jìn)行預(yù)處理: </p><p><b>  詞匯分析 </b></p><p>  刪除停用詞 </p>

58、<p><b>  詞干處理</b></p><p><b>  選擇標(biāo)引詞</b></p><p>  建立概念等級(jí)關(guān)系 </p><p> ?、蹖?duì)選出的標(biāo)引詞及其地址和記錄號(hào)進(jìn)行輸出并存儲(chǔ)在磁盤(pán)空間中,生成標(biāo)引詞表wordlist.txt文件</p><p>  對(duì)檢索入

59、口詞進(jìn)行規(guī)范化處理,通過(guò)屏幕輸入檢索詞進(jìn)行檢索,并驗(yàn)證倒排文檔的生成</p><p><b>  (4)源程序</b></p><p>  以下采用 c 程序設(shè)計(jì)語(yǔ)言實(shí)現(xiàn)上述算法</p><p>  #include<stdio.h></p><p>  #include<string.h><

60、;/p><p>  #include<conio.h></p><p>  #include<ctype.h></p><p>  #define MAX_LENGTH 6</p><p>  #define MAX_COUNT 1000 </p><p>  #define

61、 STOPLIST_COUNT 20</p><p>  char xx[50][80];</p><p>  int maxline=0; /*the Total Line Of The d1.txt*/</p><p>  typedef struct node{</p><p>  char word[20];</

62、p><p>  char num[10];</p><p><b>  int row;</b></p><p><b>  int col;</b></p><p><b>  } WNODE;</b></p><p>  WNODE wordList[M

63、AX_COUNT];</p><p>  char* stopList[]={"a","an","and","are","as","at","be","by","for","from","in",

64、"is","of","on","or","our","the","to","with","we"};</p><p>  int SearchWord(char *str){</p><p><b> 

65、 int i=0;</b></p><p>  for(;i<STOPLIST_COUNT;i++)</p><p>  if(strcmp(stopList[i],str)==0) return 1;</p><p><b>  return 0;</b></p><p><b>  } &

66、lt;/b></p><p>  int ReadWord(char *document)</p><p><b>  {</b></p><p><b>  FILE *fp;</b></p><p><b>  int i=0;</b></p><

67、p><b>  char *p;</b></p><p>  if((fp=fopen(document,"r" ))==NULL) return 1;</p><p>  while(fgets(xx[i],80,fp)!=NULL){</p><p>  p=strchr(xx[i],'\n');&

68、lt;/p><p>  if(p) *p=0;</p><p><b>  i++;</b></p><p><b>  }</b></p><p>  maxline=i;</p><p>  fclose(fp);</p><p><b> 

69、 return 0;</b></p><p><b>  }</b></p><p>  void Word(char *docu_num){</p><p><b>  clrscr();</b></p><p>  int i,j,k,m,n,ll,h=0,t=0,r=0,flag;

70、</p><p>  char yy[20];</p><p>  for(i=0;i<maxline;i++){</p><p>  ll=strlen(xx[i]);</p><p>  //printf("%d\n",ll);</p><p>  //for(j=0;j<ll;j+

71、+) printf("%c\n",xx[i][j]);</p><p><b>  k=n=0; </b></p><p>  for(j=0;j<ll;j++){</p><p>  //if(isalpha(xx[i][j])) k++;</p><p>  if(isalpha(xx[

72、i][j])){flag=1;yy[n++]=xx[i][j];}</p><p><b>  else{</b></p><p>  yy[n]='\0';</p><p><b>  if(flag){</b></p><p>  if(!SearchWord(yy)){ <

73、;/p><p>  for(t=0;t<=n;t++) wordList[h].word[t]=yy[t];</p><p>  //wordList[h].word=yy;</p><p>  for(r=0;r<=4;r++) wordList[h].num[r]=docu_num[r];</p><p>  wordList[h

74、].row=i;</p><p>  wordList[h].col=j-n; </p><p><b>  }</b></p><p><b>  h++;</b></p><p><b>  n=0;</b></p&

75、gt;<p><b>  flag=0;</b></p><p><b>  k=0;</b></p><p><b>  }</b></p><p><b>  }</b></p><p><b>  }</b><

76、;/p><p>  yy[n]='\0';</p><p><b>  if(flag){</b></p><p>  if(!SearchWord(yy)){ </p><p>  for(t=0;t<=n;t++) wordList[h].word[t]=yy[t];</p><

77、p>  for(r=0;r<=4;r++) wordList[h].num[r]=docu_num[r];</p><p>  wordList[h].row=i;</p><p>  wordList[h].col=j-n; </p><p><b>  }</b></p&

78、gt;<p><b>  h++;</b></p><p><b>  n=0;</b></p><p><b>  flag=0;</b></p><p><b>  k=0;</b></p><p><b>  }</b&

79、gt;</p><p><b>  }</b></p><p><b>  }</b></p><p>  void WriteWord()</p><p><b>  {</b></p><p><b>  FILE *fp;</b&g

80、t;</p><p><b>  int i;</b></p><p><b>  clrscr();</b></p><p>  fp=fopen("WordList.txt","a");</p><p>  for(i=0;i<MAX_COUNT;i

81、++){</p><p>  if(strlen(wordList[i].word)){</p><p>  fprintf(fp,"%s\t",wordList[i].word);</p><p>  fprintf(fp,"%s\t",wordList[i].num);</p><p>  fpri

82、ntf(fp,"%d\t",wordList[i].row);</p><p>  fprintf(fp,"%d\n",wordList[i].col);</p><p><b>  }</b></p><p><b>  }</b></p><p>  fc

83、lose(fp);</p><p><b>  } </b></p><p>  void main()</p><p><b>  {</b></p><p><b>  clrscr();</b></p><p><b>  FILE *f

84、p;</b></p><p>  char document[10],num[10];</p><p>  printf(" CopyRight By Lvshuagnwu ");</p><p>  printf("\n");</p><p>  printf("Enter th

85、e document-File name:\n");</p><p>  scanf("%s",document);</p><p>  while(strcmp(document,"end")){</p><p>  printf("Enter the document number(3 wei):\n&

86、quot;);</p><p>  scanf("%s",num);</p><p>  if(ReadWord(document)){</p><p>  printf("Cann't Open File:%s!\n\007",document);</p><p><b>  ret

87、urn;</b></p><p><b>  }</b></p><p>  Word(num);</p><p>  WriteWord();</p><p>  printf("Get Word from %s Succeed!\n",document);</p><

88、;p>  printf("Enter the next document-File name:\n");</p><p>  scanf("%s",document); </p><p><b>  } }</b></p><p>  (5)算法效率與改進(jìn)</p><p&

89、gt;  標(biāo)引算法的比較次數(shù)為文獻(xiàn)詞匯量與停用詞數(shù)量乘積,從磁盤(pán)空間讀入文獻(xiàn)和停用詞表需要一定的時(shí)間,可以通過(guò)先比較詞頻生成臨時(shí)文件,再與停用詞表進(jìn)行比較,同時(shí)擴(kuò)大內(nèi)存將停用詞表直接放入內(nèi)存,以空間換時(shí)間的方式來(lái)提高標(biāo)引和檢索速度。</p><p> ?。ǘ?順排文檔檢索算法的實(shí)現(xiàn)</p><p><b>  1.實(shí)驗(yàn)?zāi)康模?lt;/b></p><

90、p>  通過(guò)用高級(jí)語(yǔ)言編程實(shí)現(xiàn)菊池敏典算法,深刻理解順排文檔的檢索技術(shù)和算法設(shè)計(jì)原理。</p><p><b>  實(shí)驗(yàn)內(nèi)容:</b></p><p><b>  (1)算法流程</b></p><p> ?、?、從提問(wèn)文檔中讀取N個(gè)提問(wèn)式,并進(jìn)行語(yǔ)法檢查</p><p><b>  

91、②、生成提問(wèn)展開(kāi)表</b></p><p>  展開(kāi)表的生成,根據(jù)算法描述的順序方向劃分為兩大部分:前處理部分和后處理部分。</p><p>  設(shè)level(Ai) 表示經(jīng)過(guò)正向掃描以后 Ai 項(xiàng)在 展開(kāi)表中的層次值, AFD(Ai) 表示檢索項(xiàng)目詞Ai 的“ 匹配一致時(shí)轉(zhuǎn)向地址”, NFD(Ai) 表示檢索項(xiàng)目詞Ai 的“ 匹配不一致時(shí)轉(zhuǎn)向地址”: </p&g

92、t;<p>  前處理部分,也叫正向掃描處理部分。按照邏輯提問(wèn)式各項(xiàng)因子出現(xiàn)的先后順序從左到右依次處理,設(shè)Ai為當(dāng)前處理項(xiàng).</p><p>  ①掃描到檢索詞項(xiàng),則把Ai的匹配比較條件、項(xiàng)目檢索詞Ai、檢索類(lèi)型標(biāo)識(shí)符等有關(guān)信息置入展開(kāi)表中響應(yīng)位置,地址計(jì)數(shù)器加1并送到表中地址位,</p><p>  ②掃描到“(”時(shí), level=level+1</p>&l

93、t;p>  掃描到“)”時(shí),level=level-1</p><p> ?、蹝呙璧竭壿嫵恕?”運(yùn)算符時(shí),繼續(xù)搜索下一檢索項(xiàng)目詞,把它的地址位的值置入AFD(Ai)中,并有l(wèi)evel(Ai) level</p><p> ?、軖呙璧竭壿嫾印?”,繼續(xù)搜索下一個(gè)檢索項(xiàng)目詞,把它的地址位的值置入NFD(Ai)中,并有l(wèi)evel(Ai) level</p>

94、<p> ?、輶呙璧竭壿嬏釂?wèn)結(jié)束符“.”時(shí),把檢索最終“成功”標(biāo)記置入最后一個(gè)檢索項(xiàng)目詞Ai的AFD(Ai)中,同時(shí)把檢索最終“失敗”標(biāo)記置入NFD(Ai)</p><p>  后處理部分: 也叫逆向掃描處理部分。逆向掃描從展開(kāi)表的倒數(shù)第二項(xiàng)開(kāi)始直到展開(kāi)表的第一項(xiàng)處理完為止。</p><p> ?、倌嫦驋呙栌鲆?jiàn)NFD(Ai)欄目為空,則應(yīng)向回搜索,依次判別各level(Ai)值

95、。 當(dāng)滿足條件level( Ai)> level( Aj),則立即停止向后搜索,并進(jìn)行以下操作:</p><p>  NFD(Ai) NFD(Aj)</p><p>  ②逆向掃描遇見(jiàn)AFD(Ai) 為空時(shí),同樣應(yīng)向回搜索,依次判別各項(xiàng)level(Aj)值。當(dāng)滿足條件level( Ai)> level( Aj)或者搜索到提問(wèn)邏輯式中最后一個(gè)檢索項(xiàng)目詞時(shí),進(jìn)行以下操作:

96、</p><p>  AFD(Ai) AFD(Aj)</p><p><b>  3、分析提問(wèn)式</b></p><p>  Q=A+B*(C+D*(E+F))+G*H</p><p>  Q=01+02*(03+04*(05+06))+07*08</p><p><b>  

97、4、檢索處理流程</b></p><p>  從順排文檔中依次讀出一篇文獻(xiàn)記錄,然后與提問(wèn)文檔中所有的提問(wèn)式進(jìn)行匹配檢索,如滿足提問(wèn)表達(dá)式所要求的條件,該文獻(xiàn)記錄就作為提問(wèn)式的命中文獻(xiàn)輸出。系統(tǒng)需要對(duì)提問(wèn)文檔中各提問(wèn)式分批進(jìn)行處理,先從提問(wèn)式文檔中取N個(gè)提問(wèn)式處理,當(dāng)這N個(gè)提問(wèn)式與所有數(shù)據(jù)庫(kù)中文獻(xiàn)記錄匹配完畢后,再?gòu)奶釂?wèn)式文檔中取N個(gè)提問(wèn)式重復(fù)以上處理過(guò)程,一直到提問(wèn)式文檔中數(shù)據(jù)處理完為止。</

98、p><p><b>  (1)數(shù)據(jù)結(jié)構(gòu)</b></p><p><b> ?、贆z索詞表結(jié)構(gòu)</b></p><p>  檢索詞表是為了描述提問(wèn)式中出現(xiàn)的提問(wèn)檢索詞而設(shè)計(jì)的。因?yàn)樵趯?shí)際提問(wèn)式處理過(guò)程中,提問(wèn)檢索詞只是以其在檢索詞表中檢索詞號(hào)形式出現(xiàn),而不是檢索詞本身。</p><p><b> 

99、?、谡归_(kāi)表結(jié)構(gòu)</b></p><p>  表8.1 檢索詞表的結(jié)構(gòu)</p><p>  地址是指該行所在展開(kāi)表中地址</p><p>  匹配成功時(shí)轉(zhuǎn)向地址AFD,給出一旦在檢索詞與文獻(xiàn)記錄中標(biāo)引詞匹配成功時(shí),下步應(yīng)該處理的提問(wèn)檢索詞在提問(wèn)表中的地址。</p><p>  匹配不成功時(shí)轉(zhuǎn)向地址NFD,給出一旦檢索詞與標(biāo)引詞匹配失

100、敗以后應(yīng)該轉(zhuǎn)向展開(kāi)表中的地址。</p><p>  層次值給出層次計(jì)數(shù)器在完成展開(kāi)表填寫(xiě)時(shí)的當(dāng)前處理值。</p><p><b>  ③標(biāo)引詞標(biāo)識(shí)表結(jié)構(gòu)</b></p><p>  是為了描述文獻(xiàn)記錄中各標(biāo)引詞特征而設(shè)立的,它的設(shè)立為提問(wèn)文檔與文獻(xiàn)記錄的匹配奠定了基礎(chǔ)。</p><p>  表8.2 標(biāo)引詞標(biāo)識(shí)表結(jié)構(gòu)&l

101、t;/p><p>  標(biāo)引詞標(biāo)識(shí)號(hào)是系統(tǒng)賦予從文獻(xiàn)記錄中抽出標(biāo)引詞的類(lèi)編碼,實(shí)際上是屬性項(xiàng)號(hào)。</p><p>  有效位是指標(biāo)引詞在匹配中的有效長(zhǎng)度。</p><p>  項(xiàng)目詞是指具體的標(biāo)引詞</p><p><b>  3.源程序</b></p><p>  以下采用 c 程序設(shè)計(jì)語(yǔ)言實(shí)現(xiàn)上述算

102、法</p><p>  # include <stdio.h></p><p><b>  main()</b></p><p>  {int b[20],a[20][4];</p><p>  int i,h,j,k,l,level;</p><p>  printf("i

103、nput query:\n");</p><p><b>  i=0;</b></p><p>  do {scanf("%c",&b[i]); i++;}</p><p>  while(b[i]!='.');</p><p><b>  h=i;<

104、/b></p><p>  for(i=0;i<h;i++)</p><p>  a[i][0]=i+1;</p><p>  j=0;level=0;</p><p>  for(i=0;i<h;i++)</p><p>  {if((b[i]>='A')&&(

105、b[i]<='Z'))</p><p>  {j++; a[j][4]=b[i];}</p><p>  if(b[i]=='+')</p><p>  {a[j][2]=a[j+1][0]; a[j][3]=level;}</p><p>  if(b[j]=='*') {a[

106、j][1]=a[j+1][0];a[j][3]=level;}</p><p>  if(b[i]=='(') level+=1;</p><p>  if(b[i]==')') level-=1;</p><p>  if(b[i]=='.') {a[j][1]='Y'; a[j][2]

107、='N'; l=j;} </p><p><b>  }</b></p><p>  for(j=l;j>0;j--)</p><p>  {if(a[j-1][3]>a[j][3])</p><p>  {if(a[j-1][1]!=0)</p><p>  a[j

108、-1][2]=a[j][2];</p><p>  if(a[j-1][2]!=0)</p><p>  a[j-1][1]=a[j][1];</p><p><b>  }</b></p><p>  if(a[j-1][3]==a[j][3])</p><p>  {if(a[j-1][1]!

109、=0)</p><p>  a[j-1][2]=a[j][2];</p><p>  if(a[j-1][2]!=0)</p><p>  a[j-1][1]=a[l][1];}</p><p>  if(a[j-1][3]<a[j][3])</p><p>  { if(a[j-1][1]!=0)</p&

110、gt;<p>  {for(k=j;k<=l;k++)</p><p>  {if(a[k][3]<=a[j-1][3])</p><p>  a[j-1][2]=a[k][2];</p><p><b>  }</b></p><p><b>  }</b></p&

111、gt;<p>  if(a[j-1][2]!=2)</p><p>  {for(k=j;k<=l;k++)</p><p>  {if(a[k][3]<=a[j-1][3])</p><p>  a[j-1][1]=a[k][1];</p><p>  } } }</p><p>

112、;  printf("add afd nfd level word\n");</p><p>  for(j=1;j<l+1;j++)</p><p>  {for(i=0;i<5;i++)</p><p>  printf("%d ",&a[j][i]);</p><p&

113、gt;  printf("\n");</p><p><b>  } } }</b></p><p><b>  4.算法改進(jìn)</b></p><p><b>  算法的不足</b></p><p>  A. 比較匹配策略花費(fèi)的機(jī)時(shí)可觀,比較次數(shù)m*n&

114、lt;/p><p>  B. 不同提問(wèn)式中相同提問(wèn)詞重復(fù)的比較和匹配處理;</p><p>  C. 展開(kāi)表采用固定長(zhǎng)格式占用過(guò)多的內(nèi)存空間,以及對(duì)一個(gè)提問(wèn)式中提問(wèn)詞數(shù)量的限制;</p><p>  D. 標(biāo)引詞標(biāo)識(shí)表中同一屬性項(xiàng)號(hào)下的各檢索詞應(yīng)該組織一下,以減少查詢時(shí)間;</p><p>  E. 對(duì)否定的處理有一定的限制,不能處理邏輯非作用在

115、子表達(dá)式上這種情況。</p><p><b>  改進(jìn):</b></p><p>  對(duì)于B的不足,通過(guò)增加一標(biāo)識(shí)變量,來(lái)記錄體溫次出現(xiàn)的次數(shù),只對(duì)第一次出現(xiàn)該提問(wèn)詞時(shí)進(jìn)行比較,重復(fù)出現(xiàn)時(shí)不予比較。</p><p>  對(duì)于E 的不足,通過(guò)逆序算法進(jìn)行邏輯非運(yùn)算,實(shí)現(xiàn)對(duì)檢索提問(wèn)中否定的處理。</p><p> ?。ㄈ?、

116、倒排文檔檢索算法的實(shí)現(xiàn)</p><p><b>  1.實(shí)驗(yàn)?zāi)康模?lt;/b></p><p>  通過(guò)用高級(jí)語(yǔ)言編程實(shí)現(xiàn)福島算法,深刻理解倒排文檔的檢索技術(shù)和算法設(shè)計(jì)原理。</p><p><b>  實(shí)驗(yàn)內(nèi)容:</b></p><p><b>  (1)算法描述</b><

117、/p><p> ?、?、輸入檢索式,并進(jìn)行語(yǔ)法檢查,顯示出錯(cuò)信息;</p><p> ?、?、將提問(wèn)表達(dá)式轉(zhuǎn)換為等價(jià)的逆波蘭表達(dá)式形式</p><p> ?。?) 根據(jù)表達(dá)式的語(yǔ)法規(guī)則,給每一個(gè)算子賦上一個(gè)優(yōu)先數(shù),以決定在處理過(guò)程中它們進(jìn)入算子保留棧的順序;</p><p> ?。?)設(shè)立兩個(gè)數(shù)據(jù)存貯區(qū),一個(gè)是提問(wèn)算子保留棧,另一個(gè)是形成的結(jié)果保留區(qū)

118、,用于存放逆波蘭表達(dá)式;</p><p>  (4)原始提問(wèn)表達(dá)式存放區(qū),數(shù)據(jù)在該區(qū)從左到右讀入處理;</p><p> ?。?)從原始提問(wèn)式存貯區(qū)中讀數(shù)據(jù)時(shí),若遇到算項(xiàng), 逆波蘭數(shù)據(jù)區(qū)計(jì)數(shù)器加1,并將算項(xiàng)存入;</p><p>  (6)讀入數(shù)據(jù)時(shí),若遇見(jiàn)算子,則將當(dāng)前所處理的算子項(xiàng)的優(yōu)先數(shù)與算子保留棧棧頂中算子的優(yōu)先數(shù)進(jìn)行比較:</p><p

119、>  若其優(yōu)先數(shù)大于棧頂算子的優(yōu)先級(jí),則將算子保留棧計(jì)數(shù)器加1,并將當(dāng)前算子項(xiàng)存入算子保留棧中;</p><p>  若其優(yōu)先數(shù)不大于棧頂算子的優(yōu)先級(jí), 并且當(dāng)前項(xiàng)又不是括號(hào),此時(shí)應(yīng)將則將算子保留棧計(jì)數(shù)器減1,取出棧頂算子項(xiàng),同時(shí)將逆波蘭區(qū)計(jì)數(shù)器加1, 并將其存入, 再轉(zhuǎn)向(5)</p><p>  (7)若掃描中遇見(jiàn)左括號(hào),則將算子計(jì)數(shù)器加1后存入算子保留棧中;</p>

120、<p> ?。?)遇見(jiàn)右括號(hào),表示要對(duì)左右括號(hào)內(nèi)所包括的子表達(dá)式進(jìn)行運(yùn)算。 將算子保留棧棧頂項(xiàng)依次退出棧中,并存放在逆波蘭表達(dá)式存貯區(qū)中,直到棧頂元素項(xiàng)是左括號(hào)時(shí),將兩個(gè)配對(duì)括號(hào)拋棄為止。</p><p> ?。?)若遇見(jiàn)提問(wèn)表達(dá)式結(jié)束標(biāo)記時(shí),則將算子保留棧棧頂元素項(xiàng)依次送入逆波蘭表達(dá)式存貯區(qū)中。</p><p>  3、將逆波蘭表達(dá)式轉(zhuǎn)換為檢索指令表</p>

121、<p>  順序掃描逆波蘭輸出區(qū), 在臨時(shí)工作數(shù)據(jù)區(qū)中找出一個(gè)未使用單元, 把該單元地址送入當(dāng)前檢索指令項(xiàng)第三操作數(shù)地址欄目中。同時(shí)將該單元封閉起來(lái),置入使用標(biāo)記。將檢索詞的地址置入第一操作數(shù)地址欄目,把當(dāng)前檢索指令項(xiàng)的操作數(shù)欄目?jī)?nèi)置入</p><p>  在倒排文檔基礎(chǔ)之上利用檢索指令表進(jìn)行檢索處理</p><p><b> ?。?)數(shù)據(jù)結(jié)構(gòu)</b><

122、;/p><p>  處理環(huán)節(jié)有以下三個(gè)環(huán)節(jié)構(gòu)成:</p><p> ?、侔延脩舻奶釂?wèn)邏輯式轉(zhuǎn)換成與之在邏輯語(yǔ)義上等價(jià)的逆波蘭表達(dá)式; </p><p> ?、诎研纬傻哪娌ㄌm表達(dá)式轉(zhuǎn)換成利于系統(tǒng)內(nèi)部檢索處理的形式------ 檢索指令結(jié)構(gòu)形式; </p><p> ?、劾靡呀?jīng)形成的檢索指令序列,在倒排文檔上進(jìn)行檢索,將檢索的命中文獻(xiàn)記錄等其它有關(guān)

123、信息輸出給用戶。 </p><p>  第一個(gè)環(huán)節(jié):輸入數(shù)據(jù)是提問(wèn)表達(dá)式,輸出的是加工處理后的逆波蘭表達(dá)式。</p><p>  參照 算符優(yōu)先級(jí)對(duì)照表與檢索詞與地址對(duì)照表定義提問(wèn)式算子存貯區(qū)、逆波蘭表達(dá)式輸出區(qū)與提問(wèn)式輸出區(qū)。</p><p>  第二個(gè)環(huán)節(jié):輸入數(shù)據(jù)是逆波蘭表達(dá)式,輸出數(shù)據(jù)是與之等價(jià)的檢索指令系列。</p><p><

124、;b>  檢索指令的數(shù)據(jù)結(jié)構(gòu)</b></p><p>  ON 檢索指令操作碼,</p><p>  AD1 第一操作數(shù)地址,</p><p>  AD2 第二操作數(shù)地址,</p><p>  AD3 第三操作數(shù)地址。</p><p><b>  輸入指令</b><

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論