2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Lucene初級(jí)教程初級(jí)教程2007122615:24點(diǎn)擊次數(shù):0次1lucene簡(jiǎn)介1.1什么是luceneLucene是一個(gè)全文搜索框架,而不是應(yīng)用產(chǎn)品。因此它并不像或者googleDesktop那么拿來(lái)就能用,它只是提供了一種工具讓你能實(shí)現(xiàn)這些產(chǎn)品。2lucene的工作方式lucene提供的服務(wù)實(shí)際包含兩部分:一入一出。所謂入是寫入,即將你提供的源(本質(zhì)是字符串)寫入索引或者將其從索引中刪除;所謂出是讀出,即向用戶提供全文搜索服務(wù)

2、,讓用戶可以通過(guò)關(guān)鍵詞定位源。2.1寫入流程源字符串首先經(jīng)過(guò)analyzer處理,包括:分詞,分成一個(gè)個(gè)單詞;去除stopwd(可選)。將源中需要的信息加入Document的各個(gè)Field中,并把需要索引的Field索引起來(lái),把需要存儲(chǔ)的Field存儲(chǔ)起來(lái)。將索引寫入存儲(chǔ)器,存儲(chǔ)器可以是內(nèi)存或磁盤。2.2讀出流程用戶提供搜索關(guān)鍵詞,經(jīng)過(guò)analyzer處理。對(duì)處理后的關(guān)鍵詞搜索索引找出對(duì)應(yīng)的Document。用戶根據(jù)需要從找到的Docu

3、ment中提取需要的Field。3一些需要知道的概念3.1analyzerAnalyzer是分析器,它的作用是把一個(gè)字符串按某種規(guī)則劃分成一個(gè)個(gè)詞語(yǔ),并去除其中的無(wú)效詞語(yǔ),這里說(shuō)的無(wú)效詞語(yǔ)是指英文中的“of”、“the”,中文中的“的”、“地”等詞語(yǔ),這些詞語(yǔ)在文章中大量出現(xiàn),但是本身不包含什么關(guān)鍵信息,去掉有利于縮小索引文件、提高效率、提高命中率。分詞的規(guī)則千變?nèi)f化,但目的只有一個(gè):按語(yǔ)義劃分。這點(diǎn)在英文中比較容易實(shí)現(xiàn),因?yàn)橛⑽谋旧砭?/p>

4、是以單詞為單位的,已經(jīng)用空格分開;而中文則必須以某種方法將連成一片的句子劃分成一個(gè)個(gè)詞語(yǔ)。具體劃分方法下面再詳細(xì)介紹,這里只需了解分析器的概念即可。3.2document用戶提供的源是一條條記錄,它們可以是文本文件、字符串或者數(shù)據(jù)庫(kù)表的一條記錄等等。一條記錄經(jīng)過(guò)索引之后,就是以一個(gè)Document的形式存儲(chǔ)在索引文件中的。用戶進(jìn)行搜索,也是以Document列表的形式返回。3.3field一個(gè)Document可以包含多個(gè)信息域,例如一篇

5、文章可以包含“標(biāo)題”、“正文”、“最后修改時(shí)間”等信息域,這些信息域就是通過(guò)Field在Document中存儲(chǔ)的。Field有兩個(gè)屬性可選:存儲(chǔ)和索引。通過(guò)存儲(chǔ)屬性你可以控制是否對(duì)這個(gè)Field進(jìn)行存儲(chǔ);通過(guò)索引屬性你可以控制是否對(duì)該Field進(jìn)行索引。這看起來(lái)似乎有些廢話,事實(shí)上對(duì)這兩個(gè)屬性的正確組合很重要,下面舉例說(shuō)明:還是以剛才的文章為例子,我們需要對(duì)標(biāo)題和正文進(jìn)行全文搜索,所以我們要把索引屬性設(shè)置為真,同時(shí)我們希Fieldfie

6、ld=newField(“content“newFileReader(file))這里的file就是該文本文件。該構(gòu)造函數(shù)實(shí)際上是讀去文件內(nèi)容,并對(duì)其進(jìn)行索引,但不存儲(chǔ)。Lucene2教程教程Lucene是apache組織的一個(gè)用java實(shí)現(xiàn)全文搜索引擎的開源項(xiàng)目。其功能非常的強(qiáng)大,api也很簡(jiǎn)單??偟脕?lái)說(shuō)用Lucene來(lái)進(jìn)行建立和搜索和操作數(shù)據(jù)庫(kù)是差不多的(有點(diǎn)像),Document可以看作是數(shù)據(jù)庫(kù)的一行記錄,F(xiàn)ield可以看作是數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論