2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩72頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近年來,互聯(lián)網搜索引擎得到迅猛發(fā)展和廣泛普及,但大粒度輸入的搜索需求被各大搜索引擎所忽視;而且,盡管用戶通過搜索引擎能夠快速檢索出大量文檔,但返回的文檔中往往只有少部分段落內容與用戶需求直接相關。因此,研究一個既能滿足大粒度輸入的搜索需求,又能得到與輸入段落密切相關的段落檢索系統(tǒng),對于解決目前搜索引擎存在的難以滿足大粒度搜索和搜索精確度不足的問題很有幫助。而在目前段落檢索領域的研究中,僅僅將段落檢索作為自動問答系統(tǒng)的一個組成部分進行研究

2、,并沒有針對大粒度的輸入搜索相關段落的需求開發(fā)出相應的開放的搜索引擎,為了解決這個問題,筆者開發(fā)出了海天園段落檢索系統(tǒng)并且對其中的相關算法進行了研究。
  在實現(xiàn)段落檢索的功能方面(大粒度的段落輸入,搜索到相似段落),文中設計了如下方法:首先在索引階段進行基于窗口的分段,然后將輸入段落表示為有序關鍵詞序列,用基于關鍵詞交集的搜索方法得到相關段落,最后對得到的段落進行段落相似度計算和排序。其中在分段方面,使用了高效的基于窗口的不重疊

3、分段算法,與先分段再搜索的段落檢索策略,能夠縮短搜索時間保證搜索的效率;對于輸入段落,系統(tǒng)采用了有序關鍵詞序列的表示方法和準確的關鍵詞提取算法,該方法能夠有效的將大粒度的輸入準確的表示為可搜索的形式;得到相關段落后的排序,文中比較多種段落相似度計算方法后,采用了SiteQ算法(一種基于查詢詞密度的段落相似度計算算法)并對其進行了改進,能夠在查詢詞間距離的層面更好的比較兩個段落的相似程度。
  系統(tǒng)使用的數據是海天園金融爬蟲每天實時

4、爬取的各大金融網站的網頁。為了驗證段落檢索系統(tǒng)的搜索效果,文中對于每一個過程分別用不同驗證方法進行驗證。首先關于提取關鍵詞的算法,將系統(tǒng)提取的關鍵詞與人工提取的進行比較,實驗結果表明在字數100字以內提取10個關鍵詞,至少抽取7個正確的關鍵詞的準確率達到85%。對SiteQ算法的改進效果,文中使用MRR(平均排序倒數)進行評估:將改進后的SiteQ算法分別與MITRE(詞重疊算法)算法和改進前的SiteQ算法進行實驗比較,在輸入段落10

5、0字范圍內,改進后SiteQ算法的MRR值比MITRE至少大0.007,改進后SiteQ算法的MRR值比改進前至少大0.004,證明改進后SiteQ算法的排序效果優(yōu)于改進前,并且優(yōu)于MITRE算法。最后評測系統(tǒng)的性能,以從網頁中摘抄段落,輸入系統(tǒng)以搜索到源段落為目的,實驗結果發(fā)現(xiàn)在輸入段落字數達到60字以上時,平均召回率在93%以上,平均準確率在27%以上,能夠滿足大粒度輸入段落,搜索出源段落的需求。
  同時,將段落檢索應用到自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論