2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、近十年我國信息檢索相關(guān)性研究現(xiàn)狀分析——基于共詞分析的視角摘要:相關(guān)性是信息檢索領域的核心研究的內(nèi)容之一,對其進行深入研究將有助于提高信息檢索的效率,推動信息檢索的研究。本文將通過共詞分析的方法,利用知識圖譜對其進行可視化分析研究。關(guān)鍵詞:信息檢索;相關(guān)性;共詞分析前言相關(guān)性一直以來都是信息檢索領域的核心研究內(nèi)容之一,其概念的起源可以追溯到17世紀的早期圖書館用戶認識到查找相關(guān)信息的問題。但由于客觀原因,相關(guān)性只是作為一種朦朧意識停留在

2、人們頭腦中,直到20世紀20年代少數(shù)學者Lotka(1926)、Zipf(1949)、Urquhart(1959)、Price(1965)才陸續(xù)從各個領域開始了相關(guān)性的研究工作。在信息科學界Saracevic認為Bradfd是最先使用相關(guān)性一詞的學者。其在20世紀30年代發(fā)表的《文獻的混沌狀態(tài)》一文中首次提出“主題相關(guān)”的概念。而此后關(guān)于“相關(guān)性”的探討并未引起學界更大范圍的關(guān)注。直到1958年國際科學信息會議(ICSI)的召開,相關(guān)性

3、(Relevance)才作為信息科學領域的一個重要概念被學術(shù)界認可。至此“相關(guān)性”逐漸成為信息科學尤其是信息檢索領域經(jīng)久不衰的研究課題,甚至知識交流學派的代表人物Saracevic認為信息科學之所以成為獨立學科,而不再隸屬于圖書館學或文獻學的原因就在于它開展了相關(guān)性的研究也在于相關(guān)性能夠解釋科學交流中的諸多問題。足見“相關(guān)性”在信息科學中的重要地位。當前,各國學者已對信息檢索的相關(guān)性問題展開了深入研究,本文將通過共詞分析法,使用知識圖譜

4、對其進行可視化處理分析。1信息檢索相關(guān)性基本概念對信息檢索相關(guān)性基本概念方面的研究工作始于20世紀50年代末,各國學者借助數(shù)學工具及各種概念提取方法從各個角度對“相關(guān)性”的含義及內(nèi)容進行了深入剖析。而相關(guān)性的基本概念研究以1976年為邊界經(jīng)歷了前后兩個階段第一階段19591976的主要成果有Maron和Kuhns利用概率論定義相關(guān)性的概念,提出相關(guān)性并非只是簡單的是非選擇問題。Rees認為相關(guān)性受文檔所包含的信息概念的影響,認為相關(guān)信息

5、是對用戶原來所具備的知識而言有用的信息Goffman和Newill把相關(guān)性當成連接有效性的一種測度,并試圖用數(shù)學方法證明相關(guān)性(Relevance)與關(guān)聯(lián)性(Relation)之間具有等價關(guān)系。Saracevic則建議從文檔、詞與文獻引用等各種文獻特征上來定義檢索的相關(guān)性。Cooper利用數(shù)理邏輯給相關(guān)性做了一個明確的定義。Wilson則在Cooper研究的基礎上對數(shù)理邏輯相關(guān)性描述做了進一步擴充,并將“情境相關(guān)性”的概念首次引入到相關(guān)

6、性的研究中,這些成果成為第二階段研究工作的基礎。在第二階段,1977年至今,由于相關(guān)性各領域研究成果的相繼出現(xiàn),使相關(guān)性的概念描述也呈現(xiàn)出許多新的時代特征。首先是從面向用戶及認知方法的觀點重新審視相關(guān)性,認為相關(guān)性是個多維的認知概念,在很大程度上依賴于用戶個人對信息的理解以及信息需求的情境。相關(guān)性是一個動態(tài)的概念它依賴于信息與用戶某一特定時間所需信息之間關(guān)系質(zhì)量的評價,以用戶的觀點來看,相關(guān)性是個復雜的、系統(tǒng)的、可測度的概念。其次是一些

7、學者試圖給信息檢索定義一個邏輯模型來理解相關(guān)性概念這項工作由Rijsbergen開創(chuàng)之后又吸引了眾多學者的參與。2.信息檢索相關(guān)性共詞分析2.1數(shù)據(jù)收集處理本文研究的數(shù)據(jù)收集是以中國知網(wǎng)(cnki)中文數(shù)據(jù)庫中的期刊文獻為基礎,期刊來源為SCI、EI、CSSCI,以“信息檢索”并含“相關(guān)性”作為主題進行檢索,檢索年限為2004年至2013年,共檢索文獻95篇。對其關(guān)鍵詞進行統(tǒng)計分析,共有關(guān)鍵詞202個,對其進行詞頻統(tǒng)計,將詞頻超過2次的

8、關(guān)鍵詞作為高頻關(guān)鍵詞,共有高頻關(guān)鍵詞42個(表1),本文的數(shù)據(jù)分析將基于這些高頻關(guān)鍵詞。軟件繪制科學知識圖譜,在此基礎上,采用Kce分析法進行社會網(wǎng)絡分析,建立不同連接度k核(最高為4)的共詞網(wǎng)絡圖譜,經(jīng)過處理后得到可視化結(jié)果,如圖2所示,其中紅色代表關(guān)聯(lián)度為4的關(guān)鍵詞,綠色為關(guān)聯(lián)度為3的關(guān)鍵詞,藍色為關(guān)聯(lián)度為2的關(guān)鍵詞,黑色為關(guān)聯(lián)度為1的關(guān)鍵詞。圖2Kce分析效果圖2.3.2多維尺度分析使用Uci6.0軟件中的非量綱式多維尺度分析方法

9、分析近十年我國信息檢索相關(guān)性的關(guān)鍵詞的數(shù)據(jù)結(jié)構(gòu),統(tǒng)計這些關(guān)鍵詞坐標,統(tǒng)計結(jié)果如表2所示,并形成散點圖,效果如圖3所示。表2關(guān)鍵詞分布坐標關(guān)鍵詞X坐標Y坐標所處象限關(guān)鍵詞X坐標Y坐標所處象限TEDS模型0.7941.984第2象限評價0.2340.438第3象限本體0.40.145第4象限情報學0.0180.168第2象限標準0.3680.089第3象限數(shù)字圖書館0.2150.92第3象限測試集0.8590.175第2象限搜索引擎0.31

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論