版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、文獻檢索效率的影響因素及其改善方法文獻檢索的目的是全面、準確地為用戶提供所需文獻。但是從用戶角度來看在檢出的文獻中可能會夾雜著一些不符合提問要求的文獻(即誤檢文獻)反之在未檢出的文獻中也可能存在著少量符合提問要求的文獻(即漏檢文獻)。由于用戶的看法和需要不同對檢出文獻是否滿足要求的相關(guān)性(即實用性)評價也可能不同。因此文獻的相關(guān)性評價在某種程度上帶有主觀性。盡管如此。仍可作為評價文獻檢索效率的基礎(chǔ)。所謂檢索效率簡單地說是指檢索系統(tǒng)提供庫
2、存相關(guān)文獻、滿足用戶的程度。文獻檢索效率一般按照以下標準來評價:文獻庫收錄范圍查全率和查準率響應(yīng)時間費用等。其中查全率和查準率是重要的也是最常采用的技術(shù)標準。在現(xiàn)代的文獻檢索系統(tǒng)中查全率一般為60一70%查準率為40一50%。由于查全率和查準率之間存在著互逆關(guān)系如果進一步提高查全率(超過70%)只能靠降低查準率來達到反之亦然。因此對任何一個文獻檢索系統(tǒng)來說要求得到查全率和查準率均為1的答案實際上是不可能的必須按照用戶的要求選擇最佳的查全
3、率和查準率的比例關(guān)系。影響檢索效率的因素實踐表明影響檢索效率的因素是多方面的主要與文獻標引的質(zhì)量、主題詞表的質(zhì)量和檢索式編寫等因素有關(guān)。(一)標引質(zhì)量標引指的是對文獻或提問進行主題分析、給出檢索標識(主題詞、分類號等)的過程。其目的是按照給定的檢索標識組織各種檢索工具(例如目錄、索引或機讀文檔等)。因此文獻標引質(zhì)量不僅與組織檢索工具有關(guān)而且是影響檢索效率的主要因素之一。1.衡量標引質(zhì)量的標準標引質(zhì)量可以理解為標引文獻或提問時給出主題詞的
4、正確性和全面性表現(xiàn)在文獻的引得深度。按照蘭卡斯特的定義“引得深度是指標引的網(wǎng)羅性和主題詞的專指性”的總稱據(jù)1966一67年期間使用MEDLARS系統(tǒng)所得到的文獻檢索效率表明漏檢相關(guān)文獻數(shù)的20%是由于引得深度不夠造成的。因此我們可以將標引的網(wǎng)羅性和主題詞的專指性做為評價標引質(zhì)量的標準。(1)標引的網(wǎng)羅性是指標引時揭示文獻主題內(nèi)容的廣度而言。如果對文獻內(nèi)容分析得愈深透標引得愈全面那么檢索時相關(guān)主題的文獻就能都檢索出來因而查全率較高。例如查
5、找題為“計算機檢索軟件設(shè)計”方面的文獻經(jīng)過文獻主題分析后選出計算機情報檢索、程序設(shè)計三個詞。從標引的廣度或包含檢索角度來看還應(yīng)補加:程序系統(tǒng)和應(yīng)用程序二個詞。另一方面如果標引的網(wǎng)羅性太高那么檢出的文獻中就會滲雜著較多的非相關(guān)文獻查準率就會降低。因此標引網(wǎng)羅性是影響查全率的重要因素之一。(2)主題詞的專指性。主題詞的專指性是指其表達主題的深度而言。標引時如果選用專指性強的主題詞愈多則檢索時檢出的文獻針對性愈強查準率就愈高。仍以“計算機檢索
6、軟件設(shè)計”問題為例標引時除選用“計算機”一詞之外還應(yīng)選用“電子計算機”一詞。使用前一詞可以實現(xiàn)包含檢索查全率較高使用后一詞可以實現(xiàn)特性檢索查準率較高。因此主題詞的專指性影響查準率的重要因素之一。怎樣掌握標引的網(wǎng)羅性和主題詞的專指性以達到所需引得深度應(yīng)根據(jù)檢索系統(tǒng)任務(wù)和數(shù)據(jù)庫特點而定。2。標弓!質(zhì)量的影響因素由于人們專業(yè)知識和工作經(jīng)歷不同在標引的網(wǎng)羅性和主題詞專指性方面很難達到標引的一致性同時也很難避免產(chǎn)生錯誤。所謂標引的一致性是指幾個人
7、同時標引一篇文獻或一個人在不同時間內(nèi)標引同一篇文獻所選用主題詞的一致程度。(1)網(wǎng)羅性不當例如對文獻題為“空氣、土壤、對流層中氫一226的積累”標引時如果不選用表示環(huán)到限定觀點的作用。例如,題為“使用計算機診斷肺炎”文獻,可標引為“肺炎斷,計算機診斷應(yīng)用”形式。這種表達形式可以將主題相關(guān)的詞聯(lián)系在一起(即起到聯(lián)號作用),又可表示詞間句法關(guān)系(即起到職號作用),這樣可以提高查準率。4.加權(quán)法這種方法就是按照文獻的標引同或提問的標引詞的重要
8、度(即所謂“權(quán)”)給出一定的值,并對所有詞的權(quán)進行累加,其結(jié)果超過某一規(guī)定值時,便將滿足提問的文獻輸出。例如,提問“計算機文獻檢索用程序系統(tǒng)”,提問主題同的權(quán)值分別為:計算機(10)、文獻檢索(6)、程序設(shè)計(8),如果規(guī)定總權(quán)值為£0檢索時將超過該總數(shù)值的所有文獻均輸出。采用這種方法可以有選擇地檢出所需主題的文獻,提高査準率。上述各種方法在一定程度上改善檢索效率,尤其提高査準率,但仍然有其局限性,應(yīng)該有針對性運用。實踐表明,職號、聯(lián)號
9、比較適用于化學、化工、石油等特定專業(yè)文獻的檢索,而用于其他專業(yè)文獻的檢索,有時在經(jīng)濟上并不上算。采用規(guī)范詞可以提高查全率,但其査準率有時不如自由詞高,因此,近年來國外許多系統(tǒng)采用規(guī)范詞加自由詞的標引方式。為了保證文獻標引質(zhì)量,提高檢索效率,還應(yīng)加強以下幾方面工作:①主題分析是文獻標引的基礎(chǔ),決定著標引的一致性。沒有正確的主題分析,就不可能得到滿意的標引結(jié)果。目前情況是,主題分析技術(shù)比較落后,也未建立比較完善的分析手段和原則,因此,應(yīng)加強
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論