版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第一章 信息檢索基本知識,海南熱帶海洋學院圖書館信息咨詢部,第一章 信息檢索基本知識,第四節(jié) 信息檢索語言 第五節(jié) 信息檢索的步驟、方法與途徑 第六節(jié) 檢索效果及其評價,第四節(jié) 信息檢索語言,4.1檢索語言的的概念與作用 檢索工具之所以成為檢索工具,在于它的著錄款目是按照一定的排檢方法組織起來的,能夠提供一定的檢索手段。 決定檢索工具中大量文獻線索的排檢序列的關鍵,是以文獻特征進行標引而得到的文
2、獻的標識。在一個檢索工具或檢索系統(tǒng)中,千千萬萬的文獻著錄款目是根據(jù)其標識,或按字順或按邏輯次序(一般用號碼或字母表示)而編排起來的。標識是提示文獻內(nèi)容特征或外表特征的“標簽”,是文獻最簡潔的代表,也是文獻檢索所據(jù)以進行的“存取點”。,,為了使檢索的過程,即文獻標識和信息提問的對比進行得順利,二者都需要用一定的語言來加以表達。只有借助于這種語言,文獻的標引人員與檢索人員才能有一個共同的約定,彼此才能溝通思想。也就是說,文獻存儲時,文獻的內(nèi)
3、外特征按照一定的語言來加以描述,而檢索時信息提問也按照一定的語言來加以表達。這種把文獻的存儲與檢索聯(lián)系起來、把標引人員與檢索人員聯(lián)系起來以便取得共同理解、實現(xiàn)交流的語言,就叫做檢索語言。下圖展示了檢索語言在信息存儲和檢索過程中的作用。,,檢索語言在信息存儲與檢察中的作用,4.2 檢索語言的分類,描述文獻的有關特征而分描述外表特征的:著者姓名、題名、報告號、 標準號、專利號、
4、檔案號等 檢索標識 描述內(nèi)容特征的:主題詞 、分類號 前者比較直觀,容易理解,以下主要介紹后種。,按檢索標識的規(guī)范與否來分,檢索語言可分為人工語言(或受控語言)和自然語言。人工語言(artificial language)是根據(jù)信息檢索的需要而由人工創(chuàng)制的,采用規(guī)范化的詞語(controlled term)來專指某個概念或網(wǎng)羅與之相應的概念,可以將同義詞、近義詞、相關
5、詞、多義詞及縮略詞規(guī)范在一起,包括分類檢索語言(分類號)、主題檢索語言和代碼檢索語言。自然語言(natural language)檢索用詞是從信息內(nèi)容本身抽取的,主要依賴于計算機自動抽詞技術完成,輔以人工自由標引,是非規(guī)范詞(uncontrolled term)。自然語言包括:關鍵詞(keyword)、題名、作者、摘要、全文、引文等。,,分類語言: 分類語言是以號碼為基本字符,用分類號表達文獻主題概念的檢索語言。按分類號的構成
6、原理,分類語言又可分為等級體系分類語言和分析一綜合分類語言。 分類法中的類又稱類目,指具有共同屬性的一組文獻資料。文獻分類是按照文獻中所含知識信息的學科屬性,對文獻進行區(qū)分,進一步根據(jù)文獻的知識信息內(nèi)容之間的內(nèi)在聯(lián)系組成科學的分類體系,其目的是將同一學科或?qū)W科門類的文獻集中在一起,便于從學科的角度進行檢索和利用。,,一部分類法實質(zhì)上就是一套概念標識系統(tǒng)。體系分類法采取對文獻論述的事物概念進行層層劃分、層層隸屬的辦法來形成一系列
7、專指的分類標識,按照科學體系將分類標識組織成具有隸屬、并列關系的概念等級標識系統(tǒng)。分類法雖然比較具有學科的系統(tǒng)性,但它所能反映的這種科學系統(tǒng)性,只是在一定的限度之內(nèi)?,F(xiàn)代科學由于邊緣學科、交叉學科的出現(xiàn),各門學科互相滲透,互相結合,日益使直線序列的分類法難以反映多元性的知識空間,因而不能確切地代表科學體系。,,一部完整的分類法一般由以下四個部分組成:①編制說明。主要說明該分類法的編制過程、所依據(jù)的編制原則、類目的設置和編次的理由,對各
8、種分類問題的技術處理、使用扣標引方法等。②類目表。包括:大綱一一基本大類一覽表;簡表——基本類日表;詳表一—主表,是分類法的主體;輔助表一一一組組標準字目表,用以對主表中列舉的類目進行細分。③索引。是分類法的類日名稱索引,按字順排列,以幫助不熟悉分類法的讀者使用。 ④附錄。收錄按類檢索時經(jīng)常要查問的一些參考資料。,,常用分類法介紹 我國大部分圖書館通常采用的分類法是《中國圖書館圖書分類法》(簡稱《中圖法》超鏈內(nèi)容為圖書
9、館主頁簡表),其次是《中國科學院圖書館圖書分類法》(簡稱《科圖法》)和《中國人民大學圖書館圖書分類法》(簡稱《人大法》)。美國圖書館最通用的是《美國國會圖書館圖書分類法》(Library of Congress Classification),簡稱《國會法(LC)》和《杜威十進分類法》(Dewey Decimal Classification),簡稱《杜威法(DDC)》。,我國最通用的分類法—— 《中國圖書館分法》,簡稱中圖
10、法 基本結構,,,《中國圖書館分類法》,基本大類:22個基本大類A 馬、列、毛、鄧有關論著B 哲學C 社會科學總論D 政治E 軍事F 經(jīng)濟,G 文化、科學、教育、體育H 語言、文字I 文學J 藝術K 歷史、地理N 自然科學總論O 數(shù)理科學和化學P天文學、地球科學Q生物科學,,,R 醫(yī)藥、衛(wèi)生S 農(nóng)業(yè)科學T 工業(yè)技術U 交通運輸V 航空、航天X 環(huán)境科學Z 綜合性圖書
11、,例:層層展開,T 工業(yè)技術TP 自動化技術、計算機技術TP3 計算技術、計算機技術TP31 計算機軟件TP311 程序設計、軟件工程TP311.1 程序設計TP311.13 數(shù)據(jù)庫理論與系統(tǒng)TP311.131
12、 數(shù)據(jù)庫理論,,,分類號TP31,共找到4786條,TP311程序設計軟件工程,,查出1183條,TP311.131數(shù)據(jù)庫理論,,查出5種,題名檢索:數(shù)據(jù)庫,選擇任意匹配,查出460條題名中含有“數(shù)據(jù)庫”的書刊,但不一定是講數(shù)據(jù)理論的。,主題語言:由主題詞匯構成,即將自然語言中的名詞術語經(jīng)過規(guī)范化后直接作為信息標識,按一定順序排列,通過參照系統(tǒng)揭示主題概念之間的關系,也稱主題法。主題語言表達的概念比較準確,具有較好的靈活性
13、和專指性,不同的檢索系統(tǒng)、不同的專業(yè)領域可以有各自的主題詞表。,規(guī)范化語言:標題詞、敘詞 例:自行車(腳踏車、單車) 洋玉(馬鈴薯,土豆)自然語言:關鍵詞 計算機發(fā)展兩者的比較:前者:易于查全、查準,
14、 但不易加式、用戶不熟悉 后者:不 易查全、查準,但易于加工, 讀者使用方便。,中國期刊網(wǎng),選擇2002年農(nóng)業(yè)專輯,用關鍵詞“馬鈴薯”進行檢索,查出223篇,用“馬鈴薯”或“土豆”檢索,查出238篇,不同類型檢索語言的比較 文獻的外表特征與文獻是一一對應的,即一組外表特征只對應一篇唯一的文獻,而文獻的內(nèi)容特征與文
15、獻卻是一種模糊的對應關系,即一篇文獻有多個主題詞(關鍵詞)或分類號,一個主題詞(關鍵詞)或分類號也可對應多篇甚至幾百篇文獻。 正因為存在這兩種對應關系,使得兩種特征的用途大不相同。利用外表特征只能檢出很少的文獻,有時只用于特定情況下(如已經(jīng)知道作者名等)。利用內(nèi)容特征一次能檢出一批文獻,這對研究者來說是極其有用的。,第五節(jié) 信息檢索的步驟、方法與途徑,5.1 分析課題 5.2 選擇檢索工具 5.3 構造檢索式
16、,選擇檢索途徑 5.4 選定檢索方法 5.5 查找文獻線索 5.6 索取原始文獻,5.1 分析課題,,1、 明確檢索目的 一般來說,用戶的信息需求和檢索目的包括以下幾類: 一是需要關于某一個課題的系統(tǒng)詳盡的信息 二是需要關于某個課題的最新信息 三是了解一些片斷信息,解決一些具體問題 2、 明確課題的主題或主要內(nèi)容3、 課
17、題涉及的學科范圍:搞清楚課題所涉及的學科領域,是 否是跨學科研究,以便按學科選擇信息資源。如有可能, 還可以給出相應的分類號。4、 所需信息的數(shù)量、語種、年代范圍、類型等具體指標。,5.2 選擇檢索工具 檢索工具的種類繁多,其文獻類型、學科和專業(yè)的收錄范圍各有側(cè)重,所以根據(jù)課題的檢索要求,認真選準、選全檢索工具十分重要。主要要確定以下幾個方面: 是否所有與檢索課題相關的資源都要進行檢索,
18、如果是,則不但考慮要檢索一次文獻和二次文獻的數(shù)據(jù)庫,而且對于網(wǎng)上其他資源,如搜索引攀、分類檢索指南、學科導航、專題BBS等也要查詢。 選擇哪些學科的信息資源:例如查找生物學方面的信息,則可能會涉及醫(yī)學方面的信息資源,因此要特別注意跨學科的問題。 選擇哪些語種的信息資源:是中文還是西文,或是二者兼顧。,,信息資源覆蓋的年限是否符合需求:大多數(shù)數(shù)字信息資源覆蓋的年限都是近二十年的內(nèi)容,因此如果需要更早的資料,就要考
19、慮手工檢索的問題;還有些數(shù)據(jù)庫由于更新速度的原因(例如光盤數(shù)據(jù)庫,或數(shù)據(jù)庫加工的速度不夠快),無法提供最新的信息,也是要考慮的因素,這時更多是使用其他一些相關數(shù)據(jù)庫(如同一數(shù)據(jù)庫的網(wǎng)絡版)或其他網(wǎng)絡資源來予以補充。 信息資源的特點及其針對性如何:要了解已選擇的信息資源的查詢特點,是否與自己的信息需求相吻合。例如查詢某個機構或公司的網(wǎng)頁,使用搜索引擎是最好的,而即使是搜索引擎,各自的特點不同,涵蓋的內(nèi)容也有所
20、側(cè)重和不同;查詢新聞時事,則可以登錄到一些新聞網(wǎng)站;查找學位論文,就一定要使用學位論文數(shù)據(jù)庫,或直接到大學或?qū)W院的網(wǎng)站上查詢,因為有些學校的學位論文在網(wǎng)上是提供二次文獻服務的。,5.3 構造檢索式,選擇檢索途徑,例如:(memory manag?) OR (((memory block) OR (memory pool)) AND allocat? AND free) 這是一個典型的檢索式,在這個檢索式中,包含了五個概念,
21、這五個概念用單元詞或詞組短語表示,它們之間存在著邏輯“與”、邏輯“或”、截詞符、優(yōu)先運算的關系,將這五個概念用布爾邏輯算符“AND”和“OR”,截詞符“?”以及嵌套算符“()”連接起來,即是一個檢索式。,擬好檢索式以后,就要選擇檢索點(access point),即選擇檢索途徑或檢索入口,也稱檢索字段(field)。檢索途徑主要分以下幾種:,5.4 選定檢索方法,5.5 查找文獻線索
22、0;用已經(jīng)構成的檢索提問式,按照相應的檢索途徑查找有關的索引(如主題索引、分類索引、作者索引等),通過檢索查到與檢索提問一致的文獻后,就要仔細閱讀分析文獻的著錄款目,判斷主題內(nèi)容是否符合檢索要求。倘若符合檢索要求,就要準確記下文獻篇名、著者、來源、文種等著錄事項。這些文獻來源項目是獲得文獻原文的主要線索。如果是利用全文數(shù)據(jù)庫或電子書刊檢索系統(tǒng),則可直接獲取原文。,5.6 索取原始文獻,a.辯識文獻款目,包括文獻類型、來源、出版物名稱等;
23、b.查找原始文獻的收藏單位,先從本單位、本地區(qū)入手,利用館藏目錄和聯(lián)合目錄(聯(lián)網(wǎng)目錄),找到原始文獻收藏單位,即可通過借閱、復制、館際互借或網(wǎng)上傳送獲得文獻。 1、刊名。 要把那些為節(jié)省篇幅而采用的刊名縮寫還原成刊名全稱是一個主要的工作。一般檢索刊物都附有引用出版物一覽表,供查對收錄的出版物全稱之用。若線索來自文后參考文獻或手抄件,可查閱專門的刊名縮寫檢索工具,如《期刊刊名縮寫》(Periodical Title Abbr
24、eviation)。中文、 日文、俄文刊名在英文文摘中一律采用拉丁文音譯著錄,故在翻譯時應首先將縮寫刊名還原為全稱,然后查閱有關音譯轉(zhuǎn)化工具書。 2、文獻類型。 檢索刊物中收錄的文獻類型大多來自期刊,但也混有其他類型的文獻,如圖書、學位論文(印刷型或縮微型)、會議報告等等。各種類型的文獻著錄格式上有微小差異,要善于辨認出這些區(qū)別。如凡有年份、卷期號的一般是期刊論文,有專利代碼的是專利文獻,有出版商簡稱和出版地、出版年的
25、是圖書,有會議類屬詞及會期的是會議報告等等。檢索刊物前的縮略語及符號一覽可供參考。機檢可依據(jù)打印單上文獻類型字段中的代碼鑒別出版物類型。 3、論文著者的地址。 要獲取會議論文、學位論文、公司報告以及一些尚未公開發(fā)表的文章的原文,必須獲得論文著者(包括團體著者)的詳細地址。有的檢索刊物的款目中附有作者的工作單位,可以據(jù)此查閱機構名錄。從著者姓名線索出發(fā),進一步查閱履歷型傳記工具書亦有不少幫助。,檢索系統(tǒng)的結構 一個檢索
26、系統(tǒng),要能夠有效的被利用,必須有兩個部分:文獻描述項和索引項。文獻描述項按照檢索系統(tǒng)的簡繁可分為題錄型和文摘型兩類。(1)題錄與文摘 題錄是所有的檢索系統(tǒng)都應具備的基本內(nèi)容,它包括文獻標題、作者、作者工作單位、發(fā)表時間、文獻來源(期刊、會議、專利等)。有了題錄,讀者就可以方便地獲得原文?! ≌╝bstract),也稱文摘,是對一篇文獻的內(nèi)容作的簡略準確的描述。有些文摘與原文文獻刊登在一起,叫做篇首文摘(heading abs
27、tract)。一般比較完整的檢索系統(tǒng)每篇文獻都附有摘要,以工讀者了解與挑選文獻。,(2)索引 索引(index)原指一種通常按字順排列,包括特別相關且被文獻提及的全部項目(主題、人名等)的目錄,它給出每個項目在文獻中的出處,整個目錄通常放在文獻后面。檢索系統(tǒng)中的索引是指按文獻的特征(外表、內(nèi)容)依一定的次序?qū)⑽墨I(通常以文摘號)排列起來的目錄,通過它可以得到相關的文摘。,按照索引款目的不同,可以有各種各樣的索引,如:主題詞索引(S
28、ubject Index)關鍵詞索引(Keyword Index)作者索引(Author Index、Personal Author Index)作者工作單位索引(Author Affliation Index) Cooperate Author Index)分類號索引(Class Index)各種號碼索引:如專利號索引(Patent Number Index)、報告號
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 檢索語言
- 檢索語言的概念
- 黃頁檢索語言的探索
- 基于統(tǒng)計語言模型的跨語言信息檢索.pdf
- 受控語言與自然語言結合檢索方式研究.pdf
- 網(wǎng)絡環(huán)境下信息檢索語言研究.pdf
- 基于語言模型的文本檢索技術及檢索結果重排序的研究.pdf
- 跨語言信息檢索技術的研究與實現(xiàn).pdf
- 基于語義距離的跨語言信息檢索研究.pdf
- 基于本體的Web跨語言信息檢索研究.pdf
- 結合鄰近度的語義位置語言檢索模型.pdf
- 面向漢英的跨語言信息檢索方法研究.pdf
- 跨語言醫(yī)學信息檢索及其排序方法研究.pdf
- 中英文跨語言信息檢索模型研究.pdf
- 基于語言模型的句子檢索技術研究.pdf
- 本體論和統(tǒng)計語言模型相結合的跨語言信息檢索研究.pdf
- 基于中間語義的跨語言信息檢索研究.pdf
- 基于本體的跨語言全文檢索模型的研究.pdf
- 基于統(tǒng)計語言建模的信息檢索及相關研究.pdf
- 跨語言信息檢索中關鍵技術的研究.pdf
評論
0/150
提交評論