版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、自然語言的應(yīng)用研究自然語言的應(yīng)用研究【正文】(朱麗(上海空軍政治學(xué)院信息管理系))摘要作為情報(bào)語言學(xué)研究對(duì)象之一的自然語言,在情報(bào)檢索中的應(yīng)用正日趨廣泛。本文將其與規(guī)范語言進(jìn)行了比較,重點(diǎn)討論了其應(yīng)用中的三個(gè)問題,自然語言標(biāo)引、標(biāo)引檢索用詞表及檢索語言整體化趨勢(shì),并就其未來發(fā)展作了闡述。主題詞自然語言規(guī)范語言情報(bào)檢索***1.自然語言與規(guī)范語言自然語言(natruallanguage)是相對(duì)于規(guī)范語言(Controlledlanguag
2、e)而言的,其本質(zhì)特征是不受控制[1]。從情報(bào)檢索的發(fā)展歷程來看,作為語言保障的規(guī)范語言是對(duì)自然語言實(shí)施控制而出現(xiàn)的;而情報(bào)檢索的進(jìn)一步發(fā)展必使得曾被否定的自然語言重新得以肯定[2]。1.1規(guī)范語言的產(chǎn)生規(guī)范語言是適應(yīng)情報(bào)檢索需要而創(chuàng)制的一種人工語言,它在手工檢索條件下產(chǎn)生,并得到了充分發(fā)展及應(yīng)用。如歷史最久遠(yuǎn)的分類語言,采用比較抽象的類號(hào)來表達(dá)概念,組織檢索系統(tǒng)。它具有良好的系統(tǒng)性,適于學(xué)科或?qū)I(yè)出發(fā)的族性檢索。同時(shí),隨著學(xué)科發(fā)展及用
3、戶需求的變化,分類語言也由等級(jí)體系型日益向分面組配方向發(fā)展。而規(guī)范語言的另一重要分支——主題語言,則以自然語言為基礎(chǔ),經(jīng)過人為的形式控制(詞量、詞形、詞義及詞間關(guān)系等),用來直接表達(dá)主題概念。50年代由于計(jì)算機(jī)檢索的迅速發(fā)展,主題語言也在經(jīng)歷了元詞語言的短暫應(yīng)用后進(jìn)入敘詞語言的大普及階段。作為吸取以往所有規(guī)范語言優(yōu)點(diǎn)的敘詞語言,適應(yīng)了標(biāo)引、檢索的多種要求,是在機(jī)檢條件下效率較好的一種規(guī)范語言。60年代,在國外被稱為“敘詞表”時(shí)代,其應(yīng)用
4、達(dá)到了頂峰。無論是哪種規(guī)范語言,為了達(dá)到簡明專指地進(jìn)行標(biāo)引及全準(zhǔn)便捷地實(shí)現(xiàn)檢索的目的,都對(duì)人們?nèi)粘J褂玫淖匀徽Z言進(jìn)行了種種轉(zhuǎn)換及限制處理。如分類語言是建立在代表主題概念的一系列類目基礎(chǔ)上的號(hào)碼體系,而主題語言則是有選擇并加以規(guī)范化的自然語言的一個(gè)子集。這在克服了自然語言的兩大不足[4]:概念與語詞非一一對(duì)應(yīng),及概念關(guān)系的隱含性的同時(shí),也不可避免地導(dǎo)致了規(guī)范語言自身的局限,即表達(dá)概念的受限,詞匯轉(zhuǎn)換的失真及標(biāo)引、檢索前處理量大且難以達(dá)到統(tǒng)
5、一等。七、八十年代由于計(jì)算機(jī)軟件硬件條件的支持,國外在聯(lián)機(jī)檢索的基礎(chǔ)上進(jìn)一步向網(wǎng)絡(luò)化發(fā)展。90年代初以來各國的信息高速公路建設(shè)更是方興未艾,如火如荼,國內(nèi)機(jī)檢水平也在迅速提高,并與全球的大趨勢(shì)相合拍。在這種形勢(shì)下,作為情報(bào)檢索語言保障的規(guī)范語言因其固有的人工性、受控性,越來越難以滿足大量、迅捷、自由、多樣的檢索要求,其得不償失的內(nèi)在不足更趨明顯化。1.2自然語言的優(yōu)勢(shì)及當(dāng)前信息條件下對(duì)其的需求自然語言作為日常使用的語言,無疑最符合人們進(jìn)
6、行情報(bào)檢索的習(xí)慣,隨著機(jī)檢的高度發(fā)展,應(yīng)用條件的日益完善,自然語言有可能揚(yáng)長避短,重新發(fā)揮其固有的優(yōu)勢(shì)。①直接采用文獻(xiàn)作者使用的自然語言,標(biāo)引工作就可以擺脫規(guī)范語言的了解掌握,以及繁復(fù)的分析轉(zhuǎn)換過程。這大大降低了標(biāo)引的腦力、體力負(fù)擔(dān),加快了標(biāo)引速度,又減少了表達(dá)概念上的失真和不一致。②直接以日常使用的自然語言進(jìn)行情報(bào)檢索,符合檢索者的習(xí)慣,簡便易行,對(duì)于日益增大的普遍檢索用戶群而言更是如此。檢準(zhǔn)率的因素[8]。同時(shí),由于計(jì)算機(jī)對(duì)自然語言
7、的理解力以及漢語語詞切分、識(shí)別尚存在相當(dāng)距離,純自然語言自動(dòng)標(biāo)引與檢索未獲真正意義上的推廣及使用。這種狀況使得自然語言也不得不研究吸取規(guī)范語言的某些控制手段或指導(dǎo)思想,以期在保持自然語言的基本特征及固有優(yōu)點(diǎn)下,最大限度地提高標(biāo)引、檢索效率。由此產(chǎn)生了各種自然語言標(biāo)引、檢索詞表(典)。①后控制詞表以往的規(guī)范文語言詞表是在文獻(xiàn)或情報(bào)輸入時(shí)就對(duì)索引詞先行加以控制(受控標(biāo)引),因此又稱為前控詞表。由于它的控制帶有一定的粗泛性、滯后性,有時(shí)甚至失
8、控,因而人們開始嘗試使用自然語言(自由詞)進(jìn)行檢索,但這又造成了與受控語言的脫節(jié)。于是,在標(biāo)引時(shí)使用自然語言,在檢索時(shí)實(shí)施一些不嚴(yán)格的控制,這就成了后控制詞表的最初思路。1959年美國匹茲堡大學(xué)法律中心采用一種同義詞表來輔助其法律全文數(shù)據(jù)庫的檢索,它只是簡單地將相同含義的詞編輯在一起,作為一種自動(dòng)擴(kuò)檢工具而獲得了相當(dāng)好的效果。國內(nèi)在這方面的研究始于80年代初,近年來則正逐漸形成理論和實(shí)踐熱點(diǎn),出現(xiàn)了一批實(shí)驗(yàn)或?qū)嵱眯院罂刂圃~表系統(tǒng)。如基于
9、用戶提問和用戶建議的自學(xué)后控制系統(tǒng),基于字面相似原理的后控詞表輔助編制系統(tǒng),基于詞對(duì)相似和詞對(duì)共現(xiàn)原理的后控制詞表系統(tǒng)以及基于分面分析的機(jī)輔后控制詞表系統(tǒng)等[9]。后控制詞表通過羅列自然語詞來提供一種轉(zhuǎn)換或擴(kuò)檢系統(tǒng),其控制效果由詞表對(duì)自然語言詞間關(guān)系的顯示形式、種類及質(zhì)量所決定。它作為利用規(guī)范語言的原理和方法編制的自然語言檢索用控制詞表較好地減輕了標(biāo)引和檢索負(fù)擔(dān),又同時(shí)保留了自然語言的優(yōu)點(diǎn),其應(yīng)用前景十分廣闊。②入口詞表入口詞表的編制是
10、為解決標(biāo)引和檢索的入口詞問題,最初的出發(fā)點(diǎn)是針對(duì)規(guī)范語言詞表而言的。它解決了詞表詞量有限的問題,并提供了規(guī)范語言與自然語言的接口。隨著情報(bào)檢索的發(fā)展,入口詞表的應(yīng)用范圍也有所拓展,可以認(rèn)為標(biāo)引詞、檢索詞表達(dá)的變化以及查找途徑的增加都可稱為入口思想的反映。常見的入口詞表有與規(guī)范語言詞表同一的入口詞表、專門編制的入口詞表等,截詞檢索從其功能而言也是一種無形的入口詞表。另外,詞表的輪排索引提供了從詞素出發(fā)的多個(gè)入口,也是入口詞表的一種重要形式
11、。③切分詞典這是針對(duì)漢語分詞的困難,而構(gòu)造的一種機(jī)內(nèi)詞典,在自動(dòng)標(biāo)引時(shí)作為切分抽詞的輔助工具。其中又可細(xì)分為主題詞詞典、關(guān)鍵詞詞典、部件詞詞典、非用字后輟表等。上述切分詞典均在自然語言自動(dòng)標(biāo)引中得到了應(yīng)用,但仍存在一些需完善之處。如保證詞典抽詞的準(zhǔn)確性、便檢性,切分規(guī)則的完備性以及提高處理隱含概念、縮略語等特殊語言現(xiàn)象的能力。2.3自然語言與規(guī)范語言的結(jié)合使用——整體化趨勢(shì)自然語言與規(guī)范語言的構(gòu)成特點(diǎn)決定了它們?cè)跈z索效率方面具有互補(bǔ)性,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 韻律結(jié)構(gòu)信息在自然語言處理中的應(yīng)用研究.pdf
- 基于詞聯(lián)接的自然語言處理技術(shù)及其應(yīng)用研究.pdf
- 自然語言句法樹結(jié)構(gòu)轉(zhuǎn)換及應(yīng)用研究.pdf
- 自然語言理解的研究.pdf
- 基于自然語言處理的空間信息檢索優(yōu)化應(yīng)用研究.pdf
- 自然語言編程研究.pdf
- 自然語言問答系統(tǒng)的研究及其應(yīng)用.pdf
- 基于自然語言理解的自動(dòng)應(yīng)答技術(shù)及應(yīng)用研究.pdf
- 神經(jīng)語言模型在自然語言處理中的應(yīng)用.pdf
- 圖模型在自然語言處理中的研究與應(yīng)用
- 信息-知識(shí)-智能轉(zhuǎn)換理論在自然語言處理中的應(yīng)用研究.pdf
- 自然語言處理分詞文檔
- 自然語言處理分詞文檔
- 最新自然語言處理naturallanguageprocessingnlp
- 圖模型在自然語言處理中的研究與應(yīng)用.pdf
- 半監(jiān)督算法在自然語言處理中應(yīng)用的研究.pdf
- 淺議自然語言信息處理的智能化應(yīng)用
- 訂票系統(tǒng)的自然語言接口.pdf
- 面向領(lǐng)域自然語言處理方法的研究.pdf
- 基于統(tǒng)計(jì)的自然語言處理.pdf
評(píng)論
0/150
提交評(píng)論