版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、中國方志類古籍起源早、持續(xù)久、類型全、數(shù)量多。據(jù)《中國地方志聯(lián)合目錄》的統(tǒng)計,僅保存至今的宋至民國時期的方志就有8264種,11萬余卷,占中國古籍的十分之一左右。整理和使用方志資料,是我國歷史上的一個優(yōu)良傳統(tǒng)。《方志物產(chǎn)》是20世紀(jì)50年代,我國著名農(nóng)史學(xué)家、中國農(nóng)史學(xué)科主要創(chuàng)始人之一的萬國鼎先生,組織數(shù)十人歷時6年,人工摘抄方志整理的專題性資料。該方志資料詳細記載了物產(chǎn)的名稱、性能、作用及分布情況,具有極高的農(nóng)業(yè)科技和經(jīng)濟史料價值。信
2、息技術(shù)日益發(fā)展的今天,如何利用現(xiàn)代信息技術(shù)整理方志資料,降低開發(fā)利用的難度,已成為一個十分現(xiàn)實的課題。本文將以《方志物產(chǎn)》為基礎(chǔ),探索方志類古籍整理的新方法,
首先從方志整理的主要內(nèi)容、基本手段、現(xiàn)有成果三方面論述方志的整理,詳細介紹《方志物產(chǎn)》的緣起及其手工整理和數(shù)字化整理的過程,分析目前方志整理存在的問題,進而引出本研究的目的和意義;其次從命名實體識別的概念和作用、識別的任務(wù)、中文命名實體識別的特點和難點等方面闡述命名
3、實體識別的基本語言學(xué)知識,重點討論命名實體識別的方法,對目前國內(nèi)外已有的相關(guān)研究作總結(jié);然后結(jié)合方志類古籍的特點以及《方志物產(chǎn)》中地名的特點,制定《方志物產(chǎn)》地名識別方法.
以廣東、福建和臺灣三省《方志物產(chǎn)》為例,構(gòu)建《方志物產(chǎn)》地名識別系統(tǒng),通過對地名識別結(jié)果的統(tǒng)計分析,進行《方志物產(chǎn)》內(nèi)容挖掘。主要研究內(nèi)容如下:
(1)《方志物產(chǎn)》地名識別系統(tǒng)的設(shè)計和構(gòu)建。該系統(tǒng)包括全文數(shù)據(jù)庫和地名識別子系統(tǒng)兩大功能模塊
4、。
全文數(shù)據(jù)庫構(gòu)建,從三省《方志物產(chǎn)》物產(chǎn)敘述格式的特點出發(fā),借鑒前人分析、提取的統(tǒng)一行文格式,對三省《方志物產(chǎn)》文本格式作規(guī)范處理,并以此為據(jù)設(shè)計數(shù)據(jù)庫結(jié)構(gòu)。全文數(shù)據(jù)庫具有全文檢索、關(guān)鍵詞檢索、聚類檢索和數(shù)據(jù)統(tǒng)計等功能.
物產(chǎn)地名識別子系統(tǒng),采用規(guī)則與統(tǒng)計相結(jié)合的命名實體識別方法,結(jié)合方志類古籍自身的特點,實現(xiàn)物產(chǎn)地名的自動識別。物產(chǎn)地名識別子系統(tǒng)具有規(guī)則管理、地名識別、地名庫修正、信息統(tǒng)計四大功能。經(jīng)測試
5、,該系統(tǒng)能夠滿足相關(guān)研究人員在方志類古籍領(lǐng)域進行古籍檢索和知識發(fā)現(xiàn)的需要。系統(tǒng)的識別效果可通過規(guī)則的不斷完善得以逐步優(yōu)化。
(2)《方志物產(chǎn)》的物產(chǎn)研究
按歷史時期、志書類型、地域位置對廣東、福建、臺灣三省《方志物產(chǎn)》的全部載述物產(chǎn)進行統(tǒng)計和分析。按歷史時期統(tǒng)計分析的結(jié)果表明:從明代到清代再到民國時期,平均每部志書記載物產(chǎn)的數(shù)量呈遞增趨勢。按志書類型統(tǒng)計分析的結(jié)果表明:從通志到府志再到縣志,平均每部志書所載物
6、產(chǎn)的數(shù)量呈遞減趨勢。按地域位置統(tǒng)計分析的結(jié)果表明:廣東、福建、臺灣三省《方志物產(chǎn)》記述的不僅是這三省的物產(chǎn),還包括海南省全部和廣西部分地域的物產(chǎn)。
(3)基于物產(chǎn)地名的《方志物產(chǎn)》內(nèi)容挖掘研究,包括全部正確地名的統(tǒng)計分析、各省物產(chǎn)分布、物產(chǎn)傳播和外來物產(chǎn)引進研究。
全部正確地名的統(tǒng)計分析,基于7179條有效地名識別記錄。各省《方志物產(chǎn)》地名識別結(jié)果分別按省內(nèi)地名、省外地名、國外地名和寬泛地名分類統(tǒng)計。統(tǒng)計分析
7、的結(jié)果表明:相比其他兩省,臺灣省同外界的物產(chǎn)交流、傳播相對更為廣泛。
各省物產(chǎn)分布研究,基于相關(guān)統(tǒng)計數(shù)據(jù),詳細分析了廣東、福建、臺灣三省物產(chǎn)的具體分布情況,并利用ArcGIS軟件繪制物產(chǎn)分布專題地圖,全面、直觀地顯示相:關(guān)內(nèi)容。研究結(jié)果表明:決定一個地域物產(chǎn)多樣性的主要因素有兩點,一是該地域的自然因素,包括其地理位置、自然環(huán)境和氣候條件;二是該地域的人文因素.包括人類對自然資源的開發(fā)與利用、外來物產(chǎn)的引進和傳播。
8、 各省物產(chǎn)傳播研究,基于相關(guān)統(tǒng)計數(shù)據(jù),詳細分析了廣東、福建、臺灣三省物產(chǎn)的傳播概況,同樣利用ArcGIS軟件繪制專題地圖,進行全面、直觀的顯示。研究結(jié)果表明:地區(qū)間物產(chǎn)交流和傳播的廣度隨地區(qū)間距離的擴大呈遞減趨勢。距離越遠,物產(chǎn)交流和傳播相對越少。
各省外來物產(chǎn)引進研究,基于相關(guān)統(tǒng)計數(shù)據(jù),分析、比較了廣東、福建、臺灣三省外來物產(chǎn)的引進概況。研究表明:促進物產(chǎn)引進和傳播的原因有兩點,一是地區(qū)間的貿(mào)易往來。二是殖民侵略和戰(zhàn)
9、爭。
(4)基于識別規(guī)則的《方志物產(chǎn)》內(nèi)容挖掘研究,包括全部識別規(guī)則的統(tǒng)計分析、物產(chǎn)分布比較研究、物產(chǎn)引進和傳播途徑研究。
全部識別規(guī)則的統(tǒng)計分析,同樣基于7179條有效地名識別記錄。根據(jù)規(guī)則表達的含義,將識別規(guī)則分為識別物產(chǎn)分布地名的規(guī)則和識別物產(chǎn)引進傳播地名的規(guī)則兩類,各類分別加以統(tǒng)計。
物產(chǎn)分布比較研究,基于識別規(guī)則的相關(guān)統(tǒng)計數(shù)據(jù),挖掘出志書對物產(chǎn)原產(chǎn)地、分布地、各地物產(chǎn)孰優(yōu)孰劣、孰多孰少
10、等相關(guān)內(nèi)容的描述,進而歸納出部分物產(chǎn)的原產(chǎn)地、優(yōu)產(chǎn)地和高產(chǎn)地。
物產(chǎn)引進和傳播途徑研究,基于識別規(guī)則的分類統(tǒng)計數(shù)據(jù),總結(jié)出明清時期外來物產(chǎn)引進和傳播的主要途徑:一是對外貿(mào)易,二是朝貢,三是朝廷使者或僧侶傳入。
總而言之,本文以農(nóng)史資料《方志物產(chǎn)》為語料,將信息組織的理論、方法借助于命名實體識別技術(shù)實現(xiàn)《方志物產(chǎn)》的地名識別,通過對識別結(jié)果的文獻計量學(xué)分析,進行《方志物產(chǎn)》內(nèi)容挖掘研究,旨在探索一種基于內(nèi)容的古
11、籍整理新方法。本研究所做的主要工作和貢獻在于:
(1)將命名實體識別相關(guān)理論和方法嘗試應(yīng)用于方志類古籍文獻,用來識別、挖掘方志文獻中的地名;
(2)運用文獻計量學(xué)方法,分析《方志物產(chǎn)》地名識別結(jié)果中的物產(chǎn)名、物產(chǎn)地名和識別規(guī)則,獲得物產(chǎn)分布、物產(chǎn)引進和傳播等相關(guān)知識,實現(xiàn)基于內(nèi)容的古籍?dāng)?shù)字化整理;
(3)借助GIS專題地圖,直觀顯示《方志物產(chǎn)》中物產(chǎn)分布、物產(chǎn)引進和傳播等知識內(nèi)容,突破傳統(tǒng)的文字
12、表達模式,使方志類古籍這一歷史文化資源的時空特性得以充分揭示。
命名實體包括人名、地名、組織機構(gòu)名等,本文重點是對廣東、福建和臺灣三省《方志物產(chǎn)》中的地名進行識別,其他的諸如志書名稱、成書年代、物產(chǎn)名稱等命名:實體是文檔處理過程中采用機器輔助粗分出來的。今后可通過修改或重新錄入、組織規(guī)則,實現(xiàn)對其他省份的方志資料,或其他類型的古籍資料進行地名以外的人名、官職名、機構(gòu)名等其他命名實體的識別研究,以求從多角度挖掘和利用古籍資料
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 命名實體識別在方志內(nèi)容挖掘中的應(yīng)用研究——以廣東、福建、臺灣三省方志物產(chǎn)為例
- 地方志知識組織及內(nèi)容挖掘研究——以方志物產(chǎn)廣東為例
- 地方志知識組織及內(nèi)容挖掘研究——以方志物產(chǎn)廣東為例_12311
- 命名實體識別研究及其應(yīng)用.pdf
- 領(lǐng)域本體在中文命名實體識別中的應(yīng)用研究.pdf
- 半監(jiān)督的命名實體識別.pdf
- 中文命名實體識別的研究.pdf
- 中文命名實體識別算法研究.pdf
- 基于規(guī)則的命名實體識別研究.pdf
- 2004命名實體識別評測大綱
- 中文短文本命名實體識別方法與應(yīng)用研究.pdf
- 基于CRF的英文命名實體識別研究.pdf
- 基于Stacking框架的命名實體識別.pdf
- 2004命名實體識別評測大綱
- 命名實體識別及其關(guān)系抽取.pdf
- 中文命名實體識別方法研究.pdf
- 基于CRF的農(nóng)業(yè)命名實體識別研究.pdf
- 基于CRF的中文命名實體識別研究.pdf
- 基于統(tǒng)計的生物命名實體識別研究.pdf
- 基于Wikipedia的中文命名實體識別研究.pdf
評論
0/150
提交評論