版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、信息爆炸時代需要一個能在海量信息中高效篩選信息的工具,基于本體的信息整合就是解決這一難題的出路。信息系統(tǒng)之間往往由于結構異構、語法異構、系統(tǒng)異構、語義異構等原因,使得系統(tǒng)間的信息資源難以共享和重用。解決上述問題只能是引入本體,才能實現(xiàn)信息整合。
基于本體的信息抽取、整合系統(tǒng)主要有四大組成部分:類庫、知識庫、處理子系統(tǒng)、數(shù)據(jù)黑板。類庫是本系統(tǒng)處理的基礎,它負責提供處理需要的各種基本操作;知識庫包括詞典、文本分類知識庫、對象判定知
2、識庫、信息抽取知識庫,它是系統(tǒng)進行各項處理的基礎;數(shù)據(jù)黑板是本系統(tǒng)的所有分析數(shù)據(jù)的匯總,為系統(tǒng)的各項處理提供服務;處理子系統(tǒng)完成系統(tǒng)的各項功能,它由依次相連的七個模塊組成:分詞、文本分類、對象判定、查元記憶、信息抽取、信息整合、信息存儲。
本體是知識的概念模型。構建本體的目的是為了知識的表示、共享和重用。在面向自然語言理解的各種知識庫的建設過程中,本體論都是無法回避的。四項著名的本體論項目Cyc、WordNet、知網(wǎng)、HNC為
3、自然語言理解和機器翻譯等方面的研究提供了寶貴的資源。OWL作為W3C推薦的Web本體標準語言,具有強大的語義表達能力,在人工智能領域得到廣泛應用。本文嘗試構建了軍備情報這一領域知識的本體。
漢語自動分詞面臨著兩大難題:歧義字段和未登錄詞。這兩者的相互糾纏使分詞系統(tǒng)所面臨的形勢更加復雜化。漢語詞典的快速查詢是整個處理系統(tǒng)效率的關鍵所在。基于三數(shù)組 Trie索引樹的詞典查詢機制由于采用了由短詞及長詞的確定性工作方式,避免了整詞二分
4、查詢機制中不必要的多次試探性查詢,效率極高。本文開發(fā)的基于三數(shù)組Trie索引樹的分詞算法處理效率也極高。
基于機器學習的文本分類系統(tǒng)分為兩個相對獨立的模塊:訓練模塊和分類模塊。訓練模塊是利用訓練文本集完成分類規(guī)則的獲得,從而建立起分類器;分類模塊則在分類器建立后利用分類器對測試文本進行分類處理。文本表示主要采用向量空間模型,而向量的維數(shù)巨大,需要對文本進行特征篩選。本文綜合利用文檔頻次、詞頻和互信息來構造評估函數(shù)進行特征篩選,
5、并使用K-近鄰算法對文本進行分類,實驗結果令人滿意。
對象判定技術以命名實體識別為基礎,比較文章內(nèi)的所有命名實體,從而篩選出最主要的一個或幾個命名實體。人們判定文章的討論對象的主要依據(jù)有:標題中的、介引句中的、每段首句中的命名實體。本文的對象判定系統(tǒng)采用規(guī)則和統(tǒng)計相結合的方法,來模擬人們?nèi)粘i喿x中的智力活動,實現(xiàn)了對象判定。但目前該系統(tǒng)尚不具備對多討論對象的文章進行對象判定能力。
信息抽取系統(tǒng)的主要功能是從文本中抽取
6、出特定的信息。本文的基于關鍵詞驅動的信息抽取系統(tǒng)由知識庫、處理程序、數(shù)據(jù)黑板三部分構成。其本質上是基于規(guī)則的信息抽取系統(tǒng),而信息抽取規(guī)則是一種產(chǎn)生式規(guī)則:條件→操作,即如果句法語義模式匹配成功,則從句中抽取相應的信息。筆者設計出了能滿足信息抽取實際需要的信息抽取規(guī)則描述語言,保證了系統(tǒng)具有較好的可移植性。本系統(tǒng)采用絕對定位和相對定位相結合的方法來實現(xiàn)測試位置的推移,滿足了測試規(guī)則的需要。
基于本體的信息整合采用的是整體-局部法
7、,先構造領域知識的全局本體,并以對象為中心組織信息,然后再抽取、整合信息,因而在技術上就表現(xiàn)為將同一對象的新信息整合進舊信息的過程,并最終演變成對同一對象的同一屬性值進行整合的過程。對象的屬性值可以分為兩類:數(shù)量結構和非數(shù)量結構。數(shù)量結構的屬性值在整合時,首先需要進行數(shù)和量的標準化。目前,非數(shù)量結構的屬性值在整合時只能采用機械的字符串匹配方式。
最后,本文綜合集成以上的各項技術,開發(fā)出了一個能在一定程度上真正在語義層面上實現(xiàn)信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 本體導向的對象信息抽取關鍵技術研究及實現(xiàn).pdf
- 基于本體和文本特征的Web信息抽取技術研究.pdf
- 基于本體的信息抽取研究.pdf
- 基于本體的Web信息抽取.pdf
- 基于本體的文本信息抽取技術及實現(xiàn).pdf
- 車牌識別的關鍵性技術研究.pdf
- 基于本體的Web信息集成若干關鍵技術研究.pdf
- 基于本體的Web非規(guī)范知識處理中信息抽取技術研究.pdf
- 基于Web的信息抽取技術研究.pdf
- 基于HTML的信息抽取技術研究.pdf
- 基于本體的個人站點信息抽取研究.pdf
- 基于領域本體的Web信息抽取研究.pdf
- 基于信息熵的Web信息抽取技術研究.pdf
- 海堤公路建設關鍵性技術研究.pdf
- 基于本體的Deep Web信息集成關鍵技術研究.pdf
- Web對象的信息抽取的關鍵技術研究.pdf
- 基于Internet的信息抽取技術研究.pdf
- 基于語義擴展的信息抽取技術研究.pdf
- 網(wǎng)絡信息抽取系統(tǒng)關鍵技術研究.pdf
- 基于本體的產(chǎn)品信息抽取系統(tǒng)的研究.pdf
評論
0/150
提交評論