版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 基于本體的Web文檔知識(shí)獲取的框架研究</p><p> 摘 要 本文在分析了Web文本的知識(shí)獲取途徑之后,提出了一個(gè)基于本體的Web文檔知識(shí)獲取模型。該模型具有較好的適應(yīng)性和可移植性,模型使用了可擴(kuò)充標(biāo)記語(yǔ)言(XML),使得對(duì)知識(shí)庫(kù)的處理更加簡(jiǎn)便。最后,通過(guò)一個(gè)臨床實(shí)例對(duì)其流程進(jìn)行了詳細(xì)說(shuō)明,并分析其在醫(yī)院知識(shí)庫(kù)系統(tǒng)中的應(yīng)用。</p><p> 關(guān)鍵字 知
2、識(shí)獲??;本體;Web文檔</p><p><b> 1 引言</b></p><p> 互聯(lián)網(wǎng)技術(shù)的發(fā)展為知識(shí)獲取方法的研究帶來(lái)了機(jī)遇和挑戰(zhàn)。必須發(fā)展相應(yīng)的知識(shí)自動(dòng)獲取技術(shù)。為了使語(yǔ)義網(wǎng)應(yīng)用到實(shí)際中給人們提供知識(shí)服務(wù),就需要解決從Web文檔中獲取知識(shí)的問(wèn)題。盡管從Web頁(yè)面的注釋中我們可以發(fā)現(xiàn)部分信息,然而所獲得的信息是不全面的,而且很難能獲取元信息。有研究者將
3、本體的概念引入到知識(shí)發(fā)現(xiàn)領(lǐng)域[1] [5],但還沒(méi)有充分發(fā)揮到本體的優(yōu)勢(shì)。本文中本體以概念和關(guān)系來(lái)劃分知識(shí)類(lèi)型,并且以獲取知識(shí)的本體為指導(dǎo)來(lái)從非結(jié)構(gòu)化的Web文檔中發(fā)現(xiàn)知識(shí)。</p><p> 2 面向Web文本的知識(shí)獲取途徑</p><p> 互聯(lián)網(wǎng)中存在大量的Web文檔,其中記載著大量的信息。通過(guò)超鏈接逐頁(yè)閱讀相關(guān)文獻(xiàn)來(lái)查找所需信息是初級(jí)的且效率較低的知識(shí)獲取方式。從文本中發(fā)現(xiàn)知
4、識(shí)并提供給用戶(hù)從技術(shù)上講有兩條主要途徑:</p><p> (1)傳統(tǒng)的途徑,即通過(guò)使用如歸納程序等工具直接獲取文本中的知識(shí),或通過(guò)知識(shí)工程師或領(lǐng)域?qū)<沂褂弥R(shí)編輯、編譯工具間接獲取知識(shí),然后構(gòu)造專(zhuān)家系統(tǒng)知識(shí)庫(kù),通過(guò)專(zhuān)家系統(tǒng)間接為用戶(hù)提供知識(shí)[2]。這種方法有如下不足:第一,專(zhuān)家系統(tǒng)知識(shí)庫(kù)的表現(xiàn)形式不統(tǒng)一,存在知識(shí)難以共享的問(wèn)題,且不適合逐頁(yè)瀏覽;第二,在知識(shí)從文本轉(zhuǎn)移到專(zhuān)家系統(tǒng)知識(shí)庫(kù)過(guò)程中,存在信息丟失的弊端
5、 [3]。</p><p> (2)自然語(yǔ)言技術(shù),即直接從自然語(yǔ)言文本獲取有用的知識(shí)并提供給用戶(hù)[4]。但由于目前自然語(yǔ)言理解水平還比較低,主要是利用用戶(hù)提供的樣本進(jìn)行訓(xùn)練,然后開(kāi)發(fā)相應(yīng)的程序來(lái)獲取特定范圍的知識(shí)。這種途徑的缺點(diǎn)是有限的樣本庫(kù)資源限制決定了其應(yīng)用范圍的狹窄性。</p><p> 為此,需要有一種新的知識(shí)獲取方法,它能以適當(dāng)?shù)姆绞郊皶r(shí)地將適用的知識(shí)從眾多的文本提供給用戶(hù)。
6、將知識(shí)表示技術(shù)處理技術(shù)及XML技術(shù)標(biāo)準(zhǔn)結(jié)合起來(lái),構(gòu)成了一種新的知識(shí)獲取途徑。</p><p> 3 基于本體的知識(shí)獲取模型</p><p> 3.1 本體的基本概念</p><p> 本體的英文有兩種寫(xiě)法:①大寫(xiě)開(kāi)頭的Ontology 指哲學(xué)領(lǐng)域的本體論的概念。在哲學(xué)中Ontology 是一種存在的系統(tǒng)化解釋?zhuān)糜诿枋鍪挛锏谋举|(zhì)。本體論的概念和方法被計(jì)算機(jī)
7、領(lǐng)域采用,用于知識(shí)表示、知識(shí)共享和重用。②小寫(xiě)開(kāi)頭的ontology 是計(jì)算機(jī)領(lǐng)域廣泛使用的概念,翻譯為本體,是某領(lǐng)域內(nèi)共享概念的明確的形式化規(guī)范說(shuō)明。雖然本體還沒(méi)有一個(gè)明確的定義,AI領(lǐng)域普遍認(rèn)同Gruber于1995年指出類(lèi)似的概念:本體是“概念化(Conceptualization) 的顯式( Explicit) 說(shuō)明或表示”[6] 。直觀(guān)地講,本體是一個(gè)實(shí)體,是對(duì)某一領(lǐng)域應(yīng)用本體論的方法分析、建模的結(jié)果,即將現(xiàn)實(shí)世界中的某個(gè)領(lǐng)域
8、抽象為一組概念及概念之間的關(guān)系。</p><p> 3.2 基于本體的知識(shí)獲取方法</p><p> 很多知識(shí)獲取系統(tǒng)(如IE)能識(shí)別一些文檔實(shí)體,例如張三是一個(gè)人,2004年6月是一個(gè)日期,但是如果不將這些信息通過(guò)它們之間的關(guān)系聯(lián)系起來(lái),就沒(méi)有太多的實(shí)用價(jià)值了。因?yàn)樗荒鼙磉_(dá)出張三出生于2004年6月的完整含義。這就要求有一種自動(dòng)處理機(jī)制用于發(fā)現(xiàn)實(shí)體之間的關(guān)系,也就是要求信息向本體
9、轉(zhuǎn)化。</p><p> 基于本體的知識(shí)獲取模型將知識(shí)獲取工具與本體聯(lián)系在一起,用本體來(lái)支持和指導(dǎo)知識(shí)獲取,是零散的信息集中到一起形成知識(shí),以不斷地獲取知識(shí)。知識(shí)獲取工具通過(guò)搜索Web文檔,將那些能與給定的規(guī)則結(jié)構(gòu)匹配的知識(shí)提取出來(lái),然后將它格式化為一種便于機(jī)器閱讀的格式(如XML),并將它存入知識(shí)庫(kù)(KnowledgeBase)。在知識(shí)獲取過(guò)程中起指導(dǎo)作用的本體本身也要采用一種字典擴(kuò)展機(jī)制來(lái)擴(kuò)展本體集合。&l
10、t;/p><p> 3.3 基于本體的知識(shí)獲取模型</p><p> 基于本體的知識(shí)獲取模型包括知識(shí)獲取、信息管理、和知識(shí)生成3大部分。其中知識(shí)獲取工具利用搜索引擎技術(shù)從Web文檔中一點(diǎn)一點(diǎn)地收集信息項(xiàng)(如句子和段落)。知識(shí)獲取工具將所獲得的信息片斷和本體字典庫(kù)中的元數(shù)據(jù)一起傳送到本體服務(wù)器中,本體服務(wù)器存儲(chǔ)并固化這些信息到知識(shí)庫(kù)以備知識(shí)生成工具訪(fǎng)問(wèn),當(dāng)用戶(hù)請(qǐng)求查詢(xún)某條相關(guān)信息時(shí),知識(shí)生
11、成工具從知識(shí)庫(kù)中獲取信息并生成知識(shí)敘述通過(guò)用戶(hù)接口返回信息給用戶(hù)。其結(jié)構(gòu)如圖1所示。</p><p><b> 1) 知識(shí)獲取</b></p><p> 首先,用戶(hù)向系統(tǒng)發(fā)出請(qǐng)求并提供相關(guān)的信息,如姓名,職業(yè)等;然后知識(shí)獲取工具根據(jù)用戶(hù)所提供的信息,利用Web搜索引擎在Web文檔中進(jìn)行檢索,其檢索到的信息項(xiàng)以句子和段落的形式,傳送到本體庫(kù)中;在本體庫(kù)中,根據(jù)用戶(hù)提
12、供的信息在本體字典找到需要的元數(shù)據(jù),并連同Web搜索引擎的結(jié)果一起發(fā)送到本體服務(wù)器上。</p><p><b> 2) 信息管理</b></p><p> 信息管理模塊主要由本體服務(wù)器和知識(shí)庫(kù)組成。本體服務(wù)器在接收到知識(shí)獲取模塊發(fā)送的信息項(xiàng)和本體元數(shù)據(jù)后,根據(jù)元數(shù)據(jù)對(duì)信息項(xiàng)進(jìn)行處理,通過(guò)對(duì)句子和段落進(jìn)行語(yǔ)義識(shí)別,包括語(yǔ)法分析、語(yǔ)義分析和本體分析,生成一個(gè)關(guān)于本體的
13、XML文檔,其中的各屬性名為本體的屬性,對(duì)應(yīng)的值是從語(yǔ)義識(shí)別中獲得數(shù)據(jù)。然后將生成的XML文檔保存到知識(shí)庫(kù)中,以備返回給用戶(hù)接口程序,為用戶(hù)提供知識(shí)。</p><p><b> 3) 知識(shí)生成</b></p><p> 知識(shí)生成模塊主要負(fù)責(zé)將知識(shí)庫(kù)中的知識(shí),以自然語(yǔ)言的形式生成知識(shí)文檔,通過(guò)用戶(hù)接口,輸出給用戶(hù)界面。其中最重要的是知識(shí)文檔的生成,由于在知識(shí)庫(kù)中預(yù)先
14、存有知識(shí)文檔模板,因此只要將知識(shí)文檔中對(duì)應(yīng)的屬性值填充到模板的相應(yīng)位置即可。</p><p><b> 4 實(shí)例分析</b></p><p> 大多數(shù)Web信息以自然語(yǔ)言文檔形式存在,一般的信息獲取工具可以將文檔信息分成實(shí)體,但是它們不能識(shí)別實(shí)體間的相互關(guān)系。為此提出了一種基于本體的識(shí)別工具來(lái)識(shí)別實(shí)體中的信息碎片及它們之間的關(guān)系。本系統(tǒng)以一個(gè)臨床疾病的本體為例,
15、該本體除了包含該疾病的臨床表現(xiàn)、主要特征等外,還包含了這些文本信息所在的網(wǎng)絡(luò)路徑,以便重新組織它們時(shí)起指導(dǎo)作用。</p><p> 例如用戶(hù)從用戶(hù)接口發(fā)出請(qǐng)求查詢(xún)感冒的知識(shí),知識(shí)生成工具迅速搜索知識(shí)庫(kù),看能否找到有關(guān)感冒的知識(shí)。如果沒(méi)有找到,則通知知識(shí)獲取工具從Web中去搜索,然后從搜索結(jié)果中過(guò)濾出相關(guān)文檔。例如用百度搜索引擎搜索到100個(gè)包含感冒的網(wǎng)址,這些網(wǎng)址當(dāng)中可能會(huì)含關(guān)于感冒的治療、預(yù)防等,這些網(wǎng)址要采
16、用過(guò)濾技術(shù)將其過(guò)濾掉。一旦某個(gè)文檔被選中,它隨即被分成段、句。然后從語(yǔ)義的角度尋找相關(guān)知識(shí),如果語(yǔ)法相關(guān)則進(jìn)行語(yǔ)義識(shí)別。</p><p><b> 4.1 語(yǔ)義識(shí)別</b></p><p> 例如某文檔內(nèi)容為:通常所說(shuō)的“感冒”主要指的是西醫(yī)學(xué)的“上呼吸道感染”,……,臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。流行性感冒則是由感染流感
17、病毒引起,有以下特點(diǎn):如發(fā)作多呈流行性,中毒癥狀常更重,甚至表現(xiàn)為寒戰(zhàn)高熱、周身酸痛,全身癥狀明顯等。本病四季均可發(fā)生,以冬、春兩季多見(jiàn),所有人群均易感。</p><p> 為了從二進(jìn)制信息中獲取實(shí)體關(guān)系,需要用存儲(chǔ)在本體中的領(lǐng)域?qū)<业闹R(shí)來(lái)決定實(shí)體間的關(guān)系。為此必須向本體服務(wù)器請(qǐng)求本體相關(guān)知識(shí),而且在定義本體的同時(shí),還必須有詞典的幫助。例如一個(gè)詞有同義詞、廣義詞、狹義詞等。</p><p&
18、gt; 例如對(duì)“通常所說(shuō)的‘感冒’主要指的是西醫(yī)學(xué)的‘上呼吸道感染’,……,臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。”這個(gè)句子的分析過(guò)程用謂詞邏輯描述如下:</p><p><b> 1)語(yǔ)法分析</b></p><p> none(感冒);none(上呼吸道感染);verb(指);</p><p> su
19、bject(感冒);predicate(指);object(上呼吸道感染)。</p><p><b> 2)語(yǔ)義分析</b></p><p> disease(感冒);name(上呼吸道感染)。</p><p><b> 3)本體分析</b></p><p> 假設(shè)本體的模型為:疾病名稱(chēng),專(zhuān)
20、業(yè)名稱(chēng),臨床表現(xiàn)……正好與語(yǔ)義分析的結(jié)果匹配,于是原句被分成兩個(gè)句子,感冒的專(zhuān)業(yè)名稱(chēng)是上呼吸道感染,感冒的臨床表現(xiàn)是鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適。</p><p><b> 4)知識(shí)存儲(chǔ)</b></p><p> 每次知識(shí)獲取產(chǎn)生一個(gè)XML文檔輸出,并將其存入知識(shí)庫(kù)中。整體分析過(guò)程如圖2所示。</p><p><b
21、> 4.2 知識(shí)生成</b></p><p> 機(jī)器可以通過(guò)結(jié)構(gòu)化的本體來(lái)交換信息,但是人們需要一個(gè)較為直觀(guān)的接口。如記敘的方式,就是一個(gè)較為自然的方式。在此系統(tǒng)中,知識(shí)庫(kù)中已經(jīng)存儲(chǔ)了一些本體信息,它們之間沒(méi)有明確的順序,但是有一定的相互關(guān)系。所以只需要將他們按照一定的序列組織起來(lái)即可。</p><p><b> 5 結(jié)論</b></
22、p><p> 基于本體的知識(shí)獲取模型,由于引入了本體庫(kù),使Web文本中零散的知識(shí)更加容易被發(fā)現(xiàn),因此該模型在獲取知識(shí)的全面性上有一定的優(yōu)勢(shì);而且本體庫(kù)可以針對(duì)不同的領(lǐng)域設(shè)計(jì),因此只要開(kāi)發(fā)出對(duì)應(yīng)領(lǐng)域的本體庫(kù),就可以很方便地實(shí)現(xiàn)向該領(lǐng)域的移植;同時(shí)利用XML語(yǔ)言來(lái)表示本體,可以更加簡(jiǎn)便地處理知識(shí)庫(kù)的信息。當(dāng)前醫(yī)院知識(shí)庫(kù)系統(tǒng)中存在大量可用知識(shí),它們都以分散的Web文本形式存在,因此將基于本體的知識(shí)獲取系統(tǒng)引入其中,必然可
23、以得到大量對(duì)診斷具有意義的知識(shí)。這將為廣大臨床醫(yī)師做出更好更準(zhǔn)確地診斷提供一定的依據(jù)。</p><p><b> 參考文獻(xiàn)</b></p><p> [1] M.Vargas-Vera et al.,”Knowledge Extraction Using an Ontology-Based Annotation Tool,” Workshop on Knowled
24、ge Markup& Semantic Annotation, ACM Press, New York, 2001,5-12</p><p> [2] 賴(lài)朝安 孫延明 齊德昱 鄭時(shí)雄,《基于自然語(yǔ)言理解的專(zhuān)家系統(tǒng)研究》,計(jì)算機(jī)工程,2003.01,vol.29:20-34</p><p> [3] 賴(lài)朝安 孫延明 鄭時(shí)雄,《面向Web文本的機(jī)械知識(shí)獲取方法研究》,機(jī)械設(shè)
25、計(jì),2002.08:33-36</p><p> [4] 鄧志鴻 唐世渭 等. 面向語(yǔ)義集成-本體在Web信息集成中的研究進(jìn)展. 計(jì)算機(jī)應(yīng)用.2002,22(1).-15-17 </p><p> [5] Gruber T R, Towards Principles for the Design of Ontologies Used for Knowledge Sharing[J ]
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 語(yǔ)義Web粗糙本體支持的知識(shí)獲取方法研究.pdf
- 基于本體的船舶領(lǐng)域知識(shí)獲取研究
- 基于本體的Web生物數(shù)據(jù)獲取技術(shù)的研究.pdf
- 基于本體的船舶領(lǐng)域知識(shí)獲取研究.pdf
- 基于本體的知識(shí)情境識(shí)別和獲取研究.pdf
- 基于文本的中文本體知識(shí)獲取的研究.pdf
- 基于本體的知識(shí)檢索框架的研究.pdf
- 基于本體的文本知識(shí)修正與獲取.pdf
- 基于Web知識(shí)的本體語(yǔ)義映射研究.pdf
- 基于本體的知識(shí)發(fā)現(xiàn)系統(tǒng)框架研究.pdf
- 基于本體的網(wǎng)站結(jié)構(gòu)知識(shí)獲取與分析.pdf
- 基于領(lǐng)域本體的知識(shí)獲取和重用技術(shù)研究.pdf
- 基于本體的模具企業(yè)知識(shí)分類(lèi)框架研究.pdf
- 基于Web知識(shí)關(guān)聯(lián)挖掘的本體進(jìn)化研究.pdf
- 基于本體的知識(shí)建??蚣芗皩?shí)例研究.pdf
- 基于web of science的本體研究知識(shí)圖譜構(gòu)建分析
- Web文檔中信息的獲取與表示研究.pdf
- 基于本體和問(wèn)題求解方法的Web服務(wù)管理框架研究.pdf
- 基于知識(shí)粒度的Web文檔聚類(lèi)研究.pdf
- 醫(yī)學(xué)本體和醫(yī)學(xué)知識(shí)獲取的研究.pdf
評(píng)論
0/150
提交評(píng)論