基于本體的web文檔知識(shí)獲取的框架研究

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-04-16 格式：doc 頁(yè)數(shù)：8 大?。?9.00KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　基于本體的Web文檔知識(shí)獲取的框架研究　　摘要本文在分析了Web文本的知識(shí)獲取途徑之后，提出了一個(gè)基于本體的Web文檔知識(shí)獲取模型。該模型具有較好的適應(yīng)性和可移植性，模型使用了可擴(kuò)充標(biāo)記語(yǔ)言(XML)，使得對(duì)知識(shí)庫(kù)的處理更加簡(jiǎn)便。最后，通過(guò)一個(gè)臨床實(shí)例對(duì)其流程進(jìn)行了詳細(xì)說(shuō)明，并分析其在醫(yī)院知識(shí)庫(kù)系統(tǒng)中的應(yīng)用。　　關(guān)鍵字知

2、識(shí)獲??；本體；Web文檔　　1 引言　　互聯(lián)網(wǎng)技術(shù)的發(fā)展為知識(shí)獲取方法的研究帶來(lái)了機(jī)遇和挑戰(zhàn)。必須發(fā)展相應(yīng)的知識(shí)自動(dòng)獲取技術(shù)。為了使語(yǔ)義網(wǎng)應(yīng)用到實(shí)際中給人們提供知識(shí)服務(wù)，就需要解決從Web文檔中獲取知識(shí)的問(wèn)題。盡管從Web頁(yè)面的注釋中我們可以發(fā)現(xiàn)部分信息，然而所獲得的信息是不全面的，而且很難能獲取元信息。有研究者將

3、本體的概念引入到知識(shí)發(fā)現(xiàn)領(lǐng)域[1] [5]，但還沒(méi)有充分發(fā)揮到本體的優(yōu)勢(shì)。本文中本體以概念和關(guān)系來(lái)劃分知識(shí)類(lèi)型，并且以獲取知識(shí)的本體為指導(dǎo)來(lái)從非結(jié)構(gòu)化的Web文檔中發(fā)現(xiàn)知識(shí)。　　2 面向Ｗeb文本的知識(shí)獲取途徑　　互聯(lián)網(wǎng)中存在大量的Web文檔，其中記載著大量的信息。通過(guò)超鏈接逐頁(yè)閱讀相關(guān)文獻(xiàn)來(lái)查找所需信息是初級(jí)的且效率較低的知識(shí)獲取方式。從文本中發(fā)現(xiàn)知

4、識(shí)并提供給用戶(hù)從技術(shù)上講有兩條主要途徑：　　(1)傳統(tǒng)的途徑，即通過(guò)使用如歸納程序等工具直接獲取文本中的知識(shí)，或通過(guò)知識(shí)工程師或領(lǐng)域?qū)＜沂褂弥R(shí)編輯、編譯工具間接獲取知識(shí)，然后構(gòu)造專(zhuān)家系統(tǒng)知識(shí)庫(kù)，通過(guò)專(zhuān)家系統(tǒng)間接為用戶(hù)提供知識(shí)[2]。這種方法有如下不足：第一，專(zhuān)家系統(tǒng)知識(shí)庫(kù)的表現(xiàn)形式不統(tǒng)一，存在知識(shí)難以共享的問(wèn)題，且不適合逐頁(yè)瀏覽；第二，在知識(shí)從文本轉(zhuǎn)移到專(zhuān)家系統(tǒng)知識(shí)庫(kù)過(guò)程中，存在信息丟失的弊端

5、 [3]。　　(2)自然語(yǔ)言技術(shù)，即直接從自然語(yǔ)言文本獲取有用的知識(shí)并提供給用戶(hù)[4]。但由于目前自然語(yǔ)言理解水平還比較低，主要是利用用戶(hù)提供的樣本進(jìn)行訓(xùn)練，然后開(kāi)發(fā)相應(yīng)的程序來(lái)獲取特定范圍的知識(shí)。這種途徑的缺點(diǎn)是有限的樣本庫(kù)資源限制決定了其應(yīng)用范圍的狹窄性。　　為此，需要有一種新的知識(shí)獲取方法，它能以適當(dāng)?shù)姆绞郊皶r(shí)地將適用的知識(shí)從眾多的文本提供給用戶(hù)。

6、將知識(shí)表示技術(shù)處理技術(shù)及XML技術(shù)標(biāo)準(zhǔn)結(jié)合起來(lái)，構(gòu)成了一種新的知識(shí)獲取途徑。　　3 基于本體的知識(shí)獲取模型　　3.1 本體的基本概念　　本體的英文有兩種寫(xiě)法：①大寫(xiě)開(kāi)頭的Ontology 指哲學(xué)領(lǐng)域的本體論的概念。在哲學(xué)中Ontology 是一種存在的系統(tǒng)化解釋?zhuān)糜诿枋鍪挛锏谋举|(zhì)。本體論的概念和方法被計(jì)算機(jī)

7、領(lǐng)域采用，用于知識(shí)表示、知識(shí)共享和重用。②小寫(xiě)開(kāi)頭的ontology 是計(jì)算機(jī)領(lǐng)域廣泛使用的概念，翻譯為本體，是某領(lǐng)域內(nèi)共享概念的明確的形式化規(guī)范說(shuō)明。雖然本體還沒(méi)有一個(gè)明確的定義，AI領(lǐng)域普遍認(rèn)同Gruber于1995年指出類(lèi)似的概念：本體是“概念化(Conceptualization) 的顯式( Explicit) 說(shuō)明或表示”[6] 。直觀(guān)地講，本體是一個(gè)實(shí)體，是對(duì)某一領(lǐng)域應(yīng)用本體論的方法分析、建模的結(jié)果，即將現(xiàn)實(shí)世界中的某個(gè)領(lǐng)域

8、抽象為一組概念及概念之間的關(guān)系。　　3.2 基于本體的知識(shí)獲取方法　　很多知識(shí)獲取系統(tǒng)(如IE)能識(shí)別一些文檔實(shí)體，例如張三是一個(gè)人，2004年6月是一個(gè)日期，但是如果不將這些信息通過(guò)它們之間的關(guān)系聯(lián)系起來(lái)，就沒(méi)有太多的實(shí)用價(jià)值了。因?yàn)樗荒鼙磉_(dá)出張三出生于2004年6月的完整含義。這就要求有一種自動(dòng)處理機(jī)制用于發(fā)現(xiàn)實(shí)體之間的關(guān)系，也就是要求信息向本體

9、轉(zhuǎn)化。　　基于本體的知識(shí)獲取模型將知識(shí)獲取工具與本體聯(lián)系在一起，用本體來(lái)支持和指導(dǎo)知識(shí)獲取，是零散的信息集中到一起形成知識(shí)，以不斷地獲取知識(shí)。知識(shí)獲取工具通過(guò)搜索Web文檔，將那些能與給定的規(guī)則結(jié)構(gòu)匹配的知識(shí)提取出來(lái)，然后將它格式化為一種便于機(jī)器閱讀的格式(如XML)，并將它存入知識(shí)庫(kù)(KnowledgeBase)。在知識(shí)獲取過(guò)程中起指導(dǎo)作用的本體本身也要采用一種字典擴(kuò)展機(jī)制來(lái)擴(kuò)展本體集合。&l

10、t;/p>　　3.3 基于本體的知識(shí)獲取模型　　基于本體的知識(shí)獲取模型包括知識(shí)獲取、信息管理、和知識(shí)生成3大部分。其中知識(shí)獲取工具利用搜索引擎技術(shù)從Web文檔中一點(diǎn)一點(diǎn)地收集信息項(xiàng)(如句子和段落)。知識(shí)獲取工具將所獲得的信息片斷和本體字典庫(kù)中的元數(shù)據(jù)一起傳送到本體服務(wù)器中，本體服務(wù)器存儲(chǔ)并固化這些信息到知識(shí)庫(kù)以備知識(shí)生成工具訪(fǎng)問(wèn)，當(dāng)用戶(hù)請(qǐng)求查詢(xún)某條相關(guān)信息時(shí)，知識(shí)生

11、成工具從知識(shí)庫(kù)中獲取信息并生成知識(shí)敘述通過(guò)用戶(hù)接口返回信息給用戶(hù)。其結(jié)構(gòu)如圖1所示。　　1) 知識(shí)獲取　　首先，用戶(hù)向系統(tǒng)發(fā)出請(qǐng)求并提供相關(guān)的信息，如姓名，職業(yè)等；然后知識(shí)獲取工具根據(jù)用戶(hù)所提供的信息，利用Web搜索引擎在Web文檔中進(jìn)行檢索，其檢索到的信息項(xiàng)以句子和段落的形式，傳送到本體庫(kù)中；在本體庫(kù)中，根據(jù)用戶(hù)提

12、供的信息在本體字典找到需要的元數(shù)據(jù)，并連同Web搜索引擎的結(jié)果一起發(fā)送到本體服務(wù)器上。　　2) 信息管理　　信息管理模塊主要由本體服務(wù)器和知識(shí)庫(kù)組成。本體服務(wù)器在接收到知識(shí)獲取模塊發(fā)送的信息項(xiàng)和本體元數(shù)據(jù)后，根據(jù)元數(shù)據(jù)對(duì)信息項(xiàng)進(jìn)行處理，通過(guò)對(duì)句子和段落進(jìn)行語(yǔ)義識(shí)別，包括語(yǔ)法分析、語(yǔ)義分析和本體分析，生成一個(gè)關(guān)于本體的

13、XML文檔，其中的各屬性名為本體的屬性，對(duì)應(yīng)的值是從語(yǔ)義識(shí)別中獲得數(shù)據(jù)。然后將生成的XML文檔保存到知識(shí)庫(kù)中，以備返回給用戶(hù)接口程序，為用戶(hù)提供知識(shí)。　　3) 知識(shí)生成　　知識(shí)生成模塊主要負(fù)責(zé)將知識(shí)庫(kù)中的知識(shí)，以自然語(yǔ)言的形式生成知識(shí)文檔，通過(guò)用戶(hù)接口，輸出給用戶(hù)界面。其中最重要的是知識(shí)文檔的生成，由于在知識(shí)庫(kù)中預(yù)先

14、存有知識(shí)文檔模板，因此只要將知識(shí)文檔中對(duì)應(yīng)的屬性值填充到模板的相應(yīng)位置即可。　　4 實(shí)例分析　　大多數(shù)Web信息以自然語(yǔ)言文檔形式存在，一般的信息獲取工具可以將文檔信息分成實(shí)體，但是它們不能識(shí)別實(shí)體間的相互關(guān)系。為此提出了一種基于本體的識(shí)別工具來(lái)識(shí)別實(shí)體中的信息碎片及它們之間的關(guān)系。本系統(tǒng)以一個(gè)臨床疾病的本體為例，

15、該本體除了包含該疾病的臨床表現(xiàn)、主要特征等外，還包含了這些文本信息所在的網(wǎng)絡(luò)路徑，以便重新組織它們時(shí)起指導(dǎo)作用。　　例如用戶(hù)從用戶(hù)接口發(fā)出請(qǐng)求查詢(xún)感冒的知識(shí)，知識(shí)生成工具迅速搜索知識(shí)庫(kù)，看能否找到有關(guān)感冒的知識(shí)。如果沒(méi)有找到，則通知知識(shí)獲取工具從Web中去搜索，然后從搜索結(jié)果中過(guò)濾出相關(guān)文檔。例如用百度搜索引擎搜索到100個(gè)包含感冒的網(wǎng)址，這些網(wǎng)址當(dāng)中可能會(huì)含關(guān)于感冒的治療、預(yù)防等，這些網(wǎng)址要采

16、用過(guò)濾技術(shù)將其過(guò)濾掉。一旦某個(gè)文檔被選中，它隨即被分成段、句。然后從語(yǔ)義的角度尋找相關(guān)知識(shí)，如果語(yǔ)法相關(guān)則進(jìn)行語(yǔ)義識(shí)別。　　4.1 語(yǔ)義識(shí)別　　例如某文檔內(nèi)容為：通常所說(shuō)的“感冒”主要指的是西醫(yī)學(xué)的“上呼吸道感染”，……，臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。流行性感冒則是由感染流感

17、病毒引起，有以下特點(diǎn)：如發(fā)作多呈流行性，中毒癥狀常更重，甚至表現(xiàn)為寒戰(zhàn)高熱、周身酸痛，全身癥狀明顯等。本病四季均可發(fā)生，以冬、春兩季多見(jiàn)，所有人群均易感。　　為了從二進(jìn)制信息中獲取實(shí)體關(guān)系，需要用存儲(chǔ)在本體中的領(lǐng)域?qū)＜业闹R(shí)來(lái)決定實(shí)體間的關(guān)系。為此必須向本體服務(wù)器請(qǐng)求本體相關(guān)知識(shí)，而且在定義本體的同時(shí)，還必須有詞典的幫助。例如一個(gè)詞有同義詞、廣義詞、狹義詞等。<p&

18、gt;　　例如對(duì)“通常所說(shuō)的‘感冒’主要指的是西醫(yī)學(xué)的‘上呼吸道感染’，……，臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。”這個(gè)句子的分析過(guò)程用謂詞邏輯描述如下：　　1)語(yǔ)法分析　　none(感冒)；none(上呼吸道感染)；verb(指)；　　su

19、bject(感冒)；predicate(指)；object(上呼吸道感染)。　　2)語(yǔ)義分析　　disease(感冒)；name(上呼吸道感染)。　　3)本體分析　　假設(shè)本體的模型為：疾病名稱(chēng)，專(zhuān)

20、業(yè)名稱(chēng)，臨床表現(xiàn)……正好與語(yǔ)義分析的結(jié)果匹配，于是原句被分成兩個(gè)句子，感冒的專(zhuān)業(yè)名稱(chēng)是上呼吸道感染，感冒的臨床表現(xiàn)是鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適。　　4)知識(shí)存儲(chǔ)　　每次知識(shí)獲取產(chǎn)生一個(gè)XML文檔輸出，并將其存入知識(shí)庫(kù)中。整體分析過(guò)程如圖2所示。<b

21、>　　4.2 知識(shí)生成　　機(jī)器可以通過(guò)結(jié)構(gòu)化的本體來(lái)交換信息，但是人們需要一個(gè)較為直觀(guān)的接口。如記敘的方式，就是一個(gè)較為自然的方式。在此系統(tǒng)中，知識(shí)庫(kù)中已經(jīng)存儲(chǔ)了一些本體信息，它們之間沒(méi)有明確的順序，但是有一定的相互關(guān)系。所以只需要將他們按照一定的序列組織起來(lái)即可。　　5 結(jié)論</

22、p>　　基于本體的知識(shí)獲取模型，由于引入了本體庫(kù)，使Web文本中零散的知識(shí)更加容易被發(fā)現(xiàn)，因此該模型在獲取知識(shí)的全面性上有一定的優(yōu)勢(shì)；而且本體庫(kù)可以針對(duì)不同的領(lǐng)域設(shè)計(jì)，因此只要開(kāi)發(fā)出對(duì)應(yīng)領(lǐng)域的本體庫(kù)，就可以很方便地實(shí)現(xiàn)向該領(lǐng)域的移植；同時(shí)利用XML語(yǔ)言來(lái)表示本體，可以更加簡(jiǎn)便地處理知識(shí)庫(kù)的信息。當(dāng)前醫(yī)院知識(shí)庫(kù)系統(tǒng)中存在大量可用知識(shí)，它們都以分散的Web文本形式存在，因此將基于本體的知識(shí)獲取系統(tǒng)引入其中，必然可

23、以得到大量對(duì)診斷具有意義的知識(shí)。這將為廣大臨床醫(yī)師做出更好更準(zhǔn)確地診斷提供一定的依據(jù)。　　參考文獻(xiàn)　　[1] M.Vargas-Vera et al.，”Knowledge Extraction Using an Ontology-Based Annotation Tool，” Workshop on Knowled

24、ge Markup& Semantic Annotation， ACM Press， New York， 2001，5-12　　[2] 賴(lài)朝安孫延明齊德昱鄭時(shí)雄，《基于自然語(yǔ)言理解的專(zhuān)家系統(tǒng)研究》，計(jì)算機(jī)工程，2003.01，vol.29：20-34　　[3] 賴(lài)朝安孫延明鄭時(shí)雄，《面向Web文本的機(jī)械知識(shí)獲取方法研究》，機(jī)械設(shè)

25、計(jì)，2002.08：33-36　　[4] 鄧志鴻唐世渭等. 面向語(yǔ)義集成－本體在Web信息集成中的研究進(jìn)展. 計(jì)算機(jī)應(yīng)用.2002，22(1).-15-17 　　[5] Gruber T R， Towards Principles for the Design of Ontologies Used for Knowledge Sharing[J ]

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于本體的web文檔知識(shí)獲取的框架研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于本體的web文檔知識(shí)獲取的框架研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載