版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、本文的目標(biāo)在于利用維基百科作為語義知識源,構(gòu)建一個漁業(yè)知識相關(guān)的語義知識庫,文中針對漁業(yè)知識的特點,著重對語義相似度計算方法和實體歧義消解方法的分析與研究,并對語義相似度計算方法提出了改進,提出了自己的實體消歧算法。本文抽取維基百科頁面的信息框(infobox)知識,并以三元組的形式進行表示。
許多不同的語義相似度計算方法應(yīng)用于自然語言處理領(lǐng)域,知識獲取領(lǐng)域和信息檢索領(lǐng)域。目前,很多研究者致力于已經(jīng)存在的方法支持多本體的相似度
2、計算,以提高相似度的關(guān)聯(lián)值,本文中使用了基于特征的相似度計算方法,整個過程支持多本體方法,并使用了啟發(fā)式函數(shù)。通過漁業(yè)知識數(shù)據(jù)的采集,對實體相似度計算進行了實驗。經(jīng)典的基于本體的語義相似度主要分為以下三種:基于路徑的方法,基于特征的方法,基于信息內(nèi)容的方法?;诼窂降姆椒ㄊ亲詈唵蔚囊环N方法,通過is-a鏈接計算本體節(jié)點間的最短路徑,但所有的路徑必須統(tǒng)一相等的長度。基于特征的相似度計算方法克服了基于路徑相似度計算方法的缺點,基于特征的相似
3、度計算方法中,本體中的分類鏈接不需要統(tǒng)一為相等的長度,但是要考慮本體特征集合的重疊程度。基于特征的語義相似度方法可以用于交叉本體,而基于路徑的相似度計算方法不能。本文的語義相似度的優(yōu)點在于,相比于Tversky的方法,本文的基于特征的相似度計算方法不使用權(quán)重參數(shù)去衡量語義特征,提高了方法的通用性。
對于知識庫的更新來說,知識庫新實體的內(nèi)容獲取是比較重要的一件事情。輸入新的知識到知識庫之前,需要實體鏈接,以保證新知識的實體能夠鏈
4、接到知識庫的實體。整個過程中,實體消歧是一個比較有挑戰(zhàn)性的任務(wù)。命名實體消歧有很多算法。本文中,命名實體消歧的處理可以通過不同的語義關(guān)系,相似度方法分析相關(guān)文本?;谔岢龅姆椒?gòu)建了漁業(yè)知識庫。本文的實體消歧算法主要側(cè)重點有兩點:第一,從維基百科,百度百科,互動百科收集大量的同義詞集,以支持用戶不同的搜索習(xí)慣;第二,對于存在無法消歧的實體,提出了二次消歧算法,以解決有的實體無法消歧的問題。
對于漁業(yè)知識庫的表示、構(gòu)建、挖掘以及
5、在搜索中的應(yīng)用。目前存在的主要問題有:1)目前知識庫還處于初期階段;2)人工干預(yù)很重要;3)結(jié)構(gòu)化數(shù)據(jù)在知識庫的構(gòu)建中起到?jīng)Q定性作用;4)各大搜索引擎公司為了保證知識庫的質(zhì)量多半采用成熟的算法;5)知識卡片的給出相對比較謹慎;6)更復(fù)雜的自然語言查詢將嶄露頭角(如命名實體歧義消解算法)。
此外,知識庫的構(gòu)建是多學(xué)科的結(jié)合,需要自然語言理解,機器學(xué)習(xí)和數(shù)據(jù)挖掘等多方面知識的融合。有很多開放性問題需要學(xué)術(shù)界和業(yè)界一起解決。我們有理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于中文維基百科的知識庫構(gòu)建.pdf
- 基于中文百科的概念知識庫構(gòu)建.pdf
- 維基知識庫研究——以維基百科為例.pdf
- 基于維基百科構(gòu)建語義知識庫及其在文本分類領(lǐng)域的應(yīng)用研究.pdf
- 基于分眾分類法和維基百科的移動應(yīng)用語義知識庫構(gòu)建.pdf
- 城市百科知識庫自動構(gòu)建系統(tǒng).pdf
- 基于異構(gòu)中文百科數(shù)據(jù)的互聯(lián)語義知識庫構(gòu)建.pdf
- 面向互動百科的知識抽取和知識庫構(gòu)建方法研究.pdf
- 基于維基百科的中文命名實體語料庫構(gòu)建研究.pdf
- 維基百科知識的層次化體系構(gòu)建.pdf
- 基于維基百科的知識抽取和重用.pdf
- 基于中文維基百科的語義知識挖掘相關(guān)研究.pdf
- 基于維基百科的語義比較.pdf
- 基于中文維基百科的文本擴充.pdf
- 中文網(wǎng)絡(luò)百科全書的知識傳播研究——以維基百科與互動百科為例.pdf
- 基于維基百科分類體系的多語海洋敘詞表構(gòu)建.pdf
- 基于維基百科的搜索結(jié)果挖掘.pdf
- 基于維基百科的人物關(guān)系抽取研究.pdf
- 基于維基百科的語義相關(guān)度計算研究.pdf
- 水楊酸維基百科
評論
0/150
提交評論