版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、跨文檔共指消解(CrossDocumentCoreference,CDC)是以分散在不同文本來源中的相同名詞實體為對象,通過信息抽取、信息表示和聚類等技術最終判定這些名詞實體與客觀概念之間的共指關系的過程。CDC的研究涉及信息抽取、數據挖掘、自然語言處理等多個研究領域,其是文本信息融合的核心技術,是文本信息理解的研究基礎。隨著信息社會的不斷發(fā)展,對于高效獲取和組織信息的技術需求日益迫切,CDC研究的重要性也日益凸顯。
在目前C
2、DC的相關研究中,傳統的文本挖掘方法依然占據核心地位。然而隨著對CDC技術研究的逐漸深入,傳統的文本挖掘方法已經很難適應當前CDC應用的要求。例如,文本本身的復雜性、文本邊界的束縛、相關信息的抽取以及領域和先驗知識的匱乏都已經嚴重地影響到了CDC技術的發(fā)展與應用。
CDC相關研究的難題其本質上都是由于自然語言文本中信息的復雜性和相關性所導致的。自然語言文本中信息的復雜性和相關性歸根結底是源于人的思維的復雜性和相關性。這種復雜性
3、和相關性是由于人對復雜的客觀事物具備了更為深入的認知能力、推理能力和表述刻畫能力。然而,這也是計算機在獲取、組織和理解文本信息的過程存在著諸多難題的根源。因此,若能降低自然語言文本信息的復雜性,充分利用現有的數據挖掘、模式識別技術識別和處理其相關性,并且在此基礎上大膽創(chuàng)新,探索出適用于CDC問題的計算機技術處理方案,將能夠極大的推動CDC研究的發(fā)展。
利用模式識別和數據挖掘技術的重要方法——貝葉斯理論和圖理論對自然語言文本信息
4、進行定量的轉化與表示。作者將這些理論引入CDC問題的研究當中,用以拋磚引玉,為CDC技術的進一步發(fā)展提供更新的技術路線與解決方案。本文的主要研究內容如下:
?、倩诜菂地惾~斯模型的跨文檔共指消解方案
以往的跨文檔共指消解方案都是采用文檔內部共指鏈或者信息窗口的方法對待消解名詞實體的相關信息域進行劃分,并抽取信息特征進行信息表示。在本方案中,首先考慮到主題在文本中的分布情況,假設主題在待消解名詞實體相關信息域中的分布是
5、相同的,以文檔中的句子為對象,通過分層Dirichlet過程(HierarchicalDirichletProcess,HDP)模型計算句子中各個主題所占的成分,再利用Dirichlet過程混合模型(DirichletProcessMixtureModel,DPMM)對句子進行聚類,將包含待消解名詞實體的劃分句子集作為待消解名詞實體的相關信息域;隨后,采用HDP模型重新計算各信息域內主題所占的成分從而對各個待消解名詞實體的相關信息域進行
6、信息表示;最后通過現有研究中常用的聚類算法對方案性能進行評估,評估結果表明該方案較現有的方法具有更好的消解效果。此外,本文還論證了非參數聚類方法在方案中使用的局限性。
?、诨趫D理論的跨文檔共指消解方案
方案首先采用圖理論的信息表示方法——信息圖對待消解名詞實體的信息域進行了表示。該信息表示方法可以很好的體現各名詞實體之間的關系,同時又對文本中的信息進行了有效篩選;其次,方案通過將信息圖進行相似性度量,獲得各個待消解名
7、詞實體的信息圖之間的相似關系,從而構建各個待消解名詞實體的關系網絡;最后通過采用有權的社交網絡社團劃分方法,對整個關系網絡進行社團劃分,得到社團結構即為各個待消解名詞實體的共指關系劃分。該方案通過在常用公共數據集上的性能評估,證明方案在不借助任何先驗知識和領域知識的情況下,較以往的方法在性能上有一定的提升,且方案具有較好的普適性,具有很好的實用價值。
?、蹟U充的基于圖理論跨文檔共指消解方案
雖然基于圖理論的跨文檔的共指
8、消解方案已經具有了較好的消解性能和很好的實用價值,但是圖的信息表示方法還具有可以挖掘的潛力。基于上述考慮,提出了基于圖理論擴展的跨文檔共指消解方案。該方案主要從以下兩點對同模型進行擴展:1)通過信息圖的拓撲特性,對信息圖進行有權化擴展,計算得到了信息圖中的節(jié)點權重向量和邊權重向量;2)對信息圖進行了合理的向量轉化,使其可以通過向量的相似性度量算法計算各信息圖之間的相似度,從而構建了各個待消解名詞實體的關系網絡。擴展的效果通過社交網絡的社
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 結合共指消解的跨文檔中文人名消歧研究.pdf
- 基于超圖分割的共指消解研究.pdf
- 中文人名跨文檔指代消解研究.pdf
- 中文跨文檔指代消解的研究與實現.pdf
- 面向共指消解的動態(tài)泛化機制研究.pdf
- 基于統計方法的共指消解技術研究.pdf
- 基于待消解項識別的全局優(yōu)化共指消解方法研究.pdf
- 面向產品評論的共指消解方法研究與實現.pdf
- 基于實例動態(tài)泛化的共指消解及應用.pdf
- 基于領域本體的漢語共指消解及相關技術研究.pdf
- 一種基于譜聚類的共指消解方法.pdf
- 中文零指代消解研究.pdf
- 中文跨文本指代消解研究.pdf
- 面向體育新聞領域的中文簡單名詞短語共指消解.pdf
- 面向信息抽取的中文跨文本指代消解研究.pdf
- 基于詞向量和LSTM的漢語零指代消解研究.pdf
- 基于維基百科的中文跨文本指代消解的研究.pdf
- 指人疑問詞共現現象的認知研究.pdf
- 酒店服 務 指 南優(yōu)質文檔
- 指代消解中待消解項識別研究.pdf
評論
0/150
提交評論