專利本體中術語及術語間關系抽取研究.pdf_第1頁
已閱讀1頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、專利作為知識產權的核心要素,正成為各個國家和公司爭相掌握的重要資源。企業(yè)的技術人員需要從專利管理系統(tǒng)中得到大量有價值的技術信息。對專利的實時檢索、科學分析和研究已成為企業(yè)加強創(chuàng)新能力和競爭能力的必備條件。企業(yè)在開發(fā)新產品,技術難題攻關、技術貿易、技術引進之前,進行專業(yè)的專利檢索具有非常重要的意義,隨著專利知識信息爆炸性的增長,通過網絡對專利信息搜索已成為人們獲取專利信息的一種重要手段和一種新的趨勢。
  專利術語作為專利本體中的基

2、本元素,其質量好壞直接影響著后續(xù)研究和應用。術語間關系主要分為上下位關系和等同關系,其中上下位關系是整個本體的層次骨架,等同關系則是術語在某個層次的枝干擴充,上述任務緊密合作密不可分。故本文從新能源電動汽車專利文本內的術語自動抽取、術語間上下位關系抽取、術語間等同關系抽取三個方面展開研究,主要具體研究工作如下:
  (1)把專利術語分為單字詞術語和多字詞術語,分析其不同分布特征,由于長術語更能體現領域特性,本文重點分析長術語的構成

3、特點,提出了一種自動生成過濾詞典并結合詞匯密集度等影響因子的術語抽取方法。根據詞性規(guī)則模板對文獻匹配得到候選長術語集合。然后利用文檔一致度生成的過濾詞典過濾部分候選長術語集,最后將詞匯密集度、文檔差比、文檔一致度三個術語因子加權平均作為整個長術語的術語權重值,并按值高低排序。在8000篇專利摘要文獻的基準語料上進行了實驗,隨機選取了五組實驗數據,平均準確率達到91%。結果表明該方法在術語抽取方面是行之有效的。
  (2)專利術語間

4、等同關系的挖掘極大地豐富了專利本體知識庫,擴充了術語的概念外延。同義詞對的自動抽取在信息檢索、本體擴建等眾多領域都發(fā)揮著巨大的作用。本文借助維基百科的詞條釋義信息,提出一種詞素和語義結合的同義關系抽取方法。從維基百科的詞條釋義信息提取特征關系模板,利用該關系模板識別語素同義詞對,對字串進行編輯距離計算,得到字面相似度較高的候選同義詞對,最后用上下文向量相似度方法實現同義詞對的自動識別。該方法在新能源汽車專利摘要文獻上進行了實驗,總共獲取

5、到623個同義詞對,準確率達到68%,驗證了方法的有效性。
  (3)上下位關系最終決定了本體的層級結構。提出一種基于包含原則和向量機器學習結合的上下位關系識別方法。該方法從專利術語的構成特點出發(fā),在專利術語庫上,將長度最短的術語集作為候選種子,用包含原則迭代抽取上下位關系實例。對字面無明顯規(guī)律的術語集,借助LTP句法分析工具,探索句子內部結構,提取有效特征集,用支持向量機的機器學習方法訓練并預測關系類別。實驗表明,該方法的F值最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論