版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、在自然語言中,特別是在新聞事件中,人們比較關心的是事件的內(nèi)容,而在一個事件中,時間是一個關鍵的因素,現(xiàn)在網(wǎng)絡上充斥著大量的新聞信息,當人們需要了解發(fā)生了什么事,什么時候發(fā)生,以及它們之間存在怎樣的聯(lián)系,才發(fā)現(xiàn)這要花費大把的時間。因此,時間和事件的推理引起了自然語言處理的新的興趣,在自然語言處理方面具有非常重要的意義,包括命名實體識別和自然語言理解等。時間信息在自然語言處理領域也有很廣泛的應用,包括文本理解,信息抽取、信息檢索、問答系統(tǒng)、
2、主題發(fā)現(xiàn)和跟蹤、文本摘要和數(shù)據(jù)挖掘到機器翻譯等。因此本文以時間信息處理領域中一個重要方面——時間規(guī)范化作為研究目標。
本文的研究重點是新聞文本中的時間規(guī)范化,其任務是將新聞中的時間信息定位到時間軸上,并用一種標準的格式表示出來。時間規(guī)范化任務,是識別事件-時間的映射關系,識別事件的時序關系的基礎。
本文的主要工作如下:
1.確定需要規(guī)范化的時間類型。本文參考ACE時間標注規(guī)范,對中文時間信息重新進行了定義和
3、分類,對需要規(guī)范化的時間進行了確定和總結。
2.提取時間識別模式。根據(jù)新聞語料中時間表達式的構成特點,我們總結了提取時間表達式的幾條模式:包括發(fā)表時間的模式,報道時間的模式以及句子中所有需要規(guī)范化的時間類型的模式。然后利用模式匹配的方法從語料中識別出需要規(guī)范化的時間。
3.基于語料模塊化的時間規(guī)范化。把文本分割為關系緊密的小的模塊,本文以一篇報道為處理模塊,結合參考時間和模塊內(nèi)時間的屬性,對識別到的時間求值,并轉換為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 馬錢子炮制方法傳承與規(guī)范化研究.pdf
- 連翹炮制方法及過程規(guī)范化研究.pdf
- 化療醫(yī)囑規(guī)范化及處方規(guī)范化
- mri頭部規(guī)范化規(guī)范化掃描方案
- 公司內(nèi)控信息化實施的規(guī)范化方法研究
- 商業(yè)計劃書》規(guī)范化格式(中文版)
- 《商業(yè)計劃書》規(guī)范化格式(中文版)
- 量刑規(guī)范化改革研究.pdf
- 網(wǎng)絡問政規(guī)范化研究.pdf
- 規(guī)范化量刑方法進路的經(jīng)驗分析.pdf
- 規(guī)范化的BPMN設計方法與工具的研究.pdf
- 習題-規(guī)范化
- 規(guī)范化執(zhí)法
- 網(wǎng)絡管理規(guī)范化研究.pdf
- 現(xiàn)場勘查規(guī)范化研究.pdf
- 網(wǎng)絡語言規(guī)范化研究.pdf
- 檢務公開規(guī)范化研究.pdf
- 土地登記規(guī)范化研究.pdf
- 黨政關系規(guī)范化研究.pdf
- 視頻偵查規(guī)范化研究.pdf
評論
0/150
提交評論