版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、互聯(lián)網(wǎng)的發(fā)展提供了越來越豐富的信息,但這種信息海洋也使得用戶在獲得有效信息的同時,被越來越多的冗余信息所困擾,因此迫切需要一個幫助人們快速瀏覽的工具,自動文摘是解決這一問題的一種非常有效的技術。單文檔自動文摘是根據(jù)用戶需求按照字數(shù)或百分比等方式從原文件中提煉出最重要信息生成文摘的過程,其結(jié)果為足以代表該原始文件的精簡版本。單文檔自動文摘在問答、搜索引擎、信息系統(tǒng)以及醫(yī)療、金融等領域都有廣泛的應用。
單文檔自動文摘系統(tǒng)主要包
2、括相似度的計算算法、聚類分析算法兩個核心算法,本文對單文檔文摘系統(tǒng)進行設計的基礎上,重點對這兩種算法進行了研究和實現(xiàn)。本文所作的主要工作如下:
1)介紹了單文檔文摘系統(tǒng)的國內(nèi)外研究現(xiàn)狀,實現(xiàn)技術以及經(jīng)典處理流程,并引出單文檔文摘系統(tǒng)的兩個關鍵技術:句子間相似度計算和聚類分析。
2)句子間相似度的計算是進行抽取的前提,為文摘的后續(xù)聚類以及中心句抽取的準確性提供保證,同時它也是自動問答系統(tǒng)和機器翻譯領域很重要的基
3、礎。本文把句子相似度算法進行分析分成了兩類:基于詞表面的算法和基于語義和句法的算法。本文實現(xiàn)了第一類中的基于字符串匹配的算法和基于詞串粒度和權值的算法。并在這兩個算法上進行了實驗和對比分析。
3)本文介紹了單文檔文摘系統(tǒng)中的多種聚類分析算法,并實現(xiàn)了其中部分算法,包括:基于最短距離的聚類方法、基于最長距離的方法、基于平均距離的方法和基于局部主題的方法,并分析各聚類方法的優(yōu)缺點。最后通過對各種算法的實現(xiàn)過程進行了論述,并對算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多文檔自動文摘關鍵技術研究.pdf
- 面向主題的多文檔自動文摘關鍵技術研究.pdf
- 中文單文檔自動文摘技術研究.pdf
- 面向查詢的多文檔自動文摘關鍵技術研究.pdf
- 中文多文檔文摘關鍵技術研究.pdf
- 中文自動文摘關鍵技術的研究與實現(xiàn).pdf
- 基于本體的BLOG文檔自動摘要關鍵技術研究與實現(xiàn).pdf
- 文檔管理系統(tǒng)關鍵技術研究
- 文檔管理系統(tǒng)關鍵技術研究.pdf
- 摘錄式單文檔中文自動文摘系統(tǒng)的研究與實現(xiàn).pdf
- 基于領域本體的Web文檔自動摘要關鍵技術研究與實現(xiàn).pdf
- 多郵件自動文摘的關鍵技術研究.pdf
- 中文自動分詞關鍵技術研究與實現(xiàn).pdf
- 基于主題的多文檔自動文摘技術研究與實現(xiàn).pdf
- 圖像自動分割關鍵技術研究與實現(xiàn).pdf
- 文檔安全保護系統(tǒng)中防主動泄密關鍵技術研究與實現(xiàn).pdf
- 智能文檔關鍵技術研究.pdf
- 自動測試系統(tǒng)中的關鍵技術研究與實現(xiàn).pdf
- 中文網(wǎng)頁自動分類系統(tǒng)及關鍵技術研究與實現(xiàn).pdf
- 異常文檔圖像處理的關鍵技術研究與實現(xiàn).pdf
評論
0/150
提交評論