2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩141頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、多文檔自動文摘技術(shù)是對內(nèi)容相關(guān)的多篇文章進(jìn)行分析,并根據(jù)它們所描述的主題脈絡(luò)或用戶的興趣導(dǎo)向來抽取出重要的信息或用戶感興趣的信息,并自動生成一篇指定長度的文摘。作為集成語言學(xué)、計(jì)算語言學(xué)、人工智能、信息系統(tǒng)等多門學(xué)科的應(yīng)用技術(shù),多文檔自動文摘的研究對于推動上述領(lǐng)域技術(shù)的發(fā)展有著重要意義;同時(shí),一個(gè)可行的多文檔自動文摘系統(tǒng)對于加快人們對網(wǎng)絡(luò)信息的處理速度與準(zhǔn)確率具有重要的實(shí)際應(yīng)用價(jià)值。
  為此,本文進(jìn)行了基于話語結(jié)構(gòu)的通用型多文檔

2、自動文摘的研究,首先從各級文本單元的話語關(guān)系研究入手,研究跨文本單元的相似關(guān)系識別、文本時(shí)間信息抽取以及事件的時(shí)序關(guān)系識別、文本內(nèi)部修辭結(jié)構(gòu)識別以及文本集合的層次主題的識別等,并提出了基于修辭結(jié)構(gòu)理論的多文檔表示結(jié)構(gòu)(Multi-documentRhetoricalStructure,簡稱MRS),該結(jié)構(gòu)通過系統(tǒng)地描述不同層面的文本單元之間的相互關(guān)系,以及文檔集合蘊(yùn)含的事件在時(shí)間上的發(fā)生及演變,將多篇文檔在不損失文檔集合原有信息的前提下

3、實(shí)現(xiàn)并行融合,在此基礎(chǔ)上,進(jìn)一步研究基于MRS的文摘句抽取、排序、冗余消除、文摘生成等一系列算法。本文的研究主要包括以下內(nèi)容:
  第一,本文對漢語時(shí)間信息的獲取以及時(shí)間語義計(jì)算進(jìn)行了研究,并在此基礎(chǔ)上研究了時(shí)間推理以及事件時(shí)序關(guān)系識別。文本中的時(shí)間信息在多文檔結(jié)構(gòu)中節(jié)點(diǎn)位置的確定、多文檔自動文摘中的關(guān)鍵事件識別、事件排序以及文摘句的內(nèi)容重組方面具有重要的意義,本文根據(jù)中文文本時(shí)間信息表達(dá)的特點(diǎn),將承載時(shí)間信息的短語按照功能的不同

4、分解成若干容易識別、并且語義單一的“小”的成分,并按照結(jié)合規(guī)則來組合這些元素成為時(shí)間表達(dá)式。由于這些元素本身具有時(shí)間語義屬性,因此在結(jié)合的過程中就可以計(jì)算最終時(shí)間表達(dá)式的時(shí)間語義值并計(jì)算表達(dá)式之間的時(shí)序關(guān)系。
  第二,不同文章的片段之間存在著語義相似關(guān)系,這種重復(fù)信息是多文檔自動文摘的重要來源。由于這種片段間語義相似度計(jì)算不能簡單地沿用全文相似度計(jì)算方法。因此本文提出一種基于多特征融合的片段相似度計(jì)算方法。方法充分采用多特征融合

5、思想盡可能多地挖掘片段內(nèi)的詞法、語法、語義特征,并采用機(jī)器學(xué)習(xí)方法自動融合這些特征。從而避免了傳統(tǒng)的以詞或概念為基本元素的單一的文本表達(dá)所帶來的信息匱乏、區(qū)分性不強(qiáng)的問題。在特征融合方面,本文采用累積logistic回歸分析模型來自動擬合各個(gè)特征同最終的片段相似度之間的關(guān)系。該模型不但具有較好的擬合特性,而且不受特征數(shù)量的限制,可以很方便地從模型中添加新特征或刪除已有特征,具有較強(qiáng)的擴(kuò)展性。
  第三,主題自動識別是多文檔自動文摘

6、的一個(gè)關(guān)鍵技術(shù),本文通過對文本集合的主題分布以及主題的范圍分析,提出了層次主題的概念,采用層次樹狀的主題結(jié)構(gòu)來代替?zhèn)鹘y(tǒng)的單層主題集合。我們認(rèn)為這樣的劃分更加能夠反映原文檔集合的本來面貌。為此,我們采用層次聚合聚類方法來建立文本集合的層次主題樹,并采用樣本密度曲線角點(diǎn)識別方法來自動獲得聚類終止閾值。通過多文檔自動文摘結(jié)果評測顯示層次主題的引進(jìn)可以有效地提高文摘質(zhì)量。
  第四,對于基于結(jié)構(gòu)的文摘技術(shù)來說,建立合理的形式化表示結(jié)構(gòu)是后

7、續(xù)研究工作順利進(jìn)行的基礎(chǔ)。DragomirR.Radev介紹交叉文本結(jié)構(gòu)理論(Cross-DocumentStructureTheory,簡稱CST)時(shí)提出了兩個(gè)基本數(shù)據(jù)結(jié)構(gòu):多文檔立方體和多文檔圖,前者描述了文本單元之間的時(shí)序關(guān)系;后者描述了不同層面的文本單元之間的邏輯關(guān)系。這兩個(gè)結(jié)構(gòu)需要互相補(bǔ)充,互相支撐,才能完整地表達(dá)出文檔集合的真實(shí)面貌。本文借鑒了CST的思想,提出了一個(gè)多文本修辭結(jié)構(gòu)(MRS),并在此基礎(chǔ)上提出了候選文摘句的抽

8、取、文摘句排序及文摘生成等一整套算法。MRS由代表語言單元的節(jié)點(diǎn)和代表語言單元之間相互關(guān)系的連接弧按照特定的方式結(jié)合而成;單元之間的相互關(guān)系包括文檔內(nèi)部的修辭關(guān)系和文檔間的語義相似關(guān)系,前者決定了文本單元在文章中的地位,后者體現(xiàn)了節(jié)點(diǎn)與文檔集中的其他節(jié)點(diǎn)的相關(guān)程度,另外文本單元的時(shí)間信息確定了文檔集描述的事件流的發(fā)生及演變時(shí)間。因此,綜合考慮這三方面因素就能最終確定文本單元在文檔集中的重要程度。最后,本文建立了一個(gè)多文檔自動文摘系統(tǒng)的定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論