2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著自然語言處理技術的迅速發(fā)展,機器翻譯、信息檢索、信息抽取、自動問答、文本連貫性評價等在內的研究都有了較大的突破,但發(fā)展的同時也面臨著瓶頸。在語言的語義理解方面,計算機還無法處理傳統語言學中對于句群層面的一些抽象定義。自然語言處理技術要想有進一步的提升,還須在句群層面的語義分析、語義理解上提供相關的理論和技術支持。對于漢英機器翻譯,信息檢索,自動問答等的研究來說,理想的模型也應該是建立在語篇或者句群層面上。因為句子本身所能承載的上下文

2、之間的信息過少,從單個句子到段落、篇章的語義過渡又太大。為了在順應傳統語言學思想的基礎上,能夠更好地做到對段落、篇章進行處理,句間關系這一概念被引入計算語言學中。句間關系即為兩個文本單元(句與句)之間存在的關聯。加強對句間關系的研究也就成了自然語言處理的新發(fā)展對語法研究提出的新要求。
  句間關系作為句群、語義理解的重要內容,獲得了學術界越來越多的關注。查閱語言學相關資料我們發(fā)現存在“就是”的句子在句間關系的研究上具有很重要的研究

3、價值,句間會出現傳統語言學12種關系中的所有情況。于是本文在對存在“就是”句子的研究中,對存在“就是”的單句和與這個句子最靠近的單句間的關系進行了探討,實驗過程中我們使用了規(guī)則和機器學習相結合的方法。在語料的選取上,由統計一致性指標Kappa值確定出來的人員對從北京大學CCL語料庫隨機抽選出的句子進行標注,將標注的結果作為人工判斷的結果。在規(guī)則的提取中,我們首先查閱語言學相關方面,提取出能夠用來判別存在“就是”句子句間關系的一些特征,這

4、些特征分為存在“就是”句子所特有的特征,和普適的特征,然后將特征寫入特征向量。為了提高準確率,在特征的寫入中,我們加強了特有特征的識別,即增加一維向量用來存儲明顯關系特征(特有特征),之后使用分類工具進行建模(機器學習),再使用模型來預測。將預測的結果和人工判斷的結果進行比較,得出準確率、召回率、F1值,實驗結果表明,對特有特征進行加強后的實驗總體準確率較之加強前平均提高了兩個百分點。這里分類工具我們使用的是 SVM和邏輯回歸,基于這兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論