2023年全國(guó)碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩139頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、漢蒙平行語料庫(kù)是包含漢語和蒙古語兩種語言互譯文本的語料庫(kù),它是蒙古文信息處理數(shù)據(jù)資源的重要組成部分。漢蒙平行語料庫(kù)在語言的多個(gè)層面上呈現(xiàn)漢語和蒙古語的互譯對(duì)照信息,能夠?yàn)闈h蒙機(jī)器翻譯或者其他與漢蒙雙語相關(guān)的信息處理提供強(qiáng)有力的支持。
  漢蒙平行語料庫(kù)的建設(shè)中,最關(guān)鍵的技術(shù)是"對(duì)齊"。所謂對(duì)齊,就是從源文和譯文文本中找出互為翻譯的片斷。由于互譯片段的粒度不盡相同,因此有篇章、段落、句子、短語以及詞等不同級(jí)別的對(duì)齊。許多與雙語處理相

2、關(guān)的應(yīng)用,如統(tǒng)計(jì)機(jī)器翻譯、基于實(shí)例的機(jī)器翻譯、詞義消歧、雙語詞典編纂等,都要求以經(jīng)過詞語對(duì)齊的平行語料庫(kù)作為依托。
  目前,漢蒙平行語料庫(kù)的大部分?jǐn)?shù)據(jù)是通過手工錄入的方式收集起來的。錄入過程中,按照"句對(duì)"的格式對(duì)語料進(jìn)行了整理。因此,至少現(xiàn)階段,漢蒙平行語料庫(kù)的加工不涉及篇章、段落或者句子級(jí)別的對(duì)齊任務(wù)。如何在漢蒙句對(duì)上,進(jìn)一步尋找漢蒙詞語之間的對(duì)應(yīng)關(guān)系,是本篇論文的重點(diǎn)研究?jī)?nèi)容。
  現(xiàn)在雖然有詞語對(duì)齊開源軟件(如,G

3、IZA++)可供使用,但這一類基于純統(tǒng)計(jì)學(xué)方法的工具通常只有在超大規(guī)模語料庫(kù)上才能取得令人滿意的效果。對(duì)于像漢蒙平行語料庫(kù)這樣規(guī)模偏小的資源,主張使用"基于知識(shí)"的方法來實(shí)現(xiàn)詞語對(duì)齊。
  本文在借鑒和吸收前人研究成果的基礎(chǔ)上,結(jié)合蒙古文信息處理的資源現(xiàn)狀,提出了一種知識(shí)密集型(Knowledge Intensive)的漢蒙詞語對(duì)齊方法。該方法的主旨是以"基于雙語詞典的Greedy算法"作為基本框架,通過在此框架內(nèi)引入多種外部知識(shí)

4、和信息,如蒙古語同義詞知識(shí)、蒙古語詞法知識(shí)、蒙古語連續(xù)多詞單元的標(biāo)注信息、漢蒙數(shù)詞到阿拉伯?dāng)?shù)字的轉(zhuǎn)換信息以及漢語介詞與蒙古語"格"的對(duì)應(yīng)規(guī)則等,逐步提高對(duì)齊的召回率和準(zhǔn)確率。就這些知識(shí)(或信息)的獲取方法及它們?cè)跐h蒙詞語對(duì)齊中的作用,本文的研究包括如下幾個(gè)方面:
  (1)提出利用蒙古語《類語辭典》中的同義詞知識(shí)對(duì)漢蒙雙語詞典進(jìn)行擴(kuò)充,為漢蒙詞語對(duì)齊提供更多的翻譯選項(xiàng)。
  (2)利用一個(gè)基于詞典和規(guī)則的方法對(duì)蒙古語文本進(jìn)行

5、詞法分析和標(biāo)注,為漢蒙詞語的相似度計(jì)算提供蒙古語詞干信息。
  (3)提出一種基于同現(xiàn)頻率和詞類信息的蒙古語連續(xù)多詞單元的抽取方法,結(jié)合語言學(xué)家的內(nèi)省判斷構(gòu)造出一個(gè)有效的詞表,并以該詞表作為依據(jù),對(duì)蒙古語文本中的連續(xù)多詞單元進(jìn)行捆綁標(biāo)注。這一標(biāo)注信息能夠幫助漢蒙詞語對(duì)齊系統(tǒng)返回一部分"1(:)n"模式的對(duì)齊連接。
  (4)提出一種將漢蒙數(shù)詞轉(zhuǎn)換成阿拉伯?dāng)?shù)字的方法,目的是以阿拉伯?dāng)?shù)字作為中介,得到漢蒙數(shù)詞的對(duì)齊。
  

6、(5)基于漢語介詞和蒙古語"格"之間的對(duì)應(yīng)規(guī)律,提出一種局部啟發(fā)式算法,以實(shí)現(xiàn)漢語"介詞+名詞(或代詞)"結(jié)構(gòu)與蒙古語格變化詞形之間的"2(:)1"模式的對(duì)齊。
  另外,通過對(duì)大量漢蒙詞語人工對(duì)齊結(jié)果及相關(guān)筆記進(jìn)行比較和研究,發(fā)現(xiàn)人工詞語對(duì)齊中存在相當(dāng)程度的"主觀性"因素。本文以當(dāng)前漢蒙詞語對(duì)齊系統(tǒng)的評(píng)價(jià)為主要目標(biāo),提出并制定了"漢蒙詞語人工對(duì)齊規(guī)范",為建立"標(biāo)準(zhǔn)對(duì)齊連接"提供操作細(xì)則。
  實(shí)驗(yàn)部分,采用召回率、正確率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論