版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、漢蒙平行語料庫(kù)是包含漢語和蒙古語兩種語言互譯文本的語料庫(kù),它是蒙古文信息處理數(shù)據(jù)資源的重要組成部分。漢蒙平行語料庫(kù)在語言的多個(gè)層面上呈現(xiàn)漢語和蒙古語的互譯對(duì)照信息,能夠?yàn)闈h蒙機(jī)器翻譯或者其他與漢蒙雙語相關(guān)的信息處理提供強(qiáng)有力的支持。
漢蒙平行語料庫(kù)的建設(shè)中,最關(guān)鍵的技術(shù)是"對(duì)齊"。所謂對(duì)齊,就是從源文和譯文文本中找出互為翻譯的片斷。由于互譯片段的粒度不盡相同,因此有篇章、段落、句子、短語以及詞等不同級(jí)別的對(duì)齊。許多與雙語處理相
2、關(guān)的應(yīng)用,如統(tǒng)計(jì)機(jī)器翻譯、基于實(shí)例的機(jī)器翻譯、詞義消歧、雙語詞典編纂等,都要求以經(jīng)過詞語對(duì)齊的平行語料庫(kù)作為依托。
目前,漢蒙平行語料庫(kù)的大部分?jǐn)?shù)據(jù)是通過手工錄入的方式收集起來的。錄入過程中,按照"句對(duì)"的格式對(duì)語料進(jìn)行了整理。因此,至少現(xiàn)階段,漢蒙平行語料庫(kù)的加工不涉及篇章、段落或者句子級(jí)別的對(duì)齊任務(wù)。如何在漢蒙句對(duì)上,進(jìn)一步尋找漢蒙詞語之間的對(duì)應(yīng)關(guān)系,是本篇論文的重點(diǎn)研究?jī)?nèi)容。
現(xiàn)在雖然有詞語對(duì)齊開源軟件(如,G
3、IZA++)可供使用,但這一類基于純統(tǒng)計(jì)學(xué)方法的工具通常只有在超大規(guī)模語料庫(kù)上才能取得令人滿意的效果。對(duì)于像漢蒙平行語料庫(kù)這樣規(guī)模偏小的資源,主張使用"基于知識(shí)"的方法來實(shí)現(xiàn)詞語對(duì)齊。
本文在借鑒和吸收前人研究成果的基礎(chǔ)上,結(jié)合蒙古文信息處理的資源現(xiàn)狀,提出了一種知識(shí)密集型(Knowledge Intensive)的漢蒙詞語對(duì)齊方法。該方法的主旨是以"基于雙語詞典的Greedy算法"作為基本框架,通過在此框架內(nèi)引入多種外部知識(shí)
4、和信息,如蒙古語同義詞知識(shí)、蒙古語詞法知識(shí)、蒙古語連續(xù)多詞單元的標(biāo)注信息、漢蒙數(shù)詞到阿拉伯?dāng)?shù)字的轉(zhuǎn)換信息以及漢語介詞與蒙古語"格"的對(duì)應(yīng)規(guī)則等,逐步提高對(duì)齊的召回率和準(zhǔn)確率。就這些知識(shí)(或信息)的獲取方法及它們?cè)跐h蒙詞語對(duì)齊中的作用,本文的研究包括如下幾個(gè)方面:
(1)提出利用蒙古語《類語辭典》中的同義詞知識(shí)對(duì)漢蒙雙語詞典進(jìn)行擴(kuò)充,為漢蒙詞語對(duì)齊提供更多的翻譯選項(xiàng)。
(2)利用一個(gè)基于詞典和規(guī)則的方法對(duì)蒙古語文本進(jìn)行
5、詞法分析和標(biāo)注,為漢蒙詞語的相似度計(jì)算提供蒙古語詞干信息。
(3)提出一種基于同現(xiàn)頻率和詞類信息的蒙古語連續(xù)多詞單元的抽取方法,結(jié)合語言學(xué)家的內(nèi)省判斷構(gòu)造出一個(gè)有效的詞表,并以該詞表作為依據(jù),對(duì)蒙古語文本中的連續(xù)多詞單元進(jìn)行捆綁標(biāo)注。這一標(biāo)注信息能夠幫助漢蒙詞語對(duì)齊系統(tǒng)返回一部分"1(:)n"模式的對(duì)齊連接。
(4)提出一種將漢蒙數(shù)詞轉(zhuǎn)換成阿拉伯?dāng)?shù)字的方法,目的是以阿拉伯?dāng)?shù)字作為中介,得到漢蒙數(shù)詞的對(duì)齊。
6、(5)基于漢語介詞和蒙古語"格"之間的對(duì)應(yīng)規(guī)律,提出一種局部啟發(fā)式算法,以實(shí)現(xiàn)漢語"介詞+名詞(或代詞)"結(jié)構(gòu)與蒙古語格變化詞形之間的"2(:)1"模式的對(duì)齊。
另外,通過對(duì)大量漢蒙詞語人工對(duì)齊結(jié)果及相關(guān)筆記進(jìn)行比較和研究,發(fā)現(xiàn)人工詞語對(duì)齊中存在相當(dāng)程度的"主觀性"因素。本文以當(dāng)前漢蒙詞語對(duì)齊系統(tǒng)的評(píng)價(jià)為主要目標(biāo),提出并制定了"漢蒙詞語人工對(duì)齊規(guī)范",為建立"標(biāo)準(zhǔn)對(duì)齊連接"提供操作細(xì)則。
實(shí)驗(yàn)部分,采用召回率、正確率
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢英詞語對(duì)齊技術(shù)研究.pdf
- 基于混合策略的漢蒙機(jī)器翻譯及相關(guān)技術(shù)研究.pdf
- 漢蒙顏色詞語法語義比較.pdf
- 日蒙機(jī)器翻譯及相關(guān)技術(shù)研究.pdf
- 《蒙漢雙語對(duì)齊語料庫(kù)》的實(shí)驗(yàn)性研究與實(shí)現(xiàn).pdf
- 漢維翻譯系統(tǒng)中的對(duì)齊語料的自動(dòng)獲取技術(shù)研究.pdf
- 機(jī)會(huì)干擾對(duì)齊與盲干擾對(duì)齊技術(shù)研究.pdf
- 基于語言模型的跨漢蒙信息檢索技術(shù)研究.pdf
- 機(jī)會(huì)干擾對(duì)齊技術(shù)研究.pdf
- 異構(gòu)網(wǎng)絡(luò)干擾對(duì)齊技術(shù)研究.pdf
- MIMO異構(gòu)網(wǎng)絡(luò)干擾對(duì)齊技術(shù)研究.pdf
- 雙向中繼網(wǎng)絡(luò)中干擾對(duì)齊及壓縮感知技術(shù)研究.pdf
- 三維模型對(duì)齊技術(shù)研究.pdf
- 基于分簇的干擾對(duì)齊技術(shù)研究.pdf
- 多小區(qū)Massive MIMO干擾對(duì)齊技術(shù)研究.pdf
- 多小區(qū)通信系統(tǒng)干擾對(duì)齊技術(shù)研究.pdf
- 多小區(qū)系統(tǒng)中干擾對(duì)齊技術(shù)研究.pdf
- 蜂窩系統(tǒng)中廣義干擾對(duì)齊技術(shù)研究.pdf
- 漢俄詞語前綴的研究及應(yīng)用.pdf
- 漢日雙語句子級(jí)對(duì)齊研究.pdf
評(píng)論
0/150
提交評(píng)論