綜合考試報告_第1頁
已閱讀1頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、綜合考試報告——機器翻譯技術(shù)綜述及面向新聞領域的漢英機器翻譯系統(tǒng)博士生:劉博士生:劉群導師:俞士汶師:俞士汶1引言引言本文主要包括三方面內(nèi)容:第一方面是機器翻譯的綜述,包括介紹一些主要的機器翻譯方法和幾個典型的機器翻譯系統(tǒng)。第二方面主要介紹目前中國的機器翻譯現(xiàn)狀,包括研發(fā)現(xiàn)狀和市場現(xiàn)狀兩個方面。研發(fā)現(xiàn)狀主要介紹國內(nèi)主要的研究單位和研究成果,市場方面主要是介紹國內(nèi)機器翻譯市場的一些主要產(chǎn)品和開發(fā)單位,然后討論了國內(nèi)機器翻譯研究所面臨的問題

2、和與國際水平的差距。第三方面是本人在近期所做的工作。主要是介紹973子課題“面向新聞領域的漢英機器翻譯系統(tǒng)”的研究進展,以及本人所提出的“微引擎流水線的機器翻譯系統(tǒng)結(jié)構(gòu)”。2機器翻譯研究綜述機器翻譯研究綜述本章首先總結(jié)近年來自然語言處理和機器翻譯領域所發(fā)生的變化,然后依次對幾種目前主流的機器翻譯方法做一個簡單的總結(jié):基于規(guī)則的機器翻譯方法,基于統(tǒng)計的方法,基于實例的方法,基于模板的方法,基于有限狀態(tài)自動機的方法,以及多引擎的方法。對于每

3、一種方法,我們都先給出該方法的界定,再介紹有關的模型或算法,并討論其優(yōu)缺點。然后考察幾個比較典型的機器翻譯系統(tǒng)。2.1概述概述自然語言處理的研究,近年來可以說是處在一個非常活躍的時期。2001年,國內(nèi)外召開的眾多的相關學術(shù)會議之多,幾乎使人目不暇接(ACL2001,ICCC2001,ICCPOL2001,NLPRS2001,MTSummitVIII,IWPT2001,NLPKE2001,UNL1stConference,計算語言學聯(lián)合學

4、術(shù)會議,中文信息學會成立20周年學術(shù)會議,中日自然語言處理學術(shù)交流會議等等)。相關研究的活躍程度,由此可見。自從1949年WarrenWeaver發(fā)表《翻譯》備忘錄,正式提出機器翻譯的思想以來,到現(xiàn)在已經(jīng)經(jīng)過了52個年頭。這期間機器翻譯研究經(jīng)歷了一個曲折的發(fā)展歷程。這里,我們可以把機器翻譯放到整個自然語言處理的背景下來看。最近的10年間,自然語言處理的面貌發(fā)生了很大的變化。這種變化,我認為主要體現(xiàn)在三個方面:試,并通過大會進行論文交流。

5、如TREC會議提供統(tǒng)一的測試平臺對信息檢索IR系統(tǒng)進行測試,MUC(已經(jīng)停辦)專門對信息提取系統(tǒng)進行測試,而CoNLL會議專門對淺層分析系統(tǒng)進行測試,這些會議都對相關的研究工作起到了極大的推動作用。在機器發(fā)言領域,雖然機器翻譯評測已成為MTSummit會議的主要議題之一,但由于機器翻譯評測問題的復雜性,但目前在機器翻譯領域還沒有類似的比較成熟的測試平臺。在國內(nèi),863計劃專家組和973計劃專家組都開展過一些機器翻譯的評測工作,這些評測都

6、有力地促進了相關研究工作的進展。不過,總的來說,這些評測的規(guī)模和影響都還比較小,在公開性方面還做得不夠。國際上一些類似的評測工作也已經(jīng)開始組織(如美國NIST),有可能會形成比較大的影響。從以上的總結(jié)可以看出,自然語言處理領域近年來的變化是巨大而且深刻的。相比較而言,機器翻譯領域的變化要小一些。其主要原因也是比較明顯的,機器翻譯幾乎涉及自然語言處理的所有領域中最困難的問題,某些單方面或淺層次的突破都不足以對機器翻譯的整體產(chǎn)生根本的影響,

7、只有當整個自然語言領域的各方面的研究都取得全面突破時,才有可能導致機器翻譯的突破。這是一個緩慢加速的、從量變到質(zhì)變的、逐漸積累的過程。不過,我們現(xiàn)在已經(jīng)可以清晰地感受到這種變化。2.2機器翻譯方法研究機器翻譯方法研究2.2.1基于規(guī)則的機器翻譯方法基于規(guī)則的機器翻譯方法基于規(guī)則的機器翻譯方法的界定及其優(yōu)缺點大家都非常熟悉,這里不再詳述。自從Chomsky提出轉(zhuǎn)換生成語法以來,基于規(guī)則的方法成了機器翻譯研究的主流。雖然統(tǒng)計方法的崛起對規(guī)則

8、方法形成了一定的沖擊,但在機器翻譯領域,規(guī)則方法的地位并沒有從根本上被動搖。在已有的商品化機器翻譯系統(tǒng)中,很少有哪個系統(tǒng)聲稱自己采用的是純統(tǒng)計(或語料庫)的方法或以統(tǒng)計為主的方法。雖然如此,統(tǒng)計方法的影響也是不可低估的。與傳統(tǒng)的規(guī)則方法相比,現(xiàn)在的規(guī)則方法已產(chǎn)生了很多變化。這些變化主要體現(xiàn)在:1.在規(guī)則的獲取方面,傳統(tǒng)的規(guī)則方法主要依靠語言學家總結(jié)規(guī)則,進行調(diào)試,而現(xiàn)在則更加重視從語料庫中獲取規(guī)則(如采用錯誤驅(qū)動的學習算法);2.傳統(tǒng)的

9、規(guī)則方法往往偏重于描述粗粒度、全局化的大范圍語言學規(guī)則知識,而現(xiàn)在則更加重視描述細粒度、局部的小范圍的語言學知識,呈現(xiàn)出“小規(guī)則庫、大詞典”的趨勢;3.在知識表示方面,為了以更小的粒度、更加準確地對翻譯知識進行描述,一般對要對單純的上下文無關規(guī)則做一些改進。改進的方法有以下兩種:一種是采用特征結(jié)構(gòu)與合一算法,如LFG、GPSG等等,這種方法一般要求具有較好的語言學背景;另外一種是采用詞匯化的方法對規(guī)則加以細化。后一種方法的做法之一也就是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論