統(tǒng)計機(jī)器翻譯綜述

上傳人：奔*** IP屬地：河北更新時間：2024-03-11 格式：doc 頁數(shù)：14 大小：135.50KB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩13頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計機(jī)器翻譯綜述統(tǒng)計機(jī)器翻譯綜述1劉群2（北京大學(xué)計算語言學(xué)研究所北京100871）（中國科學(xué)院計算技術(shù)研究所北京100080）摘要：摘要：本文綜述了基于信源信道思想和基于最大熵思想的統(tǒng)計機(jī)器翻譯方法并介紹了統(tǒng)計機(jī)器翻譯的評測方法?；谛旁葱诺赖姆椒▽⒎g概率表示為一個語言模型和一個翻譯模型。而基于最大熵的方法則是利用一系列實數(shù)值特征函數(shù)的線性組合來求解最優(yōu)的譯文?；谧畲箪氐慕y(tǒng)計機(jī)器翻譯方法比基于信源信道的方法更具有一般性，后者可以看

2、做前者的一個特例。關(guān)鍵詞：關(guān)鍵詞：統(tǒng)計機(jī)器翻譯信源信道模型最大熵方法中圖分類號：中圖分類號：TP391SurveyonStatisticalMachineTranslationLIUQun(InstituteofComputationalLinguisticsPekingUniversityBeijing100871)(InstituteofComputingTechnologyChineseAcademyofSciencesBeiji

3、ng100080)Email:ract:ThepapergivesasurveyonthreeapproachesofstatisticalmachinetranslationtheevaluationmethodsusedinSMT.Thebasicideaofparallelgrammarbasedapproachistobuildparallelgrammarsfsourcetargetlanguageswhichconfmthe

4、sameprobabilisticdistribution.Inthesourcechannelapproachthetranslationprobabilityisexpressedasalanguagemodelatranslationmodel.Inthemaximumentropyapproachtheoptimaltranslationissearchedaccdingtoalinearcombinationofaseries

5、ofrealvaluedfeaturefunctions.Thesourcechannelapproachcanberegardasaspecialcaseofmaximumentropyapproach.Keywds:StatisticalMachineTranslationSourceChannelModelMaximumEntropyMethod1本文工作受國家重點基礎(chǔ)研究計劃（973）支持，項目編號是G19980305074和G

6、1998030510。2劉群，男，1966年生，中國科學(xué)院計算技術(shù)研究所副研究員，同時在北京大學(xué)計算語言學(xué)研究所攻讀在職博士學(xué)位，研究方向是自然語言處理和機(jī)器翻譯。根據(jù)Bayes公式可推導(dǎo)得到：)|()(maxargTSPTPTT?這個公式在Brown等人的文章[4]中稱為統(tǒng)計機(jī)器翻譯的基本方程式統(tǒng)計機(jī)器翻譯的基本方程式（FundamentalEquationofStatisticalMachineTranslation）。在這個公式中

7、，P(T)是目標(biāo)語言的文本T出現(xiàn)的概率，稱為語言模型語言模型。P(S|T)是由目標(biāo)語言文本T翻譯成源語言文本S的概率，稱為翻譯模型譯模型。語言模型只與目標(biāo)語言相關(guān)，與源語言無關(guān)，反映的是一個句子在目標(biāo)語言中出現(xiàn)的可能性，實際上就是該句子在句法語義等方面的合理程度；翻譯模型與源語言和目標(biāo)語言都有關(guān)系，反映的是兩個句子互為翻譯的可能性。也許有人會問，為什么不直接使用P(T|S)，而要使用P(T)P(S|T)這樣一個更加復(fù)雜的公式來估計譯文的

8、概率呢？其原因在于，如果直接使用P(T|S)來選擇合適的T，那么得到的T很可能是不符合譯文語法的（illfmed），而語言模型P(T)就可以保證得到的譯文盡可能的符合語法。這樣，機(jī)器翻譯問題被分解為三個問題：1.語言模型Pr(t)的參數(shù)估計；2.翻譯模型Pr(s|t)的參數(shù)估計；3.搜索問題：尋找最優(yōu)的譯文；從1980年代末開始到1990年代中期，IBM的機(jī)器翻譯研究小組在統(tǒng)計機(jī)器翻譯的思想指導(dǎo)下進(jìn)行了一系列的研究工作[452]并實現(xiàn)了

9、一個法語到英語統(tǒng)計機(jī)器翻譯系統(tǒng)。對于語言模型Pr(t)，他們嘗試了采用n語法、鏈語法等語法模型。鏈語法模型比n元語法模型的優(yōu)點在于可以處理長距離的依賴關(guān)系。下面我們著重介紹翻譯模型。2.1.2IBM統(tǒng)計翻譯模型統(tǒng)計翻譯模型對于翻譯模型Pr(f|e)，IBM公司提出了5種復(fù)雜程度遞增的數(shù)學(xué)模型[5]，簡稱為IBMModel1~5。模型1僅考慮詞與詞互譯的概率t(fj|ei)。模型2考慮了單詞在翻譯過程中位置的變化，引入了參數(shù)Pr(aj|j

10、ml)，m和l分別是目標(biāo)語和源語句子的長度，j是目標(biāo)語單詞的位置，aj是其對應(yīng)的源語單詞的位置。模型3考慮了一個單詞翻譯成多個單詞的情形，引入了產(chǎn)出概率φ(n|ei)，表示單詞ei翻譯成n個目標(biāo)語單詞的概率。模型4在對齊時不僅僅考慮詞的位置變化，同時考慮了該位置上的單詞（基于類的模型，自動將源語言和目標(biāo)語言單詞劃分到50個類中）。模型5是對模型4的修正，消除了模型4中的缺陷（deficiency），避免對一些不可能出現(xiàn)的對齊給出非零的概

11、率。在模型1和2中，首先預(yù)測源語言句子長度，假設(shè)所有長度都具有相同的可能性。然后，對于源語言句子中的每個位置，猜測其與目標(biāo)語言單詞的對應(yīng)關(guān)系，以及該位置上的源語言單詞。在模型345中，首先，對于每個目標(biāo)語言單詞，選擇對應(yīng)的源語言單詞個數(shù)，然后再確定這些單詞，最后，判斷這些源語言單詞的具體位置。這些模型的主要區(qū)別在于計算源語言單詞和目標(biāo)語言單詞之間的連接（Connection）的概率的方式不同。模型1最簡單，只考慮詞與詞之間互譯的概率，不

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

統(tǒng)計機(jī)器翻譯綜述

文檔簡介

溫馨提示

最新文檔

評論

統(tǒng)計機(jī)器翻譯綜述

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載