2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計機(jī)器翻譯綜述統(tǒng)計機(jī)器翻譯綜述1劉群2(北京大學(xué)計算語言學(xué)研究所北京100871)(中國科學(xué)院計算技術(shù)研究所北京100080)摘要:摘要:本文綜述了基于信源信道思想和基于最大熵思想的統(tǒng)計機(jī)器翻譯方法并介紹了統(tǒng)計機(jī)器翻譯的評測方法?;谛旁葱诺赖姆椒▽⒎g概率表示為一個語言模型和一個翻譯模型。而基于最大熵的方法則是利用一系列實數(shù)值特征函數(shù)的線性組合來求解最優(yōu)的譯文?;谧畲箪氐慕y(tǒng)計機(jī)器翻譯方法比基于信源信道的方法更具有一般性,后者可以看

2、做前者的一個特例。關(guān)鍵詞:關(guān)鍵詞:統(tǒng)計機(jī)器翻譯信源信道模型最大熵方法中圖分類號:中圖分類號:TP391SurveyonStatisticalMachineTranslationLIUQun(InstituteofComputationalLinguisticsPekingUniversityBeijing100871)(InstituteofComputingTechnologyChineseAcademyofSciencesBeiji

3、ng100080)Email:ract:ThepapergivesasurveyonthreeapproachesofstatisticalmachinetranslationtheevaluationmethodsusedinSMT.Thebasicideaofparallelgrammarbasedapproachistobuildparallelgrammarsfsourcetargetlanguageswhichconfmthe

4、sameprobabilisticdistribution.Inthesourcechannelapproachthetranslationprobabilityisexpressedasalanguagemodelatranslationmodel.Inthemaximumentropyapproachtheoptimaltranslationissearchedaccdingtoalinearcombinationofaseries

5、ofrealvaluedfeaturefunctions.Thesourcechannelapproachcanberegardasaspecialcaseofmaximumentropyapproach.Keywds:StatisticalMachineTranslationSourceChannelModelMaximumEntropyMethod1本文工作受國家重點基礎(chǔ)研究計劃(973)支持,項目編號是G19980305074和G

6、1998030510。2劉群,男,1966年生,中國科學(xué)院計算技術(shù)研究所副研究員,同時在北京大學(xué)計算語言學(xué)研究所攻讀在職博士學(xué)位,研究方向是自然語言處理和機(jī)器翻譯。根據(jù)Bayes公式可推導(dǎo)得到:)|()(maxargTSPTPTT?這個公式在Brown等人的文章[4]中稱為統(tǒng)計機(jī)器翻譯的基本方程式統(tǒng)計機(jī)器翻譯的基本方程式(FundamentalEquationofStatisticalMachineTranslation)。在這個公式中

7、,P(T)是目標(biāo)語言的文本T出現(xiàn)的概率,稱為語言模型語言模型。P(S|T)是由目標(biāo)語言文本T翻譯成源語言文本S的概率,稱為翻譯模型譯模型。語言模型只與目標(biāo)語言相關(guān),與源語言無關(guān),反映的是一個句子在目標(biāo)語言中出現(xiàn)的可能性,實際上就是該句子在句法語義等方面的合理程度;翻譯模型與源語言和目標(biāo)語言都有關(guān)系,反映的是兩個句子互為翻譯的可能性。也許有人會問,為什么不直接使用P(T|S),而要使用P(T)P(S|T)這樣一個更加復(fù)雜的公式來估計譯文的

8、概率呢?其原因在于,如果直接使用P(T|S)來選擇合適的T,那么得到的T很可能是不符合譯文語法的(illfmed),而語言模型P(T)就可以保證得到的譯文盡可能的符合語法。這樣,機(jī)器翻譯問題被分解為三個問題:1.語言模型Pr(t)的參數(shù)估計;2.翻譯模型Pr(s|t)的參數(shù)估計;3.搜索問題:尋找最優(yōu)的譯文;從1980年代末開始到1990年代中期,IBM的機(jī)器翻譯研究小組在統(tǒng)計機(jī)器翻譯的思想指導(dǎo)下進(jìn)行了一系列的研究工作[452]并實現(xiàn)了

9、一個法語到英語統(tǒng)計機(jī)器翻譯系統(tǒng)。對于語言模型Pr(t),他們嘗試了采用n語法、鏈語法等語法模型。鏈語法模型比n元語法模型的優(yōu)點在于可以處理長距離的依賴關(guān)系。下面我們著重介紹翻譯模型。2.1.2IBM統(tǒng)計翻譯模型統(tǒng)計翻譯模型對于翻譯模型Pr(f|e),IBM公司提出了5種復(fù)雜程度遞增的數(shù)學(xué)模型[5],簡稱為IBMModel1~5。模型1僅考慮詞與詞互譯的概率t(fj|ei)。模型2考慮了單詞在翻譯過程中位置的變化,引入了參數(shù)Pr(aj|j

10、ml),m和l分別是目標(biāo)語和源語句子的長度,j是目標(biāo)語單詞的位置,aj是其對應(yīng)的源語單詞的位置。模型3考慮了一個單詞翻譯成多個單詞的情形,引入了產(chǎn)出概率φ(n|ei),表示單詞ei翻譯成n個目標(biāo)語單詞的概率。模型4在對齊時不僅僅考慮詞的位置變化,同時考慮了該位置上的單詞(基于類的模型,自動將源語言和目標(biāo)語言單詞劃分到50個類中)。模型5是對模型4的修正,消除了模型4中的缺陷(deficiency),避免對一些不可能出現(xiàn)的對齊給出非零的概

11、率。在模型1和2中,首先預(yù)測源語言句子長度,假設(shè)所有長度都具有相同的可能性。然后,對于源語言句子中的每個位置,猜測其與目標(biāo)語言單詞的對應(yīng)關(guān)系,以及該位置上的源語言單詞。在模型345中,首先,對于每個目標(biāo)語言單詞,選擇對應(yīng)的源語言單詞個數(shù),然后再確定這些單詞,最后,判斷這些源語言單詞的具體位置。這些模型的主要區(qū)別在于計算源語言單詞和目標(biāo)語言單詞之間的連接(Connection)的概率的方式不同。模型1最簡單,只考慮詞與詞之間互譯的概率,不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論