基于機器學(xué)習(xí)的漢語淺層分析研究.pdf_第1頁
已閱讀1頁,還剩187頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著信息時代的到來和Internet的發(fā)展,信息處理能力成為信息處理領(lǐng)域的瓶頸問題,不同語種之間大量的信息交流更加大了問題的嚴重性。不同語言之間的翻譯工作越來越迫切,并且工作量也越來越大。瀏覽外文網(wǎng)頁則對即時自動翻譯提出了要求。如何利用計算機高效率的信息處理能力突破不同語種之間的語言障礙,成為全人類面臨的共同問題。機器翻譯便是解決這個問題的有力手段之一。 然而自然語言的歧義性一直是機器翻譯難以攻克的難關(guān),機器翻譯的譯文質(zhì)量離人們

2、想要達到的目標尚遠。傳統(tǒng)的KBMT系統(tǒng)需要龐大而復(fù)雜的規(guī)則庫支撐。規(guī)則的來源是專家的知識,獲取和維護耗時費力,又無法避免沖突,形成了知識獲取的瓶頸。 傳統(tǒng)的以單詞為最小處理單位的面向大眾用戶的機器翻譯在翻譯質(zhì)量遭受批評的同時,以句子為處理單位的面向?qū)I(yè)翻譯人員的翻譯記憶卻取得了極大的成功。加大機器翻譯中的翻譯單元的粒度成為人們思考的新方向。 機器翻譯是應(yīng)先理解了源語言再生成目標語言,還是只需盡量多地把源語言的信息傳遞到目

3、標語中,也即機器翻譯是否要進行深層分析與理解,一直是一個存在爭議的問題。 隨著語料庫語言學(xué)和機器學(xué)習(xí)的發(fā)展,通過機器學(xué)習(xí)從語料庫中自動或半自動獲取語言規(guī)則和翻譯規(guī)則成為知識獲取的新途徑。語料庫語言學(xué)力圖從大規(guī)模真實文本中獲取語言知識,以求得對于自然語言規(guī)律的更為客觀的、準確的認識。它突破了KBMT中知識獲取的瓶頸。 EBMT一個重要的特征在于其取消了KBMT中語言學(xué)規(guī)則的中心地位,強調(diào)使用實例數(shù)據(jù)和類比推理驅(qū)動翻譯過程。

4、EBMT中匹配的實例可以是雙語段落對、句對、子句對,甚至是更小的片段對。粒度越大,歧義越小,但完全匹配的可能性也越小。粒度越小,完全匹配的可能性越大,但歧義也越大。 使用機器學(xué)習(xí)方法來解決自然語言處理中的問題是當前研究的主流,國內(nèi)外在這方面已做了很多有益的工作,本文的工作也是在這方面作了一些努力和嘗試。所有的工作緊緊圍繞基于機器學(xué)習(xí)的漢語淺層分析展開,構(gòu)成了一個完整的體系。淺層分析的結(jié)果是一種語段,粒度介于句對和語詞對之間,作為

5、匹配實例應(yīng)用于EBMT中可以起到消歧作用。在眾多的機器學(xué)習(xí)方法中,本文主要研究了生成學(xué)習(xí)和判別學(xué)習(xí)兩種框架下具有代表性的條件隨機場(ConditionalRandomFields)機器學(xué)習(xí)方法和支持向量機(SurpportVectorMachines)機器學(xué)習(xí)方法。借鑒了英語chunk的定義,根據(jù)漢語自身的語言學(xué)特點,作者給出了漢語組塊的定義,提出了基于機器學(xué)習(xí)的漢語淺層分析方法。其中包括: 1.給出了漢語組塊的定義,并具體描述

6、了如何從樹庫中抽取組塊。考慮到漢語和英語是兩種不同的語系,本文認為中文組塊具有單一的語義核心,并且互相不嵌套的特點,即,句子中的每一個詞語只能屬于一個組塊類型,并且每一種組塊類型中都不含有其他類型的組塊。本文使用Upenn中文樹庫作為語料,考慮到漢語和英語是兩種不同的語系,為了表示整個短語結(jié)構(gòu),本文定義了下面10種漢語組塊類型:基本動詞短語VP,基本定冠詞短語DP,基本形容詞短語ADJP,基本量詞短語QP,基本片段短語FRAG,基本名詞

7、短語NP,基本介詞短語PP,由“LC”形成的基本短語LCP,基本副詞短語ADVP,基本分類詞短語CLP。其中某些組塊與Upenn中文樹庫中的短語結(jié)構(gòu)相同,而另外一些組塊與Upenn中文樹庫中的短語結(jié)構(gòu)卻不盡相同,本文具體描述了如何從樹庫中抽取出10種類型的組塊。 2.提出了基于條件隨機場(CRFs)的漢語淺層分析方法。CRFs是一種判別學(xué)習(xí)(discriminativelearning)方法,是有向圖模型的一種形式,在給定一個特

8、定的觀測序列下,在整個標記序列的聯(lián)合概率上定義了一個單一的線性對數(shù)分布。通過單個狀態(tài)將增大的或減小的概率和傳遞到它們的后繼狀態(tài),使得這個單一的分布不需要對每個狀態(tài)進行歸一化,整個狀態(tài)序列可以一起描述,從而克服了HMMs和MEMMs的標記偏差(labelbias)問題,而標記偏差的問題在漢語淺層分析中是個嚴重的問題。因此,作者提出了基于CRFs的漢語淺層分析方法。 3.提出基于支持向量機(SVMs)的漢語淺層分析方法。支持向量機是

9、一種生成學(xué)習(xí)(generativelearning)方法,是一個兩類分類器。其基本思想是:在訓(xùn)練數(shù)據(jù)中尋找一個能夠?qū)?shù)據(jù)準確地分為兩個類別的超平面,如果數(shù)據(jù)不是線性可分的,則將數(shù)據(jù)映射到一個高維空間,進而在高維空間中尋找一個能夠?qū)?shù)據(jù)正確無誤地分開的線性分割超平面,同時確保這個分割超平面能夠具有很高的泛化性能。為了解決漢語淺層分析多分類任務(wù),本文將基本的SVMs兩類分類器擴展為多類別的SVMs分類器。 4.考察了one-agai

10、nst-rest和pairwise兩種多分類器擴展方法和分析方向,即從左到右的前向分析(forwardparsing)或從右到左的后向分析(backwardparsing),在基于SVMs的漢語淺層分析中,對漢語淺層分析性能的影響進行了研究。 5.考察了當前分析位置上下文窗口大小和將數(shù)據(jù)映射到高維空間的不同階數(shù)的多項式核函數(shù),在基于SVMs的漢語淺層分析中,對漢語淺層分析性能的影響進行了研究。 6.提出了基于SVMs+s

11、igmoid的漢語淺層分析。在SVMs的多分類器擴展方法中,對于一個未知類別的樣本,存在兩個或多個分類器賦予它不同的類別,或沒有一個分類器對該未知類別的樣本預(yù)測出其所屬類別的情形。在上述情形下很難決策該未知類別樣本的所屬類別??紤]到當前任何一個分類器的結(jié)果僅僅是全局決策的一個局部決策,其分類結(jié)果的好壞會影響到整個模型的性能。所以一個分類器僅僅是一個全局模型的子模型,其分類結(jié)果必須與全局模型的整個決策相結(jié)合,即,必須使用一個統(tǒng)一的模型來進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論