版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、語言在人們的日常生活中扮演著重要的角色,是執(zhí)行任務、完成工作的手段。語言有口語、書面語之分。在任何語言處理任務中,語料庫語言學的研究都很有意義。一般來說,語料是組織好的文本集合,包括口語和書面語資源。從計算語言學的角度,語料是采用電子手段處理的大量文本的集合,包含各種各樣的信息。語料能夠準確揭示語言的使用模式,是語言統(tǒng)計學產生的根源。不同的基于語料庫的方法可以被用來完成不同的語言學相關任務。
基本上,對屈折語言進行句法分析和信
2、息檢索等任務的研究時,使用的資源是經過詞法分析的文本。例如給每個詞語指定一個包含所有可能詞法類別標記的集合,能夠使詞語本身更有意義,也更容易理解。然而多數(shù)系統(tǒng)需要更加精準的信息,這些系統(tǒng)僅僅需要一個單獨的詞法類別,以便準確地應用在特定的文本中。這一過程被稱為“標注”(Tagging),它利用輸入文本中詞語的上下文從標記類別中選擇最適當?shù)臉擞洝?br> 在任何與自然語言處理相關的任務中,標注問題的重要性都絲毫不能忽略。本文的主要研究對象
3、是烏爾都語(Urdu)。跟其他語言,如英語、漢語相比,烏爾都語的計算機自動處理技術研究遠遠落在后面。這主要歸因于缺乏標準標注集和已標注資源。考慮到這些資源的昂貴價格和構建的困難性,這是難以避免的。然而,就像論文里所描述的,我們跨越了這些障礙。
烏爾都語屬于印歐語系,受波斯語和阿拉伯語的影響很大,同印地語關系密切,是東南亞地區(qū)的一種重要語言。在許多國家,如巴基斯坦、印度和阿富汗等具有重要的地位。全世界有超過6千萬人把烏爾都語作為
4、母語,有超過1億人把烏爾都語作為第二語言。在互聯(lián)網時代,研究烏爾都語的自動處理技術,對于烏爾都語的使用和推廣具有重要作用,因而本文的研究具有重要意義。
我們考察了烏爾都語詞性標注研究中的各種不同問題。對烏爾都語分析的結果表明,對于詞序自由(freewordorder)和高度屈折(highlyinflected)的語言來說,未登錄詞是標注錯誤的主要來源。英語中的未登錄詞大多數(shù)都是專有名詞,然而研究表明,烏爾都語的未登錄詞通常是有
5、標志或無標志的名詞、動詞以及無標志的形容詞。這些未登錄詞與烏爾都語結合起來,加深了標注問題的難度,在這個意義上烏爾都語更像土耳其語(Turkish)或捷克語(Czech),而不是英語。
本文著重論述我們在烏爾都語詞性標注方面所取得的進展。統(tǒng)計方法在其他自然語言的處理過程中曾經大顯身手,因此他們也被用來構建和標注烏爾都語的語料庫。鑒于其他印度語系語言語料的缺乏,本文所獲得的事實和結論對于其他印度語系語言來說也富有積極的啟發(fā)意義。
6、
烏爾都語作為一種高度屈折和詞序結構自由的語言,具有很高的歧義性。本文著重于使用不同的基于統(tǒng)計的方法來處理烏爾都語語料,比如N-gram,基于詞形態(tài)結構的模型,隱馬爾科夫模型(HiddenMarkovModel)以及最大熵模型(MaximumEntropyModel)。
我們首先使用了N-gram模型,重點分析了Unigram、Bi-gram和Back-off模型在烏爾都語詞性標注中的應用。這些模型標注時使用了覆蓋詞
7、語周圍信息的上下文。我們也分別考察了兩種標注集(大小不同)和語料規(guī)模對N-gram標注模型性能的影響,結果表明我們提出的小標注集獲得了非常好的效果。在大、小標注集的基礎上,我們進一步構造了混淆矩陣來分析最容易產生歧義的標注子集,并通過使用基于統(tǒng)計的t-分布來考察使用大、小標注集結果的有效性。跟其他復雜的統(tǒng)計模型相比較,N-gram既簡單又有效。
接著我們使用隱馬爾科夫模型來解決歧義問題。我們使用有監(jiān)督學習算法基于已標注語料庫進
8、行模型的參數(shù)選擇,并使用Viterbi算法找出與文本中詞語序列最匹配的詞性標記序列。我們的方法最突出的特點是在隱馬爾科夫模型中整合了多種有名的平滑技術,比如Laplace、Lidstone、Expected、Likelihood、WittenBell和GoodTuring等等。我們觀察到平滑技術在處理未登錄詞時起到了很重要的作用,但是有時基于規(guī)則的方法也很有效。對于各種平滑技術,我們針對屈折性比較高的詞性標記構造了混淆矩陣進行分析。此外
9、,還使用了基于方差分析(ANOVA)的統(tǒng)計評價方法進行分析,結果表明平滑技術對于整體的標注正確率和未登錄詞正確率有很重要的影響。
最大熵模型也被我們采用用來解決烏爾都語的詞性標注問題。最大熵模型也是一種有監(jiān)督的學習方法,因此需要標注好的語料庫。在最大熵模型中,我們采用的特征包括詞語形態(tài)學特征和上下文特征。兩種參數(shù)估計方法:GIS和LBFGS被分別用來訓練模型的參數(shù)。實驗中我們發(fā)現(xiàn),LBFGS比GIS具有更快的速度和更好的效果。
10、我們設計了針對不同標注集和不同規(guī)模的訓練集上的實驗,這些實驗的結果表明,采用最大熵方法,烏爾都語的詞性標注的整體準確率位于89.71%和97.16%之間。其中,詞表詞的詞性標注的準確率位于90.12%和97.73%之間,未登錄詞的詞性標注的準確率位于81.75%和86.20%之間。這個結果表明烏爾都語的詞性標注的性能達到了實用水平。
最后我們把基于詞形態(tài)結構的模型整合到統(tǒng)計模型中,著重評價基于詞形態(tài)結構的方法在處理未登錄詞問題
11、的效果。統(tǒng)計模型在此處僅僅起到過濾未登錄詞的作用。詞形態(tài)結構特征基于常用的屈折變化進行抽取,我們通過使用相關方法的結果的平均值來分析新模型的性能提升的統(tǒng)計顯著性。該分析在對詞性標注的性能進行評價的同時還能夠顯示每一個詞形態(tài)結構特征集合的有效性。
本文中所有的標注系統(tǒng)都是通過在EMILLE語料庫上進行訓練獲得的,該語料庫由英國的蘭徹斯特大學(LancasterUniversity)創(chuàng)建。EMILLE語料庫主要由單語語料、平行語料
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- hmm詞性標注 - 語言學
- 基于半監(jiān)督結構化學習的跨語言詞性標注研究.pdf
- 醫(yī)學統(tǒng)計學方法
- 基于自然語言理解的中文分詞和詞性標注方法的研究.pdf
- 臨床常用的統(tǒng)計學方法
- 常用統(tǒng)計學方法分析
- 淺談統(tǒng)計學的方法與應用
- [學習]統(tǒng)計學的對象與方法
- 常用醫(yī)學統(tǒng)計學方法匯總
- 人群健康研究的統(tǒng)計學方法
- 解剖統(tǒng)計學滲透統(tǒng)計學玩轉統(tǒng)計學培訓班
- 統(tǒng)計學數(shù)據分析 統(tǒng)計學
- 統(tǒng)計學
- 衛(wèi)生統(tǒng)計學 醫(yī)學統(tǒng)計學 習題
- 第四節(jié)詞性標注的方法
- r語言在遺傳統(tǒng)計學中的應用
- 《醫(yī)學統(tǒng)計學》考試方法的比較研究
- 統(tǒng)計學
- 漢語詞類劃分與詞性標注方法的研究.pdf
- 管理統(tǒng)計學-現(xiàn)代回歸分析方法
評論
0/150
提交評論