2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩54頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、句法分析是自然語(yǔ)言處理的一個(gè)關(guān)鍵技術(shù),它對(duì)于語(yǔ)義分析、機(jī)器翻譯、信息檢索和自動(dòng)文摘等有著極其重要的意義。所謂句法分析就是指對(duì)句子中詞語(yǔ)的結(jié)構(gòu)和語(yǔ)法功能進(jìn)行分析,其目的主要是確定句子的結(jié)構(gòu)和各成份間的關(guān)系。建立基于句法樹(shù)庫(kù)的統(tǒng)計(jì)模型是句法分析的重要研究方向,句法樹(shù)庫(kù)的標(biāo)注質(zhì)量直接影響模型的質(zhì)量。目前的許多漢語(yǔ)句法分析自動(dòng)標(biāo)注算法的準(zhǔn)確率不夠高,需人工修正句法樹(shù)庫(kù),并對(duì)修正結(jié)果進(jìn)行一致性檢驗(yàn)。我們采用的一致性檢驗(yàn)方法是通過(guò)多個(gè)標(biāo)注者對(duì)人工標(biāo)

2、注過(guò)的文本進(jìn)行反復(fù)交叉校驗(yàn),盡量減少人工標(biāo)注的疏漏,然后掃描整個(gè)樹(shù)庫(kù),檢查出不一致的標(biāo)注,即發(fā)現(xiàn)樹(shù)庫(kù)中同樣或類似的語(yǔ)言環(huán)境下標(biāo)注不一致的地方。
  本文在為阿里巴巴公司建設(shè)漢語(yǔ)句法樹(shù)庫(kù)的基礎(chǔ)上,通過(guò)對(duì)20000句語(yǔ)料庫(kù)完全句法樹(shù)庫(kù)的加工,探索不一致現(xiàn)象產(chǎn)生的原因及應(yīng)對(duì)策略,主要工作如下:
  (1)根據(jù)漢語(yǔ)語(yǔ)料庫(kù)所面向的應(yīng)用需求,制定出相應(yīng)的句法樹(shù)加工規(guī)范,完備的加工規(guī)范有利于保證標(biāo)注結(jié)果的一致性。樹(shù)庫(kù)的標(biāo)注規(guī)范主要有以下兩

3、部分:標(biāo)注方式和標(biāo)記集。標(biāo)注方式介紹使用什么形式組織句子中詞與詞之間的關(guān)系。標(biāo)記集是描述漢語(yǔ)句法的功能特征和結(jié)構(gòu)關(guān)系的符號(hào)集合。標(biāo)注者參照標(biāo)注規(guī)范中的示例對(duì)自動(dòng)標(biāo)注過(guò)的樹(shù)庫(kù)進(jìn)行人工修正。
  (2)分析完全句法分析不一致現(xiàn)象產(chǎn)生的原因及應(yīng)對(duì)方案。原因之一是規(guī)范本身不夠完善,我們分析討論人工修正句法樹(shù)庫(kù)的過(guò)程中遇到的問(wèn)題,不斷對(duì)加工規(guī)范補(bǔ)充修正;原因二是由于人工修正的操作有疏漏,需要對(duì)人工修正結(jié)果進(jìn)行一致性檢驗(yàn)。
  (3)提

4、出基于分層的檢查方法和自動(dòng)消解策略。樹(shù)庫(kù)中的不一致現(xiàn)象分為三個(gè)層次,即分詞、詞性標(biāo)注以及句法分析不一致。這三個(gè)層次是互相影響的,本文首先利用規(guī)則的方法,順序讀取樹(shù)庫(kù),排查分詞不一致現(xiàn)象。然后通過(guò)聚類的方法檢查詞性標(biāo)注不一致現(xiàn)象。
  (4)分別從單層句法分析標(biāo)注和多層句法分析結(jié)構(gòu)優(yōu)先順序進(jìn)行句法分析不一致檢驗(yàn)。針對(duì)單層結(jié)構(gòu)或功能理解不同造成的不一致的消解,主要考慮通過(guò)規(guī)則的方法修正。本文主要使用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)的標(biāo)注方法。對(duì)于多

5、層句法分析結(jié)構(gòu)優(yōu)先順序引起的不一致,需要從結(jié)構(gòu)樹(shù)中結(jié)構(gòu)優(yōu)先順序方面考慮,建立語(yǔ)言環(huán)境支持向量模型,根據(jù)上下文信息確定出一種最合適的句法結(jié)構(gòu)。
  實(shí)驗(yàn)結(jié)果表明,分詞和詞性標(biāo)記的不一致對(duì)句法分析結(jié)果的不一致的影響是十分顯著的。經(jīng)過(guò)切分和詞性標(biāo)注一致性檢驗(yàn)后,句法分析不一致現(xiàn)象大量減少。查找和修正句法分析層面的不一致現(xiàn)象是一致性檢驗(yàn)的難點(diǎn),本文利用規(guī)則和統(tǒng)計(jì)方法,通過(guò)人工和自動(dòng)機(jī)器相結(jié)合的策略,可以有效檢驗(yàn)此類不一致現(xiàn)象。采用本文的方

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論