2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩130頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、命名實(shí)體識(shí)別的目標(biāo)是識(shí)別文本中事物的名稱并分類。傳統(tǒng)命名實(shí)體識(shí)別任務(wù)主要識(shí)別人名、地名和機(jī)構(gòu)名等。但由于傳統(tǒng)命名實(shí)體的類別有限,不能完全滿足自然語(yǔ)言處理領(lǐng)域其他任務(wù)的需求。因此本文重點(diǎn)研究開(kāi)放域命名實(shí)體的識(shí)別和層次化類別獲取,旨在為信息抽取、信息檢索、開(kāi)放域問(wèn)答、機(jī)器翻譯等自然語(yǔ)言處理任務(wù)提供支持。
  開(kāi)放域命名實(shí)體相對(duì)傳統(tǒng)命名實(shí)體有兩個(gè)主要特點(diǎn):類別更多且不固定;類別更細(xì)且有層次。這導(dǎo)致開(kāi)放域命名實(shí)體的識(shí)別面臨無(wú)法標(biāo)注訓(xùn)練語(yǔ)料

2、、同一個(gè)命名實(shí)體屬于多個(gè)不同粒度的類別等挑戰(zhàn),無(wú)法應(yīng)用傳統(tǒng)的序列標(biāo)注的方法來(lái)解決。本文將開(kāi)放域命名實(shí)體識(shí)別任務(wù)分為兩個(gè)方面:邊界識(shí)別和類別獲取。邊界識(shí)別面臨的主要問(wèn)題是訓(xùn)練語(yǔ)料的構(gòu)建以及有效利用。類別獲取面臨的主要問(wèn)題是類別體系不可預(yù)先確定以及類別的層次化。本文的研究工作旨在解決上述兩個(gè)問(wèn)題,主要研究?jī)?nèi)容包括以下四個(gè)方面:
  第一部分為基于英漢雙語(yǔ)平行語(yǔ)料自動(dòng)構(gòu)建漢語(yǔ)命名實(shí)體識(shí)別語(yǔ)料。命名實(shí)體識(shí)別訓(xùn)練語(yǔ)料不足會(huì)導(dǎo)致的領(lǐng)域過(guò)擬合問(wèn)

3、題,而人工標(biāo)注的成本太高,本文使用雙語(yǔ)平行語(yǔ)料將英語(yǔ)命名實(shí)體自動(dòng)識(shí)別的標(biāo)記映射到漢語(yǔ)端,從而實(shí)現(xiàn)漢語(yǔ)命名實(shí)體語(yǔ)料的自動(dòng)標(biāo)注。然后進(jìn)一步使用多種策略綜合篩選高質(zhì)量的實(shí)例作為訓(xùn)練語(yǔ)料。實(shí)驗(yàn)證明這種方法可以自動(dòng)構(gòu)建大量的漢語(yǔ)命名實(shí)體識(shí)別訓(xùn)練語(yǔ)料,在該語(yǔ)料上訓(xùn)練的模型與人工標(biāo)注語(yǔ)料上訓(xùn)練的模型性能接近,并且通過(guò)和人工標(biāo)注的語(yǔ)料融合可以提高命名實(shí)體識(shí)別的準(zhǔn)確率和召回率。此外,我們還詳細(xì)分析了平行語(yǔ)料規(guī)模和來(lái)源對(duì)命名實(shí)體識(shí)別效果的影響。
  

4、第二部分為基于自學(xué)習(xí)的開(kāi)放域命名實(shí)體邊界識(shí)別。漢語(yǔ)開(kāi)放域命名實(shí)體識(shí)別尚缺乏訓(xùn)練語(yǔ)料,而命名實(shí)體開(kāi)放的類型導(dǎo)致人工標(biāo)注語(yǔ)料的代價(jià)太大。本文首先基于雙語(yǔ)平行語(yǔ)料和英語(yǔ)句法分析器自動(dòng)標(biāo)注了一個(gè)漢語(yǔ)專有名詞語(yǔ)料,另外基于漢語(yǔ)依存樹(shù)庫(kù)生成了一個(gè)名詞復(fù)合短語(yǔ)語(yǔ)料,然后使用自學(xué)習(xí)的方法將這兩部分語(yǔ)料融合形成命名實(shí)體邊界識(shí)別語(yǔ)料,同時(shí)訓(xùn)練邊界識(shí)別模型。此外,本文還針對(duì)開(kāi)放域命名實(shí)體的特點(diǎn),提出了動(dòng)詞依存關(guān)系、命名實(shí)體構(gòu)成模式等更加豐富的特征。實(shí)驗(yàn)結(jié)果表

5、明自學(xué)習(xí)的方法可以提高邊界識(shí)別的準(zhǔn)確率和召回率,其中使用的特征對(duì)于提高邊界識(shí)別效果皆有幫助。
  第三部分為基于多信息源的開(kāi)放域命名實(shí)體類別獲取。命名實(shí)體的上位詞通常表明了其類別信息。本文在Web搜索結(jié)果、在線百科和命名實(shí)體字面等多個(gè)信息源中挖掘命名實(shí)體的上位詞候選,然后設(shè)計(jì)了一組豐富的特征并在一個(gè)自動(dòng)構(gòu)建的語(yǔ)料上訓(xùn)練模型對(duì)候選進(jìn)行排序,從而獲得了命名實(shí)體的類別。實(shí)驗(yàn)結(jié)果表明多個(gè)信息來(lái)源可以相互補(bǔ)充和驗(yàn)證,有利于命名實(shí)體類別的挖掘

6、和排序。此外,本文還對(duì)上位詞排序的特征進(jìn)行了評(píng)測(cè)。
  第四部分為基于詞匯分布表示的開(kāi)放域命名實(shí)體類別層次化。一個(gè)命名實(shí)體可能屬于多個(gè)不同粒度的類別,這些類別之間通常存在上下位關(guān)系。為此,在獲取命名實(shí)體類別的基礎(chǔ)上,本文進(jìn)一步挖掘類別之間的上下位層次化關(guān)系。本文利用詞匯的分布表示,學(xué)習(xí)從下位詞到上位詞的分段映射矩陣,來(lái)判斷給定的詞對(duì)是否具有上下位關(guān)系。實(shí)驗(yàn)證明本文采用的基于詞匯分布表示的方法對(duì)于開(kāi)放域命名實(shí)體類別的層次化是行之有效

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論