2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、1AutomaticAutomaticRecognitionRecognitionofofChineseChineseUnknownUnknownWdsWdsUsingUsingHMMHMM基于角色標(biāo)基于角色標(biāo)注的中國人名自動識別研究注的中國人名自動識別研究張華平.劉群(LiuQun)Liuqun@ict.中國科學(xué)院計算技術(shù)研究所軟件實驗室北京100080摘要:摘要:中國人名的識別是中文未登錄詞識別的重點和難點,目前的解決方案自身存在一

2、些本質(zhì)的缺陷,實際效果還難以滿足實際需求。本文提出了一種基于角色標(biāo)注的中國人名自動識別方法。即:利用從語料庫中自動抽取的角色信息,采取Viterbi算法對切詞結(jié)果進行角色標(biāo)注,在角色序列的基礎(chǔ)上,進行模式最大匹配,最終實現(xiàn)中國人名的識別。通過對16M字節(jié)真實語料庫的封閉與開放測試,該方法取得了接近98%的召回率,準(zhǔn)確率也得到了實際提高。實驗數(shù)據(jù)證明:該方法是行之有效、能夠成功解決中國人名的自動識別問題。關(guān)鍵詞:關(guān)鍵詞:未登錄詞識別;中國

3、人名;角色標(biāo)注1.1.引言引言詞語分析是中文自然語言處理的前提和基礎(chǔ),中文詞語分析的研究已經(jīng)取得較大的進展,但在處理含有未登錄詞的文本時,其結(jié)果一般難以滿足實際的需求。未登錄詞的錯誤識別,不僅僅使自身無法正確識別召回,而且往往與前后的其他字詞交叉組合,嚴(yán)重地影響其他詞的正確識別,從而直接的降低了詞語分析乃至整個句子分析的正確率。未登錄詞的自動識別已經(jīng)成為了中文詞語分析質(zhì)量的實際瓶頸。中國人名在未登錄詞占有較大比重,也是未登錄詞識別的主要

4、難點。根據(jù)我們對人民日報1998年1月的語料庫(共計2305896字)進行的統(tǒng)計,每100字中含未登錄詞1.192個(不計數(shù)詞、時間詞),其中48.6%的是中國人名。而中國人名的召回率僅為68.77%[1],其切分錯誤高達50%以上,對所有分詞錯誤進行統(tǒng)計,姓名錯誤占了將近90%[2]。因此中國人名的自動識別是未登錄識別問題的重點和關(guān)鍵,中國人名識別問題的解決也會改善漢語詞語分析、句法分析乃至中文信息處理的最終質(zhì)量。1.11.1中國人名

5、自動識別的困難中國人名自動識別的困難中國人名數(shù)量眾多,規(guī)律各異,有很大的隨意性。其主要的困難在于:1中國人名構(gòu)成的多樣性;2人名內(nèi)部相互成詞;3人名與其上下文組合成詞;4歧義理解。1中國人名構(gòu)成的多樣性:(1)姓名:張華平、張浩、西門吹雪、諸葛亮;(2)有名無姓:“春花點點頭”;“杰,你好嗎?”(3)有姓無名:“劉稱趙已離開江西”;(4)姓前后綴劉總、張老、小李、邱某;(5)港臺已婚婦女:范徐麗泰、彭張青。2人名內(nèi)部相互成詞,指的是姓與

6、名、名與名之間本身就是一個已經(jīng)被收錄的詞。如:[王國]維、[高峰]、[汪洋]、張[朝陽]。根據(jù)我們對80000條中國人名的統(tǒng)計,內(nèi)部成詞的比例高達8.49%。3人名與其上下文組合成詞的情況包括人名的首部(姓或名的首字)與人名的上文成詞和人名的尾部(姓或名的首字)與人名的下文成詞。例如:“這里[有關(guān)]天培的壯烈”;32、基于角色標(biāo)注的中國人名自動識別方法、基于角色標(biāo)注的中國人名自動識別方法2.12.1中國人名的構(gòu)成角色中國人名的構(gòu)成角色中

7、國人名的內(nèi)部構(gòu)成與上下文比較集中,而且有一定的規(guī)律性。在83077條人名庫中,姓氏用字僅有820個,其中王、張、李三大姓,就占了20%;20631個單名中,單名用字為1489個雙名的首字與末用字?jǐn)?shù)均不到2000個。人名的上下文種類也很有限。上文一般是稱呼、職銜以及一些連詞、動詞,如:“總統(tǒng)”、“主任”、“打”、“向”等。下文大多是像“說”、“表示”、“主席”之類的詞。我們將人名的內(nèi)部組成、上下文等與人名識別相關(guān)的成分稱為中國人名的構(gòu)成角

8、色(為行文方便,以下簡稱角色)。我們利用角色表(見表1)對“館內(nèi)陳列周恩來和鄧穎超生前使用過的物品?!边M行角色標(biāo)注,其結(jié)果為:“館A內(nèi)A陳列K周B恩C來D和M鄧B穎C超生V前A使用A過A的A物品A。A”編碼編碼代碼代碼意義意義例子例子BPf姓氏張華平先生CPm雙名的首字張華平先生DPt雙名的末字張華平先生EPs單名張浩說:“我是一個好人”FPpf前綴老劉、小李GPlf后綴王總、劉老、肖氏、吳媽、葉帥KPp人名的上文又來到于洪洋的家。LP

9、n人名的下文新華社記者黃文攝MPpn兩個中國人名之間的成分編劇邵鈞林和稽道青說UPpf人名的上文和姓成詞這里有關(guān)天培的壯烈VPnw人名的末字和下文成詞龔學(xué)平等領(lǐng)導(dǎo)鄧穎超生前XPfm姓與雙名的首字成詞王國維、YPfs姓與單名成詞高峰、汪洋ZPmt雙名本身成詞張朝陽APo以上之外其他的角色表1中國人名的構(gòu)成角色表2.22.2角色自動標(biāo)注與中國人名識別角色自動標(biāo)注與中國人名識別既然含中國人名的句子包含姓、名、上下文等構(gòu)成角色,那么換一個角度說

10、:我們就可以通過對構(gòu)成角色進行標(biāo)注通過對角色序列簡單的模式匹配來實現(xiàn)中國人名的識別。而中國人名構(gòu)成角色的標(biāo)注實質(zhì)是一個簡單的詞性標(biāo)注過程。我們采用的是Viterbi算法[9]進行角色自動標(biāo)注。即:從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注作為最終標(biāo)注結(jié)果。其理論及推導(dǎo)如下:我們假定W是分詞后的Token序列(即未登錄詞識別前的分詞結(jié)果),T是W某個可能的角色標(biāo)注序列.其中T#為最終標(biāo)注結(jié)果,即概率最大的角色序列。則有:W=(w1w2…w

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論