基于隱馬模型的中國人名自動識別研究

上傳人：奔*** IP屬地：河北更新時間：2024-03-13 格式：doc 頁數(shù)：8 大?。?6.50KB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩7頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、1AutomaticAutomaticRecognitionRecognitionofofChineseChineseUnknownUnknownWdsWdsUsingUsingHMMHMM基于角色標(biāo)基于角色標(biāo)注的中國人名自動識別研究注的中國人名自動識別研究張華平.劉群(LiuQun)Liuqun@ict.中國科學(xué)院計算技術(shù)研究所軟件實驗室北京100080摘要：摘要：中國人名的識別是中文未登錄詞識別的重點和難點，目前的解決方案自身存在一

2、些本質(zhì)的缺陷，實際效果還難以滿足實際需求。本文提出了一種基于角色標(biāo)注的中國人名自動識別方法。即：利用從語料庫中自動抽取的角色信息，采取Viterbi算法對切詞結(jié)果進行角色標(biāo)注，在角色序列的基礎(chǔ)上，進行模式最大匹配，最終實現(xiàn)中國人名的識別。通過對16M字節(jié)真實語料庫的封閉與開放測試，該方法取得了接近98%的召回率，準(zhǔn)確率也得到了實際提高。實驗數(shù)據(jù)證明：該方法是行之有效、能夠成功解決中國人名的自動識別問題。關(guān)鍵詞：關(guān)鍵詞：未登錄詞識別；中國

3、人名；角色標(biāo)注1.1.引言引言詞語分析是中文自然語言處理的前提和基礎(chǔ)，中文詞語分析的研究已經(jīng)取得較大的進展，但在處理含有未登錄詞的文本時，其結(jié)果一般難以滿足實際的需求。未登錄詞的錯誤識別，不僅僅使自身無法正確識別召回，而且往往與前后的其他字詞交叉組合，嚴(yán)重地影響其他詞的正確識別，從而直接的降低了詞語分析乃至整個句子分析的正確率。未登錄詞的自動識別已經(jīng)成為了中文詞語分析質(zhì)量的實際瓶頸。中國人名在未登錄詞占有較大比重，也是未登錄詞識別的主要

4、難點。根據(jù)我們對人民日報1998年1月的語料庫（共計2305896字）進行的統(tǒng)計，每100字中含未登錄詞1.192個(不計數(shù)詞、時間詞)，其中48.6%的是中國人名。而中國人名的召回率僅為68.77%[1]，其切分錯誤高達50%以上，對所有分詞錯誤進行統(tǒng)計，姓名錯誤占了將近90%[2]。因此中國人名的自動識別是未登錄識別問題的重點和關(guān)鍵，中國人名識別問題的解決也會改善漢語詞語分析、句法分析乃至中文信息處理的最終質(zhì)量。1.11.1中國人名

5、自動識別的困難中國人名自動識別的困難中國人名數(shù)量眾多，規(guī)律各異，有很大的隨意性。其主要的困難在于：1中國人名構(gòu)成的多樣性；2人名內(nèi)部相互成詞；3人名與其上下文組合成詞；4歧義理解。1中國人名構(gòu)成的多樣性：（1）姓名：張華平、張浩、西門吹雪、諸葛亮；（2）有名無姓：“春花點點頭”；“杰，你好嗎？”（3）有姓無名：“劉稱趙已離開江西”；(4)姓前后綴劉總、張老、小李、邱某；(5)港臺已婚婦女：范徐麗泰、彭張青。2人名內(nèi)部相互成詞，指的是姓與

6、名、名與名之間本身就是一個已經(jīng)被收錄的詞。如：[王國]維、[高峰]、[汪洋]、張[朝陽]。根據(jù)我們對80000條中國人名的統(tǒng)計，內(nèi)部成詞的比例高達8.49%。3人名與其上下文組合成詞的情況包括人名的首部（姓或名的首字）與人名的上文成詞和人名的尾部（姓或名的首字）與人名的下文成詞。例如：“這里[有關(guān)]天培的壯烈”；32、基于角色標(biāo)注的中國人名自動識別方法、基于角色標(biāo)注的中國人名自動識別方法2.12.1中國人名的構(gòu)成角色中國人名的構(gòu)成角色中

7、國人名的內(nèi)部構(gòu)成與上下文比較集中，而且有一定的規(guī)律性。在83077條人名庫中，姓氏用字僅有820個，其中王、張、李三大姓，就占了20%；20631個單名中，單名用字為1489個雙名的首字與末用字?jǐn)?shù)均不到2000個。人名的上下文種類也很有限。上文一般是稱呼、職銜以及一些連詞、動詞，如：“總統(tǒng)”、“主任”、“打”、“向”等。下文大多是像“說”、“表示”、“主席”之類的詞。我們將人名的內(nèi)部組成、上下文等與人名識別相關(guān)的成分稱為中國人名的構(gòu)成角

8、色(為行文方便，以下簡稱角色)。我們利用角色表(見表1)對“館內(nèi)陳列周恩來和鄧穎超生前使用過的物品?！边M行角色標(biāo)注，其結(jié)果為：“館A內(nèi)A陳列K周B恩C來D和M鄧B穎C超生V前A使用A過A的A物品A。A”編碼編碼代碼代碼意義意義例子例子BPf姓氏張華平先生CPm雙名的首字張華平先生DPt雙名的末字張華平先生EPs單名張浩說：“我是一個好人”FPpf前綴老劉、小李GPlf后綴王總、劉老、肖氏、吳媽、葉帥KPp人名的上文又來到于洪洋的家。LP

9、n人名的下文新華社記者黃文攝MPpn兩個中國人名之間的成分編劇邵鈞林和稽道青說UPpf人名的上文和姓成詞這里有關(guān)天培的壯烈VPnw人名的末字和下文成詞龔學(xué)平等領(lǐng)導(dǎo)鄧穎超生前XPfm姓與雙名的首字成詞王國維、YPfs姓與單名成詞高峰、汪洋ZPmt雙名本身成詞張朝陽APo以上之外其他的角色表1中國人名的構(gòu)成角色表2.22.2角色自動標(biāo)注與中國人名識別角色自動標(biāo)注與中國人名識別既然含中國人名的句子包含姓、名、上下文等構(gòu)成角色，那么換一個角度說

10、：我們就可以通過對構(gòu)成角色進行標(biāo)注通過對角色序列簡單的模式匹配來實現(xiàn)中國人名的識別。而中國人名構(gòu)成角色的標(biāo)注實質(zhì)是一個簡單的詞性標(biāo)注過程。我們采用的是Viterbi算法［9］進行角色自動標(biāo)注。即：從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注作為最終標(biāo)注結(jié)果。其理論及推導(dǎo)如下：我們假定W是分詞后的Token序列(即未登錄詞識別前的分詞結(jié)果)，T是W某個可能的角色標(biāo)注序列.其中T#為最終標(biāo)注結(jié)果，即概率最大的角色序列。則有：W=(w1w2…w

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于隱馬模型的中國人名自動識別研究

文檔簡介

溫馨提示

最新文檔

評論

基于隱馬模型的中國人名自動識別研究

文檔簡介

溫馨提示

最新文檔

評論

免費下載