中文分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁數(shù)：74 大?。?.70MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩73頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、計(jì)算機(jī)科技迅速發(fā)展、不同層次的應(yīng)用需求的涌現(xiàn)，導(dǎo)致了當(dāng)今網(wǎng)絡(luò)數(shù)據(jù)的急劇增加，漢語有著龐大的用戶群體，如何在海量的中文信息中提取出我們想要的，有用的信息呢？第一步當(dāng)然是讓計(jì)算機(jī)能夠“懂得”我們?nèi)祟惖恼Z言。漢語中詞是擁有獨(dú)立意義的最小語言單元。確切的進(jìn)行詞語切分是處理漢語這門自然語言的第一步，也是至關(guān)重要的一步，只有跨過這個(gè)難關(guān)，才談得上更深層次的中文信息處理。
　　本文分析了已有分詞方法的優(yōu)劣，并采用基于統(tǒng)計(jì)與基于規(guī)則相結(jié)合的分詞方

2、法進(jìn)行分詞，取各方法之精髓，彌補(bǔ)各分詞方法力所不及之處。在發(fā)揮隱馬爾科夫模型優(yōu)勢的同時(shí)，輔以有規(guī)則的詞典，提高分詞的效率與準(zhǔn)確率。接下來的重點(diǎn)與難點(diǎn)有二：其一為歧義消除；其二為對未登錄詞的識別。在初步切分處理過程中，采用最短路徑的改進(jìn)算法，本著“知之為知之，不知為不知”的原則，確定或十分有把握的才劃分出來，成為一個(gè)詞語，不能確定的則不作處理。這一步可以保留較大的可能性，交給后續(xù)步驟來處理，分層次來逐步解決問題，盡量使最終分詞結(jié)果達(dá)到最優(yōu)

3、。此處也有最大熵思想的體現(xiàn)。未登錄詞識別主要指人名、地名以及外國人名的中文譯名的識別，漢語博大精深，各種名字更是五花八門，人名由姓氏和名字組成，雖有規(guī)律可循，但隨意性很大，難以通過傳統(tǒng)的規(guī)則方法識別出所有的人名，地名卻相對固定，外國譯名也可以通過調(diào)查得到最常用的譯名，從而事先將其加入詞典，便可以很好的完成對二者的識別工作，本文主要針對人名這個(gè)識別難點(diǎn)，提出了基于上下文環(huán)境的統(tǒng)計(jì)模型，這也源于中文姓名出現(xiàn)的時(shí)候往往都在句中扮演著某種角色，

4、所以加入這種信息，根據(jù)其與前后綴的粘合度來進(jìn)一步判定是否應(yīng)該被識別為人名。在歧義消除方面，歧義分為語義上的和解釋上的兩種，而交叉型歧義和組合型歧義是歧義消除主要解決的兩個(gè)問題。交叉型歧義一般根據(jù)歧義字段本身就能得到很好的切分結(jié)果。組合型歧義相對交叉型歧義來說，需要更多的上下文信息，有時(shí)必須根據(jù)整個(gè)句子來判斷。最大熵模型是一種將上下文信息組合在一起的概率模型，而組合型歧義的消除需要借助上下文信息來判斷，因此最大熵模型適合用于解決組合型歧義

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf

文檔簡介

溫馨提示

最新文檔

評論

中文分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載