版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、計(jì)算機(jī)科技迅速發(fā)展、不同層次的應(yīng)用需求的涌現(xiàn),導(dǎo)致了當(dāng)今網(wǎng)絡(luò)數(shù)據(jù)的急劇增加,漢語有著龐大的用戶群體,如何在海量的中文信息中提取出我們想要的,有用的信息呢?第一步當(dāng)然是讓計(jì)算機(jī)能夠“懂得”我們?nèi)祟惖恼Z言。漢語中詞是擁有獨(dú)立意義的最小語言單元。確切的進(jìn)行詞語切分是處理漢語這門自然語言的第一步,也是至關(guān)重要的一步,只有跨過這個(gè)難關(guān),才談得上更深層次的中文信息處理。
本文分析了已有分詞方法的優(yōu)劣,并采用基于統(tǒng)計(jì)與基于規(guī)則相結(jié)合的分詞方
2、法進(jìn)行分詞,取各方法之精髓,彌補(bǔ)各分詞方法力所不及之處。在發(fā)揮隱馬爾科夫模型優(yōu)勢的同時(shí),輔以有規(guī)則的詞典,提高分詞的效率與準(zhǔn)確率。接下來的重點(diǎn)與難點(diǎn)有二:其一為歧義消除;其二為對未登錄詞的識別。在初步切分處理過程中,采用最短路徑的改進(jìn)算法,本著“知之為知之,不知為不知”的原則,確定或十分有把握的才劃分出來,成為一個(gè)詞語,不能確定的則不作處理。這一步可以保留較大的可能性,交給后續(xù)步驟來處理,分層次來逐步解決問題,盡量使最終分詞結(jié)果達(dá)到最優(yōu)
3、。此處也有最大熵思想的體現(xiàn)。未登錄詞識別主要指人名、地名以及外國人名的中文譯名的識別,漢語博大精深,各種名字更是五花八門,人名由姓氏和名字組成,雖有規(guī)律可循,但隨意性很大,難以通過傳統(tǒng)的規(guī)則方法識別出所有的人名,地名卻相對固定,外國譯名也可以通過調(diào)查得到最常用的譯名,從而事先將其加入詞典,便可以很好的完成對二者的識別工作,本文主要針對人名這個(gè)識別難點(diǎn),提出了基于上下文環(huán)境的統(tǒng)計(jì)模型,這也源于中文姓名出現(xiàn)的時(shí)候往往都在句中扮演著某種角色,
4、所以加入這種信息,根據(jù)其與前后綴的粘合度來進(jìn)一步判定是否應(yīng)該被識別為人名。在歧義消除方面,歧義分為語義上的和解釋上的兩種,而交叉型歧義和組合型歧義是歧義消除主要解決的兩個(gè)問題。交叉型歧義一般根據(jù)歧義字段本身就能得到很好的切分結(jié)果。組合型歧義相對交叉型歧義來說,需要更多的上下文信息,有時(shí)必須根據(jù)整個(gè)句子來判斷。最大熵模型是一種將上下文信息組合在一起的概率模型,而組合型歧義的消除需要借助上下文信息來判斷,因此最大熵模型適合用于解決組合型歧義
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于實(shí)例的中文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 中文分詞系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn).pdf
- 中文自動分詞系統(tǒng)的研究與實(shí)現(xiàn).pdf
- dris系統(tǒng)中的中文自動分詞模塊設(shè)計(jì)與實(shí)現(xiàn)
- 統(tǒng)計(jì)全切分中文分詞系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 中文分詞算法的研究與實(shí)現(xiàn).pdf
- 中文分詞算法的研究與實(shí)現(xiàn)
- 基于感知器算法的中文分詞增量系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向科技文獻(xiàn)的中文分詞系統(tǒng)研究與實(shí)現(xiàn).pdf
- 基于Lucene的中文分詞器設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于CRF的中文分詞研究與實(shí)現(xiàn).pdf
- 統(tǒng)計(jì)與規(guī)則相結(jié)合的中文分詞模型設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向中文網(wǎng)絡(luò)信息檢索的自動分詞系統(tǒng)設(shè)計(jì)與算法實(shí)現(xiàn).pdf
- 基于并行計(jì)算的中文分詞系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 算法課程設(shè)計(jì)---中文分詞程序設(shè)計(jì)與實(shí)現(xiàn)
- 基于詞典的中文分詞算法改進(jìn)與實(shí)現(xiàn).pdf
- 基于CRFs的中文分詞算法研究與實(shí)現(xiàn).pdf
- 基于感知器算法的高效中文分詞與詞性標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向企業(yè)信息檢索的中文分詞系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于語法的分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
評論
0/150
提交評論