版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、,漢語(yǔ)分詞:最大匹配方法,張?jiān)拢ɡ钫A指導(dǎo))2015.9.15,,中文分詞的目的是將漢字序列切分為詞序列舉例說(shuō)明:輸入句子:他是研究生物化學(xué)的??赡艿姆衷~:他 是 研究生 物化 學(xué) 的 。 他 是 研究生 物 化學(xué) 的 。 他 是 研究 生物 化學(xué) 的 。合理答案:他 是 研究 生物 化學(xué) 的 。,分詞任務(wù),從左到右尋找詞的最大匹配(
2、每次都貪心的找一個(gè)最長(zhǎng)的詞典詞)我們有一個(gè)詞典,用于存放所有可能的詞語(yǔ),即除了單字,分詞結(jié)果中的每個(gè)詞均要在詞典中出現(xiàn)。,正向最大匹配算法,從左到右尋找詞的最大匹配從當(dāng)前位置開(kāi)始,向右截取最大長(zhǎng)度,組成當(dāng)前詞;和字典中的詞逐一進(jìn)行匹配;若匹配成功,則進(jìn)行下次匹配,下次匹配的當(dāng)前位置則為這次詞后面的那個(gè)字。如果未能匹配,就縮短長(zhǎng)度(長(zhǎng)度減一)重新截取,直到當(dāng)前詞與詞典中的詞匹配或者當(dāng)前詞是單字;,正向最大匹配算法,
3、從左到右尋找詞的最大匹配,正向最大匹配算法,例子:我是中國(guó)人 詞典中包括【中國(guó)、中國(guó)人】假設(shè):最大詞長(zhǎng)為3,正向最大匹配算法,例子:我是中國(guó)人 第一輪:第一次:"我是中"是選取的詞,在詞典中 未找到匹配項(xiàng) 第二次:"我是"是選取的詞,在詞典中未 找到匹配項(xiàng) 第三次:"我"是選取的詞,是單字,匹配 成功,正向最大
4、匹配算法,例子:我/是中國(guó)人 第二輪:第一次:"是中國(guó)"是選取的詞,在詞典中 未找到匹配項(xiàng) 第二次:"是中"是選取的詞,在詞典中未 找到匹配項(xiàng) 第三次:"是"是選取的詞,是單字,匹配 成功,正向最大匹配算法,例子:我/是/中國(guó)人/ 第三輪:第一次:"中國(guó)人"是選取的詞,在詞典中
5、 找到匹配項(xiàng),匹配成功。 至此,短句中所有字匹配結(jié)束,該短句分詞結(jié)束。,正向最大匹配算法,從右到左尋找詞的最大匹配 與正向最大匹配的區(qū)別在于,從句子的末尾開(kāi)始,向左邊截取一定的長(zhǎng)度去匹配。,逆向最大匹配算法,從右到左尋找詞的最大匹配,逆向最大匹配算法,例子:我是中國(guó)人 第一輪:第一次:"中國(guó)人"是選取的詞,在詞典中 找到匹配項(xiàng),匹配成功,逆向最大匹配算法,例子:我是/
6、中國(guó)人 第二輪:第一次:因?yàn)槭S嘧謹(jǐn)?shù)已不足3,小于假 定的最大詞長(zhǎng),所以選擇"我是", 在詞典中未找到匹配項(xiàng) 第二次:"是"是選取的詞,是單字,匹配 成功,逆向最大匹配算法,例子:我/是/中國(guó)人 第三輪:第一次:因?yàn)槭S嘧謹(jǐn)?shù)已不足3,小于假 定的最大詞長(zhǎng),所以選擇"我", 是單字,匹配成功 至此,短句中所
7、有字匹配結(jié)束,該短句 分詞結(jié)束。,逆向最大匹配算法,給定人工標(biāo)注的分詞答案,評(píng)價(jià)某一算法給出的結(jié)果。正確率(Precision) = 正確識(shí)別的詞數(shù) / 識(shí)別出的個(gè)體總數(shù)召回率(Recall) = 正確識(shí)別的個(gè)體總數(shù) / 測(cè)試集中存在的個(gè)體總數(shù)F值 = 正確率* 召回率 * 2 / (正確率 + 召回率),分詞算法評(píng)價(jià):正確率/召回率/F值,思考:評(píng)價(jià)程序應(yīng)該怎么寫(xiě)?,utf-8是不定長(zhǎng)的,根據(jù)左側(cè)位1的個(gè)數(shù)來(lái)決定
8、占用了幾個(gè)字節(jié),中文一般占2-4個(gè)字節(jié),UTF-8編碼,gbk的編碼方式是中文占兩個(gè)字節(jié),英文占一個(gè)字節(jié),根據(jù)第一個(gè)字節(jié)的最高位來(lái)判斷如果第一個(gè)字節(jié)的最高位是1,則是兩個(gè)字節(jié)連在一起為一個(gè)字符,否則一個(gè)字節(jié)為一個(gè)字符中文的編碼范圍 第一個(gè)字節(jié) | 第二個(gè)字節(jié) 0x81-0xFE(129-254) | 0x40-0xFE(64-254),GBK編碼,,數(shù)據(jù)格式,四個(gè)編程任務(wù)(編程語(yǔ)言不限,Li
9、nux上運(yùn)行),1. 構(gòu)建詞典(3分)給一個(gè)人工分好詞的文件data.conll,構(gòu)建一個(gè)詞典,輸出到一個(gè)文件中,起名為word.dict(格式自定義)2. 構(gòu)建毛文本(2分)將data.conll文件中的格式修改為:每行一句話(huà),詞語(yǔ)之間無(wú)空格,起名為data.txt,四個(gè)編程任務(wù)(編程語(yǔ)言不限,Linux上運(yùn)行),3. 前向(5分)或(二者只可以選一個(gè))后向(7分)最大匹配分詞算法給定詞典word.dict,對(duì)data.txt
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于最大匹配的書(shū)面漢語(yǔ)自動(dòng)分詞研究.pdf
- 基于優(yōu)化最大匹配的中文分詞方法研究.pdf
- 中文分詞入門(mén)之最大匹配法
- 基于規(guī)則的中文地址分詞與匹配方法.pdf
- led電阻匹配方法
- 賓利 鑰匙匹配方法
- 天線調(diào)試匹配方法
- 儀表的所有匹配方法
- 汽車(chē)鑰匙的匹配方法
- 40387.基于中文分詞的圖文自動(dòng)匹配方法研究——以土地政策文本為例
- XML模式匹配方法研究.pdf
- 北京現(xiàn)代鑰匙匹配方法
- 基于sift的穩(wěn)健匹配方法
- 指紋的匹配方法研究.pdf
- 內(nèi)存和cpu匹配方法詳解
- Top-k本體匹配方法.pdf
- 航空影像多視匹配方法研究
- 基于圖像灰度的模板匹配方法
- 豐田系列遙控器匹配方法
- 結(jié)合區(qū)域匹配和點(diǎn)匹配的大視角圖像匹配方法.pdf
評(píng)論
0/150
提交評(píng)論