版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 學(xué)校代碼:10259</p><p><b> 上海應(yīng)用技術(shù)學(xué)院</b></p><p><b> 學(xué)士學(xué)位論文</b></p><p> 題 目: 硬刷題漢字識(shí)別技術(shù)的研究 </p>
2、;<p> 專(zhuān) 業(yè): 電氣工程及其自動(dòng)化 </p><p> 班 級(jí): 09103212 </p><p&g
3、t; 姓 名: 沈佳駿 </p><p> 學(xué) 號(hào): 0910321220 </p><p>
4、 指導(dǎo)教師: 陳嵐 </p><p> 二O一三年 六月六日</p><p> 印刷體漢字識(shí)別技術(shù)的研究</p><p> 摘要:印刷體漢字識(shí)別技術(shù)是一種高速、自動(dòng)的信息錄入手段,成為未來(lái)計(jì)算機(jī)的重要職能接口,還可以作
5、為辦公自動(dòng)化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式,有著廣泛的應(yīng)用前景。漢字識(shí)別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理。實(shí)際生活中,大量的書(shū)信、報(bào)紙、雜志內(nèi)容需要輸入計(jì)算機(jī),這就是印刷體漢字識(shí)別要解決的問(wèn)題。本文首先在第一章就漢字識(shí)別研究的意義和背景以及對(duì)目前存在的問(wèn)題作了綜述。第二章對(duì)印刷體漢字的識(shí)別過(guò)程進(jìn)行基本概述。第三章對(duì)印刷體漢字識(shí)別作了詳細(xì)闡述,論述了印刷體漢字識(shí)別的原理和預(yù)處理、特征抽取與分析
6、、后處理過(guò)程;分析了統(tǒng)計(jì)模式識(shí)別方法、 結(jié)構(gòu)模式識(shí)別方法以及人工神經(jīng)網(wǎng)絡(luò)模式識(shí)別方法;第四章用Matlab對(duì)系統(tǒng)進(jìn)行了仿真;最后在第五章進(jìn)行全文總結(jié)并預(yù)測(cè)了漢字識(shí)別技術(shù)研究今后的發(fā)展方向。</p><p> 關(guān)鍵詞:漢字識(shí)別; 特征提取; 匹配識(shí)別; 人工神經(jīng)網(wǎng)絡(luò); Matlab仿真</p><p> The research of printed Chinese characters
7、 recognition technology</p><p> Abstract: Printed Chinese character recognition technology is a kind of automatic high-speed, information input method, become the important functions of the computer interfa
8、ce, still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural a
9、nd convenient so that the computer could process Chinese information more easily. In practice, large volum</p><p> KeyWords:Chinese characters recognition;feature extraction;Matching recognition;Artificial
10、neural network;Matlab simulation</p><p><b> 目 錄</b></p><p><b> 摘要i</b></p><p> ABSTRACT.i</p><p><b> 目錄iii</b></p>&l
11、t;p><b> 1 緒論1</b></p><p> 1.1 印刷體漢字識(shí)別技術(shù)的研究意義1</p><p> 1.2 印刷體漢字識(shí)別技術(shù)的研究狀況1</p><p> 1.3 印刷體漢字識(shí)別技術(shù)存在的難點(diǎn)2</p><p> 2 印刷體漢字識(shí)別的概述4</p><
12、;p> 2.1 印刷體漢字識(shí)別的原理簡(jiǎn)介4</p><p> 2.2 印刷體漢字識(shí)別的流程簡(jiǎn)介4</p><p> 3 印刷體漢字識(shí)別技術(shù)的研究6</p><p> 3.1 預(yù)處理6</p><p> 3.2 漢字特征提取8</p><p> 3.3 漢字識(shí)別算法分類(lèi)9<
13、/p><p> 3.4 后處理11</p><p> 3.5 印刷體漢字識(shí)別方法分析12</p><p> 3.5.1 結(jié)構(gòu)模式識(shí)別方法12</p><p> 3.5.2 統(tǒng)計(jì)模式識(shí)別方法12</p><p> 3.5.3 人工神經(jīng)網(wǎng)絡(luò)14</p><p> 3.5.
14、4 BP神經(jīng)網(wǎng)絡(luò)15</p><p> 3.5.5 支持向量機(jī)17</p><p> 3.6 本章小結(jié)18</p><p> 4 系統(tǒng)的Matlab仿真19</p><p> 4.1 系統(tǒng)的分析19</p><p> 4.2 系統(tǒng)的實(shí)現(xiàn)20</p><p>
15、4.2.1 特征提取20</p><p> 4.2.2 BP神經(jīng)網(wǎng)絡(luò)的建立21</p><p> 4.2.3 BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練21</p><p> 4.2.4 系統(tǒng)的仿真23</p><p> 4.2.5 系統(tǒng)性能的進(jìn)一步驗(yàn)證27</p><p> 4.2.6 仿真結(jié)果分析31&l
16、t;/p><p> 4.3 本章小結(jié)32</p><p> 5 未來(lái)展望與全文總結(jié)33</p><p> 5.1 未來(lái)展望33</p><p> 5.2 全文總結(jié)33</p><p><b> 參考文獻(xiàn)35</b></p><p><b>
17、 致謝36</b></p><p><b> 參考附錄37</b></p><p><b> 參考附錄137</b></p><p><b> 參考附錄248</b></p><p><b> 1 緒論</b></p&g
18、t;<p> 1.1 印刷體漢字識(shí)別技術(shù)的研究意義</p><p> 漢字已有數(shù)千年的歷史,是中華民族文化的重要結(jié)晶,閃爍著中華人民智慧的光芒。同時(shí)也是世界上使用人數(shù)最多和數(shù)量最多的文字之一。在跨入信息時(shí)代后,現(xiàn)如今漢字印刷材料的數(shù)量大大增加,一些專(zhuān)業(yè)單位如新聞社、圖書(shū)館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是呈爆炸性增長(zhǎng),畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。然而,隨
19、著人們對(duì)電子化信息需求的日益增加,如何將漢字快速高效地輸入計(jì)算機(jī),是信息處理的一個(gè)關(guān)鍵問(wèn)題,也是關(guān)系到計(jì)算機(jī)技術(shù)能否在我國(guó)真正普及的重要前提,更是能否傳播與弘揚(yáng)中華民族悠久歷史文化的關(guān)鍵因素。傳統(tǒng)的人工鍵入不僅速度慢而且勞動(dòng)強(qiáng)度大,即使是專(zhuān)業(yè)的打字員每分鐘也只能輸入100-120個(gè)漢字。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書(shū)情報(bào)管理等場(chǎng)合。而且隨著勞動(dòng)力價(jià)格的升高,利用人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)
20、。人們要求有一種能將文字信息高速、自動(dòng)輸入計(jì)算機(jī)的方法,于是印刷體漢字識(shí)別技術(shù)便應(yīng)運(yùn)而生。這種快速,準(zhǔn)確的自動(dòng)處理方式將在很大程度上推動(dòng)我國(guó)信息化的發(fā)展進(jìn)程,對(duì)社會(huì)各方面的工作都有著相當(dāng)深遠(yuǎn)的意義。目前印刷體漢字識(shí)別技術(shù)已經(jīng)呈現(xiàn)出了</p><p> 漢字識(shí)別是模式識(shí)別的重要應(yīng)用領(lǐng)域,也是光學(xué)字符識(shí)別OCR(Optical Character Recognition)的重要組成部分。漢字識(shí)別是一門(mén)多學(xué)科綜合性的
21、研究課題,它不僅與人工智能的研究有關(guān),而且與數(shù)字信號(hào)處理、圖像處理、信息論、計(jì)算機(jī)科學(xué)、幾何學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)、生物學(xué)、模糊數(shù)學(xué)、決策論等技術(shù)都有著千絲萬(wàn)縷的聯(lián)系。一方面各學(xué)科的發(fā)展給它的研究提供了工具;另一方面,它的研究與發(fā)展也必將促進(jìn)各學(xué)科的相互進(jìn)步。因而該技術(shù)有著重要的實(shí)用價(jià)值和理論意義。同時(shí),中國(guó)是使用漢字最久遠(yuǎn)和最廣泛的國(guó)家。因此,能否在漢字識(shí)別技術(shù)的研究方面占據(jù)領(lǐng)先的位置也是中國(guó)科技實(shí)力的一項(xiàng)至關(guān)重要的體現(xiàn)。</p&g
22、t;<p> 1.2印刷體漢字識(shí)別技術(shù)的研究狀況</p><p> 印刷體漢字識(shí)別是文字識(shí)別技術(shù)的一種。利用機(jī)器識(shí)別文字符號(hào),可以說(shuō)從1929年奧地利科學(xué)家陶舍克利用光學(xué)模板匹配識(shí)別開(kāi)始。當(dāng)時(shí),他使用了10塊模板對(duì)應(yīng)10個(gè)數(shù)字,依次把待識(shí)別的數(shù)字投影到這10塊模板上,當(dāng)模板透過(guò)的光達(dá)到最小時(shí)(數(shù)字遮擋了模板的透光部分),數(shù)字就被識(shí)別成這塊模板上的數(shù)字。大約在50年代末60年代初,就已經(jīng)出現(xiàn)了關(guān)于
23、利用計(jì)算機(jī)識(shí)別數(shù)字及英文符號(hào)的研究論文。據(jù)文獻(xiàn)記載,印刷體漢字的識(shí)別最早可以追溯到60年代中期。1966年,IBM公司發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法識(shí)別了1000個(gè)印刷體漢字。隨后,日本也在70年代開(kāi)始對(duì)漢字識(shí)別進(jìn)行了研究。1981年5月在日本第56屆商業(yè)展覽會(huì)上,富士通研究實(shí)驗(yàn)室進(jìn)行了手寫(xiě)印刷體漢字識(shí)別的公開(kāi)表演。1984年日本武藏野電氣研究所研制成多體印刷漢字識(shí)別裝置,可以識(shí)別2300個(gè)多
24、體漢字的印刷體漢字識(shí)別系統(tǒng), 識(shí)別率為99.88%,識(shí)別速度大于100字/秒,代表了當(dāng)時(shí)漢字識(shí)別的最高水平[1]。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識(shí)別系統(tǒng),但因這些系統(tǒng)價(jià)格極其昂貴,沒(méi)有得到廣泛應(yīng)用。直</p><p> 同國(guó)外相比,我國(guó)的印刷體漢字識(shí)別研究起步較晚[2]。我國(guó)在20世紀(jì)70年代才開(kāi)始對(duì)數(shù)字、英文字母及符號(hào)的識(shí)別技術(shù)進(jìn)行研究,20世紀(jì)70年代末僅有少數(shù)大學(xué)和研究所開(kāi)始
25、進(jìn)行漢字識(shí)別的研究并發(fā)表了一些論文,研制了少量模擬識(shí)別軟件或系統(tǒng)。但由于我國(guó)政府從80年代中期開(kāi)始對(duì)漢字自動(dòng)識(shí)別輸人的研究給予了充分的重視和支持,漢字識(shí)別技術(shù)進(jìn)入了研究的高潮。經(jīng)過(guò)科研人員這些年的辛勤努力,印刷體漢字識(shí)別技術(shù)的發(fā)展和應(yīng)用有了長(zhǎng)足進(jìn)步,從簡(jiǎn)單的單體識(shí)別發(fā)展到多種字體混排的多體識(shí)別,從中文印刷材料的識(shí)別發(fā)展到中英文混排印刷材料的雙語(yǔ)識(shí)別。各個(gè)系統(tǒng)可以支持簡(jiǎn)、繁體漢字的識(shí)別,解決了多體多字號(hào)混排文本的識(shí)別問(wèn)題,對(duì)于簡(jiǎn)單的版面可
26、以進(jìn)行有效的定量分析,同時(shí)漢字識(shí)別率已達(dá)到了98%以上。進(jìn)入90年代以來(lái),印刷體漢字識(shí)別研究的主要目的是提高識(shí)別系統(tǒng)的品質(zhì)和效率,增強(qiáng)系統(tǒng)對(duì)不同文本的適應(yīng)性,擴(kuò)大使用面。在加強(qiáng)版面分析、識(shí)別結(jié)果上下文匹配后處理和各種實(shí)用化技術(shù)的研制的同時(shí),進(jìn)行對(duì)識(shí)別方法的進(jìn)一步研究,促使更實(shí)用的產(chǎn)品廣泛出現(xiàn)。</p><p> 1.3 印刷體漢字識(shí)別技術(shù)存在的難點(diǎn)</p><p> 由于漢字具有以下幾
27、個(gè)方面的特點(diǎn),使?jié)h字字符在識(shí)別難度上遠(yuǎn)遠(yuǎn)大于字母化字符的識(shí)別。</p><p><b> ?。?)類(lèi)別較大</b></p><p> 目前我國(guó)常用漢字約3000~4000個(gè)。國(guó)標(biāo)GB2312一80常用漢字字符集中共有,6763個(gè)常用字,分為兩級(jí)。第一級(jí)3,755個(gè)漢字,使用頻度為99.7%,第二級(jí)有3,008個(gè)漢字,兩級(jí)漢字總使用頻度為99.99%,識(shí)別系統(tǒng)一般應(yīng)能
28、正確識(shí)別這些常用字,才能滿(mǎn)足實(shí)際應(yīng)用的需要。目前的研究目標(biāo)一般都著眼于解決國(guó)標(biāo)一級(jí)3755個(gè)漢字,即使是這樣,漢字識(shí)別也屬于大類(lèi)別數(shù)的模式識(shí)別問(wèn)題??梢哉f(shuō),字量大是造成漢字識(shí)別困難的主要原因之一。</p><p><b> ?。?)結(jié)構(gòu)復(fù)雜</b></p><p> 漢字是一種結(jié)構(gòu)性很強(qiáng)的文字,每個(gè)漢字都具有獨(dú)一無(wú)二特定分布的若干筆劃構(gòu)成,筆劃是漢字最基本的組成部分
29、,漢字也可以看成是由部件組合而成的,部件是筆劃有意義的組合,一般稱(chēng)之為偏旁、部首或字根。筆劃和部首的不同排列組合,構(gòu)成了數(shù)以千計(jì)表達(dá)不同含義的結(jié)構(gòu)異常復(fù)雜的漢字字符。與世界上常用的其他民族的文字相比,漢字的結(jié)構(gòu)是最為復(fù)雜的。 </p><p><b> ?。?)相似字多</b></p><p> 部分漢字字符之間只存在著很細(xì)小的差別,具有相同筆劃數(shù)目的漢字字符之間的
30、差異有的表現(xiàn)為某一個(gè)筆劃位置或形態(tài)的微小變化,又比如“土”和“士”這兩個(gè)字僅在下部筆劃長(zhǎng)短有細(xì)微的差別而已。即使由人來(lái)辨認(rèn)印刷體的這些漢字,在無(wú)上下文信息的幫助時(shí),也很容易發(fā)生混淆[3]。識(shí)別算法和系統(tǒng)必須能夠正確判定這些細(xì)微的差異,否則就會(huì)發(fā)生錯(cuò)誤。</p><p> 漢字的以上幾個(gè)特點(diǎn)就決定了沒(méi)有單一的一種特征就可以完成對(duì)漢字的識(shí)別,因此如何有效的選取各種特征,有效的進(jìn)行組合,使它們?cè)谄ヅ渌俣群妥R(shí)別率上都能
31、滿(mǎn)足實(shí)際需求就成為整個(gè)系統(tǒng)的關(guān)鍵。</p><p> 2 印刷體漢字識(shí)別的概述</p><p> 2.1 印刷體漢字識(shí)別的原理簡(jiǎn)介</p><p> 漢字識(shí)別(CCR:Chinese Character Recognition)是用電子計(jì)算機(jī)自動(dòng)辨識(shí)印刷在紙上或者人寫(xiě)在紙(或其他介質(zhì))上的漢字。漢字識(shí)別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。從學(xué)科上劃分,漢字
32、識(shí)別屬于模式識(shí)別和人工智能的范疇。它涉及到模式識(shí)別和圖像處理、人工智能、形式語(yǔ)言學(xué)、模糊數(shù)學(xué)等眾多學(xué)科,是一門(mén)綜合性的技術(shù)。該系統(tǒng)由輸入設(shè)備、漢字識(shí)別模塊和計(jì)算機(jī)硬、軟件三部分組成。核心部分是漢字識(shí)別模塊部分,印刷體漢字識(shí)別的過(guò)程主要過(guò)程包括預(yù)處理、特征提取、特征匹配、識(shí)別后處理。預(yù)處理是在所有識(shí)別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。隨著漢字識(shí)別技術(shù)的深入研究,漢字的特征提取的算法越來(lái)越多,如何選擇
33、特征和如何組合優(yōu)化特征已經(jīng)成了研究的重要領(lǐng)域。漢字識(shí)別的基本思想是匹配識(shí)別,匹配識(shí)別技術(shù)涉及到分類(lèi)器的設(shè)計(jì)等重要問(wèn)題,這也是非常重要的一個(gè)環(huán)節(jié)。漢字的后處理是出于獲得最大化識(shí)別率考慮,它在前期已有識(shí)別水平上,通過(guò)調(diào)整參數(shù)或反饋處理獲得更高的識(shí)別率。在本文中,將二值化,平滑去噪,文本行字切分都?xì)w為預(yù)處理。漢字圖像通過(guò)光電掃描儀,CCD器件等工具掃描</p><p> 2.2印刷體漢字識(shí)別的流程簡(jiǎn)介</p&g
34、t;<p> 印刷體漢字識(shí)別的過(guò)程主要過(guò)程包括預(yù)處理、版面分析理解、文本行字切分、特征提取、漢字識(shí)別、識(shí)別后處理,在本文中,將版面分析理解、文本行字切分都?xì)w為預(yù)處理。系統(tǒng)框圖如2.2.1所示。</p><p> 圖2.2.1 印刷體漢字識(shí)別流程圖</p><p> 版面分析主要是對(duì)文本圖像的總體進(jìn)行分析,區(qū)分出文本段落及排版順序,圖像、表格的區(qū)域;對(duì)于文本區(qū)域?qū)⑦M(jìn)行識(shí)別
35、處理,對(duì)于表格區(qū)域進(jìn)行專(zhuān)用的表格分析及識(shí)別處理,對(duì)于圖像區(qū)域進(jìn)行壓縮或簡(jiǎn)單存儲(chǔ)。行字切分是將大幅的圖像先切割為行,再?gòu)膱D像行中分離出單個(gè)字符的過(guò)程。特征提取是整個(gè)環(huán)節(jié)中最重要的一環(huán),它是從單個(gè)字符圖像上提取統(tǒng)計(jì)特征或結(jié)構(gòu)特征的過(guò)程,包括為此而做的細(xì)化(Thinning)、規(guī)范化(Normalization)等。提取特征的穩(wěn)定性及有效性,直接決定了識(shí)別的性能。文字識(shí)別,即從學(xué)習(xí)得到的特征庫(kù)中找到與待識(shí)別字符相似度最高的字符類(lèi)的過(guò)程。后處理
36、則是利用詞義、詞頻、語(yǔ)法規(guī)則或語(yǔ)料庫(kù)等語(yǔ)言先驗(yàn)知識(shí)對(duì)識(shí)別結(jié)果進(jìn)行校正的過(guò)程。由此可見(jiàn),印刷漢字識(shí)別技術(shù)主要包括圖像處理模塊,圖像版面的分析與理解模塊,圖像的行切分與字切分模塊,單字圖像的特征提取與匹配模塊,特征庫(kù),識(shí)別結(jié)果的后處理模塊。其中單字圖像的特征提取與匹配模塊是印刷漢字識(shí)別中最為核心的技術(shù)。近幾年來(lái),印刷漢字識(shí)別系統(tǒng)的單字識(shí)別正確率已經(jīng)超過(guò)98%,為了進(jìn)一步提高系統(tǒng)的總體識(shí)別率,掃描圖像、圖像的預(yù)處理以及識(shí)別后處理等方面的技術(shù),
37、也都得到了深入</p><p> 3 印刷體漢字識(shí)別技術(shù)的研究</p><p><b> 3.1 預(yù)處理 </b></p><p> 由于用數(shù)碼相機(jī)或掃描儀作為輸入設(shè)備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾,圖像質(zhì)量也有偏差,對(duì)識(shí)別效果有一定影響。因此,在對(duì)原始圖像進(jìn)行識(shí)別處理之前,盡可能將干擾因素影響降低,是非常有必要的,也就是要先對(duì)
38、原始采樣信號(hào)進(jìn)行預(yù)處理。預(yù)處理通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細(xì)化等[3][4]。</p><p><b> ?。?)版面分析</b></p><p> 印刷體文字識(shí)別常遇到的識(shí)別主體不是一個(gè)文字段,而是整個(gè)版面,所以版面分析是印刷體文字識(shí)別系統(tǒng)中的重要組成部分。它是指對(duì)印刷體文檔圖像進(jìn)行分析,提取出文本、圖像圖形、表格等區(qū)域,
39、并確定其邏輯關(guān)系,并將相應(yīng)的文本塊連接在一起。這一過(guò)程的自動(dòng)完成算法還不是很完善,有些部分常由手工完成,最終的系統(tǒng)能夠自動(dòng)完成所有的版面分析。</p><p><b> ?。?)二值化</b></p><p> 將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱(chēng)為二值化處理[5],二值化的主要目的是將漢字從圖像中分離出來(lái)。通常的方法為先確定像素的閾值,比較像素
40、值和閾值的大小,從而確定為1或0,這個(gè)二值化閾值的選取較為關(guān)鍵。若閾值取的過(guò)大,則保留的信息過(guò)多,其中許多雜點(diǎn)無(wú)用信息造成了對(duì)以后處理的干擾;若閾值取得過(guò)小,則丟失的信息過(guò)多,其中許多文字信息產(chǎn)生續(xù)斷或丟失,造成最終文字提取分割的信息丟失。如何確定此閾值的過(guò)程也就成了研究二值化算法的重點(diǎn)?,F(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應(yīng)用限制。研究一種適合各種文字圖像的二值化方法也是預(yù)處理環(huán)節(jié)的重點(diǎn)。</p><p&
41、gt;<b> ?。?)傾斜校正</b></p><p> 通過(guò)輸入設(shè)備獲得的圖像不可避免地會(huì)發(fā)生傾斜,這會(huì)給后面的行字分割、文字識(shí)別等圖像處理與分析帶來(lái)困難,因此,在漢字識(shí)別系統(tǒng)中,傾斜校正是圖像預(yù)處理的重要部分。傾斜校正的核心在于如何檢測(cè)出圖像的傾斜角。目前,傾斜角檢測(cè)的方法有許多種,主要可分為5類(lèi):基于Hough變換的方法;基于交叉相關(guān)性的方法;基于投影的方法;基于Fourier變換
42、的方法和最近鄰簇方法。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。</p><p><b> ?。?)行字切分</b></p><p> 漢字切分的目的是利用字與字之間、行與行之間的空隙,將單個(gè)漢字從整個(gè)圖像中分離出來(lái)。漢字的切分分為行切分和字切分。</p><p> 行切分是利用行與行之間的直線(xiàn)型空隙來(lái)分辨行,將各行的行上界和
43、行下界記錄下來(lái)[6]。典型的算法是,從上到下,對(duì)二值漢字點(diǎn)陣的每行像素值進(jìn)行累加,若從某行開(kāi)始的若干累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為該行是一漢字文本行的開(kāi)始,即行上界。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。</p><p> 字切分是利用字與字之間的直線(xiàn)型空隙來(lái)分辨字,將各字的左邊界和右邊界記錄下來(lái)。典型的算法是,在確定這一行的行上界和行下界之后,從左
44、到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號(hào)。從左邊開(kāi)始垂直方向的行距內(nèi)像素單列累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為是該漢字的左邊界。同理,當(dāng)出現(xiàn)連續(xù)一個(gè)漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為該漢字的右邊界。對(duì)文本漢字行來(lái)說(shuō),由于存在左右分離字,寬窄字,字間交連等,加上行間混有英文、數(shù)字、符號(hào)、和字間污點(diǎn)干擾,使得字切分比行切分困難得多。</p><p><b> ?。?)歸
45、一化</b></p><p> 歸一化也稱(chēng)規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置(平移),文字筆畫(huà)粗細(xì)變換等文字圖像的規(guī)格化處理,并只對(duì)文字圖像進(jìn)行投影。漢字圖像的歸一化往往會(huì)帶來(lái)兩個(gè)問(wèn)題:一是字符圖像的縮放可能會(huì)引入一些干擾;二是圖像縮放本身的運(yùn)算量較大。所以,必須采用恰當(dāng)?shù)臍w一化方法來(lái)盡可能的消除尺度變化對(duì)特征值提取的影響。</p><p><b>
46、 ?。?)平滑</b></p><p> 對(duì)數(shù)字圖像進(jìn)行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫(huà)邊緣。平滑在圖像處理中實(shí)質(zhì)是一幅文字圖像通過(guò)一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用WXW(一般采用3x3)的輔助矩陣對(duì)二值文字圖像進(jìn)行掃描。根據(jù)輔助矩陣中各像素0、1的分布,使處于矩陣中心的被平滑的像素X從“0”變成“1”或者從“1”變成“O”。常用的平滑濾波方法有中值濾波和均值
47、濾波[7]。</p><p><b> ?。?)細(xì)化</b></p><p> 細(xì)化處理是在圖像處理中相當(dāng)重要和關(guān)鍵的一環(huán),它是將二值化文字點(diǎn)陣逐層剝?nèi)ポ喞吘壣系狞c(diǎn),變成筆畫(huà)寬度只有一個(gè)比特的文字骨架圖形。細(xì)化處理的目的是搜索圖像的骨架,去除圖像上多余的像素,從而在不改變圖像主要特征的前提下,減少圖像的信息量。細(xì)化處理結(jié)果的好壞,直接影響到識(shí)別的效果和質(zhì)量。在細(xì)化
48、處理過(guò)程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量;另一方面,去除的像素太多,特別是某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。因此,高質(zhì)量的細(xì)化算法程序?qū)D像識(shí)別有很大的實(shí)用價(jià)值。</p><p> 針對(duì)文字圖像的細(xì)化算法已有很多,它的優(yōu)劣對(duì)系統(tǒng)的識(shí)別效果影響很大。對(duì)細(xì)化的一般要求是保持原有筆畫(huà)的連續(xù)性,不能由于細(xì)化造成筆畫(huà)斷開(kāi);細(xì)化成為單層像素線(xiàn);保持文字原有特征,既不要增加,也不要
49、丟失,保持筆畫(huà)特征,最好細(xì)化掉筆鋒:細(xì)化結(jié)果是原曲線(xiàn)的中心線(xiàn),保留曲線(xiàn)的端點(diǎn),交叉部分中心線(xiàn)不畸變。針對(duì)各種不同的應(yīng)用,國(guó)內(nèi)外已發(fā)表了許多細(xì)化算法,如Hilditch經(jīng)典細(xì)化算法、Deutsch算法等。然而,細(xì)化過(guò)程本身固有的弱點(diǎn)總是造成筆畫(huà)骨架線(xiàn)的畸變,增加對(duì)識(shí)別的干擾,主要的畸變包括:交叉筆畫(huà)畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫(huà)、失去短筆畫(huà)和筆畫(huà)合并等??梢哉f(shuō),這些問(wèn)題依賴(lài)細(xì)化算法本身是無(wú)法克服的,需要在后續(xù)的處理中盡量消除這些畸變的干擾。&l
50、t;/p><p> 3.2 漢字特征提取</p><p> 預(yù)處理的最終目的是為了更加方便、準(zhǔn)確地進(jìn)行漢字的特征提取,從而提高漢字識(shí)別率。對(duì)于漢字,其特征大致分為兩類(lèi),包括結(jié)構(gòu)特征和統(tǒng)計(jì)特征,至今總數(shù)己經(jīng)不下百種。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強(qiáng)的自動(dòng)糾錯(cuò)能力,但在另外一些情況下卻完全失去了效用[8]。例如,漢字特征點(diǎn)特征算法本身是一種比較簡(jiǎn)單、完善的特征提取
51、算法。在漢字圖像滿(mǎn)足清晰、無(wú)筆畫(huà)連聯(lián)、無(wú)斷筆等細(xì)化要求時(shí),是能夠完全將漢字的各種特征點(diǎn)位置提取處理的;若漢字圖像本身模糊不清,預(yù)處理工作也無(wú)法達(dá)到要求,這樣再好的漢字特征點(diǎn)特征提取算法也無(wú)法提取正確的漢字特征點(diǎn)特征,已經(jīng)獲得的特征點(diǎn)特征一旦應(yīng)用到漢字識(shí)別系統(tǒng)中去,將會(huì)極大地影響整個(gè)系統(tǒng)的實(shí)用性。針對(duì)不同的系統(tǒng)需求,應(yīng)該選擇不同的漢字特征,進(jìn)行優(yōu)化特征組合,這樣才能達(dá)到系統(tǒng)最佳識(shí)別效果。所以選擇哪種特征,如何組合特征將是漢字特征提取這一部
52、分的重點(diǎn)研究領(lǐng)域。但不得不提到的是,任何一個(gè)實(shí)用的。識(shí)別系統(tǒng)只利用其中部分子空間的信息。由于信息的缺陷,便不可避免地遇到識(shí)別“死角”的問(wèn)題。如下介紹并分析一下常用的一些的可供提取的漢字特征。</p><p><b> ?。?)結(jié)構(gòu)特征</b></p><p><b> ① 抽取筆畫(huà)法</b></p><p> 抽取筆畫(huà)
53、法是利用漢字由筆畫(huà)所構(gòu)成的特點(diǎn)進(jìn)行識(shí)別,它利用漢字的結(jié)構(gòu)信息來(lái)進(jìn)行漢字的聯(lián)機(jī)識(shí)別,在印刷體和脫機(jī)印刷體識(shí)別中,由于筆畫(huà)提取的困難,結(jié)果不是很理想。</p><p><b> ?、?松弛匹配法</b></p><p> 松弛匹配法是一種基于全局特征的匹配方法,它對(duì)輸入漢字作多邊近似,抽取邊界線(xiàn)段,將這些邊界線(xiàn)段組成臨近線(xiàn)段表,然后用松弛匹配操作,完成邊與邊的匹配。這種
54、方法利用彈性吸收漢字的變形,一個(gè)字只用一個(gè)樣本。其缺點(diǎn)是操作速度較慢,計(jì)算量大。</p><p><b> ?、鄯蔷€(xiàn)性匹配法</b></p><p> 非線(xiàn)性匹配法是由Tsukumo等提出的,用以解決字形的位移、筆畫(huà)的變形等現(xiàn)象。此方法試圖克服從圖形中正確抽取筆畫(huà)的困難,以提高正確判別的能力。</p><p><b> ?。?)統(tǒng)計(jì)
55、特征</b></p><p><b> ① 特征點(diǎn)法</b></p><p> 特征點(diǎn)提取算法的主要思想是利用字符點(diǎn)陣中一些有代表性的黑點(diǎn)(筆畫(huà))、白點(diǎn)(背景)作為特征來(lái)區(qū)分不同的字符。特征點(diǎn)包括筆畫(huà)骨架線(xiàn)的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn),漢字的背景也含有一定的區(qū)別于其它漢字的信息,選擇若干背景點(diǎn)作為特征點(diǎn),有利于提高系統(tǒng)的抗干擾能力。其特點(diǎn)是能夠大大壓縮特征
56、庫(kù)的容量,對(duì)于內(nèi)部筆畫(huà)粘連字符,其識(shí)別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類(lèi)的特征。</p><p><b> ?、?筆段特征法</b></p><p> 漢字是由筆畫(huà)組成的,而筆畫(huà)又由筆段組成,筆段可近似為一定方向、長(zhǎng)度和寬度的矩形段。利用筆段與筆段之間的關(guān)系組成特征對(duì)漢字進(jìn)行識(shí)別,受字體和字號(hào)的影響小,對(duì)于多體漢字的識(shí)別獲得了
57、良好效果。其缺點(diǎn)是筆段的提取會(huì)較為困難,匹配的難度大,抗內(nèi)部筆畫(huà)斷裂或者粘連能力差。當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。選擇什么樣的特征使得此單分類(lèi)環(huán)節(jié)的識(shí)別效果達(dá)到最佳,選擇哪些特征來(lái)優(yōu)化組合來(lái)達(dá)到整個(gè)系統(tǒng)的識(shí)別效果達(dá)到最佳,這也是設(shè)計(jì)者需要考慮的因素。</p><p> ?、鬯倪叴a(Four-side Code)</p><p> 四邊碼是在漢字點(diǎn)陣圖的四周
58、各取一條帶,計(jì)算其中的文字圖像素點(diǎn)數(shù),并將它分成四級(jí),構(gòu)成一個(gè)四元組。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息,而且邊框部分筆畫(huà)一般較少,不易粘連,抗干擾能力強(qiáng),但對(duì)漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫(huà)復(fù)雜性指數(shù)正好形成互補(bǔ)。</p><p> 當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。選擇什么樣的特征使得此單分類(lèi)環(huán)節(jié)的識(shí)別效果達(dá)到最佳,選擇哪些特征來(lái)優(yōu)化組合來(lái)達(dá)到整個(gè)系統(tǒng)的識(shí)別效果達(dá)到最佳,這都需要
59、通過(guò)具體的實(shí)驗(yàn)來(lái)驗(yàn)證。但不管使用什么樣的特征,漢字特征的提取都要遵循區(qū)別性、可靠性、獨(dú)立性和特征數(shù)量這四個(gè)標(biāo)準(zhǔn)[9]。</p><p> 而本文為實(shí)現(xiàn)特征提取,我們將著重于對(duì)漢字的橫豎撇捺四種特征的提取(漢字本身屬性決定),一般而言,特征提取的常用方法有逐象素特征提取法,垂直方向數(shù)據(jù)統(tǒng)計(jì)特征提取法,13特征點(diǎn)提取方法等,本設(shè)計(jì)中將引入13點(diǎn)特征提取法。</p><p> 3.3 漢字識(shí)
60、別算法分類(lèi) </p><p> 識(shí)別算法是整個(gè)識(shí)別過(guò)程的核心部分。原始圖像經(jīng)過(guò)預(yù)處理后,得到一個(gè)較為理想的二值圖像,然后就可以對(duì)這個(gè)處理后的二值圖像進(jìn)行識(shí)別。識(shí)別的過(guò)程包括根據(jù)識(shí)別算法選擇和提取漢字的特征、與標(biāo)準(zhǔn)文字的特征進(jìn)行匹配判別。</p><p> 漢字的分類(lèi)識(shí)別方法也是漢字識(shí)別系統(tǒng)的重要環(huán)節(jié)之一。諸多分類(lèi)方法各自有其優(yōu)缺點(diǎn)。</p><p><b&
61、gt; ?。?)相關(guān)匹配</b></p><p> 這是一種統(tǒng)計(jì)識(shí)別方法,它通過(guò)在特征空間中計(jì)算輸入特征向量與各模板向量之間的距離進(jìn)行分類(lèi)判決。相關(guān)匹配是一種統(tǒng)計(jì)識(shí)別方法。統(tǒng)計(jì)方法的優(yōu)點(diǎn)是特征提取和模板的建立都比較容易,抗干擾能力強(qiáng),使局部噪聲不敏感:缺點(diǎn)是分辨相似字的能力較弱,對(duì)書(shū)寫(xiě)風(fēng)格的變化比較敏感。</p><p><b> ?。?)文法分析</b>
62、;</p><p> 文法分析的基本思想是將輸入的漢字看作是一個(gè)語(yǔ)句或符號(hào)串,將識(shí)別問(wèn)題轉(zhuǎn)化為判斷輸入的語(yǔ)句是否屬于某種語(yǔ)言,即句子是否符合某種語(yǔ)言的語(yǔ)法約束條件,這種方法在漢字識(shí)別中也得到了應(yīng)用。</p><p> 文法分析是典型的結(jié)構(gòu)識(shí)別方法,由于其側(cè)重點(diǎn)是在筆段形狀、位置以及筆段之間相互關(guān)系的分析上,所以它的優(yōu)點(diǎn)是分辨相似字的能力較強(qiáng),對(duì)書(shū)寫(xiě)風(fēng)格的變化不敏感:缺點(diǎn)是對(duì)局部噪聲敏感
63、,特征提取比較復(fù)雜。</p><p><b> (3)松弛匹配</b></p><p> 無(wú)論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對(duì)應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對(duì)應(yīng)關(guān)系,此時(shí)可以采用松弛匹配法。</p><p> 松弛匹配法首先通過(guò)迭代運(yùn)算,找出輸入向量與模板向量各分量
64、間的對(duì)應(yīng)關(guān)系,然后再根據(jù)這一對(duì)應(yīng)關(guān)系進(jìn)行匹配。迭代開(kāi)始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。矩陣中各元素的值為相應(yīng)分量之間的初始匹配概率,然后通過(guò)迭代運(yùn)算對(duì)各個(gè)權(quán)值進(jìn)行修正,并將其中趨近于零的值置為零,直至權(quán)值的變化趨于穩(wěn)定,此時(shí),可以認(rèn)為權(quán)值矩陣中非零元素所對(duì)應(yīng)的分量之間只有對(duì)應(yīng)關(guān)系,然后根據(jù)這一對(duì)應(yīng)關(guān)系計(jì)算輸入量與該模板問(wèn)的距離,重復(fù)上述過(guò)程。求出輸入量與每個(gè)模板間的距離,取其中距離最小的模板
65、所代表的類(lèi)別為識(shí)別結(jié)果。</p><p> 松弛匹配法兼具統(tǒng)計(jì)方法和結(jié)構(gòu)方法的特長(zhǎng)。由于它是根據(jù)總體的匹配程度來(lái)決定識(shí)別結(jié)果的,所以這一點(diǎn)它類(lèi)似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu)方法。因此松弛匹配法在漢字識(shí)別中取得了很好的效果,它不僅可以用于特征點(diǎn)的匹配,而且還可以用于筆段、筆畫(huà)和部件的匹配。其主要缺點(diǎn)是運(yùn)算量較大,識(shí)別中往往需要增加預(yù)分類(lèi)環(huán)節(jié)以減小運(yùn)算量。另外,它
66、吸收畸變的能力仍有不足。</p><p><b> ?。?)人工神經(jīng)網(wǎng)絡(luò)</b></p><p> 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來(lái),為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡(luò)理論的應(yīng)用己經(jīng)滲透到各個(gè)領(lǐng)域,并在模式識(shí)別、智能控制、計(jì)算機(jī)視覺(jué)、自適應(yīng)濾波和信號(hào)處理、非線(xiàn)性?xún)?yōu)化、自動(dòng)目標(biāo)識(shí)別,連續(xù)語(yǔ)
67、音識(shí)別、聲納信號(hào)的處理、知識(shí)處理、傳感技術(shù)與機(jī)器人、生物等領(lǐng)域都得到了日益廣泛地應(yīng)用。</p><p><b> 3.4 后處理</b></p><p> 后處理就是利用相關(guān)算法對(duì)識(shí)別后的漢字文本或者初級(jí)識(shí)別結(jié)果做進(jìn)一步的處理,糾正誤識(shí)的漢字,給出拒識(shí)的漢字,確定模棱兩可的漢字。漢字識(shí)別的后處理方法從用戶(hù)的參與程度來(lái)說(shuō),可分為三類(lèi):手工處理,交互式處理和計(jì)算機(jī)自動(dòng)
68、處理。一般而言,后處理可以在相關(guān)編程過(guò)程中由計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)[6]。</p><p> 以下對(duì)各種常用的后處理方法做簡(jiǎn)單的介紹。</p><p><b> (1)簡(jiǎn)單的詞匹配</b></p><p> 簡(jiǎn)單的詞匹配就是利用文本中字的上下文匹配關(guān)系和詞的使用頻度,給識(shí)別后文本中的拒識(shí)字提供一個(gè)“最佳”的候選字,其關(guān)鍵是建立漢語(yǔ)詞條數(shù)據(jù)庫(kù)。該數(shù)
69、據(jù)庫(kù)應(yīng)具印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究有完善的詞條存儲(chǔ)、維修功能,應(yīng)該能夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣才能方便漢字后處理程序的使用。</p><p><b> ?。?)綜合詞匹配</b></p><p> 綜合詞匹配方法,就是綜合利用初級(jí)識(shí)別結(jié)果和字的上下文關(guān)系及詞的使用頻度,來(lái)決定最后的識(shí)別結(jié)果。這種方法實(shí)際上己把識(shí)別過(guò)
70、程和后處理過(guò)程融為一體了。</p><p> 綜合利用初級(jí)識(shí)別結(jié)果與詞條信息的糾錯(cuò)優(yōu)于單純利用詞條的糾錯(cuò)。綜合詞匹配法可以減少搜索詞條關(guān)系時(shí)的搜索空間,從而提高糾錯(cuò)速度。這是因?yàn)樵趯ふ易值纳舷挛钠ヅ潢P(guān)系時(shí),利用初級(jí)識(shí)別結(jié)果的待選集,可以大大縮小搜索范圍,避免了在整個(gè)詞條庫(kù)中查詢(xún)。在不利用待選集時(shí),對(duì)于有可能識(shí)別出錯(cuò)的地方,只能采用拒識(shí),而拒識(shí)不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時(shí)的
71、搜索空間只能是整個(gè)詞條庫(kù)。另外,當(dāng)某一個(gè)詞前后兩個(gè)字都被拒識(shí)時(shí),簡(jiǎn)單的詞匹配法就無(wú)能為力,而綜合詞匹配法仍能利用詞條信息進(jìn)行糾錯(cuò)。</p><p><b> ?。?)詞法分析</b></p><p> 語(yǔ)言是語(yǔ)音和意義的結(jié)合體。語(yǔ)素是最小的語(yǔ)言單位。無(wú)論是詞還是短語(yǔ),都有其構(gòu)成規(guī)則,利用這些規(guī)則,將它們分類(lèi)。另外,不同的應(yīng)用背景,也有不同的分類(lèi)結(jié)果。</p&g
72、t;<p> 漢字識(shí)別后處理的詞法分析方法,就是在詞匹配的基礎(chǔ)上,對(duì)仍難以確定的漢字,找出這些漢字與前后漢字所能組成的詞,然后通過(guò)詞法分析,確定一個(gè)能和該詞的前后詞組成“最佳”匹配的詞,從而確定要識(shí)別的漢字?;谠~法分析的漢字識(shí)別后處理的關(guān)鍵是構(gòu)造一個(gè)完善的詞條數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中的每一個(gè)詞條項(xiàng)都要包括本詞條的詞性、詞頻、連接屬性、語(yǔ)義信息等。</p><p> (4)句法、語(yǔ)義分析</p&
73、gt;<p> 語(yǔ)句無(wú)論是從結(jié)構(gòu)上,還是從意思上都有一種人類(lèi)共同理解、共同接受和共同遵守的語(yǔ)言組合法則。所以利用語(yǔ)義句法的方法,在初級(jí)識(shí)別結(jié)果的基礎(chǔ)上,在利用詞法分析進(jìn)行匹配之后或匹配的同時(shí),再進(jìn)行句法分析和語(yǔ)義分析,從而確定要識(shí)別的漢字。</p><p> 進(jìn)行語(yǔ)義句法分析也要首先建立詞條庫(kù)。這時(shí)詞條庫(kù)中的每一個(gè)詞條項(xiàng),還要包括該詞的句法信息和語(yǔ)義信息。另外,還要建立起一套句法規(guī)則和語(yǔ)義規(guī)則,
74、以便指導(dǎo)語(yǔ)法分析和語(yǔ)義分析。</p><p> ?。?)人工神經(jīng)元網(wǎng)絡(luò)</p><p> 利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識(shí)別后處理可以采取兩種方式。一種是把識(shí)別過(guò)程和后處理過(guò)程分開(kāi),網(wǎng)絡(luò)的輸入是初級(jí)識(shí)別結(jié)果的短語(yǔ)或者句子,其中包含不確定的漢字(或拒識(shí)的漢字),通過(guò)網(wǎng)絡(luò)的運(yùn)行,最終確定這些字。另一種方法是把識(shí)別過(guò)程和后處理過(guò)程綜合在一起,初級(jí)識(shí)別給出的結(jié)果是每一個(gè)待識(shí)漢字的前幾個(gè)候選字和每一候選
75、字與待識(shí)字之間的相似度。然后,把這些候選字以及與之相連的相似度輸入網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)的并行作用,找到最符合漢語(yǔ)語(yǔ)法和語(yǔ)義組合關(guān)系的詞或句子,從而確定出要識(shí)別的漢字。</p><p> 3.5 印刷體漢字識(shí)別方法分析</p><p> 3.5.1 結(jié)構(gòu)模式識(shí)別方法 </p><p> 漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律。從筆畫(huà)上講,漢字
76、有包括橫、豎、撇、捺、點(diǎn)、折、勾等七種基本筆畫(huà),還有提挑、撇點(diǎn)、橫捺等七種變形筆畫(huà)。從部件上講,部件是有特殊的筆畫(huà)組合而成,故部件也是一定的。換而言之,漢字圖形具有豐富的有規(guī)律可循的結(jié)構(gòu)信息,可以設(shè)法提取含有這些信息的結(jié)構(gòu)特征和組字規(guī)律,將它們作為漢字識(shí)別的依據(jù)。這就是結(jié)構(gòu)模式識(shí)別。</p><p> 結(jié)構(gòu)模式識(shí)別理論在20 世紀(jì)70 年代初形成,是早期漢字識(shí)別研究的主要方法。其思想是直接從字符的輪廓或骨架上提
77、取的字符像素分布特征,如筆畫(huà)、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、凹陷等多個(gè)基元組合,再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。通常抽取筆段或基本筆畫(huà)作為基元,由這些基元組合及其相互關(guān)系完全可以精確地對(duì)漢字加以描述,最后利用形式語(yǔ)言及自動(dòng)機(jī)理論進(jìn)行文法推斷,即識(shí)別。結(jié)構(gòu)模式識(shí)別方法的主要優(yōu)點(diǎn)在于對(duì)字體變化的適應(yīng)性強(qiáng),區(qū)分相似字能力強(qiáng);缺點(diǎn)是抗干擾能力差,從漢字圖像中精確的抽取基元、輪廓、特征點(diǎn)比較困難,匹配過(guò)程復(fù)雜。因此,有人采用漢字輪廓結(jié)構(gòu)信
78、息作為特征,但這一方案需要進(jìn)行松弛迭代匹配,耗時(shí)太長(zhǎng),而且對(duì)于筆畫(huà)較模糊的漢字圖像,抽取輪廓會(huì)遇到極大困難。也有些學(xué)者采用抽取漢字圖像中關(guān)鍵特征點(diǎn)來(lái)描述漢字,但是特征點(diǎn)的抽取易受噪聲點(diǎn)、筆畫(huà)的粘連與斷裂等影響??傊畣渭儾捎媒Y(jié)構(gòu)模式識(shí)別方法的脫機(jī)手寫(xiě)漢字識(shí)別系統(tǒng),識(shí)別率較低。</p><p> 3.5.2 統(tǒng)計(jì)模式識(shí)別方法 </p><p> 統(tǒng)計(jì)決策論發(fā)展較早,理論也較成熟。其要點(diǎn)是提
79、取待識(shí)別模式的的一組統(tǒng)計(jì)特征,然后按照一定準(zhǔn)則所確定的決策函數(shù)進(jìn)行分類(lèi)判決。漢字的統(tǒng)計(jì)模式識(shí)別是將字符點(diǎn)陣看作一個(gè)整體,其所用的特征是從這個(gè)整體上經(jīng)過(guò)大量的統(tǒng)計(jì)而得到的。統(tǒng)計(jì)特征的特點(diǎn)是抗干擾性強(qiáng),匹配與分類(lèi)的算法簡(jiǎn)單,易于實(shí)現(xiàn)。不足之處在于細(xì)分能力較弱,區(qū)分相似字的能力差一些。常用的漢字統(tǒng)計(jì)模式識(shí)別方法包括[10]:</p><p><b> ?。?)模板匹配</b></p>
80、<p> 模板匹配是將漢字的圖像直接作為特征,將之與特征庫(kù)中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。這種需要將左右漢字圖像的像素點(diǎn)陣均存儲(chǔ)起來(lái),既占用大量的內(nèi)存空間,特別是對(duì)嵌入式系統(tǒng)來(lái)說(shuō)是不可容忍的,也將在尋找最相似漢字過(guò)程中耗費(fèi)大量的時(shí)間,這對(duì)實(shí)時(shí)系統(tǒng)也是致命的。另外,其對(duì)于傾斜、筆畫(huà)變粗變細(xì)均無(wú)良好的適應(yīng)能力。</p><p> ?。?)利用變換特征的方法</p>&l
81、t;p> 該方法利用各種函數(shù)變換,例如K-L變換、Fourier變換和Gabor變換等對(duì)漢字圖像特征進(jìn)行變換。但這些變換如果沒(méi)有合適的處理,都多少存在缺陷。有的抗噪性能差,有的代碼復(fù)雜度高。</p><p><b> ?。?)筆畫(huà)方向特征</b></p><p> 筆畫(huà)方向的統(tǒng)計(jì)特征總共有3種:全局筆畫(huà)方向密度G-DCD,局部筆畫(huà)方向密度L-DCD和周邊筆畫(huà)
82、方向PDC。前兩者用于預(yù)分類(lèi),后者用于單字識(shí)別。這些特征都是以筆畫(huà)方向貢獻(xiàn)(Direction Contribution)為基礎(chǔ)。</p><p><b> ?。?)外圍特征</b></p><p> 漢字的外圍特征是由漢字輪廓信息獲得的。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫(huà)粘連的情況,也能提取較為完全的輪廓信息。</p><p>
83、<b> ?。?)特征點(diǎn)特征</b></p><p> 漢字信息的絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點(diǎn)上。一旦確定這些筆畫(huà)特征點(diǎn),漢字筆畫(huà)以及結(jié)構(gòu)形狀就可以確定。它們包括端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)等。漢字特征點(diǎn)的提取一般是基于漢字細(xì)化后的單像素圖像,而往往細(xì)化算法不能達(dá)到算法的要求,經(jīng)常有斷筆、非單層像素等情況,一點(diǎn)點(diǎn)變形或噪聲都會(huì)影響漢字特征點(diǎn)的提取。也就是它的魯棒
84、性一般不好。</p><p> 當(dāng)然還有許多種不同的統(tǒng)計(jì)特征,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這里就不一一介紹了。隨著漢字識(shí)別技術(shù)的發(fā)展,已經(jīng)有越來(lái)越多的統(tǒng)計(jì)特征</p><p> 出現(xiàn)。但幾乎每種特征都不是完美的,都要在特殊條件下施加一些特殊的處理。</p><p> 如表3-1所示為統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較:</p>&l
85、t;p> 表3-1 統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較</p><p> 由上述分析可見(jiàn),統(tǒng)計(jì)與結(jié)構(gòu)方法各有優(yōu)缺點(diǎn)。統(tǒng)計(jì)方法具有良好的魯棒性,較好的抗干擾抗噪聲的能力,它一般按一定的距離度量匹配準(zhǔn)則,采用多維特征值累加的辦法,把局部噪聲和微小畸變淹沒(méi)在最后的累加和里,但是,可以用來(lái)區(qū)分“敏感部位”的差異也隨之消失,因此對(duì)漢字結(jié)構(gòu)的差異區(qū)分能力較弱,區(qū)分相似字的能力較差;而結(jié)構(gòu)方法對(duì)結(jié)構(gòu)特征較敏感,區(qū)分相似字的能
86、力較強(qiáng),但是結(jié)構(gòu)特征難以抽取,不穩(wěn)定。因此,現(xiàn)在人們已注意到將兩種方法結(jié)合起來(lái)使用,加強(qiáng)識(shí)別技術(shù)的穩(wěn)定性與泛化能力使之可處理更多類(lèi)型、更加復(fù)雜的模式。這是近年來(lái)文字識(shí)別領(lǐng)域的一個(gè)重要研究方向,并將得到廣泛應(yīng)用。</p><p> 3.5.3人工神經(jīng)網(wǎng)絡(luò)</p><p> 人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,以下稱(chēng)ANN)是一種模擬人腦神經(jīng)元細(xì)胞的網(wǎng)絡(luò)結(jié)構(gòu),
87、它是由大量簡(jiǎn)單的基本元件—神經(jīng)元,相互連接成的自適應(yīng)非線(xiàn)性動(dòng)態(tài)系統(tǒng)[11]。雖然目前對(duì)于人腦神經(jīng)元的研究還不算完善,我們無(wú)法確定ANN的工作方式是否與人腦神經(jīng)元的運(yùn)作方式相同,但是ANN正在吸引著越來(lái)越多的注意力。</p><p> ANN中的各個(gè)神經(jīng)元的結(jié)構(gòu)與功能較為簡(jiǎn)單,但大量的簡(jiǎn)單神經(jīng)元的組合卻可以非常復(fù)雜,我們從而可以通過(guò)調(diào)整神經(jīng)元間的連接系數(shù)完成分類(lèi)、識(shí)別等復(fù)雜的功能。ANN還具有一定的自適應(yīng)的學(xué)習(xí)與
88、組織能力,組成網(wǎng)絡(luò)的各個(gè)“細(xì)胞”可以并行工作,并可以通過(guò)調(diào)整“細(xì)胞”間的連接系數(shù)完成分類(lèi)、識(shí)別等復(fù)雜的功能。</p><p> ANN可以作為單純的分類(lèi)器(不包含特征提取、選擇),也可以用作功能完善的分類(lèi)器。在英文字母與數(shù)字的識(shí)別等類(lèi)別數(shù)目較少的分類(lèi)問(wèn)題中,常常將字符的圖像點(diǎn)陣直接作為神經(jīng)網(wǎng)絡(luò)的輸入。不同于傳統(tǒng)的模式識(shí)別方法,在這種情況下,神經(jīng)網(wǎng)絡(luò)所“提取”的特征并無(wú)明顯的物理含義,而是儲(chǔ)存在神經(jīng)物理中各個(gè)神經(jīng)
89、元的連接之中,省去了由人來(lái)決定特征提取的方法與實(shí)現(xiàn)過(guò)程。從這個(gè)意義上來(lái)說(shuō),ANN提供了一種“字符自動(dòng)識(shí)別”的可能性。此外,ANN分類(lèi)器是一種非線(xiàn)性的分類(lèi)器,它可以提供我們很難想象到的復(fù)雜的類(lèi)間分界面,這也為復(fù)雜分類(lèi)問(wèn)題的解決提供了一種可能的解決方式。</p><p> 目前,在對(duì)于像漢字識(shí)別這樣超多類(lèi)的分類(lèi)問(wèn)題,ANN的規(guī)模會(huì)很大,結(jié)構(gòu)也很復(fù)雜,實(shí)用性較差。另外,這種方法所需要的訓(xùn)練樣本規(guī)模比較大,訓(xùn)練過(guò)程也比
90、較長(zhǎng)。對(duì)于與樣本相差較大的模式的識(shí)別能力也比較差。這其中的原因很多,主要的原因還在于我們對(duì)人腦的工作方式以及ANN本身的許多問(wèn)題還沒(méi)有找到完美的答案。</p><p> 人工神經(jīng)網(wǎng)絡(luò)模式識(shí)別與傳統(tǒng)的統(tǒng)計(jì)模式識(shí)別開(kāi)始是兩個(gè)獨(dú)立發(fā)展的分支,但隨著研究的深入,人們發(fā)現(xiàn)二者之間存在緊密的聯(lián)系。在一些情況下,統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法是可互相替代的,實(shí)際上神經(jīng)網(wǎng)絡(luò)的方法有時(shí)被認(rèn)為是統(tǒng)計(jì)方法的子集。例如,對(duì)于統(tǒng)計(jì)模式識(shí)別方法,
91、如分段線(xiàn)性判決函數(shù)法,F(xiàn)isher線(xiàn)性判決規(guī)則,多變量高斯線(xiàn)性分類(lèi)器,主成分分析PCA(Primary Component Analysis)等,都可用神經(jīng)網(wǎng)絡(luò)的并行計(jì)算結(jié)構(gòu)或迭代計(jì)算結(jié)構(gòu)實(shí)現(xiàn):而一些重要的神經(jīng)網(wǎng)絡(luò)模型,其學(xué)習(xí)算法與統(tǒng)計(jì)方法是相通的,如在一定條件下,MLP和RBF分類(lèi)器的對(duì)于訓(xùn)練樣本的輸出就是該樣本的后驗(yàn)概率的估計(jì),這等價(jià)于Bayes方法。因此,我們至少可以說(shuō),現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法有許多地方與統(tǒng)計(jì)方法在數(shù)學(xué)原理上是相通的。
92、但是,神經(jīng)網(wǎng)絡(luò)確實(shí)有優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法的地方,這表現(xiàn)為[11]:</p><p> ?。?)神經(jīng)網(wǎng)絡(luò)的計(jì)算結(jié)構(gòu)是并行的,而且常常是通過(guò)大量簡(jiǎn)單單元的協(xié)同運(yùn)算完成諸如求矩陣特征值這樣復(fù)雜的計(jì)算任務(wù),這一點(diǎn)在PCA網(wǎng)絡(luò)中得以充分體現(xiàn)。</p><p> ?。?)神經(jīng)網(wǎng)絡(luò)不但能在模式空間中形成復(fù)雜的判決表面,而且還具備自適應(yīng)的能力,即網(wǎng)絡(luò)不但具備自適應(yīng)的學(xué)習(xí)能力,還能自適應(yīng)地調(diào)整網(wǎng)絡(luò)規(guī)模的大小,適
93、合大類(lèi)別集的識(shí)別工作。</p><p> ?。?)一般的神經(jīng)網(wǎng)絡(luò)兼有模式變換和模式特征提取的作用,如前饋網(wǎng)絡(luò)的隱層就有非線(xiàn)性映射的功能,這一特點(diǎn)也被利用來(lái)與其他方法結(jié)合來(lái)確定一些重要的參數(shù)。</p><p> ?。?)神經(jīng)網(wǎng)絡(luò)由于其信息的分布式的存儲(chǔ)方式使它具備一定的容錯(cuò)能力,因此神經(jīng)網(wǎng)絡(luò)分類(lèi)器對(duì)于輸人模式信息的缺損不是非常敏感,適合質(zhì)量較差圖像的識(shí)別。</p><p&
94、gt; 由于上述優(yōu)點(diǎn),神經(jīng)網(wǎng)絡(luò)的識(shí)別方法正在越來(lái)越多地得到關(guān)注,也因而成為近來(lái)的研究熱點(diǎn)。但是,神經(jīng)網(wǎng)絡(luò)方法還需要在以下幾方面進(jìn)行深人研究:網(wǎng)絡(luò)的模型,以保證網(wǎng)絡(luò)的快速收斂;訓(xùn)練樣本集的選擇,全面的學(xué)習(xí)樣本是高識(shí)別率的保證,合理的樣本數(shù)量可避免網(wǎng)絡(luò)的過(guò)訓(xùn)練,訓(xùn)練樣本特征的選取,保證良好的識(shí)別穩(wěn)定性。</p><p> 3.5.4 BP神經(jīng)網(wǎng)絡(luò)</p><p> BP(Back Pro
95、pagation)神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入- 輸出模式映射關(guān)系,而無(wú)需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過(guò)反向傳播來(lái)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小[12]。BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層(input)、隱層(hide
96、layer)和輸出層(output layer)。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖(圖3.5.2):</p><p> 圖3.5.2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)</p><p> 在人工神經(jīng)網(wǎng)絡(luò)發(fā)展歷史中,很長(zhǎng)一段時(shí)間里沒(méi)有找到隱層的連接權(quán)值調(diào)整問(wèn)題的有效算法。直到誤差反向傳播算法(BP算法)的提出,成功地解決了求解非線(xiàn)性連續(xù)函數(shù)的多層前饋神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)整問(wèn)題。 </p><p>
97、BP (Back Propagation)神經(jīng)網(wǎng)絡(luò),即誤差反傳誤差反向傳播算法的學(xué)習(xí)過(guò)程,由信息的正向傳播和誤差的反向傳播兩個(gè)過(guò)程組成。輸入層各神經(jīng)元負(fù)責(zé)接收來(lái)自外界的輸入信息,并傳遞給中間層各神經(jīng)元;中間層是內(nèi)部信息處理層,負(fù)責(zé)信息變換,根據(jù)信息變化能力的需求,中間層可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個(gè)隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進(jìn)一步處理后,完成一次學(xué)習(xí)的正向傳播處理過(guò)程,由輸出層向外界輸出信息處理結(jié)果。當(dāng)實(shí)際輸出與期望輸
98、出不符時(shí),進(jìn)入誤差的反向傳播階段。誤差通過(guò)輸出層,按誤差梯度下降的方式修正各層權(quán)值,向隱層、輸入層逐層反傳。周而復(fù)始的信息正向傳播和誤差反向傳播過(guò)程,是各層權(quán)值不斷調(diào)整的過(guò)程,也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過(guò)程,此過(guò)程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。 </p><p> BP神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)模型包括其輸入輸出模型、作用函數(shù)模型、誤差計(jì)算模型和自學(xué)習(xí)模型。</p>
99、<p> ?。?)節(jié)點(diǎn)輸出模型 </p><p> 隱節(jié)點(diǎn)輸出模型: (3-3) </p><p> 輸出節(jié)點(diǎn)輸出模型: (3-4) </p><p> f-非線(xiàn)形
100、作用函數(shù);q -神經(jīng)單元閾值。</p><p><b> ?。?)作用函數(shù)模型</b></p><p> 作用函數(shù)是反映下層輸入對(duì)上層節(jié)點(diǎn)刺激脈沖強(qiáng)度的函數(shù)又稱(chēng)刺激函數(shù),一般取為(0,1)內(nèi)連續(xù)取值Sigmoid函數(shù):</p><p><b> ?。?-5)</b></p><p><b&g
101、t; ?。?)誤差計(jì)算模型</b></p><p> 誤差計(jì)算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計(jì)算輸出之間誤差大小的函數(shù):</p><p> ?。?-6) </p><p> tpi-i節(jié)點(diǎn)的期望輸出值;Opi-i節(jié)點(diǎn)計(jì)算輸出值。</p><p><b> (4)
102、自學(xué)習(xí)模型</b></p><p> 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程,即連接下層節(jié)點(diǎn)和上層節(jié)點(diǎn)之間的權(quán)重拒陣Wij的設(shè)定和誤差修正過(guò)程。BP網(wǎng)絡(luò)有師學(xué)習(xí)方式-需要設(shè)定期望值和無(wú)師學(xué)習(xí)方式-只需輸入模式之分。自學(xué)習(xí)模型為:</p><p><b> ?。?-7) </b></p><p> h-學(xué)習(xí)因子;-輸出節(jié)點(diǎn)i的計(jì)算誤差;Oj-輸出節(jié)點(diǎn)
103、j的計(jì)算輸出;a-動(dòng)量因子。</p><p> 3.5.5支持向量機(jī)</p><p> 支持向量機(jī)是Vapnik 等人根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的機(jī)器學(xué)習(xí)方法,已經(jīng)在模式識(shí)別、回歸分析和特征選擇等方面得到了較好的效果。支持向量機(jī)可以看作一種新的訓(xùn)練多項(xiàng)式、徑向基機(jī)分類(lèi)器或神經(jīng)網(wǎng)絡(luò)分類(lèi)器的方法。其分類(lèi)原理是通過(guò)某種事先選擇的非線(xiàn)性映射將輸入向量映射到高維特征空間,然后在這個(gè)高維空間構(gòu)造
104、最優(yōu)超平面,使兩類(lèi)之間的間隔最大,同時(shí)保證訓(xùn)練樣本的分類(lèi)誤差盡可能小。</p><p> 支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法相比,支持向量機(jī)具有以下特點(diǎn): </p><p> (1)支持向量機(jī)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,保證學(xué)習(xí)機(jī)器具有良好的泛化能力; </p><p> ?。?)解決了算法復(fù)雜度與輸入向量密切相關(guān)的問(wèn)題; </p><p>
105、?。?)通過(guò)引用核函數(shù),將輸入空間中的非線(xiàn)性問(wèn)題映射到高維特征空間中在高維空間中構(gòu)造線(xiàn)性函數(shù)判別; </p><p> ?。?)支持向量機(jī)是以統(tǒng)計(jì)學(xué)理論為基礎(chǔ)的,與傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)理論不同。它主要是針對(duì)小樣本情況,且最優(yōu)解是基于有限的樣本信息,而不是樣本數(shù)趨于無(wú)窮大時(shí)的最優(yōu)解; </p><p> ?。?)算法可最終轉(zhuǎn)化為凸優(yōu)化問(wèn)題,因而可保證算法的全局最優(yōu)性,避免了神經(jīng)網(wǎng)絡(luò)無(wú)法解決的局部最小
106、問(wèn)題; </p><p> ?。?)支持向量機(jī)有嚴(yán)格的理論和數(shù)學(xué)基礎(chǔ),避免了神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)中的經(jīng)驗(yàn)成分。</p><p><b> 3.6 本章小結(jié)</b></p><p> 本章對(duì)印刷體漢字識(shí)別技術(shù)的理論部分進(jìn)行了較為全面和詳細(xì)的研究,論述了漢字在識(shí)別過(guò)程中各個(gè)組成部分基本的運(yùn)作原理,并對(duì)多種識(shí)別方法進(jìn)行了簡(jiǎn)要的論述及比較。文字的識(shí)別方法主
107、要分為結(jié)構(gòu)模式識(shí)別、統(tǒng)計(jì)模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)三種方法。其中結(jié)構(gòu)模式識(shí)別方法主要是早期文字識(shí)別的主要方法,隨著統(tǒng)計(jì)理論的發(fā)展,統(tǒng)計(jì)模式識(shí)別方法逐漸成為文字識(shí)別主要的研究力法。近年來(lái),人工神經(jīng)網(wǎng)絡(luò)發(fā)展迅猛,它模擬人腦的活動(dòng)方式,更符合人們的思維習(xí)慣。但它的建模比較復(fù)雜,而且運(yùn)算量大。在印刷體漢字識(shí)別中采用有一定的難度,還需進(jìn)一步改進(jìn)和簡(jiǎn)化。</p><p> 4 系統(tǒng)的Matlab仿真</p>&l
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 印刷體漢字快速識(shí)別技術(shù)的研究.pdf
- 印刷體漢字識(shí)別預(yù)處理的研究.pdf
- 畢業(yè)論文----印刷體漢字識(shí)別方法的研究
- 印刷體漢字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 包裝箱表面印刷體漢字識(shí)別算法研究.pdf
- 基于印刷體漢字識(shí)別的快遞郵包分揀系統(tǒng)
- 印刷體中文文檔中表格和漢字的識(shí)別研究.pdf
- 基于印刷體漢字識(shí)別的快遞郵包分揀系統(tǒng).pdf
- 基于小波變換的印刷體漢字字體識(shí)別研究.pdf
- 印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究.pdf
- 印刷體數(shù)字識(shí)別算法研究.pdf
- 印刷體文字識(shí)別的研究.pdf
- 基于DSP的印刷體漢字識(shí)別預(yù)處理算法的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 印刷體數(shù)學(xué)表達(dá)式識(shí)別技術(shù)的研究.pdf
- 印刷體數(shù)學(xué)公式符號(hào)識(shí)別技術(shù)的研究.pdf
- 印刷體化學(xué)表達(dá)式識(shí)別技術(shù)研究.pdf
- 印刷體數(shù)學(xué)公式識(shí)別中符號(hào)識(shí)別技術(shù)的研究.pdf
- 漢字印刷體在現(xiàn)代平面設(shè)計(jì)中的應(yīng)用研究
- 印刷體維吾爾文單詞識(shí)別.pdf
- 印刷體數(shù)學(xué)公式識(shí)別的研究.pdf
評(píng)論
0/150
提交評(píng)論