2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、墓于小波分形特征提取的漢字識別萬法第z頁摘要(P前,脫機手寫漢字的識別率總是不夠理想,其中的問題之一是漢字特征的結(jié)合上鷺取的問題,主要反映在漢字的統(tǒng)計特征與結(jié)構(gòu)特文提出了一種漢字識別技術(shù)中能夠很好的反映統(tǒng)計特征與結(jié)構(gòu)特征的漢字特征提取的新方法。首先在理論上,我們通過對小波技術(shù)與分形技術(shù)的研究發(fā)現(xiàn),分形的自相似性或無標度性可以較好的反映結(jié)構(gòu)的繁雜程度和不規(guī)劃性等統(tǒng)計特性。而小波分析的良好時一頻特性以及多尺度多分辨率特性是研究精細結(jié)構(gòu)的理想

2、工具(又稱為數(shù)字顯微鏡),可以較好的反映結(jié)構(gòu)特征丫因此結(jié)合分形維數(shù)的統(tǒng)計特征和小波變換提取的結(jié)構(gòu)特征,既可以充分發(fā)揮統(tǒng)計特征良好抗干擾、抗噪聲的優(yōu)點,又能發(fā)揮結(jié)構(gòu)特征結(jié)構(gòu)敏感性和區(qū)分相似字能力強的特點,使該方法提取的特征具有良好的統(tǒng)計特征和結(jié)構(gòu)特征的信息。卜才其次我們對上面的理論研究結(jié)果通過實驗加以驗證。乙.我們證明漢字是一種分形,并對漢字的分形性進行了統(tǒng)計分析。我們計算了國標一級字庫共3755個漢字的計盒維數(shù),在計算過程中,發(fā)現(xiàn)幾乎任

3、意一個漢字的logN(S)^log(1S)關(guān)系圖上點都比較明顯地分布在一條直線上。從該實驗結(jié)果可以表明:漢字是具有標度不變性的,也就是說漢字可以看作是一種分形。我們同時對該字庫3755個漢字的計盒維數(shù)進行了統(tǒng)計分析,并得到了如下的結(jié)論:(1)漢字的計盒維數(shù)介于1和2之間,在1.5附近的漢字最多。這個結(jié)果從直觀上來看是合理的,因為漢字比一條直線復雜,所以維數(shù)大于1,但漢字不有歇充滿整個平面,所以維數(shù)小于20(2)漢字的維數(shù)與筆劃的多少很有

4、關(guān)系,漢字的計盒維數(shù)反應(yīng)了漢字筆劃的繁雜程度.筆劃多,維數(shù)就高。但是,維數(shù)不是只單純地取決于筆劃的多少,如漢字“矚”在國標一級字庫中筆劃不是最多,但計算出的維數(shù)卻最大對于“不”和“下”,前者比后者多出一撇,但維數(shù)卻低一點,也許前者正因為多出這一撤,使得結(jié)構(gòu)更對稱一點,不規(guī)則性更小一點,同樣,“干”比基于小波分形特征提取的漢字識別方法第4頁對提取的特征數(shù)據(jù)進行簡單和初步的識別,以驗證該特征的有效性。(2)輸入層神經(jīng)元數(shù)的選取與構(gòu)造我們?nèi)≥?/p>

5、入層神經(jīng)元為4個,分別對應(yīng)小波分解二層提取的低頻特征和高頻(橫、豎、對角線)三個特征與分形特征的組合。小波分解的二層特征是2626的矩陣,加上分形維數(shù),所以對應(yīng)的輸入層每個神經(jīng)元分別具有26261的輸入.(3)隱含層神經(jīng)元數(shù)的選取與構(gòu)造網(wǎng)絡(luò)的隱含層可以認為是通過輸入層與隱含層之間的權(quán)值的“自組織化”對輸入模式進行的特征抽取,并將抽取的特征傳輸給輸出層.關(guān)于隱含層的神經(jīng)元數(shù)的選取尚無理論上的指導,一般地,隱含層的神經(jīng)元數(shù)大,網(wǎng)絡(luò)的冗余性大

6、,增加了網(wǎng)絡(luò)一次訓練的訓練時間,盡管會使網(wǎng)絡(luò)收斂的訓練次數(shù)減少,但會降低分類器的推廣能力。為保證分類器的穩(wěn)定性,網(wǎng)絡(luò)未知的連接權(quán)值的個數(shù)不宜超過訓練樣本值的個數(shù)。通過實驗,我們最終取隱含層神經(jīng)元個數(shù)為4,分別對應(yīng)輸入層的神經(jīng)元。(4)輸出層神經(jīng)元數(shù)的選取與構(gòu)造輸出層神經(jīng)元數(shù)我們?nèi)?個,其輸出值分別為0和1,表示所識別的特征是否是期望的漢字。(5)連接權(quán)值和閥值的初值選取一般認為,連接權(quán)值初值可在區(qū)間卜0.50.5]內(nèi)隨機選取,文獻[2

7、8]認為連接權(quán)值宜在區(qū)間卜55〕內(nèi)隨機選取,經(jīng)實驗測試連接權(quán)值在區(qū)間卜55]內(nèi)隨機選取時,Sigmoid函數(shù)作用明顯。(6)識別與結(jié)果分析由于實驗條件有限,我們使用了國標一級字庫中11個區(qū)共1034個漢字進行了初具規(guī)模的手寫體漢字識別實驗,這11個區(qū)分別是2728303234363840424648。根據(jù)《現(xiàn)代漢語頻率詞典》統(tǒng)計,最常用的1034個漢字使用頻率為91.8%而我們所使用的這11個區(qū)的漢字,客觀上講相似字的數(shù)目比最常用的10

8、34個漢字要多,而且有不少字的筆劃繁多,結(jié)構(gòu)復雜,因此在一定程度上具有一定的典型性和代表性。每個漢字有50個不同的書寫樣本,因此實驗數(shù)據(jù)總共為51700個漢字.其中40套樣本用于訓練,其余的10套樣本用于測試。升,廠一~實驗結(jié)果表明該方法對訓練樣本的識別率可以達到98.71%對測試樣本的識別率可以達到91.37%。所以說該特征提取方法具有一定的可行性好數(shù)據(jù),但最終然識別結(jié)果并不能達到目前其它文獻中的最別結(jié)果并不僅是由提取的特征單獨決定的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論