2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第二章特征選擇方法我們已經(jīng)知道在使用模式識別方法時必須引入各種特征即與分類有關(guān)的各種因素。特征的引入,通常要經(jīng)過一個從少到多,又從多到少的過程。所謂從少到多,就是在設(shè)計識別方案的初期階段應(yīng)該盡量多地列舉出各種可能與分類有關(guān)的特征。這樣可以充分利用各種有用的信息,吸收各方面專家的經(jīng)驗,改善分類效果。這一步驟稱為特征提取或特征抽取。但是,特征的無限增加對于分類也會帶來不利的影響:(1)特征的增加會給計算帶來困難,過多的數(shù)據(jù)要占用大量的存儲空

2、間和計算時間;(2)大量的特征中肯定會包含著許多彼此相關(guān)的因素,從而造成信息的重復(fù)和浪費;(3)特征數(shù)是與樣品點數(shù)有關(guān)的。當(dāng)樣品點數(shù)固定時,特征數(shù)過多,會造成分類效果的惡化。例如,如果把100個樣品點放在三維特征空間中,雖然難免會出現(xiàn)混淆或重復(fù),它們總還可能分別形成一些類;而如果把它們放到1000維的空間中,就極可能出現(xiàn)樣品點十分分散,無法找出規(guī)律??{爾(KanalL.)提出:首先,如果想使誤差估計值比較準(zhǔn)確,樣品個數(shù)N必須不小于某個

3、客觀存在的界限。其次,如果希望得到對于誤分概率的良好估計,樣品數(shù)N與特征數(shù)n之比應(yīng)該足夠大;再次,如果N已經(jīng)確定,那么當(dāng)n增加時,分類性能先是得到改善,但是當(dāng)n達到某個最優(yōu)值后,再增加n,分類性能變壞。通常,樣品數(shù)N應(yīng)是特征數(shù)n的5倍到10倍左右。為了使特征數(shù)目從多變少,需要進行所謂特征選擇。特征選擇通常包括兩方面內(nèi)容:一方面是對單個特征的選擇,即對每個特征分別進行評價,從中找出那些對識別作用最大的特征。另一方面是從大量原有特征出發(fā),構(gòu)

4、造少數(shù)有效的新特征。在模式識別中,最常用的特征選擇方法是降維映射。本節(jié)要講述的內(nèi)容包括:對于單個特征的評價方法主成分分析及對應(yīng)分析方法幾種常用線性映射及其性質(zhì)。2.1對于單個特征的評價在本節(jié)中介紹幾個對于單個特征進行評價的方法。評價每個特征的標(biāo)準(zhǔn)通常是它的分類能力。通過對于各個特征的評價,可以選出那些對于分類最有效的特征,淘汰那些無效的特征。2.1.1KW檢驗KW(KruskalWallis)檢驗是一種常用的特征選擇方法。假定要檢驗?zāi)硞€

5、特征x對于分類的有效程度,已知一批樣品共有N個,這批樣品分為m類,第i類包括Ni個樣品,N1N2…Nm=N,則檢驗方法如下:(1)列出全部樣品所對應(yīng)的特征x的取值;(2)按照x取值從小到大的順序給每個樣品編號。例如,x取最小的樣品表21中,兩類樣品所對應(yīng)的特征x2的原有取值的平均值都是0.7,即兩類均值完全相同,從這一事實來看,x2應(yīng)該是一個很壞的特征。但是,用x2對樣品進行分類時,如果取0.4和0.5之間的某個數(shù)作為分界點,被分錯的只

6、有一個點X5。這又說明這個特征并不太壞??梢?,這完全是由于X5點的x2值太大造成的。用編號代替特征值則可以排除這種干擾。2.1.2直方圖方法我們考慮例21。特征x1的變化范圍在0.1到0.9之間。我們把這一范圍分成幾個長度為0.1的區(qū)間在每個區(qū)間內(nèi)畫出落在該區(qū)間內(nèi)的樣品點數(shù)與總點數(shù)之比(f)。這樣的圖形稱為特征值樣品頻數(shù)直方圖。x1和x3的直方圖見圖21。在圖21中,我們可以看到,在x1的直方圖中,兩類樣品可以比較清楚地分開,而在特征x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論