結(jié)合先驗(yàn)知識(shí)的分類器設(shè)計(jì)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩109頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、分類器設(shè)計(jì)是模式識(shí)別系統(tǒng)的關(guān)鍵環(huán)節(jié),其目的在于根據(jù)給定的觀測(cè)或訓(xùn)練數(shù)據(jù)學(xué)習(xí)分類規(guī)則,實(shí)現(xiàn)對(duì)未見樣本的預(yù)測(cè),并達(dá)到盡可能好的泛化或推廣性能。然而實(shí)際應(yīng)用中可資利用的訓(xùn)練數(shù)據(jù)數(shù)量有限,且往往含有噪聲,導(dǎo)致能夠正確分類訓(xùn)練數(shù)據(jù)的分類器未必能在未見或測(cè)試數(shù)據(jù)上獲得好的分類推廣性能,此時(shí),為提高推廣性能,必須在分類器設(shè)計(jì)中盡可能多地利用與當(dāng)前分類任務(wù)相關(guān)的先驗(yàn)知識(shí)(或信息)。同時(shí),由著名的“沒有免費(fèi)午餐定理(No FreeLunch Theore

2、m,NFL)”可知,不存在任何一種分類算法具有“與生俱來”的優(yōu)越性,想要獲得“最佳”分類性能,必須結(jié)合與特定分類任務(wù)相關(guān)的先驗(yàn)知識(shí)。因此,分類器推廣性能=數(shù)據(jù)+先驗(yàn)知識(shí)!本文通過分析發(fā)現(xiàn)最常用和有效的基于判別函數(shù)的支持向量機(jī)(Support VectorMachine,SVM)及其改進(jìn)算法在一些分類學(xué)習(xí)任務(wù)中并沒有充分利用先驗(yàn)知識(shí),性能仍有進(jìn)一步提升的空間。因此我們嘗試在其學(xué)習(xí)過程中嵌入先驗(yàn)知識(shí)以進(jìn)一步提升其推廣性能。本文所結(jié)合的先驗(yàn)信

3、息類型包括特征判別能力信息和樣本聚類結(jié)構(gòu)信息,所采用的結(jié)合方式包括正則化方式和改變模型刻畫的方式。本文主要貢獻(xiàn)在于:
   1)首次嘗試在分類器設(shè)計(jì)中考慮反映特征判別能力的先驗(yàn)信息,并通過在SVM中結(jié)合該信息提出了結(jié)合特征判別性的SVM算法FDSVM(Feature Discrimination incorporated SVM)。SVM同等程度地懲罰各特征權(quán)值,而FDSVM約束各特征權(quán)值的懲罰程度反比于對(duì)應(yīng)的判別能力值,使具有

4、強(qiáng)判別能力的特征在學(xué)習(xí)過程中被賦予更高的重要性。實(shí)驗(yàn)表明,F(xiàn)DSVM能達(dá)到優(yōu)于SVM的推廣性能,同時(shí)保持相當(dāng)?shù)挠?jì)算效率。
   2)通過在AUC-SVM(AUC-maximized SVM)中嵌入樣本對(duì)的整體聚類結(jié)構(gòu)信息提出了結(jié)構(gòu)嵌入的AUC-SVM算法SAUC-SVM(Structure-embedded AUC-SVM)。一方面,AUC-SVM僅關(guān)注與支持向量對(duì)相關(guān)的數(shù)據(jù)局部判別信息,忽略了數(shù)據(jù)分布的全局結(jié)構(gòu)信息。另一方面,

5、通過樣本采樣技術(shù)降低AUC-SVM訓(xùn)練復(fù)雜度的策略會(huì)進(jìn)一步導(dǎo)致數(shù)據(jù)整體分布信息的丟失。而SAUC-SVM通過將數(shù)據(jù)局部判別信息和全局聚類結(jié)構(gòu)信息相融合彌補(bǔ)了上述不足,進(jìn)而提升了推廣性能。實(shí)驗(yàn)表明,SAUC-SVM能達(dá)到比AUC-SVM更優(yōu)的性能,并能保持相當(dāng)?shù)挠?jì)算效率。
   3)指出在基于ECOC(Error Correcting Output Codes)的多類分類器設(shè)計(jì)中,利用多個(gè)原有類組成各二類子問題中的“超類”,并將各

6、“超類”視為單個(gè)類掩蓋了由各原有類所構(gòu)成的內(nèi)在結(jié)構(gòu)信息。為此,我們將其嵌入基于ECOC的多類分類器設(shè)計(jì)中提出改進(jìn)的多類分類方法。實(shí)驗(yàn)表明,改進(jìn)方法確實(shí)能夠獲得性能提升,從而驗(yàn)證了在基于ECOC的多類分類器設(shè)計(jì)中利用各原有類結(jié)構(gòu)信息的有效性。
   4)提出修正的聚類假設(shè),并據(jù)此提出新的半監(jiān)督分類算法SSCCM(Semi-SupervisedClassification based on Class Membership)。通過將

7、“相似樣本共享相近類標(biāo)號(hào)”的聚類假設(shè)修正為“相似樣本共享相近類標(biāo)號(hào)隸屬度”,SSCCM允許各樣本同時(shí)屬于多個(gè)類,對(duì)應(yīng)不同的類標(biāo)號(hào)隸屬度。SSCCM返回決策函數(shù)和類標(biāo)號(hào)隸屬度函數(shù),兩者預(yù)測(cè)結(jié)果通常一致,可以相互印證,而不一致結(jié)果則可被利用以增強(qiáng)半監(jiān)督分類學(xué)習(xí)的可靠性。實(shí)驗(yàn)表明,相比于基于聚類假設(shè)的半監(jiān)督分類方法,SSCCM的分類性能具有相當(dāng)?shù)母?jìng)爭(zhēng)力,從而驗(yàn)證了修正聚類假設(shè)的合理性。
   5)進(jìn)一步將修正聚類假設(shè)應(yīng)用于大間隔聚類中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論