版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、分類(lèi)是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究方向之一,經(jīng)過(guò)多年發(fā)展形成了一些較為成熟的算法,并在實(shí)際中取得成功的應(yīng)用.這些傳統(tǒng)的分類(lèi)算法以分類(lèi)正確率作為最大的目標(biāo),且假定數(shù)據(jù)集中各類(lèi)別樣本數(shù)量基本平衡.然而在實(shí)際問(wèn)題中,存在這樣的一類(lèi)數(shù)據(jù),在數(shù)據(jù)集中某一類(lèi)的樣本數(shù)量遠(yuǎn)遠(yuǎn)少于其它類(lèi)樣本數(shù)量,即數(shù)據(jù)集中不同類(lèi)別樣本的數(shù)量是非平衡的,這樣的數(shù)據(jù)稱為不平衡數(shù)據(jù).通常,將數(shù)量上占多數(shù)的類(lèi)稱為多數(shù)類(lèi),而占少數(shù)的類(lèi)稱為少數(shù)類(lèi).對(duì)不平衡數(shù)據(jù)集分類(lèi)時(shí),傳統(tǒng)分類(lèi)算法為追求
2、更高的分類(lèi)正確率,在分類(lèi)的過(guò)程中偏好數(shù)量上占多數(shù)的多數(shù)類(lèi),結(jié)果多數(shù)類(lèi)的分類(lèi)正確率較高,而少數(shù)類(lèi)分類(lèi)正確率較低.例如,在某些極端情況下,某個(gè)傳統(tǒng)的分類(lèi)算法將所有的樣本都分類(lèi)為多數(shù)類(lèi),依然能獲得較高的整體分類(lèi)精度,卻不能識(shí)別一個(gè)少數(shù)類(lèi).而在實(shí)際問(wèn)題中,少數(shù)類(lèi)的分類(lèi)精度往往更為重要.因此,如何對(duì)不平衡數(shù)據(jù)集進(jìn)行正確分類(lèi)、提高少數(shù)類(lèi)的分類(lèi)精度成為數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)研究重點(diǎn).
針對(duì)不平衡數(shù)據(jù)集的研究集中在三個(gè)方面:數(shù)據(jù)層面的方法、算法
3、層面的方法及評(píng)價(jià)標(biāo)準(zhǔn).數(shù)據(jù)層面方法即是對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,采用采樣技術(shù)重構(gòu)數(shù)據(jù)集,以此改變?cè)械臄?shù)據(jù)分布,減少不平衡程度,進(jìn)而使的數(shù)據(jù)集類(lèi)分布基本平衡,較常用的方法包括欠采樣、過(guò)采樣;算法層面的方法,即改進(jìn)傳統(tǒng)分類(lèi)算法,使其在分類(lèi)過(guò)程中更加注重對(duì)少數(shù)類(lèi)的分類(lèi),提高少數(shù)類(lèi)的分類(lèi)精度,從而適應(yīng)不平衡數(shù)據(jù)集的分類(lèi)問(wèn)題,如代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)等;對(duì)不平衡數(shù)據(jù)集分類(lèi)的性能評(píng)價(jià)標(biāo)準(zhǔn)也是研究的重點(diǎn)之一,常用的標(biāo)準(zhǔn)有F-Measure、G-Mean等
4、.
本文針對(duì)不平衡數(shù)據(jù)集分類(lèi)問(wèn)題,嘗試將采樣技術(shù)與傳統(tǒng)分類(lèi)算法相結(jié)合,提出了四種用于解決不平衡數(shù)據(jù)集分類(lèi)問(wèn)題的新方法.主要?jiǎng)?chuàng)新成果有:
(1)使用遺傳算法中的交叉算子與變異算子生成新的少數(shù)類(lèi)樣本,采用兩樣本間的歐幾里得距離檢驗(yàn)新生成少數(shù)類(lèi)樣本的有效性。在UCI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該方法在提高少數(shù)類(lèi)的分類(lèi)精度方面取得了較好的效果.
(2)使用聚類(lèi)技術(shù)中的K-means算法首先將多數(shù)類(lèi)樣本聚成多個(gè)簇,然后依次
5、從每個(gè)簇中抽取一定數(shù)量的多數(shù)類(lèi)樣本,使所有抽取到的多數(shù)類(lèi)樣本個(gè)數(shù)與少數(shù)類(lèi)樣本個(gè)數(shù)基本相同,最后將多數(shù)類(lèi)樣本與少數(shù)類(lèi)樣本合并,作為Bagging成員分類(lèi)器的訓(xùn)練數(shù)據(jù).K-means算法的不穩(wěn)定性,可以在一定程度上保證成員分類(lèi)器之間的差異性。
(3)使用AdaBoost算法對(duì)數(shù)據(jù)集預(yù)處理,得到各樣例權(quán)重.訓(xùn)練基分類(lèi)器時(shí),針對(duì)多數(shù)類(lèi)數(shù)據(jù)不再采用bootstrap抽樣方法,而是分別隨機(jī)選擇部分權(quán)重較大的樣例與部分權(quán)重較小的樣例,使兩部
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 不平衡數(shù)據(jù)分類(lèi)問(wèn)題研究.pdf
- 數(shù)據(jù)不平衡分類(lèi)問(wèn)題研究.pdf
- 不平衡數(shù)據(jù)集分類(lèi)算法的研究.pdf
- 面向不平衡數(shù)據(jù)集的分類(lèi)算法研究.pdf
- 基于不平衡數(shù)據(jù)集的數(shù)據(jù)挖掘分類(lèi)算法研究.pdf
- 面向不平衡數(shù)據(jù)集分類(lèi)的層次引力模型研究.pdf
- 基于不平衡數(shù)據(jù)集的文本分類(lèi)技術(shù).pdf
- 不平衡數(shù)據(jù)集分類(lèi)的Random-SMOTE方法研究.pdf
- 半監(jiān)督學(xué)習(xí)中不平衡數(shù)據(jù)集分類(lèi)研究.pdf
- 基于支持向量機(jī)的不平衡數(shù)據(jù)集分類(lèi)算法研究.pdf
- 不平衡數(shù)據(jù)的最優(yōu)分類(lèi)閾值研究.pdf
- 半監(jiān)督不平衡數(shù)據(jù)的分類(lèi).pdf
- 基于支持向量機(jī)處理不平衡數(shù)據(jù)分類(lèi)問(wèn)題.pdf
- 關(guān)聯(lián)分類(lèi)改進(jìn)及不平衡數(shù)據(jù)分類(lèi)算法研究.pdf
- 基于不平衡數(shù)據(jù)的分類(lèi)方法研究.pdf
- 面向不平衡數(shù)據(jù)集分類(lèi)的改進(jìn)k-近鄰法研究.pdf
- 基于不平衡數(shù)據(jù)的情感分類(lèi)方法研究.pdf
- 關(guān)于不平衡缺失數(shù)據(jù)的分類(lèi)算法研究.pdf
- 類(lèi)別不平衡數(shù)據(jù)的集成分類(lèi)研究.pdf
- 基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類(lèi).pdf
評(píng)論
0/150
提交評(píng)論