基于混合采樣的非平衡數(shù)據集分類研究.pdf_第1頁
已閱讀1頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、非平衡數(shù)據集分類是機器學習和數(shù)據挖掘領域的一個重要研究方向。所謂非平衡數(shù)據集,在二分類問題中,即是在數(shù)據集中一類樣本數(shù)量遠遠大于另一類的樣本數(shù)量,我們把樣本數(shù)量少的類稱為正類,把樣本數(shù)量多的類稱為負類。由于類別數(shù)量上的不均衡性,導致傳統(tǒng)的分類算法對負類樣本預測準確率很高,可是在正類樣本上識別率則相對較差,但是在實際應用中,往往正類有著十分重要的意義。
  針對上述問題,非平衡數(shù)據集的分類問題需要尋求新的方法加以解決。目前,非平衡數(shù)

2、據集分類問題的解決方法主要分為兩種:一種是算法層面的算法改進,其中包括代價敏感學習、集成學習、單類學習和特征選擇學習等;一種是數(shù)據層面的數(shù)據集重構。SMOTE算法則是數(shù)據集重構中的經典過采樣算法。
  但是SMOTE算法存在盲目采樣問題,以噪聲點為基礎采樣可能導致引入新的噪聲,并且也存在不合理采樣使得樣本空間重疊反而導致決策域變小的問題。鑒于此,本文提出一種基于混合采樣策略的非平衡數(shù)據集學習算法SVM-IMSA,并對以下關鍵問題進

3、行了研究和改進:
 ?、籴槍MOTE算法采樣中樣本噪聲的干擾問題,提出一種基于錯分的混合采樣算法,根據空間近鄰關系,把識別為噪聲點的樣本直接刪除。
 ?、卺槍MOTE算法中存在的盲目采樣和不合理的采樣會使得樣本空間重疊問題,是在以錯分驅動為基礎,根據空間近鄰關系把錯分樣本分為安全點、噪聲點和危險點,自適應的對安全點和危險點采取相應的過采樣和欠采樣方法,以解決支持向量機在非平衡數(shù)據集上的決策面偏移問題。
 ?、坩槍

4、MOTE算法隨機的線性插值會造成稀疏區(qū)域仍然稀疏,密集區(qū)域仍然密集,無法有效的對更具意義的樣本區(qū)域有針對性的采樣問題,是在錯分基礎上進行迭代,逐步將采樣區(qū)域集中到“難以判決”的樣本周圍,對識別為安全的樣本加大采樣倍率,以使得分類器更加關注這些難以分類的樣本。
  ④改進了傳統(tǒng)的隨機欠采樣策略,提出一種邊界區(qū)域切割算法,通過分析危險點周圍負類樣本的密度和密度可達性,對負類樣本有針對性的進行欠采樣處理,避免了傳統(tǒng)算法對某些重要負類樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論