版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、分類算法是一種重要的機器學習數據挖掘技術,而訓練集的選取對于分類函數或模型的建立起到了非常關鍵的作用。在現(xiàn)實中,帶標簽的訓練數據往往很難獲得,即使是已標注的數據,也往往包含漏標和錯標的標簽,這些都會影響到分類算法的訓練學習過程。本論文深入分析了分類算法訓練集可能出現(xiàn)的各種問題,在研究國際上大量經典分類算法的基礎上,提出了多種基于生成式模型和基于判別式分類器的算法,通過利用未標注數據空間,多標簽空間,和多視圖空間中的信息來解決訓練集已標注
2、數據不足和已標注數據標簽非完美的問題。論文的主要工作和創(chuàng)新之處在于:
1.提出了一種基于分層狄利克雷過程的生成式模型,以解決多標簽分類中存在的不完整標注問題。該統(tǒng)計模型充分利用訓練集中已標注標簽的信息,通過迭代更新訓練集中的不完整標簽,在學習過程中不斷的增強標簽和樣本特征之間的關聯(lián)性,既能對訓練集中存在的不完整標注樣本進行標簽補全,又能對新的完全未標注的樣本進行準確的標簽預測。
2.提出了多種判別式分類器,可以同時利
3、用訓練集樣本所包含的所有標簽信息,以解決多標簽分類中存在的噪聲標注問題。該類判別式分類器將樣本包含的標簽信息看作為一種額外的特征,利用在多標簽空間中定義的一種充分考慮標簽關系的距離度量方式,得到了訓練樣本點在多標簽空間中的鄰域,并將這種鄰域信息應用到分類器的學習過程中,以降低噪聲對于訓練過程的影響,提高分類準確度。
3.提出了一種基于判別式分類器的學習框架,可以解決多標簽分類中存在的不完整標注問題和噪聲標注問題。該算法框架通過
4、給訓練集中的樣本添加不同的權重來反應出它們對于類別的代表價值和對于訓練學習過程的幫助程度,結合利用跨媒體多視圖中存在的信息互補性不斷更新這些權重,同時利用多標簽空間中包含的信息,既能用來專門對訓練集中的不完整標簽進行補全,又能用來對訓練集中的噪聲標簽進行降噪。
4.提出了一種判別式分類方法,以解決多標簽分類中存在的訓練集已標注數據有限且有噪聲的問題。該分類方法可以學習出與已標注數據空間互補的未標注數據空間,并將訓練集中已標注數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論