版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、現(xiàn)時(shí)代不斷發(fā)展的互聯(lián)網(wǎng)使電子郵件用戶的數(shù)量也跟隨不斷地增加,電子郵件成了人們工作,生活必不可少的交流工具。但是,垃圾郵件也隨之不斷蔓延,這給電子郵件服務(wù)提供商和用戶帶來了很大的危害以及損失。為了解決垃圾郵件問題,反垃圾郵件技術(shù)也在不斷地發(fā)展和改進(jìn),基于機(jī)器學(xué)習(xí)的垃圾郵件技術(shù)已經(jīng)成為目前反垃圾郵件的主流技術(shù)。
基于機(jī)器學(xué)習(xí)的方法可以適用于不同語言的垃圾郵件過濾中,在以往的研究中比較多的分析研究了在英文中的垃圾郵件過濾,而在中
2、文數(shù)據(jù)集上的研究分析較少,為了研究出更適合中文垃圾郵件的過濾模型和技術(shù),本文主要對中文垃圾郵件過濾做了相關(guān)研究和分析。
首先,本文從中文垃圾郵件入手,分析了中文垃圾郵件的一些特點(diǎn),過濾技術(shù)和基于機(jī)器學(xué)習(xí)過濾模型的一些算法,為下文中的展開研究做了理論基礎(chǔ)。研究分析了多種特征提取方法,本文采用4元文法提取方法,分析了它的優(yōu)點(diǎn),并給出了具體提取過程。并通過分析,本文采用在線的過濾模式,提高了過濾器的適應(yīng)能力。
其次
3、,研究分析了以樸素貝葉斯模型為代表的生成模型和以邏輯回歸模型、在線松弛支持向量機(jī)模型為代表的判別模型的過濾算法原理,并在此基礎(chǔ)上,改進(jìn)一些方法,選擇調(diào)試一些參數(shù),來達(dá)到在中文數(shù)據(jù)集上過濾最優(yōu)的模型。而后,比較了三種模型在四個(gè)中文數(shù)據(jù)集上的過濾性能。對實(shí)驗(yàn)結(jié)果分析得出了判別模型的過濾性能較好,而且在線松弛支持向量機(jī)模型效果更好,在SEWM數(shù)據(jù)集上達(dá)到了最優(yōu)。
最后,在上一部分證明了中文數(shù)據(jù)集上判別模型的效果較好,為了進(jìn)一步提
4、高過濾器的性能,在較好的判別模型上引入了兩種主動學(xué)習(xí)算法:b-Sampling采樣法和TONE采樣法,實(shí)現(xiàn)算法并調(diào)整最佳參數(shù),使用相同的四中中文數(shù)據(jù)集分別應(yīng)用于邏輯回歸模型和在線松弛支持向量機(jī)模型,兩種方法以及不采用主動學(xué)習(xí)方法進(jìn)行了對比實(shí)驗(yàn)分析。在實(shí)驗(yàn)結(jié)果看來,引入主動學(xué)習(xí)方法效果較好,并且TONE的主動學(xué)習(xí)方法效果比b-Sampling方法更好。為了觀察性能較好的TONE方法的時(shí)間代價(jià),由于時(shí)間關(guān)系,只拿SEWM11數(shù)據(jù)集在在線松弛
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中文垃圾郵件過濾技術(shù)的研究.pdf
- 基于SVM的中文垃圾郵件過濾.pdf
- 中文垃圾郵件過濾技術(shù)研究.pdf
- 中文垃圾郵件過濾技術(shù)研究(1)
- 中文垃圾郵件過濾技術(shù)的研究與應(yīng)用.pdf
- 基于覆蓋算法的中文垃圾郵件過濾.pdf
- 基于內(nèi)容的中文垃圾郵件過濾算法研究.pdf
- 中文垃圾郵件過濾技術(shù)研究及應(yīng)用.pdf
- 中文反垃圾郵件過濾系統(tǒng)的開發(fā)與研究.pdf
- 垃圾郵件過濾技術(shù)的研究.pdf
- 垃圾郵件過濾技術(shù)算法研究.pdf
- 垃圾郵件的分析與過濾.pdf
- 圖像垃圾郵件過濾技術(shù)的研究.pdf
- 圖片垃圾郵件過濾系統(tǒng).pdf
- 基于數(shù)據(jù)挖掘的中文垃圾郵件過濾技術(shù)研究.pdf
- 基于內(nèi)容的中文垃圾郵件過濾系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于內(nèi)容的垃圾郵件過濾研究.pdf
- 基于SVM的垃圾郵件過濾的研究.pdf
- 垃圾郵件過濾算法研究與實(shí)現(xiàn).pdf
- 基于內(nèi)容的垃圾郵件過濾方法研究
評論
0/150
提交評論