2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、一種基于內(nèi)容的廣告垃圾圖像過濾方法,,目錄,論題意義及其必要性過濾原理與實現(xiàn)方法實驗和結(jié)果分析,論題意義及其必要性,垃圾郵件問題日益嚴重: 2005年7月,中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布的《第十六次中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告》顯示,中國網(wǎng)民平均每周收到14.5封電子郵件,其中垃圾郵件占了9.3封,垃圾郵件數(shù)量已經(jīng)大大超過了正常郵件數(shù)量。 基于文本過濾方法的局限性 : 第一 、基于文本的過濾受到

2、文本語言種類的限制; 第二、垃圾郵件發(fā)送者(spamer)經(jīng)常使用各種各樣的騙術(shù)來迷惑基于文本的垃圾郵件過濾器,比如將文字頁面轉(zhuǎn)換為圖像;有數(shù)據(jù)顯示,包含圖像的垃圾郵件占所有垃圾郵件的25%??梢?,這種欺騙手段已經(jīng)被垃圾郵件制作者們頻繁利用,如果沒有找到可行的解決辦法,這個數(shù)字還會上升。 第三、隨著因特網(wǎng)的范圍和容量不斷增長,郵件包含越來越多的多媒體信息。,一些廣告垃圾圖片的示例,,,,,,目錄,論題意義及其

3、必要性過濾原理與實現(xiàn)方法實驗和結(jié)果分析,過濾的原理,任何廣告都需要用文字來傳播某種信息。也就是說,廣告垃圾圖像的文字區(qū)域特征具有普遍性。本文正是利用廣告垃圾圖像的文字區(qū)域特征來進行廣告垃圾圖像過濾。 基本步驟: 1.提取圖像的邊緣信息,并把邊緣信息做二值化處理; 2.將二值化邊緣圖像進行膨脹處理,使相鄰的字符連通起來,并把膨脹處理后 的所有連通區(qū)域作為候選文字區(qū)域記錄下來; 3.利用文字區(qū)域的特征從

4、候選文字區(qū)域中篩選出正確的文字區(qū)域; 4.根據(jù)得到的文字區(qū)域的數(shù)量和面積等特征對圖像進行分類,把廣告垃圾圖 像和合法圖像區(qū)分開來。,彩色邊緣提取,由于廣告圖像中的文本與背景有較強的對比度,表現(xiàn)為在文本與背景的交界處,存在十分明顯的高頻區(qū)域,因此可以用提取邊緣的方法來大致估計出文本可能存在的區(qū)域。 由于廣告垃圾圖像大多為彩色圖像,所以本文采用張引等提出的彩色圖像邊緣提取算子來提取邊緣,利用彩色三分量的彩色邊緣

5、提取算法,充分利用了全面的色彩信息,效果優(yōu)于傳統(tǒng)的灰度邊緣提取算法。 邊緣提取的具體做法如下: 已知輸入圖像f的RGB值,其中象素(i,j)的RGB分量分別為R(i,j),G(i,j),B(i,j)。要計算圖像f的邊緣圖像Edge。 Eud(i1, j1; i2 , j2)定義為像素點(i1 , j1)與(i2 , j2)之間的彩色值歐氏距離。,原圖與邊緣

6、圖像,(a)原圖 (b)邊緣圖像,,,邊緣圖像二值化,閾值選取方法: 首先計算邊緣圖像Edge的歸一化灰度直方圖h(i): 其中,ni是圖像Edge中灰度值為i的象素的個數(shù),N是圖像象素總數(shù)。 因為文字區(qū)域邊緣十分明顯,所以本文認為文字區(qū)域邊緣的灰度級一般比較高。于是需要找到一個灰度級k作為閾值,把灰

7、度大于k的邊緣象素點保留,灰度小于k的邊緣象素點忽略。 令 ; eh(k)表示保留的邊緣象素數(shù)占圖像總象素數(shù)的比例;找到一個盡可能大的灰度級k使得eh(k)大于閾值TH1;如果此時k小于下限TH2,則把TH2作為二值化的閾值,否則把k作為二值化的閾值。在實驗中,我們?nèi)H1=0.2,TH2=120(認為文字區(qū)域邊緣的灰度級不應低于120)。,二值化邊緣圖像,(c

8、)二值化邊緣圖像,,,候選文本區(qū)域提取,從二值邊緣圖像中可以看出,由于文字的分布比較集中,所以文字附近的邊緣比較豐富,而且屬于同一文字區(qū)域的文字邊緣具有較小的距離。對于水平方向的文本行來說,可以用水平膨脹的方法將相鄰的邊緣連起來,形成連通的區(qū)域,從而在空間位置上將可能含有文本的區(qū)域檢測出來。 膨脹方法: 設f 為二值圖像,B為結(jié)構(gòu)元素,二值形態(tài)和(膨脹)定義如下: 其中

9、 表示以(x,y)為原點,形狀與結(jié)構(gòu)元素B相同的區(qū)域。膨脹運算具有擴大圖像的作用,膨脹可以看作是將圖像f中的每一個點(x,y)擴大為 。 本文使用的結(jié)構(gòu)元素B是一條N個象素的水平線段。其中N由圖像的寬度決定,因為較寬的圖像里的文字的橫向間隔也會較寬。 本文中取N=imageWidth/250+1;其中imageWidth為圖像寬度 。 把膨脹操作后所得的連通區(qū)域所在的最小的矩形區(qū)域

10、記錄為候選的文字區(qū)域。,膨脹邊緣圖像,(d)膨脹邊緣圖像,,文本區(qū)域篩選,本文根據(jù)文字區(qū)域的視覺特征定義了若干約束條件,滿足所有約束條件的候選文字區(qū)域被認為是文字區(qū)域。 本文中使用的約束條件有: (1)文字區(qū)域包含的邊緣信息豐富,因此連通區(qū)域的象素總數(shù)占連通區(qū)域所在矩形的象素總數(shù)的比例應該大于某個閾值。 (2)文字高度不能太小,否則人眼將無法看清;也不會太大,應在某一范圍內(nèi)。 (3

11、)因為每個文字區(qū)域都是同行的幾個字符粘連而形成的區(qū)域,所以文字區(qū)域的寬高比應當大于某一閾值。 (4)文字區(qū)域中存在一組連續(xù)的,邊緣信息相當豐富的行。要求這段區(qū)域的高度占文字區(qū)域高度的一定比例,并且這段區(qū)域中的每一行的白點數(shù)目大于某一閾值。 (5)如果兩個候選文字區(qū)域具有包含關系或具有大部分重疊的關系,則保留面積較大的區(qū)域。 按照上述準則,可以除掉候選文字區(qū)域中的虛假文字區(qū)域,得到了相對準確的文字區(qū)域。下頁

12、的圖(e)為文字區(qū)域的提取結(jié)果,識別出的文字區(qū)域用紅色邊框標出。,文字區(qū)域的提取結(jié)果,(e)文字區(qū)域的提取結(jié)果,,目錄,論題意義及其必要性過濾原理與實現(xiàn)方法實驗和結(jié)果分析,實驗和結(jié)果分析,實驗流程如下圖所示:廣告垃圾圖像判定條件: 主要根據(jù)文字區(qū)域的數(shù)量和面積兩個特征判斷圖像是否為廣告垃圾圖像。本實驗設定閾值th1,th2。如果圖像f的文字區(qū)域數(shù)量大于th1,或者文字區(qū)域面積占圖像總面積的比例大于th2,則

13、認為圖像f為廣告垃圾圖像。經(jīng)實驗證明,th1取值6,th2取值15%可以達到較實用的效果。,,文字區(qū)域提取實驗結(jié)果,,,廣告垃圾圖像過濾實驗結(jié)果,本文為做廣告垃圾圖像過濾實驗,建立了一個圖像庫,分別由廣告垃圾圖像(39幀),普通圖像(1215幀)和紋理圖像(598幀)等三種圖像組成,下圖為圖像庫取樣。,廣告垃圾圖像過濾實驗結(jié)果,實驗數(shù)據(jù)表明,廣告垃圾圖像集合的檢出率接近80%,大部分特征明顯的廣告垃圾圖像都能被檢索出來;對普通圖像的誤檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論