2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、《計(jì)算機(jī)學(xué)報(bào)》2009年5期本文得到國家自然科學(xué)基金(90604004)、江蘇省自然科學(xué)基金(BK2007708)、江蘇省“網(wǎng)絡(luò)與信息安全”重點(diǎn)實(shí)驗(yàn)室(編號(hào):BM2003201)和“計(jì)算機(jī)網(wǎng)絡(luò)和信息集成”教育部重點(diǎn)實(shí)驗(yàn)室(編號(hào):93K9)和科技部國際科技合作項(xiàng)目(數(shù)字身份技術(shù)研究與開發(fā))的資助.基于嵌套EMD的釣魚網(wǎng)頁檢測(cè)算法曹玖新毛波羅軍舟劉波(東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院江蘇省南京市210096)(江蘇省網(wǎng)絡(luò)與信息安全重點(diǎn)實(shí)驗(yàn)室江蘇

2、省南京市210096)(計(jì)算機(jī)網(wǎng)絡(luò)和信息集成教育部重點(diǎn)實(shí)驗(yàn)室江蘇省南京市210096)摘要網(wǎng)絡(luò)釣魚(WebPhishing)以相似網(wǎng)站欺詐用戶、騙取個(gè)人機(jī)密信息,已成為電子金融活動(dòng)的重大威脅。對(duì)此,本文提出了一個(gè)釣魚網(wǎng)頁檢測(cè)架構(gòu)。在具體檢測(cè)機(jī)制方面,提出了一個(gè)基于嵌套EMD(NestedEarthMover’sDistance)的網(wǎng)頁相度似判定算法,對(duì)web圖像進(jìn)行分割,抽取子圖特征并構(gòu)建網(wǎng)頁的ARG(AttributedRelatio

3、nalGraph),在計(jì)算不同ARG屬性距離的基礎(chǔ)上,采用嵌套EMD方法計(jì)算網(wǎng)頁的相似度,實(shí)現(xiàn)了對(duì)釣魚網(wǎng)站的檢測(cè),實(shí)驗(yàn)結(jié)果表明,與國際現(xiàn)有研究成果相比,本算法具有較高的精度和較強(qiáng)的適應(yīng)性。關(guān)鍵詞釣魚網(wǎng)頁檢測(cè)網(wǎng)頁分割特征圖;嵌套EMD;相似度中圖法分類號(hào)TP3931引言網(wǎng)絡(luò)釣魚是指那些利用與原網(wǎng)頁極其相似的假冒網(wǎng)頁騙取用戶個(gè)人信息(如銀行帳號(hào),密碼等)的行為。隨著電子商務(wù)等網(wǎng)絡(luò)應(yīng)用的快速發(fā)展,網(wǎng)絡(luò)釣魚的危害逐年增加①,這引起了產(chǎn)業(yè)界和學(xué)術(shù)

4、界廣泛的關(guān)注,并提出了一系列的防范措施?,F(xiàn)有的反網(wǎng)絡(luò)釣魚技術(shù)可以分為三大類:基于服務(wù)器的防范,基于瀏覽器的防范和獨(dú)立的第三方檢測(cè)?;诜?wù)器的防范指服務(wù)器通過認(rèn)證來防范網(wǎng)絡(luò)釣魚,例如電子證書,動(dòng)態(tài)安全皮膚[1]等。基于瀏覽器的防范措施通過嵌入瀏覽器的插件來提示用戶。獨(dú)立的第三方防范措施主要目的是發(fā)現(xiàn)并共享釣魚網(wǎng)站相關(guān)信息,包括電子郵件檢測(cè)[2],網(wǎng)絡(luò)行為檢測(cè)[3],個(gè)人信息保護(hù)[4],網(wǎng)頁異常檢測(cè)[5],實(shí)時(shí)黑名單,以及網(wǎng)頁相似性檢測(cè)等

5、[67]。由于釣魚網(wǎng)站能繞過服務(wù)器,基于服務(wù)器的措施無法有效地防范網(wǎng)絡(luò)釣魚。基于瀏覽器的措施需要第三方提供的釣魚網(wǎng)站黑名單,因此,釣魚網(wǎng)站的檢測(cè)是防范網(wǎng)絡(luò)釣魚的基礎(chǔ)。但由于網(wǎng)絡(luò)釣魚的復(fù)雜性,僅使用單一的檢測(cè)防范措施難以達(dá)到預(yù)期效果,對(duì)此本文提出了一套完整的釣魚網(wǎng)頁檢測(cè)體系架構(gòu),并深入研究了釣魚網(wǎng)頁檢測(cè)的核心算法——網(wǎng)頁相似性檢測(cè)算法。本文所提出的釣魚網(wǎng)站檢測(cè)體系包括垃圾郵件檢測(cè),網(wǎng)絡(luò)釣魚分析節(jié)點(diǎn)以及網(wǎng)絡(luò)釣魚控制中心三個(gè)部分。網(wǎng)頁相似性檢

6、測(cè)算法則包括網(wǎng)頁圖像的分割、特征抽取、位置關(guān)系向量矩陣形成、子塊關(guān)系(ARG)生成以及嵌套EMD距離的計(jì)算等步驟,實(shí)驗(yàn)證實(shí)該算法可以有效的檢測(cè)出兩個(gè)網(wǎng)頁的相似性。本文的組織結(jié)構(gòu)如下:第二部分給出了國內(nèi)外的相關(guān)研究現(xiàn)狀,第三部分給出釣魚網(wǎng)頁檢測(cè)體系構(gòu)架,第四部分介紹網(wǎng)頁相似性檢測(cè)算法,實(shí)驗(yàn)結(jié)果在第五部分給出,最后對(duì)我們的工作進(jìn)行總結(jié)。2相關(guān)工作目前,釣魚網(wǎng)頁檢測(cè)研究集中在網(wǎng)頁異常檢測(cè),網(wǎng)絡(luò)行為檢測(cè),以及基于視覺的釣魚網(wǎng)頁檢測(cè)等幾個(gè)方面。Y

7、ingPan等[5]提出了一種基于網(wǎng)頁異常的檢測(cè),該方法基于網(wǎng)頁的DOM結(jié)構(gòu),使用SVM(SupptVectMachine)檢測(cè)釣魚網(wǎng)頁,但該方①:www.apwg.g.APWGReptJanuary2007法無法處理網(wǎng)頁中的圖片,從而大大降低了算法的準(zhǔn)確性。3備功能之一,基于該功能,通過加入相關(guān)的釣魚郵件檢測(cè)模塊則可以容易的收集到可疑的釣魚郵件,以進(jìn)行進(jìn)一步的分析。網(wǎng)絡(luò)釣魚分析節(jié)點(diǎn)可以位于郵件服務(wù)器或由第三方提供,該節(jié)點(diǎn)通過收集垃圾郵

8、件分析器提供的可疑釣魚郵件,對(duì)可疑郵件進(jìn)行內(nèi)容提取得到郵件指向的可疑網(wǎng)站,通過實(shí)時(shí)黑名單,URL檢測(cè)和網(wǎng)頁檢測(cè)等手段初步判斷該網(wǎng)站是否為釣魚網(wǎng)站,如果發(fā)現(xiàn)釣魚網(wǎng)站則通知相關(guān)的郵件服務(wù)器,并將檢測(cè)結(jié)果發(fā)送到網(wǎng)絡(luò)釣魚控制中心;如果無法確定則將相關(guān)信息發(fā)送給網(wǎng)絡(luò)釣魚控制中心做進(jìn)一步的檢測(cè)。網(wǎng)絡(luò)釣魚控制中心一方面要維護(hù)釣魚網(wǎng)站黑名單以及受保護(hù)網(wǎng)頁數(shù)據(jù)庫;另一方面要負(fù)責(zé)同銀行等釣魚目標(biāo)的交互,并收集相關(guān)證據(jù),同時(shí)完成對(duì)釣魚網(wǎng)站的檢測(cè)判別,該中心需

9、要處理的任務(wù)十分龐大,因此網(wǎng)絡(luò)釣魚控制中心應(yīng)該具有分布式結(jié)構(gòu)。該體系能夠及時(shí)檢測(cè)釣魚郵件的分發(fā)并采取抑制措施,實(shí)時(shí)地對(duì)釣魚網(wǎng)頁進(jìn)行判別;保護(hù)關(guān)鍵網(wǎng)站(如銀行登陸頁面)并能通過公安機(jī)關(guān)或運(yùn)營商及時(shí)取締仿冒網(wǎng)站;最大限度的收集網(wǎng)絡(luò)釣魚的犯罪證據(jù),為執(zhí)法機(jī)關(guān)提供破案,審判以及量刑的依據(jù),同時(shí)維護(hù)廣大用戶的權(quán)益,幫助受害者挽回?fù)p失。4網(wǎng)頁相似性判斷算法在整個(gè)方法體系中,如何準(zhǔn)確的對(duì)釣魚網(wǎng)頁進(jìn)行檢測(cè)是必須要解決的關(guān)鍵技術(shù)問題。由于幾乎所有的釣魚網(wǎng)

10、頁都與原網(wǎng)頁十分相似(誘導(dǎo)用戶輸入敏感信息,如果不相似則容易引起用戶的警覺),基于此我們提出了基于圖像分割和嵌套EMD的網(wǎng)頁相似性判斷算法。該算法通過對(duì)網(wǎng)頁圖像進(jìn)行分割、子圖特征提取、嵌套EMD距離計(jì)算等步驟構(gòu)建網(wǎng)頁的ARG(AttributeRelationGraph),從而對(duì)其進(jìn)行匹配計(jì)算并獲得可疑網(wǎng)頁與受保護(hù)網(wǎng)頁直接的視覺相似度,最終完成釣魚網(wǎng)頁的檢測(cè)判定。4.1網(wǎng)頁圖像分割由于絕大多數(shù)網(wǎng)頁都是由塊(block)所組成的,因此這些

11、塊的特征及其在網(wǎng)頁中的分布就決定了網(wǎng)頁的視覺特性。我們提出了一個(gè)網(wǎng)頁分割算法,該算法從視覺上將網(wǎng)頁分為各個(gè)子塊。首先網(wǎng)頁通過瀏覽器接口或軟件(如HtmltoJPG)將網(wǎng)頁轉(zhuǎn)換為圖片,并以此作為本文分割算法的輸入。算法如下所述:a)圖片預(yù)處理首先將輸入圖片轉(zhuǎn)換為灰度圖像,再使用特定算法(如Canny等)進(jìn)行邊界檢測(cè),得到邊界圖片(0為背景,1為邊界)。b)迭代處理假設(shè)輸入二值邊界圖片為BW,待分割區(qū)域?yàn)镻1(x1y1),P2(x2y2)—

12、—圖片的邊界點(diǎn),迭代進(jìn)行一下五個(gè)步驟,直到所有的子圖都無法再分割。ⅰ.收縮。檢測(cè)出非0像素的邊界,即求出包含所有非0象素的最小矩形區(qū)域Pmin(xminymin)Pmax(xmaxymax);ⅱ.判斷該區(qū)域是否需要繼續(xù)分割。如果該區(qū)符太窄或太短則不進(jìn)行分割,并將Pmax和Pmin記為BW的一個(gè)塊,否則繼續(xù)分割;ⅲ.檢測(cè)分割帶。分割代是指可能將該區(qū)域分為兩部分的區(qū)域,根據(jù)網(wǎng)頁的特點(diǎn)有水平和垂直兩種。分割帶既可以由0構(gòu)成(代表背景),也可以

13、由1構(gòu)成(代表邊界)。首先在Pmax和Pmin之間,分別在水平和垂直方向上進(jìn)行檢測(cè),如果某一行或列的構(gòu)成趨于一致(絕大部分像素都為0或1)則該行或列為一個(gè)分割帶;然后合并分割帶,分別在水平和垂直方向?qū)⑾噜彽姆指顜Ш喜⒊梢粋€(gè)具有寬度的分割帶。如果未檢測(cè)出分割帶則說明該部分不可分割,并將Pmax和Pmin記為BW的一個(gè)部分。ⅳ.選擇分割帶。如果檢測(cè)出了分割帶則可根據(jù)某種策略選擇其中之一作為依據(jù)分割BW。選擇的策略一般為:優(yōu)先選擇邊界分割帶;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論