版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)知識數(shù)據(jù)的爆炸式增長以及內(nèi)容呈現(xiàn)形式的多樣化,特別是智能內(nèi)容識別、提取和分析等數(shù)據(jù)處理方面的要求使得網(wǎng)頁元數(shù)據(jù)采集和處理變得異常復(fù)雜。傳統(tǒng)的信息采集服務(wù)需要人工分析頁面的DOM樹結(jié)構(gòu),并不能直接抽取到具有特定要求的網(wǎng)頁元數(shù)據(jù),無法滿足人們對特定數(shù)據(jù)的需求。因此,如何自動識別并準(zhǔn)確定位需要采集網(wǎng)頁元數(shù)據(jù)的位置變得尤為重要。
本文針對視頻網(wǎng)頁信息采集提出一種基于視覺塊識別的網(wǎng)頁元數(shù)據(jù)提取方法,以解決自動識別定位并提取網(wǎng)頁
2、元數(shù)據(jù)的問題。論文的主要工作如下:
(1)對網(wǎng)頁信息提取技術(shù)及視覺特征進(jìn)行分析。通過研究基于DOM樹、視覺特征、文本特征三種網(wǎng)頁信息提取技術(shù),對比總結(jié)這三種技術(shù)的優(yōu)缺點(diǎn),結(jié)合本課題需要提取的視頻網(wǎng)頁信息的特點(diǎn)以及網(wǎng)絡(luò)爬蟲技術(shù),總結(jié)用戶的視覺規(guī)律設(shè)計了一種基于視覺特征的網(wǎng)頁元數(shù)據(jù)提取方法。
(2)頁面視覺塊劃分。由于當(dāng)前主流的網(wǎng)頁設(shè)計均采用DIV+CSS布局代替?zhèn)鹘y(tǒng)以
評論
0/150
提交評論