版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、隨著 Internet和信息技術的快速發(fā)展,互聯(lián)網(wǎng)上的信息空前豐富。Web按其信息蘊藏的深度可分為Surface Web和Deep Web,Deep Web數(shù)據(jù)資源包括需要通過查詢接口查詢才能生成的頁面和只有登錄后才可查看的專有網(wǎng)絡信息。搜索引擎的出現(xiàn),一定程度上解決了查詢信息的需求,但是傳統(tǒng)搜索引擎無法索引到這些 Deep Web頁面。如今快速興起的社交網(wǎng)站,吸引了大量的活躍網(wǎng)絡用戶,其 Web信息資源更豐富并且具有很高的價值。本文分
2、析了針對社交網(wǎng)絡信息數(shù)據(jù)獲取的框架,設計了抓取 Twitter、Facebook和人人網(wǎng)的爬蟲,并且給出了爬蟲管理和數(shù)據(jù)展示的設計與實現(xiàn)。具體研究工作如下:
1.研究了 Deep Web爬蟲的框架和模塊設計。Deep Web包括可搜索數(shù)據(jù)庫和專有網(wǎng)絡。針對可搜索數(shù)據(jù)庫,爬蟲首先要發(fā)現(xiàn)數(shù)據(jù)源,然后對查詢接口歸約,再把抓取結果聚合。針對專有網(wǎng)絡,爬蟲首先要獲得網(wǎng)站授權,然后抓取頁面,再對頁面進行分析,最后把結果聚合。
2
3、.設計實現(xiàn)了 Twitter、Facebook和人人網(wǎng)的爬蟲。Twitter爬蟲的數(shù)據(jù)獲取策略是首先通過 OAuth認證獲取 Access Token,然后調(diào)用Twitter API增量抓取用戶 Twitter數(shù)據(jù)。Facebook爬蟲,抓取策略是使用HtmlUnit登錄,獲得一個Access Token,然后調(diào)用Facebook Graph API增量抓取用戶的新鮮事,解析返回的JSON數(shù)據(jù)并且統(tǒng)一格式。人人網(wǎng)爬蟲抓取策略是使用Htm
4、lUnit構造瀏覽器 WebClient登錄,并保存 Cookie,然后使用WebClient增量抓取用戶頁面,解析狀態(tài)和日志。經(jīng)過功能測試和大規(guī)模性能測試,爬蟲能夠滿足實際工作需要,具有穩(wěn)定性和適應性。
3.研究了爬蟲管理系統(tǒng)的實現(xiàn)。設計了一個管理控制臺和部署在每個抓取機器上的守護程序,他們通過互相通信來實現(xiàn)管理控制爬蟲節(jié)點的任務分配與負載平衡。守護程序監(jiān)視爬蟲節(jié)點運行并解析普通爬蟲抓取的數(shù)據(jù)入庫。經(jīng)過實驗測試分析,管理系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 社交網(wǎng)絡數(shù)據(jù)獲取與結構分析系統(tǒng)的設計與實現(xiàn).pdf
- 深度網(wǎng)絡數(shù)據(jù)獲取工具設計與實現(xiàn).pdf
- 基于開放接口的社交網(wǎng)絡數(shù)據(jù)獲取與可視化分析.pdf
- 在線社交網(wǎng)絡數(shù)據(jù)放置策略的研究與實現(xiàn).pdf
- 網(wǎng)絡數(shù)據(jù)獲取與協(xié)議還原系統(tǒng)的設計與實現(xiàn).pdf
- 基于網(wǎng)絡數(shù)據(jù)包的口令信息獲取實現(xiàn)技術研究.pdf
- 基于移動社交網(wǎng)絡的數(shù)據(jù)投遞策略研究與實現(xiàn).pdf
- 基于社交網(wǎng)絡的數(shù)據(jù)過濾與數(shù)據(jù)推送.pdf
- 基于網(wǎng)絡爬蟲技術的企業(yè)社交媒體情報獲取分析
- 基于網(wǎng)絡爬蟲技術的企業(yè)社交媒體情報獲取分析.pdf
- 基于社交網(wǎng)絡的數(shù)據(jù)挖掘技術研究.pdf
- 基于網(wǎng)絡數(shù)據(jù)包的郵件信息獲取系統(tǒng)實現(xiàn)技術研究.pdf
- 社交網(wǎng)絡平臺的設計與實現(xiàn).pdf
- 社交網(wǎng)絡中的數(shù)據(jù)挖掘與分析.pdf
- 面向移動平臺的網(wǎng)絡信息獲取技術的研究與實現(xiàn).pdf
- Web資源質量元數(shù)據(jù)的獲取與管理技術的研究與實現(xiàn).pdf
- 船舶自動化系統(tǒng)網(wǎng)絡監(jiān)測數(shù)據(jù)獲取子系統(tǒng)的設計與實現(xiàn).pdf
- 社交網(wǎng)絡存儲系統(tǒng)中數(shù)據(jù)劃分與復制技術的研究.pdf
- 基于大數(shù)據(jù)的社交網(wǎng)絡數(shù)據(jù)挖掘.pdf
- 網(wǎng)絡攻擊數(shù)據(jù)生成技術的研究與實現(xiàn).pdf
評論
0/150
提交評論