版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)應(yīng)用的飛速發(fā)展,網(wǎng)絡(luò)成為資源共享的平臺(tái),網(wǎng)頁(yè)成為信息展現(xiàn)的主要載體,如網(wǎng)絡(luò)上的構(gòu)件資源—構(gòu)件庫(kù)等。本文研究的目的就是從網(wǎng)絡(luò)上發(fā)現(xiàn)構(gòu)件資源,下載并分析這些構(gòu)件資源的載體—web頁(yè)面,然后從這些web頁(yè)面的內(nèi)容中提取出構(gòu)件信息并采用統(tǒng)一的描述形式存儲(chǔ)到本地。為此,本文首先對(duì)構(gòu)件用BNF范式進(jìn)行了描述,并基于此描述生成了構(gòu)件存儲(chǔ)模型和構(gòu)件描述基準(zhǔn)文檔,為后續(xù)章節(jié)做準(zhǔn)備,然后對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行了如下處理過(guò)程:
(1)采用貝葉
2、斯協(xié)調(diào)的TF-IDF算法從網(wǎng)頁(yè)內(nèi)容文本、虛文本、標(biāo)題文本和關(guān)鍵詞文本4個(gè)方面對(duì)網(wǎng)頁(yè)進(jìn)行主題識(shí)別,選出與主題相關(guān)的網(wǎng)頁(yè);
(2)采用page rank和shark search相結(jié)合的綜合爬行策略對(duì)待爬行的URLs進(jìn)行排序,從而從隊(duì)列中選擇優(yōu)先級(jí)高的URL優(yōu)先爬取,同時(shí)這種綜合策略也避免了爬行過(guò)程中出現(xiàn)主題偏移現(xiàn)象;
(3)采用基于相關(guān)度和視覺(jué)特征的頁(yè)面分塊算法對(duì)經(jīng)過(guò)主題識(shí)別的網(wǎng)頁(yè)進(jìn)行頁(yè)面結(jié)構(gòu)分析,得到包含構(gòu)件
3、信息的頁(yè)面塊;
(4)從相鄰約束、特征約束、位置約束和相關(guān)度4個(gè)方面建立實(shí)體間關(guān)系矩陣,然后用改進(jìn)的傳遞閉包法進(jìn)行模糊聚類,得到較好的聚類效果,最后采用基于構(gòu)件描述基準(zhǔn)文檔的改進(jìn)指派模型,實(shí)現(xiàn)了實(shí)體與構(gòu)件存儲(chǔ)模型屬性項(xiàng)的匹配,最后生成XML文檔用來(lái)存儲(chǔ)抽取的構(gòu)件信息。
通過(guò)上述的4項(xiàng)關(guān)鍵技術(shù),本文實(shí)現(xiàn)了從互聯(lián)網(wǎng)上獲取構(gòu)件的探索,論文的總結(jié)與展望部分提出了對(duì)本文研究工作進(jìn)一步改進(jìn)的若干構(gòu)想,這也是今后需要繼續(xù)研
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- mba論文面向互聯(lián)網(wǎng)的構(gòu)件獲取技術(shù)研究pdf
- mba論文面向互聯(lián)網(wǎng)的多元信息獲取技術(shù)研究pdf
- 面向互聯(lián)網(wǎng)的信息過(guò)濾技術(shù)研究.pdf
- 個(gè)性化的互聯(lián)網(wǎng)信息獲取技術(shù)研究.pdf
- 面向互聯(lián)網(wǎng)的課程信息集成技術(shù)研究.pdf
- 面向互聯(lián)網(wǎng)的中文問(wèn)題分類技術(shù)研究.pdf
- 面向移動(dòng)互聯(lián)網(wǎng)的可靠傳輸技術(shù)研究.pdf
- 互聯(lián)網(wǎng)視頻信息獲取技術(shù)研究與實(shí)現(xiàn).pdf
- 互聯(lián)網(wǎng)環(huán)境下網(wǎng)絡(luò)目標(biāo)探測(cè)與獲取技術(shù)研究.pdf
- mba論文面向移動(dòng)互聯(lián)網(wǎng)的可靠傳輸技術(shù)研究pdf
- 面向能源互聯(lián)網(wǎng)的電力線通信技術(shù)研究.pdf
- mba論文面向互聯(lián)網(wǎng)的課程信息集成技術(shù)研究pdf
- 面向互聯(lián)網(wǎng)應(yīng)用的不平衡數(shù)據(jù)分類技術(shù)研究.pdf
- mba論文面向可信互聯(lián)網(wǎng)的ip地址管理技術(shù)研究pdf
- 基于Agent的互聯(lián)網(wǎng)信息獲取研究.pdf
- 面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)研究.pdf
- 戰(zhàn)術(shù)互聯(lián)網(wǎng)偵察技術(shù)研究.pdf
- 面向未來(lái)互聯(lián)網(wǎng)的高性能路由查找技術(shù)研究.pdf
- 戰(zhàn)術(shù)互聯(lián)網(wǎng)對(duì)抗技術(shù)研究.pdf
- 面向互聯(lián)網(wǎng)的若干視頻傳輸關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論