版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)表格作為網(wǎng)頁(yè)數(shù)據(jù)展示的一種形式,開始越來(lái)越多的出現(xiàn)在各種領(lǐng)域的web頁(yè)面中,因其具有簡(jiǎn)潔的展示方式以及顯而易見地描述數(shù)據(jù)關(guān)系的優(yōu)勢(shì)而被越來(lái)越多的人應(yīng)用到網(wǎng)頁(yè)中并成為Web信息抽取中的熱點(diǎn)。然而人們往往忽略表格數(shù)據(jù)自有的不足,通常表頭(下文稱屬性名)決定一切,而現(xiàn)實(shí)中,Web上的表格經(jīng)常出現(xiàn)無(wú)屬性名或?qū)傩悦y以理解的情況。因此,在自動(dòng)分析修復(fù)表格的表頭信息方面的研究將在Web挖掘、數(shù)據(jù)理解及決策支持方面提供極大的幫助,同時(shí)也將會(huì)被越來(lái)
2、越多的研究者重視。
論文開始講述了本課題的研究背景、目的、意義及相關(guān)領(lǐng)域的研究現(xiàn)狀,并對(duì)本文的主要研究?jī)?nèi)容進(jìn)行了闡述。之后詳細(xì)描述了本課題的需求分析、系統(tǒng)的總體設(shè)計(jì)、系統(tǒng)各功能模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)及系統(tǒng)的功能測(cè)試與非功能性測(cè)試,最后對(duì)本文進(jìn)行了總結(jié)及展望。
本文的主要研究?jī)?nèi)容主要有以下三個(gè)方面:Web表格數(shù)據(jù)提取與存儲(chǔ)、表格數(shù)據(jù)分析和屬性名自動(dòng)標(biāo)注。Web表格數(shù)據(jù)提取主要實(shí)現(xiàn)了對(duì)HTML網(wǎng)頁(yè)的解析、數(shù)據(jù)表格的識(shí)別和表
3、格內(nèi)數(shù)據(jù)的提取存儲(chǔ)等功能。表格數(shù)據(jù)分析主要實(shí)現(xiàn)對(duì)數(shù)據(jù)的深度分析,由于不同類型的數(shù)據(jù)具有不同的特征,因此首先對(duì)表格數(shù)據(jù)進(jìn)行簡(jiǎn)單分類,不同類型的數(shù)據(jù)運(yùn)用不同的處理方法提取特定的特征。本文以數(shù)據(jù)的結(jié)構(gòu)特征與統(tǒng)計(jì)特征作為研究對(duì)象,分別利用正則表達(dá)式表示數(shù)據(jù)的結(jié)構(gòu)特征,利用統(tǒng)計(jì)分布均值和方差兩個(gè)參數(shù)表示數(shù)據(jù)的統(tǒng)計(jì)特征,并利用大量訓(xùn)練數(shù)據(jù)建立“屬性名-特征值”特征庫(kù)。在屬性名自動(dòng)標(biāo)注的研究中,主要完成對(duì)特定數(shù)據(jù)列匹配屬性名。本文針對(duì)不同數(shù)據(jù)特征提出
4、了不同的特征匹配策略并建立匹配模型,對(duì)于正則表達(dá)式表示的結(jié)構(gòu)特征,運(yùn)用編輯距離算法進(jìn)行表達(dá)式串相似性比較,同時(shí)結(jié)合簡(jiǎn)單字符串匹配提高準(zhǔn)確性;對(duì)于統(tǒng)計(jì)分布參數(shù)表示的統(tǒng)計(jì)特征則利用假設(shè)檢驗(yàn)知識(shí)中的樣本均值的檢驗(yàn)方法比較兩樣本間的差異性。最后對(duì)于匹配出的候選屬性名進(jìn)行優(yōu)化,得到最佳屬性名。
本文實(shí)驗(yàn)環(huán)節(jié)通過(guò)利用實(shí)驗(yàn)室現(xiàn)有的大量表格數(shù)據(jù)建立特征庫(kù),利用交叉驗(yàn)證的方式優(yōu)化匹配模型參數(shù)(閥值和檢驗(yàn)水平),通過(guò)多次迭代試驗(yàn),證明了綜合運(yùn)用正
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于視覺、詞法、語(yǔ)義特征的web數(shù)據(jù)表格檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web的金融數(shù)據(jù)收集與智能分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web的數(shù)據(jù)上報(bào)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- Blog數(shù)據(jù)提取與監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于數(shù)據(jù)挖掘的語(yǔ)義web系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 校園BBS輿情數(shù)據(jù)收集與提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 校園bbs輿情數(shù)據(jù)收集與提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 基于WEB的激光焊接數(shù)據(jù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web的數(shù)據(jù)質(zhì)量核查系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web的DCS數(shù)據(jù)監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- Wed網(wǎng)頁(yè)表格數(shù)據(jù)提取與應(yīng)用.pdf
- 基于web數(shù)據(jù)挖掘的智能導(dǎo)購(gòu)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web的數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- Web用戶行為數(shù)據(jù)收集統(tǒng)計(jì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web Service移動(dòng)數(shù)據(jù)應(yīng)用系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 一種WEB日志數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web應(yīng)用的日志采集與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web的財(cái)稅監(jiān)測(cè)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于Web的網(wǎng)站數(shù)據(jù)分析軟件Wysistat的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于UML的web辦公系統(tǒng)的分析、設(shè)計(jì)與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論