版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、深網(wǎng)搜索引擎的主要功能和關(guān)鍵技術(shù)研究深網(wǎng)搜索引擎的主要功能和關(guān)鍵技術(shù)研究摘要:摘要:深網(wǎng)又可稱為DeepWeb。在此基礎(chǔ)上發(fā)展起來的深網(wǎng)搜索引擎逐漸成為互聯(lián)網(wǎng)應(yīng)用的一大趨勢,特別是針對學(xué)術(shù)研究者有重要意義。本文首先簡單介紹了深網(wǎng)搜索引擎的研究背景和意義,然后從主要功能方面進(jìn)一步加深對深網(wǎng)的了解,然后詳細(xì)介紹了深網(wǎng)搜索引擎的關(guān)鍵技術(shù),最后得出結(jié)論。關(guān)鍵詞:關(guān)鍵詞:DeepWeb,搜索引擎,接口識別,數(shù)據(jù)庫分類,數(shù)據(jù)庫選擇,查詢接口集成,查
2、詢結(jié)果抽取1研究背景和意義研究背景和意義用戶在互聯(lián)網(wǎng)上查詢信息時經(jīng)常遇到的問題是重復(fù)信息太多、信息太陳舊更新緩慢、得到的有用信息太少、信息查找不方便。所以如何滿足網(wǎng)民的搜索要求是當(dāng)前搜索引擎研究的重點(diǎn)之一,由此出現(xiàn)了幾種搜索引擎創(chuàng)新技術(shù),如語義搜索、知識圖譜、深網(wǎng)搜索。對于互聯(lián)網(wǎng)上可獲得的但傳統(tǒng)的搜索引擎由于技術(shù)限制不能搜尋到或者經(jīng)過慎重考慮后不愿意作索引的那些文本網(wǎng)頁、文件或其他高質(zhì)量、權(quán)威的信息,中文又有“隱形網(wǎng)絡(luò)”、“看不見的網(wǎng)絡(luò)
3、”、“深網(wǎng)”、“暗資源”等說法。1994年,美國學(xué)者Dr.JillEllswth首先使用“看不見的網(wǎng)絡(luò)”InvisibleWeb概念,但沒有引起重視。直到2000年以后,隨著Web數(shù)據(jù)庫的廣泛應(yīng)用,才有相關(guān)的研究論文及成果發(fā)表,并迅速引發(fā)了熱烈的討論和研究。深層網(wǎng)的研究目前主要分為兩個方向:1)深層網(wǎng)的規(guī)模、分布和結(jié)構(gòu)的調(diào)查和研究。美國BrightPla公司,專門從事數(shù)據(jù)整合和企業(yè)信息分析,該公司開發(fā)了深網(wǎng)檢索平臺工具DQM(DeepQ
4、ueryManager)。在2000年7月,BrightPla公司對深網(wǎng)的規(guī)模和相關(guān)性進(jìn)行了研究,并將其調(diào)查白皮書發(fā)布在互聯(lián)網(wǎng)站點(diǎn)上。UIUC大學(xué)在2004年對深網(wǎng)做了一次較為準(zhǔn)確的估算。2)深層網(wǎng)搜索引擎系統(tǒng)關(guān)鍵技術(shù)的研究。目前主要的關(guān)鍵技術(shù)有DeepWeb接口識別方法、信息提取算法、數(shù)據(jù)庫選擇算法、DeepWeb集成查詢接口生成方法。深網(wǎng)資源內(nèi)容豐富,專業(yè)性較強(qiáng),質(zhì)量高。因此了解深網(wǎng)主要功能并研究其關(guān)鍵技術(shù),從而采集互聯(lián)網(wǎng)上巨大的信
5、息資源,為人們提供方便的信息獲取方法,具有比較重要的意義。2深網(wǎng)搜索引擎的主要功能深網(wǎng)搜索引擎的主要功能搜索引擎的英文為searchengine。搜索引擎是一個對互聯(lián)網(wǎng)信息資源進(jìn)行搜索整理和分類,并儲存在網(wǎng)絡(luò)數(shù)據(jù)庫中供用戶查詢的系統(tǒng),包括信息搜集、信息分類、用戶查詢?nèi)糠?。深網(wǎng)搜索引擎也是搜索引擎的一種,但是其從DeepWeb數(shù)據(jù)庫中獲得數(shù)據(jù)的過程與普通搜索引擎有所不同,如下圖,DeepWeb是通過填寫表單,并提交到后臺服務(wù)器查詢數(shù)據(jù)庫
6、后,以動態(tài)頁面的形式返回信息。在Deepweb數(shù)據(jù)集成領(lǐng)域存在著許多的研究問題,已有的工作主要集中這些問題上:web數(shù)據(jù)庫的發(fā)現(xiàn)、查詢接口模式的抽取、web數(shù)據(jù)庫的分類、查詢接口的集成、查詢的轉(zhuǎn)換、查詢結(jié)果的抽取、查詢結(jié)果的注釋等有些問題已經(jīng)得到了較多的研究,而有些問題還處在研究的初步階段甚至還沒有相關(guān)的報道。為了給出一個全面的認(rèn)識,我們提出了Deepweb數(shù)據(jù)集成框架,該框架共分為三個主要的模塊,如下圖,(2)Web數(shù)據(jù)庫的分類。在查
7、詢接口上提交查詢是獲取web數(shù)據(jù)庫信息的主要途徑,對web數(shù)據(jù)庫的分類實(shí)質(zhì)上是對查詢接口的分類。分類方法共分為兩類:指導(dǎo)方式和非指導(dǎo)方式。針對應(yīng)用意義最廣泛的電子商務(wù)的web數(shù)據(jù)庫提出了一種有效的分類方法。這種方法是一種非指導(dǎo)的方式,主要利用了電子商務(wù)的web數(shù)據(jù)庫的查詢接口所在頁面上的可用特征信息,包括接口中出現(xiàn)的頻繁詞和商品的價格特征。還有一種指導(dǎo)方式的分類方法,根據(jù)統(tǒng)計特性認(rèn)為查詢接口的模式信息可以作為對web數(shù)據(jù)庫分類的依據(jù)?;?/p>
8、于這樣的統(tǒng)計結(jié)論,他們提出通過建立概率模型來表示所有可能出現(xiàn)的屬性在每個領(lǐng)域中出現(xiàn)的可能性。對于一個給定的查詢接口,考察其屬性集合,在這個模型上計算出這個查詢接口與每個領(lǐng)域的相似性。前面兩種方法都是基于查詢接口的特征信息實(shí)現(xiàn)對web數(shù)據(jù)庫的分類,另外還提出了兩種利用提交樣本查詢來實(shí)現(xiàn)分類的方法。從返回查詢結(jié)果數(shù)量來分析一個web數(shù)據(jù)庫屬于哪個領(lǐng)域;從分析返回文本的內(nèi)容來確定一個web數(shù)據(jù)庫的領(lǐng)域。這兩個工作針對的不是結(jié)構(gòu)化信息,而是文本
9、信息,但其通過查詢進(jìn)行分類的思想可以為web數(shù)據(jù)庫的分類所借鑒。(3)查詢接口的集成。對查詢接口自動集成的實(shí)現(xiàn)方式上可分為兩大類:一類屬于局部方式,是基于給定的要進(jìn)行集成的查詢接口集合,分析屬性的隱藏信息,特別是語義信息,在它們之間作屬性的匹配,得到一個新的全局接口;另一類屬于整體方式,是基于某個確定的領(lǐng)域通過對這個領(lǐng)域范圍內(nèi)大量接口的處理,發(fā)現(xiàn)這個領(lǐng)域上一般的查詢接口,如利用統(tǒng)計模式匹配的方案。3.2查詢處理查詢處理當(dāng)用戶在集成查詢接
10、口上填寫并提交查詢時,要同時從多個web數(shù)據(jù)庫中獲取符合該查詢的結(jié)果,并把這些異構(gòu)的數(shù)據(jù)以統(tǒng)一的模式存儲或展現(xiàn),這就是對Deepweb數(shù)據(jù)查詢的處理。Web數(shù)據(jù)庫的選擇。一種基于直方圖的Top—N的選擇方法。該方法分為兩步:第一步是判斷數(shù)據(jù)庫與特定查詢之間的相關(guān)性;第二步是確定最適合提交查詢的數(shù)據(jù)庫和從返回的結(jié)果中選擇最合適的記錄。算法實(shí)驗(yàn)表明,這種計算Top—N查詢的方法是非常有效的。還有一種是基于動態(tài)學(xué)習(xí)的Web數(shù)據(jù)庫選擇算法。其算
11、法流程如下圖,3.3查詢結(jié)果的處理查詢結(jié)果的處理查詢結(jié)果的處理是為了把從各個web數(shù)據(jù)庫返回的表現(xiàn)形式不同的結(jié)果在一個統(tǒng)一的模式下展現(xiàn)給用戶。目前主要的工作集中在如何從查詢結(jié)果頁面抽取出結(jié)構(gòu)化的查詢結(jié)果。查詢結(jié)果的抽取。1)頁面抽取語言。它是指特定設(shè)計的語言,幫助使用者實(shí)現(xiàn)抽取過程。抽取是用手工的方法編寫程序來實(shí)現(xiàn)的。抽取過程是基于過程化的程序,但是抽取結(jié)果依賴于文檔的結(jié)構(gòu)。2)基于DoM樹的工具。其依賴于Html頁面的內(nèi)在的結(jié)構(gòu)特征。
12、在抽取之前將頁面轉(zhuǎn)化成DOM樹,以反映頁面標(biāo)簽的層次結(jié)構(gòu),然后自動或半自動地抽取規(guī)則在此樹上應(yīng)用。3)抽取規(guī)則推導(dǎo)工具。其是從給定的訓(xùn)練樣本中產(chǎn)生基于分隔符的抽取規(guī)則,更適合Html文檔,但需要大量的樣本頁面。4)基于模式的工具。為感興趣的對象給定一個目標(biāo)結(jié)構(gòu)盡量使頁面上的數(shù)據(jù)部分符合這個結(jié)構(gòu),通過圖形界面與用戶交互,由用戶指出頁面上感興趣的區(qū)域。由于需要和用戶交互,從自動化程度上來講屬于半自動抽取工具。4結(jié)論與展望結(jié)論與展望本文對最近
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論