版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、流式數(shù)據(jù)是指不斷產(chǎn)生、實時計算、動態(tài)增加且要求及時響應(yīng)的數(shù)據(jù),因其海量和實時性等特點,流式數(shù)據(jù)系統(tǒng)一般僅存儲最近一段時間內(nèi)的數(shù)據(jù)。已有的流式數(shù)據(jù)存儲查詢方式主要采用基于分布式文件系統(tǒng)的數(shù)據(jù)庫,即:底層存儲采用Hadoop分布式文件系統(tǒng)HDFS,上層采用以大規(guī)模并行處理MPP架構(gòu)作為調(diào)度引擎的數(shù)據(jù)庫。目前,基于HDFS的數(shù)據(jù)庫在流式數(shù)據(jù)的存儲與查詢方面中存在以下不足:1.HDFS適于批量數(shù)據(jù)的存儲,直接將流式數(shù)據(jù)單條存入HDFS,將產(chǎn)生大
2、量文件碎片,使數(shù)據(jù)訪問尋址時間增大,難以滿足實時性查詢的應(yīng)用需求;2.現(xiàn)有的數(shù)據(jù)庫系統(tǒng)查詢時一般需啟動MapReduce,因有較大延時,查詢實時性比較差。3.當需要在數(shù)據(jù)倉庫工具與傳統(tǒng)數(shù)據(jù)庫進行關(guān)聯(lián)查詢時,已有的數(shù)據(jù)全復(fù)制策略對空間和時間占用較大,查詢效率較低。
針對上述問題,本文基于分布式文件系統(tǒng)HDFS和數(shù)據(jù)查詢系統(tǒng)Impala,采用緩存策略對單源和多源流式數(shù)據(jù)存儲與查詢方法進行研究,并對傳統(tǒng)數(shù)據(jù)庫與基于分布式文件系統(tǒng)的數(shù)
3、據(jù)倉庫工具間跨平臺關(guān)聯(lián)查詢方法進行了研究和應(yīng)用測試。
本文的主要工作包括:1.基于緩存的單源數(shù)據(jù)查詢方法研究,即:單源流式數(shù)據(jù)經(jīng)格式處理后,采用緩存機制存儲到分布式文件系統(tǒng),并使用數(shù)據(jù)倉庫工具Impala實現(xiàn)流式數(shù)據(jù)的實時查詢。2.多源數(shù)據(jù)實時查詢及多級緩存優(yōu)化方法研究,即:當多源流式數(shù)據(jù)共存時,采用多源單隊列和多源多隊列兩種方法對數(shù)據(jù)來源進行區(qū)分和緩存,然后將多源數(shù)據(jù)的查詢歸類到單源數(shù)據(jù)的查詢,以提升系統(tǒng)對多數(shù)據(jù)源的支持;同
4、時,本文還提出一種多級緩存優(yōu)化策略,該策略可支持對緩存的數(shù)據(jù)進行查詢,以提升查詢的實時性。3.傳統(tǒng)數(shù)據(jù)庫與數(shù)據(jù)倉庫工具跨平臺查詢方法研究,即:面向傳統(tǒng)數(shù)據(jù)庫與數(shù)據(jù)倉庫工具的關(guān)聯(lián)查詢,提出一種能夠支持跨越這兩種平臺的數(shù)據(jù)查詢方法,該方法將關(guān)聯(lián)查詢中傳統(tǒng)數(shù)據(jù)庫的查詢結(jié)果以臨時表的形式存儲到Impala,然后在Impala平臺上進行本地的關(guān)聯(lián)查詢。
本文的創(chuàng)新點為:1.提出一種基于緩存的單源流式數(shù)據(jù)查詢方法,該方法采用緩存機制存儲數(shù)
5、據(jù),并使用查詢效率較高的Impala對存儲的數(shù)據(jù)進行查詢,有效地提升了查詢的實時性。2.采用面向多源數(shù)據(jù)查詢的多源單隊列和多源多隊列兩種方法,是單源數(shù)據(jù)緩存方法的擴展;同時提出一種多級緩存優(yōu)化策略,該策略支持對緩存的數(shù)據(jù)進行查詢,可大大提升查詢的實時性。3.提出了一種能夠支持跨越傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫工具的數(shù)據(jù)關(guān)聯(lián)查詢方法,該方法將關(guān)聯(lián)查詢中傳統(tǒng)數(shù)據(jù)庫的查詢結(jié)果以臨時表的形式存儲到數(shù)據(jù)倉庫工具,可大大減少兩平臺間的數(shù)據(jù)傳輸量,節(jié)省數(shù)據(jù)傳輸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 時空數(shù)據(jù)庫復(fù)雜查詢方法研究.pdf
- XML查詢方法研究.pdf
- 數(shù)據(jù)倉庫系統(tǒng)中的查詢方法研究.pdf
- mac查詢方法
- 基于超圖劃分的大數(shù)據(jù)實時查詢優(yōu)化研究與實現(xiàn).pdf
- 數(shù)據(jù)庫中的數(shù)據(jù)加密與查詢方法研究.pdf
- 海量數(shù)據(jù)的劃分和查詢方法的研究.pdf
- K-匿名數(shù)據(jù)的查詢方法研究.pdf
- 基于SPARQL的鏈接流數(shù)據(jù)查詢方法研究.pdf
- 關(guān)系數(shù)據(jù)庫模糊聚合查詢方法研究.pdf
- 網(wǎng)絡(luò)存儲系統(tǒng)中元數(shù)據(jù)Skyline查詢方法研究.pdf
- 異構(gòu)數(shù)據(jù)源集成與查詢方法的研究.pdf
- 基于副本選擇的大數(shù)據(jù)實時查詢處理并行調(diào)度.pdf
- XML小枝模式查詢方法研究.pdf
- 最短路徑查詢方法研究
- 最短路徑查詢方法研究.pdf
- 概率數(shù)據(jù)庫中移動對象查詢方法的研究.pdf
- 數(shù)據(jù)立方體增量式維護及查詢方法研究.pdf
- 時空數(shù)據(jù)庫中移動對象軌跡查詢方法研究.pdf
- 基于彈性負載的數(shù)據(jù)實時遷移方法的研究.pdf
評論
0/150
提交評論