版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著近年來數(shù)據(jù)總量呈現(xiàn)出的爆炸增長(zhǎng)趨勢(shì),數(shù)據(jù)備份系統(tǒng)存儲(chǔ)的數(shù)據(jù)越來越多。經(jīng)研究發(fā)現(xiàn),在備份、歸檔等集中存儲(chǔ)系統(tǒng)中存在大量冗余數(shù)據(jù),有的甚至占到存儲(chǔ)空間的60%,導(dǎo)致存儲(chǔ)成本過高,數(shù)據(jù)訪問性能下降。數(shù)據(jù)排重是減少數(shù)據(jù)冗余、節(jié)省存儲(chǔ)空間的有效手段?,F(xiàn)有排重算法中,文件級(jí)排重盡管排重開銷小,但排重粒度過粗,難以取得存儲(chǔ)空間的高效利用;數(shù)據(jù)塊級(jí)排重算法能實(shí)現(xiàn)高效存儲(chǔ),但其附帶的存儲(chǔ)開銷過高,排重的時(shí)間開銷大。本文研究分層排重結(jié)構(gòu),應(yīng)用雙布魯姆過
2、濾器實(shí)現(xiàn)數(shù)據(jù)排重,優(yōu)化數(shù)據(jù)排重性能,主要工作如下:
1.針對(duì)數(shù)據(jù)重復(fù)有文件級(jí)的重復(fù)和數(shù)據(jù)塊級(jí)的重復(fù)之分,提出一種基于雙布魯姆過濾器的數(shù)據(jù)排重算法。該算法使用兩個(gè)布魯姆過濾器構(gòu)成二級(jí)排重結(jié)構(gòu),將排重過程分解成文件排重和數(shù)據(jù)塊排重兩部分。算法首先進(jìn)入第一級(jí)進(jìn)行文件排重,然后將第一級(jí)排重判定為不重復(fù)的文件分割成塊進(jìn)行第二級(jí)數(shù)據(jù)塊排重。利用這種分層排重結(jié)構(gòu),通過第一級(jí)將重復(fù)文件直接過濾掉,不進(jìn)入第二級(jí)排重,減少了數(shù)據(jù)塊排重的工作量
3、;通過第二級(jí)進(jìn)入不重復(fù)文件內(nèi)部進(jìn)行數(shù)據(jù)塊排重,獲得了數(shù)據(jù)塊級(jí)的排重粒度。
2.本文將上述算法應(yīng)用于文檔備份系統(tǒng)中,實(shí)現(xiàn)對(duì)文檔的排重,由于算法采用布魯姆過濾器對(duì)數(shù)據(jù)進(jìn)行壓縮表達(dá),存在誤判可能,即假陽性誤判問題。本文設(shè)計(jì)通過查詢?cè)獢?shù)據(jù)(保存數(shù)據(jù)相關(guān)信息)來為誤判糾錯(cuò)。當(dāng)布魯姆過濾器判斷數(shù)據(jù)為重復(fù)時(shí),首先將元數(shù)據(jù)預(yù)讀到內(nèi)存中,在內(nèi)存中匹配元數(shù)據(jù)信息,若沒有找到,再讀取保存元數(shù)據(jù)的文件—索引文件查詢?cè)獢?shù)據(jù)。通過內(nèi)存、索引文件兩級(jí)元
4、數(shù)據(jù)查詢,杜絕了假陽性誤判的情況。
3.由于為假陽性誤判糾錯(cuò)需要對(duì)元數(shù)據(jù)進(jìn)行大量訪問,增加了排重時(shí)間開銷,本文設(shè)計(jì)將索引文件緩存,保證元數(shù)據(jù)操作的高效,以此提高排重效率。但系統(tǒng)的句柄數(shù)限制了同時(shí)緩存的索引文件數(shù)目,若索引文件過多,則不能同時(shí)緩存全部索引文件,需要進(jìn)行更多的磁盤IO,此時(shí)排重開銷與耗時(shí)都急劇升高,針對(duì)這種情況,采用動(dòng)態(tài)哈希算法來分配元數(shù)據(jù)地址,將元數(shù)據(jù)保存在少數(shù)幾個(gè)索引文件內(nèi),從而克服了句柄限制問題。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全的布魯姆過濾器和基于鍵值對(duì)的布魯姆過濾器.pdf
- 布魯姆過濾器查詢算法及其應(yīng)用研究.pdf
- 多布魯姆過濾器查詢算法及其應(yīng)用研究.pdf
- 基于布魯姆過濾器的覆蓋查詢算法.pdf
- 面向大數(shù)據(jù)的高效布魯姆過濾器研究與應(yīng)用.pdf
- 基于樹形結(jié)構(gòu)的布魯姆過濾器研究.pdf
- 基于布隆過濾器算法的網(wǎng)頁消重技術(shù)的實(shí)現(xiàn)與應(yīng)用.pdf
- 風(fēng)機(jī)過濾器的原理及其應(yīng)用.pdf
- 空氣過濾器的應(yīng)用
- 機(jī)械過濾器的選型和機(jī)械過濾器的原理
- 不銹鋼雙聯(lián)過濾器
- 纖維過濾器與靜電過濾器的比較與分析.pdf
- 新型管道-過濾器模式的研究及其應(yīng)用.pdf
- 一種面向DPI的內(nèi)存高效的布魯姆過濾器研究.pdf
- 過濾器.dwg
- 多層過濾器
- 過濾器選擇
- 過濾器.dwg
- 過濾器參數(shù)
- 過濾器消毒
評(píng)論
0/150
提交評(píng)論