2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、建國以來,各相關(guān)單位在中國海域和大洋地區(qū)相繼開展了多次大規(guī)模的海洋調(diào)查研究工作,積累了豐富的海洋數(shù)據(jù)。如何有效地管理和利用這些數(shù)據(jù),為國民經(jīng)濟建設(shè)和國防服務(wù),是一個亟待解決的問題?!昂Q蟓h(huán)境數(shù)據(jù)倉庫和數(shù)據(jù)挖掘研究”正是基于此而提出的一個課題,它是由東北大學(xué)軟件所和國家海洋信息中心合作開發(fā),包括數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和OLAP三個部分。本文重點討論海洋環(huán)境數(shù)據(jù)庫中ETL系統(tǒng)關(guān)鍵技術(shù)的研究及系統(tǒng)設(shè)計和實現(xiàn)。 提高數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量是ETL

2、的重要任務(wù),數(shù)據(jù)清洗相關(guān)算法的研究已經(jīng)相當成熟,然而數(shù)據(jù)清洗是否有效更重要的在于清洗規(guī)則制定的準確程度。為了方便數(shù)據(jù)庫的開發(fā)人員和源數(shù)據(jù)管理員的溝通,提高清洗規(guī)則制定的準確度和可信度,本文提出了把數(shù)據(jù)清洗的部分工作放在ETL過程的開始部分執(zhí)行的改進架構(gòu)。它將原來主要集中在ETL服務(wù)器上的數(shù)據(jù)清洗工作分散到了各個源數(shù)據(jù)端的服務(wù)器上,增強了系統(tǒng)的并行度,減輕了ETL服務(wù)器的負擔(dān),提高了清洗效率。該架構(gòu)同時將源數(shù)據(jù)改造和一般性變換后,利用數(shù)據(jù)

3、庫自帶的專用工具進行數(shù)據(jù)加載,大大提高了ETL的速度,減少了編碼的工作量,增強了系統(tǒng)的可靠性。該改進的架構(gòu)還支持統(tǒng)一的增量數(shù)據(jù)抽取,以及對空間數(shù)據(jù)特有的ETL問題進行了擴展。 本文提出了基于多線程/進程和任務(wù)平衡調(diào)度的優(yōu)化策略,以進一步提高數(shù)據(jù)加載的速度和資源的利用率。并對任務(wù)平衡調(diào)度策略進行了比較深入的研究,建立了基于工作流原理的多任務(wù)平衡調(diào)度模型,提出了靜態(tài)調(diào)度,動態(tài)調(diào)度和同層劃分的優(yōu)化調(diào)度策略。最后給出了改進的ETL架構(gòu)在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論