基于粗糙集屬性約減算法的Hadoop框架優(yōu)化.pdf_第1頁
已閱讀1頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、基于粗糙集的屬性約簡算法,作為數(shù)據(jù)挖掘最重要的子集被廣泛應用于計算機、生物、化學等多個領域,近年來隨著數(shù)據(jù)的爆炸式增長,傳統(tǒng)的單機運算已無法滿足多元化應用。云計算通過建立計算資源共享池,解決單臺設備計算能力不足的問題,消除應用瓶頸,分布式計算作為其重要技術之一,能夠使用普通PC代替大型計算設備,具備低成本、高可靠、易擴展等特性,非常易于傳統(tǒng)算法移植。然而,在實際的算法分布化過程中,復雜的流程劃分與順序調(diào)度會引起中間結果與磁盤的頻繁交互,

2、引起大量的時間與空間資源消耗,因此,本文設計并實現(xiàn)一個讀寫分離的數(shù)據(jù)緩存中心,通過重定向分布式框架中的數(shù)據(jù)讀寫、封裝及傳輸流程,加速數(shù)據(jù)流轉,減少額外消耗。
  首先,實現(xiàn)傳統(tǒng)屬性約簡算法在集群內(nèi)的分布式化。根據(jù)分布式計算特性改寫傳統(tǒng)算法的數(shù)據(jù)處理與讀寫模式,并通過實驗比對驗證,隨著輸入數(shù)據(jù)集增長,兩種算法的耗時收斂性,進而分析由于算法步驟劃分導致的計算框架重復啟動、中間結果頻繁交互磁盤等問題,提出解決問題的構想。
  隨后

3、,設計并實現(xiàn)一個基于閃存、讀寫分離的數(shù)據(jù)中心,運算的中間結果均可通過該中心進行傳遞和銜接。該種架構能夠避免大量的慢讀寫,合理利用有限資源,發(fā)揮普通PC與小型服務器應有的作用。同時,為了給集群運算提供更加穩(wěn)定、高效的中間緩存機制,數(shù)據(jù)中心使用單例模式、鎖機制、共享內(nèi)存、多線程、流傳輸、邏輯分離等多項技術優(yōu)化架構,重定向框架底層的通信以及數(shù)據(jù)封裝機制,并使用Socket機制初始化流通道,在模塊內(nèi)嵌入相應的拆裝箱及數(shù)據(jù)處理方法,整合輸入信息以

4、便快速讀取,使得數(shù)據(jù)處理與數(shù)據(jù)傳輸完全分離,提供更加友好靈活的緩存機制。優(yōu)化后的框架,不僅能夠良好地支持傳統(tǒng)算法在分布式集群內(nèi)的高效運行,還降低了額外的磁盤讀寫開銷,更以集群和數(shù)據(jù)中心為依托,提升了算法在任務并發(fā)、數(shù)據(jù)規(guī)模兩方面的延展性,為海量數(shù)據(jù)應用提供堅實的基礎。
  最后,通過實驗驗證優(yōu)化的有效性。采用小規(guī)模集群對威斯康星數(shù)據(jù)庫內(nèi)多個數(shù)據(jù)集進行驗證,通過對比本地串行、分布式計算及框架優(yōu)化前后的分布式計算耗時,考察框架的實際運

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論