版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、<p><b> 北京航空航天大學(xué)</b></p><p> 本科畢業(yè)設(shè)計(論文)中期報告</p><p> 論文題目:面向Hadoop科學(xué)工作流的可視化支撐環(huán)境</p><p><b> 的研究與實現(xiàn)</b></p><p><b> 專業(yè)名稱:</b>&
2、lt;/p><p><b> 學(xué)生姓名:</b></p><p><b> 指導(dǎo)教師:</b></p><p> 北京航空航天大學(xué)計算機(jī)學(xué)院</p><p> 2012年4月12日</p><p><b> 目錄</b></p>&l
3、t;p> 1、課題背景和意義1</p><p> 2、研究目標(biāo)和內(nèi)容2</p><p> 2.1、用戶交互界面的設(shè)計與實現(xiàn)2</p><p> 2.2、工作流XML描述腳本的動態(tài)生成與解析2</p><p> 2.3、監(jiān)視系統(tǒng)的研究與實現(xiàn)2</p><p><b> 3、工作進(jìn)展
4、3</b></p><p> 3.1 用戶交互界面的工作進(jìn)展3</p><p> 3.2 XML腳本生成器與解析器的工作進(jìn)展4</p><p> 3.3 Hadoop監(jiān)視系統(tǒng)的工作進(jìn)展6</p><p><b> 4、下一步計劃7</b></p><p> 5、主要參
5、考文獻(xiàn)7</p><p><b> 1、課題背景和意義</b></p><p> 本課題來源于軟件開發(fā)環(huán)境國家重點實驗室承擔(dān)的工信部“唯實”人才培育基金“面向科研群組的科技資源云共享機(jī)制研究”的后續(xù)研究工作。</p><p> 工作流[](Workflow),是對工作流程及其各個步驟之間業(yè)務(wù)規(guī)劃的抽象、概括和描述。為了減少科研人員在科研
6、計算環(huán)境工作上的精力投入,各個科研組織亟須一種類似于管理業(yè)務(wù)流程的工作流管理平臺來對復(fù)雜的科學(xué)計算流程進(jìn)行定義和自動化管理??茖W(xué)工作流(Scientific Workflow, SWF)技術(shù)正是在這種需求下應(yīng)運(yùn)而生,它作為一種促進(jìn)和保障協(xié)同開發(fā)的技術(shù)路線,為科研人員提供一個科學(xué)計算流程定義和自動運(yùn)行的管理平臺。SWF是工作流技術(shù)在科學(xué)研究領(lǐng)域的應(yīng)用,如今已經(jīng)成為網(wǎng)絡(luò)基礎(chǔ)設(shè)施之上進(jìn)行大規(guī)??茖W(xué)計算和協(xié)同研究的有效方法。相對于以過程為中心,
7、面向控制流的商業(yè)工作流,SWF通常是圍繞試驗進(jìn)行的,以數(shù)據(jù)為中心,面向數(shù)據(jù)流的分析管道。SWF趨向于建立一個以數(shù)據(jù)流為導(dǎo)向的可執(zhí)行模型,而業(yè)務(wù)工作流則把重點放在控制流的模式與活動。工作流應(yīng)用到科學(xué)研究領(lǐng)域,不僅僅在于它能夠?qū)σ恍┲貜?fù)性任務(wù)進(jìn)行自動控制,同時,它能夠在不同層面對復(fù)雜的分析過程進(jìn)行跟蹤[]。</p><p> Hadoop[]是一個云計算環(huán)境下的分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細(xì)節(jié)的情
8、況下開發(fā)分布式程序。Hadoop技術(shù)的兩大核心是MapReduce[]和HDFS[]。MapReduce是由Google公司開發(fā)的一種可用于數(shù)據(jù)處理的編程模型,它的任務(wù)過程被分為兩個處理階段:map階段和reduce階段,每個階段都以鍵/值對作為輸入和輸出,并由程序員選擇它們的類型,同時還需具體定義兩個函數(shù):map函數(shù)和reduce函數(shù)。HDFS(Hadoop Distributed File System)是Hadoop實現(xiàn)的一個分布
9、式文件系統(tǒng),它有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上。Hadoop能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理,而且其處理方式是可靠的、高效的和可伸縮的,將Hadoop應(yīng)用于科學(xué)工作流可以大大提高科學(xué)計算的效率。</p><p> 本課題研究的面向Hadoop科學(xué)工作流的可視化支撐環(huán)境,其意義主要體現(xiàn)在以下2點:</p><p> 1、科研人員可以在交互界面實現(xiàn)對科學(xué)計算流程的靈活定制,且
10、Hadoop平臺上的計算過程對于用戶都是透明的,科研人員無需關(guān)心數(shù)據(jù)計算的具體實現(xiàn),這大大提高了科研工作的效率;</p><p> 2、通過監(jiān)視系統(tǒng)的信息反饋,科研人員可以在交互界面實時查看作業(yè)中各個任務(wù)在Hadoop平臺上的運(yùn)行狀態(tài)。</p><p><b> 2、研究目標(biāo)和內(nèi)容</b></p><p> 科學(xué)工作流的可視化支撐環(huán)境的研
11、究目的是為科研人員提供一個科學(xué)計算流程定義以及作業(yè)運(yùn)行狀態(tài)監(jiān)測的管理平臺,該管理平臺結(jié)構(gòu)如圖3-1所示, </p><p> 圖2-1 可視化支撐環(huán)境系統(tǒng)結(jié)構(gòu)圖</p><p> 該可視化支撐環(huán)境系統(tǒng)的研究內(nèi)容主要包括以下3部分:</p><p> 2.1、用戶交互界面的設(shè)計與實現(xiàn)</p><p> 對科研人員的科學(xué)計算工作流程進(jìn)行
12、調(diào)研,針對用戶需求進(jìn)行分析,設(shè)計功能完善且用戶友好型的交互界面,并用相關(guān)的Web技術(shù)加以實現(xiàn);</p><p> 2.2、工作流XML描述腳本的動態(tài)生成與解析</p><p> 研究并實現(xiàn)科學(xué)工作流XML描述腳本的生成器與解析器,利用XML腳本生成器根據(jù)作業(yè)提交信息動態(tài)生成工作流XML描述腳本,該腳本提供了作業(yè)內(nèi)部多個任務(wù)的先后執(zhí)行順序,并利用XML腳本解析器對該XML描述腳本進(jìn)行解析
13、,將得到的解析結(jié)果存入關(guān)系數(shù)據(jù)庫,為Hadoop平臺的程序執(zhí)行提供依據(jù);</p><p> 2.3、監(jiān)視系統(tǒng)的研究與實現(xiàn)</p><p> 為了能夠?qū)崟r地查看作業(yè)的運(yùn)行狀態(tài),包括作業(yè)內(nèi)部各個任務(wù)的運(yùn)行狀態(tài)(包括開始時間、等待時間、執(zhí)行時間、完成百分比和執(zhí)行結(jié)果等),我們需要設(shè)計一個監(jiān)視系統(tǒng)來對這些數(shù)據(jù)進(jìn)行監(jiān)測,并將這些數(shù)據(jù)存入關(guān)系數(shù)據(jù)庫。</p><p><
14、;b> 3、工作進(jìn)展</b></p><p> 3.1 用戶交互界面的工作進(jìn)展</p><p> WireIt是一個可以用于開發(fā)數(shù)據(jù)流應(yīng)用、可視化編程語言、圖形化建模以及圖形化編輯器的開源javascript庫。同時,WireIt自身調(diào)用了YUI和InputEx,YUI和InputEx都是開源的javascript庫。</p><p> 由
15、于是在WireIt基礎(chǔ)上開發(fā)交互界面,我首先對WireIt的源代碼進(jìn)行了研究,其源代碼的簡要UML類圖如下圖所示:</p><p> 圖3.1 WireIt源代碼UML類圖</p><p> WireIt是一個可以靈活定制的開源工具,如下圖是一個自定義的工作流:</p><p> 圖3.2 自定義的工作流</p><p> 3.2 X
16、ML腳本生成器與解析器的工作進(jìn)展</p><p> XML腳本的生成由交互界面內(nèi)的javascript代碼來完成,由于交互界面還處于前臺的設(shè)計編碼階段,故XML腳本生成器會在后期的工作中完成。</p><p> 在前段時間的工作中,我完成了XML腳本解析器的代碼編寫,其UML類圖結(jié)構(gòu)如下圖所示:</p><p> 圖3.3 XML腳本解析器UML類圖</
17、p><p> 在完成了XML腳本解析器的同時,我還完成了工作流數(shù)據(jù)庫表的設(shè)計,并實現(xiàn)了從工作流XML描述腳本到數(shù)據(jù)庫的存儲,其表設(shè)計如下所示。</p><p> Workflow表(用于存儲當(dāng)前最大的工作流編號): </p><p> Block表(用于存儲工作流中的作業(yè)):</p><p> Connector表(用于存儲工作流中作業(yè)之
18、間的聯(lián)系):</p><p> 3.3 Hadoop監(jiān)視系統(tǒng)的工作進(jìn)展</p><p> 在Hadoop監(jiān)視系統(tǒng)方面,我前段時間主要學(xué)習(xí)了Hadoop平臺的工作機(jī)制,包括Hadoop運(yùn)行MapReduce作業(yè)的工作原理、MapReduce的shuffle和排序機(jī)制以及狀態(tài)更新在MapReduce系統(tǒng)中的傳遞過程。該監(jiān)視系統(tǒng)的實現(xiàn)依賴于狀態(tài)更新在MapReduce系統(tǒng)中的傳遞。</
19、p><p> 圖3.4 狀態(tài)更新在MapReduce系統(tǒng)中的傳遞過程</p><p> 經(jīng)過學(xué)習(xí)并仔細(xì)研究,我總結(jié)出了4種方法可以從Hadoop系統(tǒng)中獲取工作流的運(yùn)行狀態(tài),并準(zhǔn)備在后期的工作中加以實現(xiàn):</p><p> 通過 Hadoop Java API 編程獲取狀態(tài)</p><p> 通過Hadoop內(nèi)置的計數(shù)器獲取狀態(tài)</p
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)格環(huán)境下基于科學(xué)工作流的可視化研究與實現(xiàn).pdf
- 工作流及其可視化研究與應(yīng)用.pdf
- 面向用戶的科學(xué)工作流數(shù)據(jù)跟蹤的研究與實現(xiàn).pdf
- 可視化工作流模型的設(shè)計與實現(xiàn)研究.pdf
- e-Science工作流可視化編輯器的研究與實現(xiàn).pdf
- 可視化工作流建模工具的設(shè)計與實現(xiàn).pdf
- 工作流實例方面可視化建模工具的研究.pdf
- 多集群網(wǎng)格環(huán)境中面向科學(xué)工作流應(yīng)用的調(diào)度研究.pdf
- 基于工作流的過程管理可視化平臺研究.pdf
- 工作流引擎及其可視化實現(xiàn)關(guān)鍵技術(shù)研究.pdf
- BPEL4WS工作流可視化建模工具的設(shè)計與實現(xiàn).pdf
- 面向科學(xué)工作流的云數(shù)據(jù)布局方法研究.pdf
- 基于Eclipse的可視化工作流編輯器的研究與實現(xiàn).pdf
- 可視化工作流建模工具的研究與設(shè)計.pdf
- 基于eclipse的可視化工作流編輯器的研究與實現(xiàn)(1)
- 基于Hadoop的工作流系統(tǒng)設(shè)計與實現(xiàn).pdf
- 面向應(yīng)用的可視化環(huán)境研究.pdf
- 面向服務(wù)的工作流研究與實現(xiàn).pdf
- 支持復(fù)雜應(yīng)用的工作流模型的研究與一個可視化工作流定義工具的實現(xiàn).pdf
- 科學(xué)計算可視化報告
評論
0/150
提交評論