

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)分析關鍵技術(shù),,概述即席查詢批量處理流式計算,大數(shù)據(jù)計算分析模式分類,即席查詢Ad-Hoc Query,批量處理Batch ProcessingMap/Reduce,流式計算Stream Computing,數(shù)據(jù)承載,響應時間,適用場景,磁盤,秒級(準實時),自然人交互式經(jīng)營分析,磁盤,分鐘級至小時級(準實時),事前/事后大批量數(shù)據(jù)處理,內(nèi)存(事件窗口非全量數(shù)據(jù)),秒級(實時),實時事件分析實時風險干
2、預,針對不同的業(yè)務領域,需要采用不同的數(shù)據(jù)計算分析方式,快速發(fā)現(xiàn)數(shù)據(jù)價值。,即席查詢,即席查詢(Ad Hoc)是用戶根據(jù)自己的需求,靈活的選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成相應的統(tǒng)計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發(fā)的,而即席查詢是用戶自定義查詢條件。,即席查詢,Storage,Distribute File System,Column Database,Resource Management,Par
3、allelCompute Framework,SQL Syntax+ Compute Framework,SQL Syntax,MetaData,Batch Processing,Ad-Hoc Query,實時性:高,批量處理,Storage,Distribute File System,Column Database,Resource Management,ParallelCompute Framework,SQL Synta
4、x+ Compute Framework,SQL Syntax,MetaData,Batch Processing,Ad-Hoc Query,MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行批量計算。概念Map和Reduce當前的主流實現(xiàn)是指定一個Map函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。形成這種模型的原因是:數(shù)據(jù)的分布式存儲、計算資源的
5、分布式、并行計算減少計算時長。,批量處理,實時性:低,流式計算,流數(shù)據(jù)的實時計算注重對流數(shù)據(jù)的快速高效處理、計算和分析。其特點是計算過程數(shù)據(jù)不落地,所有數(shù)據(jù)在內(nèi)存中完成。其計算模型是根據(jù)規(guī)則生成容器,當數(shù)據(jù)流經(jīng)過容器時,實時產(chǎn)生分析結(jié)果。,流式計算,InputAdapter,OutputAdapter,Engine Cluster,ClusterManagement,Rule Repository,NoSQL,,,,,,,實時性:
6、高,概述即席查詢批量處理流式計算,Impala Node,Impala架構(gòu),Impalad,Query Planner,Query Coordinator,Query Exec Engine,Common HiveQL & Interface,MetaData,SQL,JDBC,Hive MetaStore,HDFS NN,State Store,Impalad,Query Planner,Query Coordinato
7、r,Query Exec Engine,Impalad,Query Planner,Query Coordinator,Query Exec Engine,Data,HDFS DN,HBase,Data,HDFS DN,HBase,Data,HDFS DN,HBase,Impala Node,Impala Node,Local Direct Reads,,Thrift,,,,Hive架構(gòu),Data,HDFS DN,Task Tracke
8、r,Job Tracker,Name Node,Hadoop,Hive (Over Hadoop 0.20.X),,SQL,JDBC,WUI,Thrift Server,Driver(Compiler, Optimizer, Executor),Meta Store,ThriftServer:JDBC通過ThriftServer連接到Hive。ThriftServer連接MetaStore來讀取hive的元數(shù)據(jù)信息。MetaStor
9、e:在關系型數(shù)據(jù)庫中存放表/分區(qū)/列元數(shù)據(jù),可以低延遲的快速的訪問到需要的元數(shù)據(jù)信息。Driver/QueryCompiler/ExecutionEngine:客戶端提交的HiveSQL首先進入Driver,然后Driver會為此次HiveSQL的執(zhí)行創(chuàng)建一個Session,Driver維護整個session的生命周期。Driver首先將HiveSQL傳送給QueryCompiler,然后由QueryCompiler來對用戶提交的Hi
10、veSQL進行編譯/檢查/優(yōu)化并最終生成MapReduce任務。ExecutionEngine會與Hadoop進行交互,將 MapReduce任務交給Hadoop來執(zhí)行,并從Hadoop取得最終的執(zhí)行結(jié)果,并返回給用戶。,解析HiveSQL之后生成所MapReduce任務,在運行中訪問元數(shù)據(jù)信息時,將直接讀取生成的物理計劃時產(chǎn)生的plan.xml,此文件會被放入Hadoop的分布式緩存中,,MapReduce任務可以從分布式緩存中獲得
11、相應的元數(shù)據(jù)。,Impala相對于Hive的優(yōu)勢,Impala不需要把中間結(jié)果寫入磁盤,省掉了大量的I/O開銷。,省掉了MapReduce作業(yè)啟動的開銷。MapReduce啟動task的速度很慢(默認每個心跳間隔是3秒鐘),Impala直接通過相應的服務進程來進行作業(yè)調(diào)度,速度快了很多。,Impala借鑒了MPP并行數(shù)據(jù)庫的思想,可以做更多的查詢優(yōu)化,從而省掉不必要的shuffle、sort等開銷。,使用了支持Data locality
12、的I/O調(diào)度機制,盡可能地將數(shù)據(jù)和計算分配在同一臺機器上進行,減少了網(wǎng)絡開銷。,用C++實現(xiàn),做了很多有針對性的硬件優(yōu)化。對外提供多語言API、多種訪問協(xié)議。,中間結(jié)果,作業(yè)調(diào)度,作業(yè)分發(fā),數(shù)據(jù)訪問,代碼實現(xiàn),概述即席查詢批量處理流式計算,MapReduce v0.23.x (YARN),,Node Manager,Container,App Master,,Node Manager,Container,App Master,,N
13、ode Manager,Container,,Resource Manager,Client,Client,Job Submission,Container,MapReduce Status,Resource Request,Node Status,從 0.23.0 版本開始,Hadoop 的 MapReduce 框架完全重構(gòu)。新的 Hadoop MapReduce 框架命名為 MapReduceV2——YARN,概述即席查詢批量
14、處理流式計算Primeton CEPStorm,流數(shù)據(jù)處理技術(shù) 對比 傳統(tǒng)規(guī)則引擎(概念),按時間區(qū)間、按長度區(qū)間、按時間與長度混合區(qū)間、按特有屬性值等規(guī)則所建立起的對象集合,存放在內(nèi)存中。若動畫中,再對已分類的硬幣進行自動打包,有兩種方式:1. 判斷槽中的硬幣數(shù)量,觸發(fā)打包動作;2. 判斷槽中的硬幣重量,觸發(fā)打包動作;,窗口模式,如動畫中對硬幣的分揀動作:可以根據(jù)硬幣的物理屬性設計不同的判斷規(guī)則(軌道寬度,轉(zhuǎn)角等),完成分類。
15、,決策判斷,普元CEP平臺架構(gòu),事件采集層,Agent,Agent,Agent,Agent,外部系統(tǒng),系統(tǒng)A,系統(tǒng)B,系統(tǒng)C,系統(tǒng)D,接入層,Input Cluster 1…n,分析引擎平臺,結(jié)果執(zhí)行層,規(guī)則庫,分析引擎OSGi Based,…,分析引擎OSGi Based,接入層,Output Cluster 1…n,分析規(guī)則開發(fā)(離線開發(fā)),規(guī)則開發(fā)IDE(Eclipse Based),Action,Action,Actio
16、n,Action,,,應用門戶(功能松耦合),管理門戶(規(guī)則模板生命周期管理),運維門戶(引擎監(jiān)控、全局配置、自動化部署),業(yè)務門戶(規(guī)則實例業(yè)務參數(shù)配置),分析集群運行環(huán)境,管理控制環(huán)境,普元CEP平臺特色,基于云計算PaaS架構(gòu)分布式集群管控框架,系統(tǒng)級物理主機/虛擬機管理,進程級服務實例管理,集群配置分析規(guī)則熱更新/熱部署,與虛擬機鏡像結(jié)合分析服務快速部署,與規(guī)則庫結(jié)合規(guī)則插件快速部署,集群通知渠道規(guī)則
17、實例快速應用,自動化、圖形化運維,事件分析平臺,面向數(shù)據(jù)流,基于內(nèi)存,內(nèi)存狀態(tài)數(shù)據(jù)遷移,冷熱數(shù)據(jù)分離與恢復,集群規(guī)模水平伸縮,事件動態(tài)路由,分析規(guī)則開發(fā)、管理與應用,規(guī)則模板開發(fā)IDE,事件元數(shù)據(jù),類SQL規(guī)則語言,Action元數(shù)據(jù),Web規(guī)則實例配置與熱部署,Web規(guī)則模板管理,分布式集群管控框架,Any OS,持久化集群,AMQP MQ 集群,ZooKeeper 集群,Web 控制臺 (無狀態(tài), 多實例),負載均衡 (Ses
18、sion Sticky),物理/邏輯拓撲,規(guī)則模板模板,狀態(tài),規(guī)則實例,監(jiān)控業(yè)務進程(過濾/聚合)(Support ZKClient),ZK Client,OS (Support NodeJS),監(jiān)控業(yè)務進程(過濾/聚合)(unSupport ZKClient),Process Daemon(NodeJS+ZKClient),OS (unSupport NodeJS),監(jiān)控業(yè)務進程(過濾/聚合)(unSupport ZKClie
19、nt),Process Daemon(Java+ZKClient),OS Agent(NodeJS+ZKClient+MQClient),OS Agent(NodeJS+ZKClient+MQClient),OS Agent(Java+ZKClient+MQClient),,,,管控服務,ZK客戶端,DB客戶端,MQ客戶端,,規(guī)則部署與配置場景,運維人員,Repository,業(yè)務Console,業(yè)務人員,DB,CEPEngi
20、ne1,CEPEngine2,CEPEngine3,ZooKeeper,3. 下載規(guī)則的表單頁面,2. 保存規(guī)則到倉庫,運維Console,4. 規(guī)則參數(shù)配置,5. 保存規(guī)則參數(shù)配置,6. 保存規(guī)則參數(shù)配置到ZooKeeper,engine1,Rule1,Rule2,Rule3,engine2,Rule4,engines,7. 通知Engine,1. 上傳規(guī)則部署包,8. 下載規(guī)則,2’. 保存規(guī)則信息到DB,接出層,分析引擎,接
21、入層,分析引擎A,規(guī)則實例A1,規(guī)則實例A2,規(guī)則實例An,規(guī)則實例A3,分析引擎B,事件路由1,事件路由p,事件路由…,事件去重1,事件去重q,事件去重…,NoSQL,負載均衡(可選),事件輸入,事件輸出,集群管理,,,MQ,MQ,事件,分析規(guī)則,1:n,分析引擎實例,n:1,規(guī)則,,規(guī)則實例B1,規(guī)則實例B2,規(guī)則實例Bn,規(guī)則實例B3,普元CEP關鍵技術(shù)——事件路由與去重,多副本冗余增強可靠性,分析引擎,實例3,
22、實例4,實例2,普元CEP關鍵技術(shù)——實例狀態(tài)復制,接出層,接入層,實例1,實例A1,實例A2異常,實例A3,事件路由,事件去重,事件輸入,事件輸出,實例A4新增,場景說明實例A2異常實例A4新增,Context,Context,Context,Context包括最終接收事件號狀態(tài)對象,關鍵步驟1從A1或A3中選擇一個實例,如A3,關鍵步驟2將A3工作暫停,獲得其Context此時A1正常工作,A2已經(jīng)退出,A
23、3暫停,關鍵步驟3創(chuàng)建新的實例A4(未啟動狀態(tài))將Context復制到A4中恢復A3的工作狀態(tài),啟動A4,關鍵點業(yè)務不中斷事件去重完成對重復事件的過濾可靠性取決于集群內(nèi)實例個數(shù),C,C,C,D,狀態(tài)數(shù)據(jù)遷移與備份,JVM,普元CEP關鍵技術(shù)——規(guī)則實例水平遷移,內(nèi)存,規(guī)則數(shù),事件量,JVM1,分析引擎,事件大小,容量預估模型,,,,,規(guī)則實例m,事件*,狀態(tài)*,分布式集群管理框架,規(guī)則實例n,事件*,狀態(tài)*,規(guī)則實例x
24、,事件*,狀態(tài)*,NoSQL(MongoDB),,JVM1,規(guī)則實例m,事件*,狀態(tài)*,規(guī)則實例x,事件*,狀態(tài)*,JVM2,規(guī)則實例x,事件*,狀態(tài)*,,運行期實時監(jiān)控,系統(tǒng)容量擴展,普元CEP關鍵技術(shù)——基于OSGi的規(guī)則部署包,規(guī)則庫目錄結(jié)構(gòu)和導出規(guī)則部署包的目錄結(jié)構(gòu)一致,方便部署和下載CEP Engine規(guī)則庫的目錄結(jié)構(gòu)與console的規(guī)則庫目錄結(jié)構(gòu)區(qū)別在于web目錄。一個rule目錄作為一個OSGi的bundle,ru
25、les,Java package,classes,rule1.rule,eps,eps1.eps,lib,3rd1.jar,Action1.class,ExtFunc.class,rule1,eventSource,event1.event,event2.event,web,form1.jsp,rule2,Listener1.class,META-INF,MANIFEST.MF,ext,extconfig1,OSGi Bundle,規(guī)則
26、庫/部署包,規(guī)則模板熱部署,普元CEP 1.5平臺(主機管理),普元CEP 1.5平臺(集群管理),普元CEP 1.5平臺(實例管理),普元CEP 1.5平臺(規(guī)則模板管理),普元CEP 1.5平臺(規(guī)則實例管理),普元CEP 1.5平臺(狀態(tài)監(jiān)控),普元CEP 1.5平臺(規(guī)則模板元數(shù)據(jù)),普元CEP 1.5平臺(規(guī)則實例業(yè)務參數(shù)配置),普元CEP 1.5平臺(規(guī)則包),,概述即席查詢批量處理流式計算Primeton CEP
27、Storm,Storm基本概念,Stream,Spout,Bolt,Streaming Grouping,Task,Work,消息流,一個無盡的Tuple序列。,Topology,規(guī)則拓撲,由多個Spout和Bolt組成。,消息發(fā)送器,區(qū)分可靠與不可靠。,消息處理器,業(yè)務邏輯載體,多入多出。,消息分組方式,數(shù)據(jù)進入Blot的策略。,工作任務,可以是Spout或Blot。,工作進程,當JVM且執(zhí)行Topology的一部分。,Storm集群
28、組件,主控節(jié)點,運行一個被稱為Nimbus的后臺程序,它負責在Storm集群內(nèi)分發(fā)代碼,分配任務給工作機器,并且負責監(jiān)控集群運行狀態(tài)。,工作節(jié)點,運行一個被稱為Supervisor的后臺程序。Supervisor負責監(jiān)聽從Nimbus分配給它執(zhí)行的任務,并啟動或停止執(zhí)行任務的工作進程(Worker)。每一個工作進程(Worker)執(zhí)行一個Topology的子集。,Nimbus和Supervisor節(jié)點之間所有的協(xié)調(diào)工作是通過Zookee
29、per集群來實現(xiàn)的。此外,Nimbus和Supervisor進程都是無狀態(tài)的。,節(jié)點間信令ZooKeeper,用ZeroMQ作為底層消息隊列, 使消息能快速被處理。,數(shù)據(jù)傳遞ZeroMQ,Storm可靠性,原則,保證每個Tuple被Topology完整執(zhí)行。,每個Tuple經(jīng)過Spout/Blot后,形成一個消息樹。,消息樹,Emit通知新Tuple生成, Ack通知Tuple處理完畢。,生命周期,超時,每個Tuple都包含一個超時時間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于大數(shù)據(jù)的高考志愿數(shù)據(jù)分析關鍵技術(shù)研究.pdf
- 大數(shù)據(jù)關鍵技術(shù)
- 動車組復雜裝備大數(shù)據(jù)分析關鍵技術(shù)研究與實現(xiàn).pdf
- 大數(shù)據(jù)架構(gòu)與關鍵技術(shù)
- 大數(shù)據(jù)架構(gòu)與關鍵技術(shù)
- 基因表達數(shù)據(jù)分析和處理關鍵技術(shù).pdf
- 大數(shù)據(jù)處理的關鍵技術(shù)
- 大數(shù)據(jù)分析方法
- 多模態(tài)媒體數(shù)據(jù)分析關鍵技術(shù)研究.pdf
- 眼科專科影像數(shù)據(jù)分析關鍵技術(shù)研究.pdf
- 基因微陣列數(shù)據(jù)分析關鍵技術(shù)研究.pdf
- 實時流數(shù)據(jù)分析的關鍵技術(shù)及應用.pdf
- 大數(shù)據(jù)關鍵技術(shù)_王秀磊.pdf
- 實時大數(shù)據(jù)分析平臺-硬件技術(shù)方案
- 法學大數(shù)據(jù)分析平臺
- 大數(shù)據(jù)分析基礎試卷
- 基于GPU的大數(shù)據(jù)OLAP分析關鍵技術(shù)的研究.pdf
- 基于大數(shù)據(jù)的信息系統(tǒng)關鍵技術(shù)
- 女裝大數(shù)據(jù)分析思路
- 基于大數(shù)據(jù)技術(shù)的用電行為分析關鍵技術(shù)研究.pdf
評論
0/150
提交評論