版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1、kafka的message包括哪些信息一個Kafka的Message由一個固定長度的header和一個變長的消息體body組成header部分由一個字節(jié)的magic(文件格式)和四個字節(jié)的CRC32(用于判斷body消息體是否正常)構(gòu)成。當(dāng)magic的值為1的時候,會在magic和crc32之間多一個字節(jié)的數(shù)據(jù):attributes(保存一些相關(guān)屬性,比如是否壓縮、壓縮格式等等);如果magic的值為0,那么不存在attribute
2、s屬性body是由N個字節(jié)構(gòu)成的一個消息體,包含了具體的keyvalue消息2、怎么查看kafka的offset0.9版本以上,可以用最新的Consumerclient客戶端,有consumer.seekToEnd()consumer.position()可以用于得到當(dāng)前最新的offset:3、hadoop的shuffle過程一、Map端的shuffleMap端會處理輸入數(shù)據(jù)并產(chǎn)生中間結(jié)果,這個中間結(jié)果會寫到本地磁盤,而不是HDFS。每
3、個Map的輸出會先寫到內(nèi)存緩沖區(qū)中,當(dāng)寫入的數(shù)據(jù)達(dá)到設(shè)定的閾值時,系統(tǒng)將會啟動一個線程將緩沖區(qū)的數(shù)據(jù)寫到磁盤,這個過程叫做spill。在spill寫入之前,會先進(jìn)行二次排序,首先根據(jù)數(shù)據(jù)所屬的partition進(jìn)行排序,然后每個partition中的數(shù)據(jù)再按key來排序。partition的目是將記錄劃分到不同的Reducer上去,以期望能夠達(dá)到負(fù)載均衡,以后的Reducer就會根據(jù)partition來讀取自己對應(yīng)的數(shù)據(jù)。接著運(yùn)行com
4、biner(如果設(shè)置了的話),combiner的本質(zhì)也是一個Reducer,其目的是對將要寫入到磁盤上的文件先進(jìn)行一次處理,這樣,寫入到磁盤的數(shù)Spark有很多種模式,最簡單就是單機(jī)本地模式,還有單機(jī)偽分布式模式,復(fù)雜的則運(yùn)行在集群中,目前能很好的運(yùn)行在Yarn和Mesos中,當(dāng)然Spark還有自帶的Stalone模式,對于大多數(shù)情況Stalone模式就足夠了,如果企業(yè)已經(jīng)有Yarn或者M(jìn)esos環(huán)境,也是很方便部署的。stalone(
5、集群模式):典型的Materslave模式,不過也能看出Master是有單點(diǎn)故障的;Spark支持ZooKeeper來實(shí)現(xiàn)HAonyarn(集群模式):運(yùn)行在yarn資源管理器框架之上,由yarn負(fù)責(zé)資源管理,Spark負(fù)責(zé)任務(wù)調(diào)度和計算onmesos(集群模式):運(yùn)行在mesos資源管理器框架之上,由mesos負(fù)責(zé)資源管理,Spark負(fù)責(zé)任務(wù)調(diào)度和計算oncloud(集群模式):比如AWS的EC2,使用這個模式能很方便的訪問Amazo
6、n的S3Spark支持多種分布式存儲系統(tǒng):HDFS和S35、HDFS讀寫數(shù)據(jù)的過程讀:1、跟namenode通信查詢元數(shù)據(jù),找到文件塊所在的datanode服務(wù)器2、挑選一臺datanode(就近原則,然后隨機(jī))服務(wù)器,請求建立socket流3、datanode開始發(fā)送數(shù)據(jù)(從磁盤里面讀取數(shù)據(jù)放入流,以packet為單位來做校驗(yàn))4、客戶端以packet為單位接收,現(xiàn)在本地緩存,然后寫入目標(biāo)文件寫:1、根namenode通信請求上傳文件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2018最新java面試題整理
- 最新-黨務(wù)崗位面試題
- 最新麻醉專業(yè)面試題
- 最新社區(qū)面試題.doc
- 數(shù)據(jù)分析面試題
- 數(shù)據(jù)庫面試題
- 最新大廠數(shù)據(jù)湖面試題及知識點(diǎn)總結(jié)
- 最新大廠數(shù)據(jù)湖面試題及知識點(diǎn)總結(jié)
- 2018年度最新python面試題及內(nèi)容答案
- 最新書記員面試題~
- 最新書記員面試題
- 數(shù)據(jù)庫筆試面試題
- 數(shù)據(jù)庫面試題整理
- mysql數(shù)據(jù)庫面試題
- 數(shù)據(jù)庫筆試面試題
- 最新結(jié)構(gòu)化面試題~庫
- 最新結(jié)構(gòu)化面試題庫
- 數(shù)據(jù)庫面試題(附答案)
- 算法大全-面試題-數(shù)據(jù)結(jié)構(gòu)
- java數(shù)據(jù)結(jié)構(gòu)類面試題
評論
0/150
提交評論