版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、分布式基礎設施GFS由于搜索引擎需要處理海量的數(shù)據(jù),所以Google的兩位創(chuàng)始人LarryPage和SergeyBrin在創(chuàng)業(yè)初期設計一套名為“BigFiles”的文件系統(tǒng),而GFS(全稱為“GoogleFileSystem”)這套分布式文件系統(tǒng)則是“BigFiles”的延續(xù)。首先,介紹它的架構,GFS主要分為兩類節(jié)點:Master節(jié)點:主要存儲與數(shù)據(jù)文件相關的元數(shù)據(jù),而不是Chunk(數(shù)據(jù)塊)。元數(shù)據(jù)包括一個能將64位標簽映射到數(shù)據(jù)塊
2、的位置及其組成文件的表格,數(shù)據(jù)塊副本位置和哪個進程正在讀寫特定的數(shù)據(jù)塊等。還有Master節(jié)點會周期性地接收從每個Chunk節(jié)點來的更新(”Heartbeat”)來讓元數(shù)據(jù)保持最新狀態(tài)。Chunk節(jié)點:顧名思義,肯定用來存儲Chunk,數(shù)據(jù)文件通過被分割為每個默認大小為64MB的Chunk的方式存儲,而且每個Chunk有唯一一個64位標簽,并且每個Chunk都會在整個分布式系統(tǒng)被復制多次,默認為3次。下圖就是GFS的架構圖:圖1.GFS
3、的架構圖(參片[15])接著,在設計上,GFS主要有八個特點:大文件和大數(shù)據(jù)塊:數(shù)據(jù)文件的大小普遍在GB級別,而且其每個數(shù)據(jù)塊默認大小為64MB,這樣做的好處是減少了元數(shù)據(jù)的大小,能使Master節(jié)點能夠非常方便地將元數(shù)據(jù)放置在內(nèi)存中以提升訪問效率。操作以添加為主:因為文件很少被刪減或者覆蓋,通常只是進行添加或者讀取操作,這樣能充分考慮到硬盤線性吞吐量大和隨機讀寫慢的特點。支持容錯:首先,雖然當時為了設計方便,采用了單Master的方案
4、,但是整個系統(tǒng)會保證每個Master都會有其相對應的復制品,以便于在Master節(jié)點出現(xiàn)問題時進行切換。其次,在Chunk層,GFS已經(jīng)在設計上將節(jié)點失敗視為常態(tài),所以能非常好地處理Chunk節(jié)點失效的問題。高吞吐量:雖然其單個節(jié)點的性能無論是從吞吐量還是延遲都很普通,但因為其支持上千的節(jié)點,所以總的數(shù)據(jù)吞吐量是非常驚人的。保護數(shù)據(jù):首先,文件被分割成固定尺寸的數(shù)據(jù)塊以便于保存,而且每個數(shù)據(jù)塊都會被系圖2.MapReduce的運行機制(
5、參[19])接下來,將根據(jù)上圖來舉一個MapReduce的例子:比如,通過搜索Spider將海量的Web頁面抓取到本地的GFS集群中,然后Index系統(tǒng)將會對這個GFS集群中多個數(shù)據(jù)Chunk進行平行的Map處理,生成多個Key為URL,value為html頁面的鍵值對(KeyValueMap),接著系統(tǒng)會對這些剛生成的鍵值對進行Shuffle(清理),之后系統(tǒng)會通過Reduce操作來根據(jù)相同的key值(也就是URL)合并這些鍵值對。最
6、后,通過MapReduce這么簡單的編程模型,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細節(jié)隱藏起來,比如自動并行化,負載均衡和機器宕機處理等,這樣將極大地簡化程序員的開發(fā)工作。MapReduce可用于包括“分布grep,分布排序,web訪問日志分析,反向索引構建,文檔聚類,機器學習,基于統(tǒng)計的機器翻譯,生成Google的整個搜索的索引“等大規(guī)模數(shù)據(jù)處理工作。Yahoo也推出MapReduce的開源版本Hadoop,而且Hadoop在
7、業(yè)界也已經(jīng)被大規(guī)模使用。SawzallSawzall可以被認為是構建在MapReduce之上的采用類似Java語法的DSL(DomainSpecificLanguage),也可以認為它是分布式的AWK。它主要用于對大規(guī)模分布式數(shù)據(jù)進行篩選和聚合等高級數(shù)據(jù)處理操作,在實現(xiàn)方面,是通過解釋器將其轉化為相對應的MapReduce任務。除了Google的Sawzall之外,yahoo推出了相似的Pig語言,但其語法類似于SQL。分布式數(shù)據(jù)庫技術
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論