2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)技術(shù)及應(yīng)用,1,,2,,3,大數(shù)據(jù)應(yīng)用,,目 錄,大數(shù)據(jù)時(shí)代,大數(shù)據(jù)技術(shù),大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代,生活、工作與思維的大變革,Living, working and thinking big changes,一場生活、工作與思維的大變革,大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。就想望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)……,大

2、數(shù)據(jù),變革生活大數(shù)據(jù),變革商業(yè)大數(shù)據(jù),變革思維大數(shù)據(jù),開啟重大的時(shí)代轉(zhuǎn)型預(yù)測是大數(shù)據(jù)的核心,第一個(gè)故事,百貨公司知道女孩懷孕第二個(gè)故事,搜索熱詞里的商機(jī)第三個(gè)故事,阿里知道誰需要貸款第四個(gè)故事,中移動(dòng)挽留流失客戶第五個(gè)故事:每天,我們借助大數(shù)據(jù)完成微信上的互動(dòng)第六個(gè)故事:大數(shù)據(jù)解救每一位“路盲”第七個(gè)故事:大數(shù)據(jù)協(xié)助大閘蟹養(yǎng)殖,大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代,國家電網(wǎng)大數(shù)據(jù)案例,基于PMS(電力生產(chǎn)系統(tǒng))系統(tǒng)數(shù)據(jù),構(gòu)建基于詞

3、云圖分析的文本信息挖掘及可視化實(shí)現(xiàn)對(duì)電網(wǎng)設(shè)備的家族缺陷信息的快速分析。,,7,設(shè)備類型,設(shè)備型號(hào),斷路器,查詢,LW25-126,信息查詢:,,,,,,,大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代,西安公交集團(tuán)大數(shù)據(jù)案例 公交司機(jī)駕駛行為直接影響到乘客的安全,如全國公交一樣,西安公交集團(tuán)在每輛公交車上安裝了監(jiān)控設(shè)備,每日審核監(jiān)控視頻,對(duì)開車過程中出現(xiàn)違章行為的司機(jī)進(jìn)行罰款處理,但由于公交車多,視頻數(shù)量極大,這給分析處理視頻的工作人

4、員帶來了很大的工作壓力,因此公交集團(tuán)希望能夠建立一種快速視頻識(shí)別分析手段,以緩解當(dāng)前這種情況。,如何能讓20多名工作人員從每天10個(gè)小時(shí)的視頻審核工作中解脫出來???,大數(shù)據(jù)時(shí)代,違章類型:吸煙,違章時(shí)間:2014-01-16,違章視頻時(shí)間:10:57---10:58,違章車輛:陜A XXXXX,違章人:張XX,通過數(shù)據(jù)挖掘,使工作人員從每天長達(dá)數(shù)千小時(shí)視頻違章信息篩選工作中脫離出來,將原來需要數(shù)十小時(shí)的視頻審核工作,縮短為幾個(gè)小時(shí)完成

5、,大大提高了工作效率。且可以有效避免人為舞弊的情況。,,大數(shù)據(jù)時(shí)代,數(shù)據(jù):2014年10月納稅人A申報(bào)營業(yè)額為10萬。 信息: 2014年10月納稅人A申報(bào)營業(yè)額比去年同期減少了25 %。 知識(shí):原因是納稅人A在華東地區(qū)的渠道銷售不利,或其產(chǎn)品B進(jìn)入了衰退期,還是公司整體營銷活動(dòng)落后,競爭者強(qiáng)力促銷導(dǎo)致?或是其它原因。針對(duì)這一問題公司應(yīng)對(duì)的策略是什么? 智慧:應(yīng)對(duì)的行動(dòng)方案可能有多種,但(戰(zhàn)略)選擇哪個(gè)靠智慧。行動(dòng)則又會(huì)產(chǎn)生新的交

6、易數(shù)據(jù)。,大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代的思維變革,“更多”-不是隨機(jī)樣本,而是全體數(shù)據(jù),當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地的變化時(shí),在大數(shù)據(jù)時(shí)代進(jìn)行抽樣分析就像在汽車時(shí)代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本=總體”。,讓數(shù)據(jù)“發(fā)聲”小數(shù)據(jù)時(shí)代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息全數(shù)據(jù)模式,樣本=總體,大數(shù)據(jù)時(shí)代,“更雜”-滿足精確性,包容混雜性,執(zhí)迷于精確性是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物。只有5%的數(shù)據(jù)是有框架且能適用于傳統(tǒng)

7、數(shù)據(jù)庫的。如果不能接受混亂,剩下95%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。,允許不精確大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效紛繁的數(shù)據(jù)越多越好混雜性,不是竭力避免,而是標(biāo)準(zhǔn)途徑新的數(shù)據(jù)庫設(shè)計(jì)的誕生,大數(shù)據(jù)時(shí)代的思維變革,大數(shù)據(jù)時(shí)代,“更好”-不是因果關(guān)系,而是相關(guān)關(guān)系,知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時(shí)代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”

8、。,關(guān)聯(lián)物,預(yù)測的關(guān)鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?大數(shù)據(jù)時(shí)代的思維變革,大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代的商業(yè)變革,“數(shù)據(jù)化”-一切皆可“量化”,大數(shù)據(jù)發(fā)展的核心動(dòng)力來源于人類測量、記錄和分析世界的渴望。信息技術(shù)變革隨處可見,但是如今信息技術(shù)變革的重點(diǎn)在“T”(技術(shù))上,而不是在“I”(信息)上?,F(xiàn)在,我們是時(shí)候把聚光燈打向“I”,開始關(guān)注信息本身了。,數(shù)據(jù),從最不可能的地方提取出來數(shù)據(jù)

9、化,不是數(shù)字化量化一切,數(shù)據(jù)化的核心當(dāng)文字變成數(shù)據(jù)當(dāng)方位變成數(shù)據(jù)當(dāng)溝通成為數(shù)據(jù)一切事物的數(shù)據(jù)化,大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代的商業(yè)變革,“價(jià)值”-“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新,數(shù)據(jù)就像一個(gè)神奇的鉆石礦,當(dāng)它的首要價(jià)值被發(fā)掘后仍能不斷給予。它的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。,數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)數(shù)據(jù)創(chuàng)新3:可擴(kuò)展數(shù)據(jù)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值數(shù)據(jù)

10、創(chuàng)新5:數(shù)據(jù)廢氣數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)給數(shù)據(jù)估值,大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代的商業(yè)變革,“角色定位”-數(shù)據(jù)、技術(shù)與思維的三足鼎立,微軟以1.1億美元的價(jià)格購買了大數(shù)據(jù)公司Farecast,而兩年后谷歌則以7億美元的價(jià)格購買了給Farecast提供數(shù)據(jù)的ITA Software公司。如今,我們正處在大數(shù)據(jù)時(shí)代的早期,思維和技術(shù)是最有價(jià)值的,但是最終大部分價(jià)值還是必須從數(shù)據(jù)本身來挖掘。,大數(shù)據(jù)價(jià)值的3大構(gòu)成大數(shù)據(jù)掌控公司大數(shù)據(jù)技術(shù)公司大

11、數(shù)據(jù)思維公司和個(gè)人全新的數(shù)據(jù)中間商專家的消亡與數(shù)據(jù)科學(xué)家的崛起大數(shù)據(jù),決定企業(yè)的競爭力,大數(shù)據(jù)時(shí)代,大數(shù)據(jù)時(shí)代的管理變革,“風(fēng)險(xiǎn)”-讓數(shù)據(jù)主宰一切的隱憂,我們時(shí)刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關(guān)系網(wǎng)。,無處不在的“第三只眼”我們的隱私被二次利用了預(yù)測與懲罰,不是因?yàn)椤八觥?,而是因?yàn)椤皩⒆觥睌?shù)據(jù)獨(dú)裁掙脫

12、大數(shù)據(jù)的困境,大數(shù)據(jù)時(shí)代,“掌控”-責(zé)任與自由并舉的信息管理,當(dāng)世界開始邁向大數(shù)據(jù)時(shí)代時(shí),社會(huì)也將經(jīng)歷類似的地殼運(yùn)動(dòng)。在改變?nèi)祟惢镜纳钆c思考方式的同時(shí),大數(shù)據(jù)早已在推動(dòng)人類信息管理準(zhǔn)則上重新定位。然而,不同于印刷革命,我們沒有幾個(gè)世紀(jì)的時(shí)間去適應(yīng),我們也許只有幾年時(shí)間。,管理變革1:隱私保護(hù),從個(gè)人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任管理變革2:個(gè)人動(dòng)因VS預(yù)測分析管理變革3:打破黑盒子,大數(shù)據(jù)程序員的崛起管理變革4:企業(yè)和行業(yè)應(yīng)用突破

13、,大數(shù)據(jù)時(shí)代的管理變革,大數(shù)據(jù)時(shí)代,正在發(fā)生的未來,大數(shù)據(jù)并不是一個(gè)充斥著算法和機(jī)器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時(shí)的,而更好的方法和答案還在不久的未來。,1,,2,,3,大數(shù)據(jù)應(yīng)用,,目 錄,大數(shù)據(jù)技術(shù),大數(shù)據(jù)時(shí)代,大數(shù)據(jù)技術(shù),,,認(rèn)知,,,初識(shí),,大數(shù)據(jù)算法與理論大數(shù)據(jù)系統(tǒng)與實(shí)踐NoSQLHadoop,,,大數(shù)據(jù)帶來的思維變化大數(shù)據(jù)帶來的價(jià)值鏈大數(shù)據(jù)發(fā)展

14、現(xiàn)狀與未來大數(shù)據(jù) vs 人類,,什么是大數(shù)據(jù)大數(shù)據(jù)的特性大數(shù)據(jù)與傳統(tǒng)技術(shù)的關(guān)系大數(shù)據(jù)與其他新興技術(shù)的關(guān)系,,深入,,大數(shù)據(jù)技術(shù),什么是大數(shù)據(jù),百度百科:大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。維基百科:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,

15、通過數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。學(xué)術(shù)觀點(diǎn):大數(shù)據(jù)是由大量異構(gòu)的數(shù)據(jù)組成的數(shù)據(jù)集合,它是可以應(yīng)用合理的數(shù)學(xué)算法或工具從中找出有價(jià)值的信息,為人們帶來利益的一門新興學(xué)科。,大數(shù)據(jù)技術(shù),2009年,甲型H1N1流感在全球爆發(fā)傳播,為了發(fā)現(xiàn)和控制疫情,各國政府和衛(wèi)生相關(guān)部門付出了巨大努力,但得到的數(shù)據(jù)仍然滯后一兩周,而Google對(duì)人們的搜索的歷史記錄進(jìn)行處理,建立合理的數(shù)學(xué)模型后,得到的預(yù)測結(jié)果與官方的數(shù)據(jù)相關(guān)性高

16、達(dá)97%,能夠立刻判斷出流感是從哪里傳播出來的,沒有一兩周的滯后。Google處理了5000萬條歷史記錄、4.5億個(gè)不同的數(shù)學(xué)模型。,什么是大數(shù)據(jù),大數(shù)據(jù)技術(shù),Farecast是一個(gè)對(duì)機(jī)票價(jià)格進(jìn)行預(yù)測的公司,幫助消費(fèi)者抓住最佳購買機(jī)票的時(shí)機(jī),使乘客節(jié)省很多錢。最初預(yù)測系統(tǒng)建立在41天之內(nèi)的12000個(gè)價(jià)格樣本基礎(chǔ)上,數(shù)據(jù)是從旅游網(wǎng)站上抓取的,如今已經(jīng)擁有超過2000億條飛行記錄。系統(tǒng)只推測機(jī)票的價(jià)格何時(shí)最便宜,同時(shí)分析是什么原因?qū)?/p>

17、致的價(jià)格下降。,Farecast→Bing,什么是大數(shù)據(jù),大數(shù)據(jù)技術(shù),,,大數(shù)據(jù)的特性,,更關(guān)注相關(guān)性,,,,,,,,主要用于預(yù)測,,數(shù)據(jù)量巨大,,,,,實(shí)時(shí)性要求高,,,,大數(shù)據(jù)的特征,大數(shù)據(jù)技術(shù),大數(shù)據(jù)是在傳統(tǒng)數(shù)據(jù)庫學(xué)科的分支-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基礎(chǔ)上進(jìn)一步發(fā)展起來的。但有兩點(diǎn)比較主要的不同:結(jié)構(gòu)化程度傳統(tǒng)數(shù)據(jù)庫保存的是結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù),以二維表或者標(biāo)準(zhǔn)XML文件的方式存儲(chǔ)數(shù)據(jù),由于結(jié)構(gòu)清晰,處理相對(duì)容易;

18、大數(shù)據(jù)面向的是一切計(jì)算機(jī)可以存儲(chǔ)的數(shù)據(jù)格式,包括互聯(lián)網(wǎng)上的各種網(wǎng)頁、圖片、音頻、視頻,包括辦公文檔、報(bào)表,包括人們?cè)谒阉饕嬷休斎氲年P(guān)鍵詞、在社交網(wǎng)絡(luò)中的留言、喜好,也包括各種傳感器自動(dòng)收集的監(jiān)控結(jié)果等等,顯然不同的格式處理起來更加困難。異常數(shù)據(jù)的處理傳統(tǒng)數(shù)據(jù)庫通常把異常數(shù)據(jù)先剔除,應(yīng)用在需要高精確度的領(lǐng)域,如銀行對(duì)每個(gè)賬戶的管理;大數(shù)據(jù)則允許異常數(shù)據(jù)存在,更多應(yīng)用在預(yù)測方面,找出大量數(shù)據(jù)中隱藏的關(guān)聯(lián)關(guān)系,少量異常數(shù)據(jù)不會(huì)對(duì)總體結(jié)

19、果產(chǎn)生影響。,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫的區(qū)別,大數(shù)據(jù)技術(shù),大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)通信等都是近年涌現(xiàn)出來的新興概念,彼此之間不是孤立的,而是存在著內(nèi)部聯(lián)系。,大數(shù)據(jù)與其他新興技術(shù)的關(guān)系,大數(shù)據(jù)技術(shù),處理的對(duì)象往往是全部數(shù)據(jù),而不是部分?jǐn)?shù)據(jù)的采樣采樣的不合理會(huì)導(dǎo)致預(yù)測結(jié)果的偏差,在大數(shù)據(jù)時(shí)代,依靠強(qiáng)大的數(shù)據(jù)處理能力,應(yīng)該去處理全部的數(shù)據(jù)。不再執(zhí)迷于精確性精確的、規(guī)范化的、可以被傳統(tǒng)數(shù)據(jù)庫處理的數(shù)據(jù)只占全部數(shù)據(jù)的5%,必須接受不精確性才

20、能處理另外95%的數(shù)據(jù)。錯(cuò)誤的數(shù)據(jù)是客觀存在的,竭力避免它就失去了應(yīng)有的客觀性和公平性。大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效。更加關(guān)注相關(guān)性,而不是因果性預(yù)測依靠的是相關(guān)性。很多情況下知道“是什么”即可,不必知道“為什么”。,大數(shù)據(jù)帶來思維方式的變化,大數(shù)據(jù)技術(shù),,,,數(shù)據(jù),數(shù)據(jù)的掌控者,擁有或者可以收集大量數(shù)據(jù)的公司。海量的數(shù)據(jù)就是財(cái)富,可以考慮自己分析或者賣數(shù)據(jù)給其他公司。,,,,技術(shù),技術(shù)供應(yīng)商或者分析公司。掌握了從

21、海量數(shù)據(jù)中分析出有用信息的技能或者工具,但本身不一定擁有數(shù)據(jù)。,,,,思維,有創(chuàng)新思維的人或者公司。他們對(duì)大數(shù)據(jù)敏感,有怎樣挖掘數(shù)據(jù)的新價(jià)值的獨(dú)特想法。,大數(shù)據(jù)的價(jià)值鏈,大數(shù)據(jù)技術(shù),大數(shù)據(jù) = 海量數(shù)據(jù) + 復(fù)雜類型的數(shù)據(jù),海量交易數(shù)據(jù):企業(yè)/機(jī)構(gòu)的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。,大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的

22、所有數(shù)據(jù)集,海量交互數(shù)據(jù):源于互聯(lián)網(wǎng)的社交媒體數(shù)據(jù)構(gòu)成(日志和非結(jié)構(gòu)化數(shù)據(jù));源于物聯(lián)網(wǎng)的設(shè)備和傳感器采集數(shù)據(jù)(日志和非結(jié)構(gòu)化數(shù)據(jù));源于GPS和地理定位映射數(shù)據(jù);醫(yī)療/監(jiān)控產(chǎn)生的海量圖像文件;科學(xué)計(jì)算/電子郵件等等。可以告訴我們未來可能會(huì)發(fā)生什么。,海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如在商用硬件群中運(yùn)行的各種數(shù)據(jù)挖掘和分析系統(tǒng)。,大數(shù)據(jù)處理,大數(shù)據(jù)技術(shù),分析技術(shù):數(shù)據(jù)處理:自然語言、視

23、頻圖像處理技術(shù)抽樣統(tǒng)計(jì)分析:A/B test; top N排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測:預(yù)測模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等,多元數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、

24、pdf、ppt等文件存儲(chǔ)不利于檢索、查詢和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ),存儲(chǔ)計(jì)算框架:Hadoop(MapReduce技術(shù))分布式文件系統(tǒng),大數(shù)據(jù)處理,大數(shù)據(jù)技術(shù),行業(yè)應(yīng)用逐漸趨向大數(shù)據(jù)處理2. 傳統(tǒng)的信息平臺(tái)無 法實(shí)現(xiàn)海量數(shù)據(jù)面臨存儲(chǔ)和 處理的瓶頸,大數(shù)據(jù)處理,大數(shù)據(jù)技術(shù),過去,現(xiàn)在,,,,,,,高性能計(jì)算,企業(yè),中小企業(yè),,,,,萬億字節(jié),千兆字節(jié),兆字節(jié),千萬億字節(jié),

25、萬億字節(jié),千兆字節(jié),面臨的新難題-如何處理大規(guī)模數(shù)據(jù),,,大數(shù)據(jù)技術(shù),采用完全無共享(Share-Nothing)系統(tǒng)架構(gòu),大數(shù)據(jù)技術(shù),,,,應(yīng)用程序通過分布式系統(tǒng)訪問數(shù)據(jù),,所有計(jì)算/存儲(chǔ)節(jié)點(diǎn)間自由交換數(shù)據(jù),,,每一個(gè)計(jì)算/存儲(chǔ)節(jié)點(diǎn)運(yùn)行獨(dú)立的數(shù)據(jù)庫,查詢,海量并行處理結(jié)構(gòu)(MPP),大數(shù)據(jù)技術(shù),,,,,,,,,,,傳統(tǒng)并行運(yùn)算架構(gòu),運(yùn)算,存儲(chǔ),傳統(tǒng)存儲(chǔ)架構(gòu),,,,,,,,,海量數(shù)據(jù)高性能計(jì)算與存儲(chǔ),傳統(tǒng)存儲(chǔ)架構(gòu)共享存儲(chǔ)訪問模式;

26、計(jì)算與存儲(chǔ)分離;僅適合于計(jì)算相關(guān)數(shù)據(jù)量較小的高并發(fā)、計(jì)算密集型應(yīng)用,大數(shù)據(jù)環(huán)境下:存儲(chǔ)將成為訪問的性能瓶頸;海量文件的管理、訪問難題;傳統(tǒng)盤陣數(shù)據(jù)冗余保護(hù)機(jī)制不能滿足高性能要求。,大數(shù)據(jù)技術(shù),,,,,,,,,,,,,,,,,,,,,,計(jì)算存儲(chǔ)節(jié)點(diǎn)=并行式運(yùn)算 + 分布式存儲(chǔ),大數(shù)據(jù)并行計(jì)算架構(gòu),分布式文件系統(tǒng),計(jì)算與存儲(chǔ)一體,計(jì)算向數(shù)據(jù)集中,高效專用計(jì)算存儲(chǔ)節(jié)點(diǎn)完全解決應(yīng)用、并發(fā)、同步與一致性等問題處理和計(jì)算任務(wù)之

27、間實(shí)現(xiàn)無依賴,具有高系統(tǒng)延展性 (Scale-Out)分布式文件系統(tǒng),提供高效的海量數(shù)據(jù)存儲(chǔ)訪問與管理應(yīng)用:地質(zhì)勘探生命科學(xué)非線編媒資管理動(dòng)畫渲染等高性能運(yùn)算,,,,,,,,,,,,海量數(shù)據(jù)高性能計(jì)算與存儲(chǔ),大數(shù)據(jù)技術(shù),,,,40GE Infiniband或者160GB萬兆,SureCloud分布數(shù)據(jù)庫(計(jì)算能力),,SureCloud分布式分布式存儲(chǔ)(存儲(chǔ)能力),設(shè)計(jì)超大規(guī)模數(shù)據(jù)的關(guān)聯(lián)計(jì)算使用節(jié)點(diǎn)高速緩沖區(qū)支

28、持連續(xù)復(fù)雜計(jì)算,大容量的海量數(shù)據(jù)存儲(chǔ)高性能IO全冗余平滑擴(kuò)容,,,,,,,,數(shù)據(jù)服務(wù),,,獲取復(fù)雜的大數(shù)據(jù)處理結(jié)果,開放的應(yīng)用,開放的應(yīng)用,開放的應(yīng)用,直接數(shù)據(jù)提取,,大數(shù)據(jù)數(shù)據(jù)倉庫,大數(shù)據(jù)技術(shù),分布式數(shù)據(jù)庫,分布式物理節(jié)點(diǎn),自動(dòng)部署,節(jié)點(diǎn)監(jiān)控,資源監(jiān)管,動(dòng)態(tài)調(diào)度,分布式文件系統(tǒng),QFS,HDFS,SDFS,NoSQL SDDB,Cacendra,大數(shù)據(jù)挖掘,應(yīng)用,Map/Reduce,統(tǒng)一智能管理,大數(shù)據(jù)接口,訪問權(quán)限管理,大數(shù)據(jù)

29、存儲(chǔ),自動(dòng)化部署配置,監(jiān)控與資源管理,,,大數(shù)據(jù)管理,大數(shù)據(jù)采集,輔助工具,,Hbase,Mango DB,,,,大數(shù)據(jù)計(jì)算應(yīng)用,醫(yī)療云,政務(wù)云,物聯(lián)網(wǎng),行業(yè)應(yīng)用,金融,電信,政府,大數(shù)據(jù)技術(shù),應(yīng)用1,應(yīng)用2,應(yīng)用N,大數(shù)據(jù)處理平臺(tái),大數(shù)據(jù)技術(shù),泛互聯(lián)網(wǎng)數(shù)據(jù),機(jī)器數(shù)據(jù),行業(yè)內(nèi)容數(shù)據(jù),,焦點(diǎn),,挖掘價(jià)值,,面向行業(yè),,關(guān)鍵技術(shù),,,,基于泛互聯(lián)網(wǎng)內(nèi)容的準(zhǔn)實(shí)時(shí)輿情監(jiān)測和用戶行為分析,基于機(jī)器設(shè)備數(shù)據(jù)的生產(chǎn)狀態(tài)實(shí)時(shí)監(jiān)測和統(tǒng)計(jì)分析,基于行業(yè)內(nèi)容

30、數(shù)據(jù)的海量分布式存儲(chǔ)和查詢,各級(jí)/地政府;輿情監(jiān)測個(gè)人消費(fèi)品制造/零售;精準(zhǔn)營銷、電商、客服、反向創(chuàng)新金融/電信;精準(zhǔn)營銷、客服,電力/電網(wǎng)/石油;設(shè)備、管線狀態(tài)和故障監(jiān)測自動(dòng)化工業(yè)制造;設(shè)備狀態(tài)監(jiān)測以管控產(chǎn)品質(zhì)量復(fù)雜設(shè)備運(yùn)營;狀態(tài)監(jiān)測,公安/海關(guān);人臉/指紋識(shí)別身份醫(yī)療/交通;影像/圖片提取價(jià)值數(shù)據(jù)衛(wèi)星/基因科研;復(fù)雜內(nèi)容計(jì)算稅務(wù)數(shù)據(jù)倉庫,新華社與媒體政府,公安電信客戶、基地中心,電力、電網(wǎng)中石油、中石化電信大

31、型制造業(yè),氣象局交通研究院Smart City銀行歷史庫,用戶行為分析NoSQL-分布式存儲(chǔ)和查詢查詢和搜索實(shí)時(shí)過濾和聚合業(yè)務(wù)分析SureSaveBDP,用戶行為分析NoSQL-分布式存儲(chǔ)和查詢實(shí)時(shí)過濾和聚合業(yè)務(wù)分析SureSaveBDP,NoSQL-分布式存儲(chǔ)和查詢SureSaveBDP,大數(shù)據(jù)技術(shù),,采集/挖掘,分析,,決策,導(dǎo)入的是數(shù)據(jù),取出的是價(jià)值,存儲(chǔ),計(jì)算,訪問,,結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)入,非結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)

32、入,ETL,結(jié)構(gòu)展現(xiàn),分析決策模型,分析決策工具,分布存儲(chǔ),數(shù)據(jù)挖掘,大數(shù)據(jù)技術(shù),分布式文件存儲(chǔ),分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理技術(shù),分布式計(jì)算框架,,分布式索引,查詢,檢索,分析,挖掘,結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲(chǔ)技術(shù),數(shù)據(jù)索引技術(shù),數(shù)據(jù)計(jì)算技術(shù),數(shù)據(jù)訪問技術(shù),數(shù)據(jù)智能技術(shù),可擴(kuò)展的體系結(jié)構(gòu),數(shù)據(jù)采集技術(shù),大數(shù)據(jù)解決的不是單一的一個(gè)產(chǎn)品能夠解決的,它需要一整套的解決方案,它要融合很多傳統(tǒng)的、新的技術(shù),包含了很多不同的產(chǎn)品和功能模塊,大數(shù)據(jù)技術(shù)

33、,大數(shù)據(jù)系統(tǒng),大數(shù)據(jù)技術(shù),大數(shù)據(jù)存儲(chǔ)問題文件存儲(chǔ)千萬級(jí)的大文件存儲(chǔ):如視頻億級(jí)的中等文件存儲(chǔ):如文檔十億級(jí)的小文件存儲(chǔ):如圖片縮略圖不同文件存儲(chǔ)對(duì)于系統(tǒng)需求不同結(jié)構(gòu)化數(shù)據(jù)億級(jí)的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)查詢、統(tǒng)計(jì)、更新等操作效率低,大數(shù)據(jù)系統(tǒng)-存儲(chǔ),大數(shù)據(jù)技術(shù),大數(shù)據(jù)存儲(chǔ)的最主要的論文CAP Theorem Consistency, Availability and Partition ToleranceGoogle的G

34、FS和BigTableGFS一種存儲(chǔ)海量大文件的存儲(chǔ)系統(tǒng)BigTable提出了一種Schemaless的表數(shù)據(jù)模型Amazon的DynamoDynamo的模型更簡單,它將數(shù)據(jù)按key進(jìn)行hash存儲(chǔ),K-V StoreGossip protocol (discovery and error detection)Distributed key-value data storeEventual consistency,大數(shù)據(jù)技

35、術(shù),C,A,P,RelationalKey-ValueColumn-OrientedDocument-Oriented,RDBMS(Oracle,MySQL),Aster Data Vertica,MongoDB,TerrastoreHyperTable,HbaseRedis,Berkeley DB,Scalaris,Dynamo,Voldemort,TokyoCabinetCassandraCouchDB,Riak,所

36、有的客戶端有統(tǒng)一的數(shù)據(jù)視圖,網(wǎng)絡(luò)出現(xiàn)分區(qū)時(shí)仍能夠正常運(yùn)行,客戶端在任意時(shí)間都可以讀寫,大數(shù)據(jù)技術(shù),NoSQL NoSQL是Not Only SQL的縮寫,而不是Not SQL,它不一定遵循傳統(tǒng)數(shù)據(jù)庫的一些基本要求,比如說遵循SQL標(biāo)準(zhǔn)、ACID屬性、表結(jié)構(gòu)等等。,大數(shù)據(jù)技術(shù),NoSQL系統(tǒng)提高數(shù)據(jù)服務(wù)的交付能力,解決了數(shù)據(jù)集中與共享的問題,數(shù)據(jù)存儲(chǔ)的高可擴(kuò)展性,即使數(shù)據(jù)量達(dá)到PB級(jí)別,存儲(chǔ)仍然可以在一定的成本范圍內(nèi)擁有

37、良好的可擴(kuò)展性支持大量的并發(fā)執(zhí)行和高效的分析型處理,大數(shù)據(jù)技術(shù),大數(shù)據(jù)計(jì)算問題海量數(shù)據(jù)帶來計(jì)算快速性難以保證結(jié)構(gòu)變化導(dǎo)致計(jì)算模式變更大數(shù)據(jù)處理解決方案MapReduce技術(shù)流計(jì)算技術(shù):twitter的storm和yahoo的S4,大數(shù)據(jù)技術(shù),MapReduce是一種常用的分布式編程模型,用于大規(guī)模數(shù)據(jù)集(通常大于1TB)的并行運(yùn)算。,Local FS,Local FS,,,,,HTTP GET,大數(shù)據(jù)技術(shù),On-line

38、MapReduce使用Map-Reduce的流水線執(zhí)行機(jī)制,進(jìn)行Map和Reduce任務(wù)的動(dòng)態(tài)調(diào)度,,,,,,,大數(shù)據(jù)技術(shù),大數(shù)據(jù)上的統(tǒng)計(jì)分析:Hive建立在Hadoop/MapReduce上的數(shù)據(jù)倉庫系統(tǒng)提供HQL語句實(shí)現(xiàn)對(duì)Hadoop上的數(shù)據(jù)查詢和分析機(jī)制,大數(shù)據(jù)技術(shù),統(tǒng)計(jì)分析套件,基于Hive及輔助索引技術(shù),實(shí)現(xiàn)快速的數(shù)據(jù)統(tǒng)計(jì)分析微博日志分析50億條/天統(tǒng)計(jì)登陸人數(shù)/5分鐘,大數(shù)據(jù)技術(shù),分析結(jié)果應(yīng)用,大數(shù)據(jù)技術(shù),大數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論