大數(shù)據(jù)技術(shù)及其應用_第1頁
已閱讀1頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第一章第一章大數(shù)據(jù)概論大數(shù)據(jù)概論當移動通信和互聯(lián)網(wǎng)給我們帶來的生活方式、思維方式的巨大改變還沒有消退的時候,大數(shù)據(jù)時代以排山倒海之勢到來,什么是大數(shù)據(jù)?大數(shù)據(jù)能為人們帶來哪里益處?大數(shù)據(jù)如何改變?nèi)藗兊纳?、工作和學習?大數(shù)據(jù)下的政府、企業(yè)和過去有什么不同?這一系列的問題困擾著很多人,甚至連一些專家學者也對此迷惘。在人人都談大數(shù)據(jù)的時代并不是每個人都真正理解大數(shù)據(jù)的精髓,因此本章給讀者簡單的介紹一下大數(shù)據(jù)的定義、原理、方法、應用及存在的問

2、題。以后各章將介紹與大數(shù)據(jù)有關(guān)的技術(shù)、工具、商業(yè)模型及應用案例等,引導讀者逐步深入,了解和掌握大數(shù)據(jù)的基本知識和技能,為從事大數(shù)據(jù)及其相關(guān)產(chǎn)業(yè)打下基礎(chǔ)。1.11.1大數(shù)據(jù)的定義大數(shù)據(jù)的定義大數(shù)據(jù)(BigData)是指數(shù)據(jù)量大到用常規(guī)工具和方法無法進行處理的蘊含著大量價值的數(shù)據(jù)集合。因此大數(shù)據(jù)的核心是價值,數(shù)據(jù)量大只是大數(shù)據(jù)的表象,這也是為什么大數(shù)據(jù)引起業(yè)界廣泛關(guān)注的重要原因。由此可見,對于大數(shù)據(jù)的研究和應用主要集中于兩點:一、從技術(shù)層面

3、研究大數(shù)據(jù)的模型及處理算法、開發(fā)相應的處理工具等;二、從商業(yè)模式層面尋找大數(shù)據(jù)的商業(yè)模型、盈利模式、產(chǎn)業(yè)發(fā)展等。維克托邁爾舍恩伯格和肯尼斯庫克耶編寫的《大數(shù)據(jù)時代》中指出大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用對所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。從該定義看來大數(shù)據(jù)仍然體現(xiàn)在數(shù)據(jù)量大和價值兩方面。知名研究機構(gòu)Gartner對大數(shù)據(jù)

4、給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。Gartner的定義更多的傾向于大數(shù)據(jù)的決策優(yōu)化作用。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有價值的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),初級或者粗糙的大數(shù)據(jù)產(chǎn)業(yè)主要是提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”;而更高層次的大數(shù)據(jù)產(chǎn)業(yè)將數(shù)據(jù)信息產(chǎn)生的價值應用到具

5、體的行業(yè),發(fā)揮行業(yè)價值,從而實現(xiàn)數(shù)據(jù)信息價值的倍增。這樣才能真正體現(xiàn)大數(shù)據(jù)的價值所在。1.21.2大數(shù)據(jù)與海量信息的關(guān)系大數(shù)據(jù)與海量信息的關(guān)系1MB=1024KB=1048576Bytes1GB=1024MB=1048576KB1TB=1024GB=1048576MB1PB=1024TB=1048576GB1EB=1024PB=1048576TB1ZB=1024EB=1048576PB1YB=1024ZB=1048576EB1BB=10

6、24YB=1048576ZB1NB=1024BB=1048576YB1DB=1024NB=1048576BB當前用的最多的關(guān)于大數(shù)據(jù)描述的數(shù)量級是TB和PB,一般行業(yè)或者政府機構(gòu)的數(shù)據(jù)基本在PB級上,比如目前某省的農(nóng)業(yè)數(shù)據(jù)大概有幾百TB到幾十個PB之間,全國的每天產(chǎn)生的交通數(shù)據(jù)大概是幾個到幾百個TB量級上。因此,如此大量的數(shù)據(jù)用傳統(tǒng)的數(shù)據(jù)庫存儲、查詢和處理方式無法實現(xiàn)數(shù)據(jù)的實時處理,導致時效性大打折扣,甚至不可用,例如在追擊逃犯的時候,

7、需要快速查出犯罪分子的行動路線、推測他可能去的地方等,如果數(shù)據(jù)處理速度較慢,很容易錯過機會。同樣在商業(yè)領(lǐng)域,每天的電子商務交易記錄、顧客瀏覽記錄等都是大量的數(shù)據(jù),因此這些數(shù)據(jù)的處理都需要快速。1.31.3大數(shù)據(jù)的來源與特點大數(shù)據(jù)的來源與特點隨著電子信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,各種電子設(shè)備和數(shù)據(jù)終端迅速走入尋常百姓家庭,以移動通信發(fā)展為代表的手機等客戶端產(chǎn)生大量的數(shù)據(jù);以PC為代表的微機時代產(chǎn)生了大量的計算機數(shù)據(jù);以數(shù)碼相機為代表的電子設(shè)

8、備產(chǎn)生大量的視頻、圖片數(shù)據(jù);以互聯(lián)網(wǎng)為代表的網(wǎng)絡應用產(chǎn)生大量的web數(shù)據(jù)。因此大數(shù)據(jù)的產(chǎn)生是源于信息技術(shù)的發(fā)展和普及。所以遍布全球的物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。大數(shù)據(jù)的存在形式多種多樣,這也決定了大數(shù)據(jù)的處理非常困難,需要運用數(shù)學、統(tǒng)計學、物理學等知識進行全方位的研究。比如大數(shù)據(jù)可以是包括網(wǎng)絡日志,RFID,傳感器網(wǎng)絡,社會網(wǎng)絡,社會數(shù)據(jù),互聯(lián)網(wǎng)文本和文件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論