版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、空間數(shù)據(jù)挖掘與可視化,信息工程大學(xué)地理空間信息學(xué)院李宏偉,2 空間數(shù)據(jù)挖掘研究,1 背景,3 實例:空間關(guān)聯(lián)規(guī)則挖掘,5 空間知識可視化,6 幾點思考,4 數(shù)據(jù)挖掘軟件,1 背景,By 李德仁,DIKW,2.1 空間分類挖掘,分類和預(yù)測是兩種數(shù)據(jù)分析形式,用于提取描述重要數(shù)據(jù)類的數(shù)據(jù)類型或預(yù)測未來的趨勢??臻g分類挖掘解決大量數(shù)據(jù)分類問題。,2 空間數(shù)據(jù)挖掘研究,空間分類挖掘方法,,決策樹方法:經(jīng)典算法-Quinlan的ID3方法,
2、貝葉斯分類方法:樸素貝葉斯方法和貝葉 斯網(wǎng)絡(luò)方法,神經(jīng)網(wǎng)絡(luò)方法:前向型、反饋型、隨機型、 自組織型,支持向量機方法:基于統(tǒng)計學(xué)習(xí)理論,適于 數(shù)據(jù)預(yù)處理、樣本化應(yīng)用,空間分類挖掘方法(續(xù)),,K-最鄰近分類法,基于案例的推理分類法,遺傳算法和進化計算,粗糙集分類法,2.2 空間聚類挖掘,,統(tǒng)計學(xué)方法,機器學(xué)習(xí)方法,數(shù)據(jù)庫方法,模式識別方法,基于模型
3、的方法基于密度的方法基于劃分的方法基于層次的方法基于網(wǎng)格的方法混合方法,,方法分類,具體方法,聚類與分類不同,待劃分的類是未知的。聚類將數(shù)據(jù)對象分組為多個類或簇,使同一個簇中的對象之間相似度最高,不同簇中的對象相似度最低。,2.3 空間關(guān)聯(lián)規(guī)則挖掘聚類挖掘,基本研究內(nèi)容,,確定性關(guān)聯(lián)規(guī)則挖掘量化關(guān)聯(lián)規(guī)則挖掘增量式關(guān)聯(lián)規(guī)則挖掘模糊關(guān)聯(lián)規(guī)則挖掘廣義關(guān)聯(lián)規(guī)則挖掘,經(jīng)典算法:Apriori算法,Apriori算法改進,利用ha
4、sh表的DHP方法基于采樣的方法并行關(guān)聯(lián)規(guī)則挖掘的方法分布式關(guān)聯(lián)規(guī)則挖掘的方法多層次關(guān)聯(lián)規(guī)則挖掘的方法數(shù)值擴展的關(guān)聯(lián)規(guī)則挖掘的方法形象規(guī)則的發(fā)現(xiàn)方法關(guān)聯(lián)規(guī)則快速學(xué)習(xí)方法基于興趣度進行數(shù)值型關(guān)聯(lián)規(guī)則合并的方法采樣trie樹進行關(guān)聯(lián)規(guī)則挖掘利用概念格的關(guān)聯(lián)規(guī)則挖掘的方法……,,2.4 Internet和Web空間數(shù)據(jù)挖掘,Web挖掘,內(nèi)容挖掘結(jié)構(gòu)挖掘用法挖掘,基于機器學(xué)習(xí)技術(shù)的文本搜索引擎,基于協(xié)同的方法,基于內(nèi)
5、容的方法,,,2.5 空間數(shù)據(jù)挖掘智能方法,神經(jīng)計算、進化計算、免疫克隆計算、模糊計算與模糊推理……,3 實例:空間關(guān)聯(lián)規(guī)則挖掘,,發(fā)展階段,萌芽階段,,,,,,1993,2000,2006,2011,1993年,Agrawal等人提出頻繁項集挖掘的Apriori算法。 1995年,Koperski and Han 引入空間謂詞構(gòu)造空間事務(wù) 表,給出空間關(guān)聯(lián)規(guī)則的定義及挖掘過程。,2
6、000年,Clementini 等考慮空間不確定性并對多層次空間關(guān)聯(lián)進行挖掘 2001年, Shekhar 等給出空間同位模式的一般挖掘算法2004-2005年,Yoo等通過減少連接計算以提升同位模式挖掘的效率,2006年,陳江平等提出了一種面向主題的基于多層次空間概念的關(guān)聯(lián)規(guī)則挖掘算法 2008年,張雪伍、蘇奮振等提出面向時空過程的關(guān)聯(lián)規(guī)則挖掘算法2009年,沙宗堯等人提出局部的空間關(guān)聯(lián)模式挖掘,2011年,Mohan 等基于
7、事件時序關(guān)系提出級聯(lián)模式的概念及挖掘算法2014年,鄧敏、石巖等基于聚類分割方法研究了太平洋氣候指數(shù)與我國極端降水事件的遙相關(guān)模式,3.1 空間關(guān)聯(lián)規(guī)則挖掘研究的發(fā)展,3.2 空間關(guān)聯(lián)規(guī)則分類,,,,,,,,,,,,,不同地理實體間空間依存、相互作用、因果或共生的模式,鄰近地理空間內(nèi)頻繁出現(xiàn)的布爾型要素(或事件)子集,地理事件間遠距離的相互關(guān)聯(lián)模式,空間關(guān)聯(lián)規(guī)則,基于空間謂詞規(guī)則的關(guān)聯(lián)模式,空間同位模式,遙相關(guān)模式,城市分布,交通發(fā)
8、展,,,,,,3.3 當(dāng)前研究重點,著眼于研究挖掘算法本身著眼于研究空間關(guān)聯(lián)規(guī)則的不確定性信息著眼于研究關(guān)聯(lián)挖掘的可視化著眼于研究弱空間關(guān)聯(lián)規(guī)則,3.4 空間關(guān)聯(lián)規(guī)則挖掘方法,,,,,,,,,將各個空間或非空間屬性作為一個圖層,對每個圖層上的數(shù)據(jù)點進行聚類,然后對聚類產(chǎn)生的空間緊湊區(qū)進行關(guān)聯(lián)規(guī)則挖掘。,利用空間疊加、緩沖區(qū)分析等方法發(fā)現(xiàn)挖掘目標(biāo)之間的空間謂詞,將其組成空間事務(wù)數(shù)據(jù)庫,進行單層布爾型關(guān)聯(lián)規(guī)則挖掘。,通過用戶指定的鄰域
9、,遍歷所有可能的鄰域窗口,進而通過鄰域窗口代替空間事務(wù),然后進行空間關(guān)聯(lián)規(guī)則的挖掘。,基于聚類的圖層覆蓋法,基于空間事務(wù)的挖掘方法,無空間事務(wù)挖掘法,3.5 空間關(guān)聯(lián)規(guī)則挖掘過程,以基于事務(wù)的空間關(guān)聯(lián)規(guī)則挖掘過程為例,web,3.6 空間關(guān)聯(lián)規(guī)則挖掘算法,挖掘算法:AprioriFP-GrowthEclat,3.7 存在問題,,,,,,在當(dāng)今“數(shù)據(jù)爆炸”的大環(huán)境下,開發(fā)出效率高,負(fù)載數(shù)據(jù)量大的新算法是趨勢所在。,大多數(shù)空間關(guān)聯(lián)規(guī)則
10、挖掘工具都是基于事先定義好的參數(shù)進行黑箱式挖掘,挖掘過程中的交互性較差。,頻繁項的過濾環(huán)節(jié),沒有充分地運用空間數(shù)據(jù)的獨特性質(zhì),即沒有將“地理學(xué)思想應(yīng)和空間數(shù)據(jù)有效結(jié)合”。,4、數(shù)據(jù)挖掘軟件,4.1 第一代數(shù)據(jù)挖掘軟件,特點支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data) 數(shù)據(jù)一般一次性調(diào)進內(nèi)存進行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)(www.salford-s
11、ystems.com) 缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進行管理,第一代系統(tǒng)顯然不能滿足需求。,舉例:CBA,新加坡國立大學(xué)。基于關(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進行分類和預(yù)測,4.2 第二代數(shù)據(jù)挖掘軟件,特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成 支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 通過
12、支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā),舉例1:DBMiner,舉例2:SAS Enterprise Miner,4.3 第三代數(shù)據(jù)挖掘軟件,特點和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時反映到預(yù)言模型系統(tǒng)中
13、 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成 缺陷不能支持移動環(huán)境,舉例:SPSS Clementine,以PMML的格式提供與預(yù)言模型系統(tǒng)的接口,4.4第四代數(shù)據(jù)挖掘軟件,特點目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結(jié)合是當(dāng)前的一個研究領(lǐng)域
14、。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(University of Maryland Baltimore County)正在研制的CAREER數(shù)據(jù)挖掘項目的負(fù)責(zé)人,該項目研究期限是2001年4月到2006年4月,目
15、的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。,第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷 第三、四代系統(tǒng)強調(diào)預(yù)測模型的使用和操作型環(huán)境的部署 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件
16、的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導(dǎo),,5.1 可視化分類,5 空間知識可視化,數(shù)據(jù)可視化,信息可視化,知識可視化,,,數(shù)據(jù)可視化:運用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論和方法。,,,散點矩陣法投影矩陣法平行坐標(biāo)法層次顯示技術(shù)動態(tài)顯示技術(shù)圖標(biāo)表示
17、技術(shù)直方圖法……,信息可視化:利用計算機支撐的、交互的、對抽象數(shù)據(jù)的可視表示,來增強人們對這些抽象信息的認(rèn)知。信息可視化將非空間數(shù)據(jù)的信息對象的特征值抽取、轉(zhuǎn)換、映射、高度抽象與整合,用圖形、圖像、動畫等方式表示信息對象內(nèi)容特征和語義的過程。信息對象包括文本、圖像、視頻和語音等類型。,,一維信息可視化二維信息可視化三維信息可視化多維信息可視化層次信息可視化文檔信息可視化網(wǎng)絡(luò)信息可視化,知識可視化:是數(shù)據(jù)可視化和信息可視化
18、基礎(chǔ)上,將人類的知識,包括見解、經(jīng)驗、態(tài)度、價值觀、意見、預(yù)測等加以表達,并幫助他人正確地重構(gòu)、記憶和應(yīng)用這些知識的過程。,三種可視化方式的比較,重點講空間知識可視化,普遍的幾何知識和面向?qū)ο蟮闹R空間特征規(guī)則和區(qū)分規(guī)則空間分類規(guī)則和回歸規(guī)則空間聚類規(guī)則和關(guān)聯(lián)規(guī)則空間依賴規(guī)則和預(yù)測規(guī)則空間序列規(guī)則和空間例外,Concept map,Mind map,Thinking map,Cognitive map,Semantic net
19、work,知識結(jié)果可視化,知識狀態(tài)可視化,知識過程可視化,動態(tài)標(biāo)量場 f : (x, y, t) ? R,Knowing what可視化,Knowing why可視化,Knowing how可視化,不同地區(qū)人們眼中的空間特征的地圖可視化表達,空間關(guān)聯(lián)規(guī)則的地圖可視化表達,空間關(guān)聯(lián)規(guī)則可視化表達,空間關(guān)聯(lián)規(guī)則可視化表達,時空演變規(guī)律的地圖可視化表達,VGI志愿者信息可視化,賽伯空間可視化,泛在空間中的POI 點分布特征知識可視化,,5.5
20、 可視化系列著作推薦,FastCoLabs邀請了幾位赫赫有名的可視化博客、博主來回答他們眼中最具標(biāo)志性的可視化作品以及原因,受邀的三位分別是Eager Eyes的Robert Kosara,Visualising Data的Andy Kirk,以及National Public Radio的數(shù)據(jù)編輯Matt Stiles。,,5.6 十大標(biāo)志性可視化作品,1)Wind Map是一個交互式實時風(fēng)場可視化作品,數(shù)據(jù)每小時更新一次,用戶可以通
21、過雙擊放大到更精細的分辨率,看到非常美妙的風(fēng)場?;豢梢姙榭梢娨恢倍际菙?shù)據(jù)可視化的目標(biāo)。,2)GapMinder是另一個耳熟能詳?shù)目梢暬髌?,GapMinder用簡簡單單的動態(tài)散點圖就回答了世界發(fā)展的歷史、現(xiàn)狀和趨勢。,3)The Ebb and Flow Streamgraph是紐約時報在2008年發(fā)布的交互式電影票房可視化作品,作品以非常優(yōu)美的流的形式展現(xiàn)了1986年到2008年所有電影從上映到下檔的票房。,4)Paths to t
22、he White House是又一個交互式可視化,下圖展現(xiàn)了2012年美國大選的其它可能性。,5)Death and Taxes是一張展現(xiàn)美國聯(lián)邦超過500個部門、項目財政預(yù)算的信息圖,信息量涵蓋之廣讓人嘆為觀止。從04年至今,每年設(shè)計師Bachman都會發(fā)布最新的財政預(yù)算信息圖,2014年的信息圖由 Time Plots發(fā)布。,,6)同性戀權(quán)益在美國這樣的聯(lián)邦國家各州各不相同,為了清晰表達到底哪個州是同性戀的天堂或是地獄,衛(wèi)報做了Ga
23、y Rights, State by State的交互式可視化作品,該作品贏得了今年數(shù)據(jù)新聞大獎的數(shù)據(jù)驅(qū)動的敘述獎。作品以不同顏色代表不同權(quán)利如結(jié)婚、教育、就業(yè)等,單這一張圖其實已經(jīng)足夠說明很多情況,東北部地區(qū)大多是同性戀天堂而東南部地區(qū)同性戀者生活艱難。,7) Bikini Chart其實只是一個條形圖,由奧巴馬團隊發(fā)布于2012年,用于對比就業(yè)率在奧巴馬上臺后和布什政府時期的改善情況。之所以被民間戲稱為比基尼圖,自然是因為
24、它的形狀,這也是這張圖流行的重要原因,誰不喜歡吐槽呢?因為表達的是公民失去工作的情況(記為負(fù)數(shù)),所以條形更多地被設(shè)計在基準(zhǔn)坐標(biāo)以下。從布 什政府上臺造成越來越多的失業(yè),到奧巴馬政府上臺失業(yè)率有所改善,這個形勢使得整個條形圖形成了一個類似于比基尼的形狀。,8)A Peek Into Netflix Queues也是來自于紐約時報的可視化作品(大品牌值得信賴),列出了NetFlex在2009年最受歡迎的電影電視劇,以及在各個城市的觀影情況
25、。一些電影電視在不同城市的接受度大相徑庭。但是對于為什么有些電影在一些城市更受歡迎,作品中并沒有給出進一步的分析解釋,還有待用戶自己發(fā)現(xiàn)。,,9)Why Is Her PayCheck Smaller? 這個作品表達了相同工作,男女薪水待遇不同。作品非常簡單,只是在職業(yè)的散點圖上增加了一些標(biāo)準(zhǔn)線,不同顏色代表不同行業(yè)。但是這些標(biāo)準(zhǔn) 線對于用戶閱讀可視化,吸收作品真正想傳達的意義起到了巨大的作用,讓用戶在視覺上不由自主地把對標(biāo)準(zhǔn)線一邊和另
26、一邊的進行對比。首先男女收入相當(dāng)?shù)臉?biāo)準(zhǔn)線無疑是最重要的,看來果然還是男人待遇比較高啊。再下來別是女人薪水少10%,20%,30%的標(biāo)準(zhǔn)線,看來金融領(lǐng)域的女人分外受到歧視啊……,,10)How Common is Your Birthday?是一個簡單的用熱度表達美國最普遍的生日日期的信息圖,七八九十月出生是最普遍的,往回推的話就是圣誕前后一兩個月懷孕,非常合理。不知道我國是不是也會形成小長假、春節(jié)的類似于pattern呢?,,5.7 一
27、些可視化軟件,6 幾點思考,數(shù)據(jù)挖掘同樣需要知識的指導(dǎo),不是一個盲目的過程,也不應(yīng)簡單作為一個“黑箱”。數(shù)據(jù)爆炸到方法爆炸,例如當(dāng)前的聚類方法有不下百種。過多的方法用戶在實際中如何選擇適當(dāng)?shù)姆椒ㄒ嘧兊檬掷щy。有必要分析方法間的共性,避免不必要的冗余。當(dāng)前方法獲得的挖掘結(jié)果過多依賴于人為的參數(shù)設(shè)置、預(yù)先假設(shè),對挖掘結(jié)果的有效性、可靠性的客觀評價依然是當(dāng)前研究的一個瓶頸問題。空間數(shù)據(jù)異質(zhì)性、多尺度特性依然需要得到進一步的重視。,大
28、數(shù)據(jù)有利于簡化模型設(shè)計 多源異構(gòu)、海量、動態(tài)變化的時空數(shù)據(jù)對時空數(shù)據(jù)挖掘方法提出了新的挑戰(zhàn),也標(biāo)志著時空數(shù)據(jù)挖掘研究已經(jīng)進入了“大數(shù)據(jù)時代”! 豐富的數(shù)據(jù)為直接基于數(shù)據(jù)的建模提供了可能性,甚至有可能實現(xiàn)基于每個時空實體構(gòu)建局部的實時、動態(tài)模型。,紐約某區(qū)GPS軌跡數(shù)據(jù),倫敦Twitter活躍度,全球地表覆蓋監(jiān)測,大數(shù)據(jù)不是萬能的 大數(shù)據(jù)提供了海量的數(shù)據(jù)源,但是這些數(shù)據(jù)里面包含的數(shù)據(jù)價值密度相對較低,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于SVG的空間數(shù)據(jù)可視化.pdf
- 空間數(shù)據(jù)挖掘及其可視化系統(tǒng)若干關(guān)鍵技術(shù)研究.pdf
- 多變量空間數(shù)據(jù)場的高效可視化.pdf
- 基于PC集群礦山海量空間數(shù)據(jù)并行處理與可視化.pdf
- 基于WEBGIS的空間數(shù)據(jù)分析及其可視化研究.pdf
- 空間數(shù)據(jù)集可視化繪制的關(guān)鍵方法與技術(shù)研究.pdf
- 基于屬性關(guān)聯(lián)的多變量空間數(shù)據(jù)場可視化研究.pdf
- 32919.三維gis中海量空間數(shù)據(jù)可視化研究
- 三維地理空間數(shù)據(jù)的典型圖層可視化研究與實現(xiàn).pdf
- 三維空間數(shù)據(jù)管理與可視化方法研究.pdf
- 數(shù)據(jù)挖掘與GIS集成實現(xiàn)空間數(shù)據(jù)挖掘系統(tǒng).pdf
- 校園GIS空間數(shù)據(jù)挖掘與研究.pdf
- 定性空間推理與空間數(shù)據(jù)挖掘技術(shù).pdf
- 三維不規(guī)則空間數(shù)據(jù)的可視化研究_22014.pdf
- 空間數(shù)據(jù)挖掘技術(shù)研究.pdf
- 可視化數(shù)據(jù)挖掘
- 56511.面向空間數(shù)據(jù)庫的空間數(shù)據(jù)挖掘應(yīng)用研究
- 32026.海洋環(huán)境空間數(shù)據(jù)管理及網(wǎng)絡(luò)可視化系統(tǒng)設(shè)計與實現(xiàn)
- 空間數(shù)據(jù)挖掘分類算法研究.pdf
- GML空間數(shù)據(jù)挖掘技術(shù)研究.pdf
評論
0/150
提交評論