關(guān)聯(lián)規(guī)則挖掘的并行化算法研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-05 格式：pdf 頁(yè)數(shù)：61 大?。?.09MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩60頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息技術(shù)的不斷發(fā)展，各行各業(yè)已經(jīng)積累了大量的數(shù)據(jù)，為了將這些數(shù)據(jù)轉(zhuǎn)化為有用的知識(shí)，產(chǎn)生了數(shù)據(jù)挖掘技術(shù)。然而，傳統(tǒng)的串行化數(shù)據(jù)挖掘技術(shù)在面對(duì)海量數(shù)據(jù)時(shí)效率難以讓人滿意。并行化技術(shù)近年來(lái)發(fā)展迅速，可以有效提升算法效率，是處理海量數(shù)據(jù)的利器，因此，使用并行化技術(shù)提升數(shù)據(jù)挖掘算法效率成為時(shí)下的研究熱點(diǎn)。
　　關(guān)聯(lián)規(guī)則挖掘技術(shù)是數(shù)據(jù)挖掘的一個(gè)重要分支，主要研究的是事務(wù)數(shù)據(jù)庫(kù)中有利用價(jià)值項(xiàng)之間的關(guān)系。頻繁項(xiàng)集挖掘是關(guān)聯(lián)規(guī)則挖掘中最重要的環(huán)

2、節(jié)，因此本文中的關(guān)聯(lián)規(guī)則挖掘算法其實(shí)也是針對(duì)如何挖掘頻繁模式的頻繁模式挖掘算法。關(guān)聯(lián)規(guī)則挖掘中的基本算法主要有多候選產(chǎn)生算法(Apriori，劃分，抽樣等)，模式增長(zhǎng)算法(FP-growth，HMine，F(xiàn)PMax，Close+等)和垂直格式算法(Eclat，CHARM等)。本文旨在將部分關(guān)聯(lián)規(guī)則挖掘算法與并行計(jì)算技術(shù)相結(jié)合，介紹若干個(gè)關(guān)聯(lián)規(guī)則挖掘算法的并行化方案。本文分別探討了基于CPU、GPU和分布式環(huán)境下的并行關(guān)聯(lián)規(guī)則挖掘算法，介

3、紹了相關(guān)的并行化技術(shù)，并對(duì)本文中用到的兩個(gè)重要技術(shù)GPU-CUDA并行計(jì)算框架和MapReduce-Spark并行計(jì)算框架做了詳細(xì)介紹。
　　FP-growth算法是一種基于內(nèi)存的頻繁模式挖掘算法。然而，當(dāng)數(shù)據(jù)集很大或者支持度閡值太小時(shí)，構(gòu)造基于主存的全局頻繁模式樹(shù)是不現(xiàn)實(shí)的。FP-growth算法擴(kuò)展化方案將大數(shù)據(jù)集切分成小數(shù)據(jù)集，然后通過(guò)在這些小數(shù)據(jù)集執(zhí)行FP-growth算法來(lái)解決此問(wèn)題。本文在分析研究FP-growth算法

4、擴(kuò)展化方案的基礎(chǔ)上，采用并行投影的核心思想，介紹了一種簡(jiǎn)單分組算法。在考慮節(jié)點(diǎn)間負(fù)載均衡的基礎(chǔ)上，對(duì)簡(jiǎn)單分組算法改進(jìn)，介紹了一種負(fù)載均衡的分組算法?；谏鲜龇纸M算法，實(shí)現(xiàn)了基于Spark的并行FP-growth算法—Spark-FP-growth算法，該算法通過(guò)分組算法將大數(shù)據(jù)集切分成小數(shù)據(jù)集，然后分別在小數(shù)據(jù)集上并行執(zhí)行FP-growth算法得到頻繁項(xiàng)集。為了進(jìn)一步提升算法效率，本文又引入Topk聚集的思想，將小數(shù)據(jù)集上的FP-gro

5、wth算法提升為T(mén)opk-FP-growth算法，加強(qiáng)了算法的可用性和速度性能。
　　基于上述算法，本文又研究了關(guān)聯(lián)規(guī)則挖掘算法在Spark-GPU平臺(tái)上的并行化方案。在分析研究眾多Spark和GPU融合技術(shù)的基礎(chǔ)上，采用Spark RDD pipe接口調(diào)用GPU-CUDA程序?qū)崿F(xiàn)Spark和GPU的結(jié)合?；赟park-GPU平臺(tái)的關(guān)聯(lián)規(guī)則挖掘算法—Spark-GPU-Apriori算法依然采用Spark-FP-growth算法

6、的分組模型，但將小數(shù)據(jù)上的FP-growth算法替換為使用CUDA加速的Apriori算法。Spark-GPU-Apriori算法展現(xiàn)了一種涵蓋多種并行級(jí)別，將Spark和GPU有機(jī)結(jié)合的并行關(guān)聯(lián)規(guī)則挖掘算法。
　　以Spark-Apriori算法和Spark-mblib-FP-growth算法作為基準(zhǔn)算法。本文分別測(cè)試對(duì)比了Spark-SPFP-growth算法、Spark-BPFP-growth算法和Spark-GPU-Apr

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

關(guān)聯(lián)規(guī)則挖掘的并行化算法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

關(guān)聯(lián)規(guī)則挖掘的并行化算法研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載