1、伴隨Internet和IT的快速發(fā)展,以及云物移大智(云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)和智慧城市)等新技術(shù)的出現(xiàn),數(shù)據(jù)增長(zhǎng)和積累都很迅速,從而引起“信息過(guò)載”問(wèn)題。推薦系統(tǒng)作為“個(gè)性化服務(wù)”的一個(gè)重要分支,能有效解決這個(gè)問(wèn)題。然而傳統(tǒng)推薦系統(tǒng)很少關(guān)心上下文環(huán)境等信息,而且有關(guān)上下文的推薦國(guó)內(nèi)外研究的很少,從而本文重點(diǎn)研究上下文感知推薦系統(tǒng)。同時(shí),困擾人們多年的大數(shù)據(jù)存儲(chǔ)和并行計(jì)算問(wèn)題,在Hadoop分布式計(jì)算框架出現(xiàn)后,得到行之有效的
2、解決。從而,上下文感知推薦系統(tǒng)結(jié)合Hadoop是本文研究的課題。
本文的主要研究的工作是:(1)首先學(xué)習(xí)Hadoop、HBase、Hive、Sqoop、Flume、Storm和Kafka等Hadoop系列技術(shù),和推薦系統(tǒng)、普適計(jì)算、上下文感知等一系列概念;(2)重點(diǎn)研究了基于內(nèi)容與上下文感知的推薦算法,首先說(shuō)明了基于內(nèi)容的推薦過(guò)程分三步來(lái)完成,然后對(duì)其中的每一步進(jìn)行建模,并且詳細(xì)講解了用戶興趣向量模型的計(jì)算,并應(yīng)用“貝葉斯公式
3、”來(lái)平衡數(shù)據(jù)分布不均勻的問(wèn)題,接著利用余弦相似度公式進(jìn)行基于內(nèi)容的推薦,接著重點(diǎn)把基于內(nèi)容的推薦算法、Hadoop和上下文信息整合在一起,使用基于MapReduce的K-Means算法進(jìn)行聚類降維,最后利用多維評(píng)分函數(shù),把推薦結(jié)果進(jìn)行上下文信息的過(guò)濾;(3)詳細(xì)介紹了基于Hadoop的離線上下文感知推薦系統(tǒng)的設(shè)計(jì)工作,從數(shù)據(jù)采集到數(shù)據(jù)處理,再到數(shù)據(jù)存儲(chǔ)等生成推薦的整個(gè)過(guò)程。有別于其它推薦系統(tǒng)不注重?cái)?shù)據(jù)采集,本文對(duì)數(shù)據(jù)采集做了詳細(xì)的設(shè)計(jì),