版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、近年來,隨著計(jì)算機(jī)技術(shù)的大力發(fā)展和大量普及,網(wǎng)絡(luò)信息的傳播速度與數(shù)量都呈現(xiàn)出爆炸式的增長。微博客是一種新的媒體,成為了電視、廣播等傳統(tǒng)媒體的又一個(gè)新聞媒體,互聯(lián)網(wǎng)用戶普及率很高,是互聯(lián)網(wǎng)上信息的主要來源。微博和傳統(tǒng)的文本相比,人們可以更方便、實(shí)時(shí)地表達(dá)自己的看法和感受,但同時(shí)也產(chǎn)生了大量的冗余信息。
微博有著文本較短、話題快速變換和使用網(wǎng)絡(luò)語言等特點(diǎn),故不同于傳統(tǒng)的文本。個(gè)人微博的表達(dá)方式與傳統(tǒng)的文本也有著很大的不同,從形式上
2、講,個(gè)人微博內(nèi)容已文字為主,也可以包括一些表情符號、鏈接、音頻、視頻等。在內(nèi)容上,個(gè)人微博主要是分享一些生活中的事情,當(dāng)然也包括一些公共熱點(diǎn)。而本文所涉及的是專業(yè)個(gè)人微博,其主要討論的話題是與博主從事專業(yè)相關(guān)的,話題活動基本限定在一個(gè)專業(yè)領(lǐng)域,也包含一部分公共話題。本文所研究的專業(yè)個(gè)人微博指的是博主發(fā)表的微博內(nèi)容是與其從事領(lǐng)域相關(guān)的。
由于微博內(nèi)容簡單且移動設(shè)備普及,可以通過移動設(shè)備隨時(shí)隨地發(fā)布,所以能夠在短時(shí)間產(chǎn)生大量的數(shù)據(jù)
3、,人類所面對的網(wǎng)絡(luò)信息迅速增多。如果用人工手段來處理這樣龐大且無規(guī)則的微博信息,不僅工作量是巨大的,而且難以及時(shí)、準(zhǔn)確的找到自己所關(guān)注的信息。無數(shù)實(shí)驗(yàn)結(jié)果表明,用傳統(tǒng)算法提取的專業(yè)個(gè)人微博事件效果都不理想。因此如何從大量雜亂無章的個(gè)人微博信息中快速找到自己關(guān)注的信息,是目前個(gè)人微博信息檢測技術(shù)未來的科研趨勢。
為了自動識別出博主的專業(yè)興趣活動,提出了一種基于LDA的專業(yè)個(gè)人微博事件提取算法。不斷篩選從開放平臺中獲取的微博數(shù)據(jù),
4、不斷過濾信息價(jià)值不大的文本,符號以及無關(guān)鏈接,使用分詞工具ICTCLAS來對專業(yè)個(gè)人微博進(jìn)行分詞,將特征詞的詞性標(biāo)出并剔除停用詞;其次,根據(jù)特征選擇評估函數(shù) CHI對不同特征詞對不同類別的重要程度進(jìn)行衡量,再根據(jù)特征詞在同一類文本中均勻分布的原則,利用改進(jìn)了的TF-IDF進(jìn)行微博特征詞提取并采用LDA為語料庫建模,以此來挖掘出不同主題和詞之間的關(guān)系,使得權(quán)重較大的詞更能反映出微博主題。從而得到微博在各主題下的概率分布,并結(jié)合時(shí)間相似度計(jì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于語義的個(gè)人微博事件提取.pdf
- 基于個(gè)人微博時(shí)序事件的研究.pdf
- 基于個(gè)人微博的事件時(shí)序挖掘.pdf
- 官方微博的事件提取及其摘要技術(shù)研究.pdf
- 基于微博的新興熱點(diǎn)事件檢測研究.pdf
- 基于微博的突發(fā)事件檢測研究.pdf
- 微博事件抽取.pdf
- 微博可信性與微博事件預(yù)測的研究.pdf
- 基于微博的突發(fā)事件檢測方法研究.pdf
- 微博事件自動摘要研究.pdf
- 微博事件的評論挖掘.pdf
- 突發(fā)事件中政務(wù)微博傳播問題與策略——基于新浪政務(wù)微博的研究.pdf
- 公共事件的微博“圍觀”研究.pdf
- 基于個(gè)人微博特征的Timeline生成研究.pdf
- 基于微博熱詞挖掘的新聞話題提取研究.pdf
- 基于圖的中文微博災(zāi)難事件檢測.pdf
- 基于LDA模型的微博話題與事件檢測.pdf
- 基于微博的熱點(diǎn)事件挖掘與情感分析.pdf
- 熱點(diǎn)事件的微博輿論傳播研究
- 突發(fā)事件中政務(wù)微博傳播問題與策略——基于新浪政務(wù)微博的研究
評論
0/150
提交評論