話題演變的在線方法研究.pdf_第1頁
已閱讀1頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著Web2.0的出現(xiàn)和高速發(fā)展,互聯(lián)網(wǎng)中用戶所產(chǎn)生的信息容量和用戶數(shù)量都呈現(xiàn)爆炸性增長的趨勢,網(wǎng)絡平臺已經(jīng)成為人們?nèi)粘I钪胁豢扇鄙俚男畔@取、交流和傳播的重要媒體。互聯(lián)網(wǎng)上大量的信息流中,有很大一部分是長度很短的文本數(shù)據(jù),如微博、論壇等。這些文本數(shù)據(jù)中包含了人們對社會各種現(xiàn)象的種種觀點和立場,話題涉及政治、經(jīng)濟、軍事、金融、生活、娛樂等各個領(lǐng)域。因此對這些數(shù)據(jù)流中熱點話題的發(fā)現(xiàn)能夠及時發(fā)現(xiàn)社會的新話題和熱點人物,對其跟蹤能夠幫助人們

2、了解特定數(shù)據(jù)流中話題的產(chǎn)生、傳播、發(fā)展、消亡的規(guī)律。
   互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息和發(fā)布信息的一個主要渠道,突發(fā)新聞事件或新聞話題可以在互聯(lián)網(wǎng)上快速傳播,而如何跟蹤該新聞事件或新聞話題的后續(xù)發(fā)展,是人們關(guān)心和迫切需要解決的問題。隨著時間的推移,新聞話題的內(nèi)容會發(fā)生變化,新聞話題的強度也會經(jīng)歷一個高潮到低潮的過程。如何有效地組織這些大規(guī)模文檔,并且按照時間順序來獲取文本集合中話題的演化趨勢,可以幫助人們跟蹤感興趣的話題。更重要

3、的是,在一些新聞專題報道和安全機構(gòu)針對犯罪探測和預防的任務中,更需要從文本集合中快速準確地跟蹤話題的演化趨勢并且根據(jù)演化趨勢做出相應的預測。因此,話題演化的研究具有實際意義。
   與傳統(tǒng)的特征抽取方法相比,非負矩陣分解(NMF)方法抽取的特征向量更能反映樣本的局部特征,并具有很高的可解釋性和預測性。因此,本文首先介紹了NMF算法及其在文本聚類方面的應用,由于NMF存在初始化敏感和收斂速度慢的問題,本文提出用K均值算法來初始化N

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論