版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、伴隨著Web2.0技術(shù)的快速發(fā)展,許多工具如博客、微博、微信等成為人們?nèi)粘I钪行畔l(fā)布與共享的網(wǎng)絡(luò)平臺(tái),每個(gè)人可以在網(wǎng)絡(luò)上分享對某事件的觀點(diǎn)、看法,其中也包含了大量的個(gè)人意見、主觀情感和情緒反饋?;诖笠?guī)模網(wǎng)絡(luò)文本信息的情感分析是輿情分析領(lǐng)域的一個(gè)重要部分,探究文本信息中所包含群眾情緒的動(dòng)態(tài)趨勢對于社會(huì)學(xué)研究有著重要意義。
本文的研究主要是閱讀者角度的情感分析問題,即通過分析新聞文本中的詞語或包含的主題信息,來預(yù)測閱讀者在讀
2、完這篇新聞后可能引發(fā)的情緒。在以往的研究中,文本情感分析主要是從作者角度出發(fā)探究其中表達(dá)的主觀情感,對閱讀者情緒反饋的相關(guān)研究相對較少;另一方面,相關(guān)領(lǐng)域通常將文本情感分析問題視為單標(biāo)簽問題進(jìn)行處理,即默認(rèn)一篇文檔只能引發(fā)閱讀者的一種情緒,顯然這與實(shí)際問題不符,一篇新聞對于社會(huì)大眾引起的情緒可能不盡相同,統(tǒng)計(jì)數(shù)據(jù)顯示投票較多的情感類別一般有多個(gè);此外,相關(guān)工作大部分是基于詞袋模型進(jìn)行的研究,根據(jù)社會(huì)心理學(xué)研究的觀點(diǎn),閱讀者情緒不僅會(huì)與新
3、聞文本中直觀的詞語有關(guān)聯(lián),還與新聞報(bào)道中隱含的事件主題有著間接關(guān)系。針對上述問題,本文基于社會(huì)大眾標(biāo)注的多標(biāo)簽語料進(jìn)行了系統(tǒng)化的文本情感分析,主要的工作有以下幾個(gè)方面:
(1)多標(biāo)簽新聞?wù)Z料的構(gòu)建。針對研究中的著重點(diǎn)“多標(biāo)簽”、“閱讀者”,將情感分析任務(wù)當(dāng)做多標(biāo)簽分類問題,爬取了社會(huì)化標(biāo)注的新浪社會(huì)新聞文本及其讀者投票數(shù)據(jù),并對投票數(shù)據(jù)進(jìn)行處理。
(2)分別采用詞袋模型和主題模型對多標(biāo)簽新聞?wù)Z料數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并分析了
4、實(shí)驗(yàn)結(jié)果。從不同角度對數(shù)據(jù)進(jìn)行處理,針對二分類、多分類以及多標(biāo)簽分類問題對數(shù)據(jù)集進(jìn)行建模,然后訓(xùn)練好模型預(yù)測閱讀者情感。實(shí)驗(yàn)數(shù)據(jù)表明,在分類性能上主題模型相對優(yōu)于詞袋模型,并且,采用主題模型時(shí)文本的特征向量維度遠(yuǎn)遠(yuǎn)小于詞袋模型,模型代價(jià)消耗較小,有著重要的現(xiàn)實(shí)意義。
(3)借鑒混合標(biāo)簽的M-LDA方法,將情緒標(biāo)簽視為已知標(biāo)簽并將該方法應(yīng)用到文本情緒分類中。傳統(tǒng)的LDA是一個(gè)無監(jiān)督的主題模型,應(yīng)用在標(biāo)簽分類問題中往往需要結(jié)合分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 快速閱讀者與慢速閱讀者的副中央凹預(yù)視效益的眼動(dòng)研究.pdf
- 一般閱讀者與熟練閱讀者閱讀文言文過程眼動(dòng)特征的比較研究.pdf
- 快速閱讀者與慢速閱讀者的副中央凹預(yù)視效益的眼動(dòng)研究
- 一般閱讀者與熟練閱讀者閱讀文言文過程眼動(dòng)特征的比較研究
- 孫莉莉--為成為流暢閱讀者做準(zhǔn)備的早期閱讀
- 復(fù)讀法對中學(xué)善與不善閱讀者英語閱讀流利性的影響.pdf
- 新聞攝影要滿足讀者的情感需求
- 閱讀者——思想者系列形象的凸現(xiàn)——文學(xué)家對中國經(jīng)驗(yàn)中國思想的探索
- 基于語料庫的多譯本分析.pdf
- 基于語料的經(jīng)濟(jì)新聞體裁結(jié)構(gòu)潛勢分析.pdf
- 基于情感的多標(biāo)簽個(gè)性化音樂分類技術(shù)的研究與實(shí)現(xiàn).pdf
- 基于證據(jù)理論和語義細(xì)胞模型的多標(biāo)簽音樂情感識(shí)別研究.pdf
- 基于語料庫的海事新聞標(biāo)題句法特點(diǎn)分析.pdf
- 基于語料庫的中英報(bào)紙新聞文體對比分析.pdf
- 面向新聞的讀者情緒自動(dòng)分析方法研究.pdf
- 基于標(biāo)簽關(guān)聯(lián)的多標(biāo)簽分類問題的算法改進(jìn).pdf
- 基于標(biāo)簽相關(guān)性的多標(biāo)簽分類算法研究.pdf
- 基于語料庫的漢語與格交替的多因素分析.pdf
- 基于語料庫的中國日報(bào)政治新聞?dòng)⒄Z語體分析.pdf
- 基于學(xué)習(xí)標(biāo)簽相關(guān)性的多標(biāo)簽分類算法.pdf
評論
0/150
提交評論