HMM在中文評(píng)價(jià)挖掘中的研究與應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩85頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、伴隨著電子商務(wù)的迅速發(fā)展,用戶評(píng)論信息也快速積累起來(lái),如何有效利用用戶評(píng)論信息分析商品的各種特征是潛在消費(fèi)者所關(guān)心的問(wèn)題,而同時(shí)如何有效利用用戶評(píng)論信息來(lái)追蹤商品的口碑,銷售趨勢(shì),市場(chǎng)影響力等也是商家所非常關(guān)注的問(wèn)題。所以,針對(duì)評(píng)論的挖掘具有非?,F(xiàn)實(shí)的意義。
  近年來(lái),已經(jīng)有不少與中文評(píng)論挖掘相關(guān)的工作在開展,有的學(xué)者在文檔層面上使用LSA模型或者是n-gram模型進(jìn)行分析,但僅僅給出該文檔推薦或者不推薦的兩極性結(jié)果,粒度比較粗

2、糙,信息提取得不夠充分,而有些學(xué)者在特征詞層面上進(jìn)行評(píng)論的挖掘,但對(duì)于低頻詞以及短語(yǔ)結(jié)構(gòu)的識(shí)別還存在或多或少的問(wèn)題。還有些工作則集中于對(duì)命名實(shí)體的識(shí)別上,解決對(duì)文檔中詞語(yǔ)的提取問(wèn)題,但是很少兼顧到詞語(yǔ)的感情傾向等主觀信息。隨著大規(guī)模機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,一些機(jī)器學(xué)習(xí)算法逐漸被投入到評(píng)論挖掘相關(guān)的領(lǐng)域中,并且取得了很好的效果。比如基于隱馬爾可夫模型和層疊隱馬爾可夫模型的命名實(shí)體識(shí)別,基于最大熵馬爾科夫模型的自然語(yǔ)言處理研究等。
 

3、 本文在前人的工作基礎(chǔ)上,考慮到自然語(yǔ)言的語(yǔ)言學(xué)特征,通過(guò)將詞性詞匯特征納入到標(biāo)準(zhǔn)隱馬爾科夫模型中,提出了基于詞性詞匯的隱馬爾科夫模型,在評(píng)論的極性分析和評(píng)價(jià)對(duì)象的提取方面都取得了不錯(cuò)的效果。
  本文的主要工作為:
  1.深入研究探討隱馬爾可夫模型中的三個(gè)問(wèn)題,即評(píng)估問(wèn)題、序列問(wèn)題以及學(xué)習(xí)問(wèn)題。同時(shí)也對(duì)這三個(gè)問(wèn)題的算法求解過(guò)程進(jìn)行了細(xì)致的理解和掌握,分別是用于求解評(píng)估問(wèn)題的前向-后向算法,用于求解序列問(wèn)題的最大似然估計(jì)與

4、期望最大化算法以及用于求解學(xué)習(xí)問(wèn)題的Viterbi算法。
  2.基于標(biāo)準(zhǔn)隱馬爾科夫模型,提出了基于詞性詞匯信息的隱馬爾科夫模型,并推導(dǎo)了模型的計(jì)算式,同時(shí)對(duì)模型在工程實(shí)踐中碰到的一些主要訓(xùn)練問(wèn)題提供了相應(yīng)的解決辦法,包括使用古德-圖靈估計(jì)解決模型訓(xùn)練中的零概率問(wèn)題,使用對(duì)數(shù)運(yùn)算取代連乘運(yùn)算以解決浮點(diǎn)數(shù)下溢問(wèn)題,使用LDA(Latent dirichlet allocation)模型解決未登錄詞數(shù)量較大的問(wèn)題。結(jié)果,在電商商品評(píng)論

5、文本上的數(shù)據(jù)挖掘工作中表現(xiàn)了較好的效果。
  3.定義了一套適用于電商評(píng)論內(nèi)容的標(biāo)注規(guī)則,并在模型訓(xùn)練數(shù)據(jù)集的構(gòu)建過(guò)程中發(fā)揮了良好的作用。同時(shí)使用詞向量模型算法對(duì)評(píng)論挖掘結(jié)果集中的同義詞與近義詞進(jìn)行了合并處理,有效防止了意義相近的高頻評(píng)論的特征淹沒了其他低頻評(píng)論的特征。
  4.對(duì)本文所提出的算法進(jìn)行了對(duì)比評(píng)測(cè),在不同分類下的電商商品評(píng)論上進(jìn)行了多個(gè)模型的精確率,召回率,F(xiàn)1值比較工作,實(shí)驗(yàn)結(jié)果證明了本文所提算法具有更好的效

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論