2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩122頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、現(xiàn)在的互聯(lián)網(wǎng)上社交媒體隨處可見(jiàn),這給信息檢索和傳播分析工作帶來(lái)了機(jī)遇與挑戰(zhàn)。本文主要圍繞在社交媒體中如何找到重要的信息以及信息是如何傳播的展開(kāi)。我們將Twitter作為研究對(duì)象,因?yàn)樗悄壳白钪纳缃幻襟w之一,并且數(shù)據(jù)是公開(kāi)的。這樣從隱私的角度考慮,獲取研究數(shù)據(jù)變得容易且能很好的為研究任務(wù)服務(wù)。信息檢索的主要任務(wù)是在文檔集合中,找到與給定話題相關(guān)的客觀文本或主觀文本。Twitter是一個(gè)豐富的包含各種話題及其評(píng)論信息的資源庫(kù),本文將探

2、討如何在Twitter中找到相關(guān)的信息。但是tweet的短小化和非正式的文本特點(diǎn),使得Twitter中的檢索不同于以往的檢索任務(wù)。本文通過(guò)研究tweet文本特點(diǎn)和特有的Twitter社交媒體屬性幫助Twitter檢索。另外,Twitter中信息的傳播是一種普遍現(xiàn)象且與消息的質(zhì)量相關(guān)。因此,我們從tweet本身和用戶的角度,研究哪些因素影響了tweet的轉(zhuǎn)發(fā)和人的轉(zhuǎn)發(fā)行為。本研究主要內(nèi)容包括:
 ?、爬媒Y(jié)構(gòu)化信息的Twitter檢

3、索:Twitter檢索是在Twitter中找到與給定話題相關(guān)的的任務(wù)。絕大部分的Twitter檢索系統(tǒng)在構(gòu)造檢索模型時(shí)一般都認(rèn)為tweet是一個(gè)平面文本,但用戶在編輯tweet時(shí)的一些習(xí)慣使得tweet文本呈現(xiàn)結(jié)構(gòu)化的特點(diǎn)。這種結(jié)構(gòu)化是通過(guò)一些不同的文本積木塊組合而成,積木類型具體包括平面文本、核心詞、鏈接、提及等。每一種積木都有自已獨(dú)特的本質(zhì),一系列積木的排序組合又反映了一定的話語(yǔ)轉(zhuǎn)換。以往的研究發(fā)現(xiàn),通過(guò)開(kāi)發(fā)文本的結(jié)構(gòu)信息能夠幫助結(jié)

4、構(gòu)化文本的檢索(例如,網(wǎng)頁(yè)檢索)。本工作通過(guò)積木結(jié)構(gòu)開(kāi)發(fā)tweet的結(jié)構(gòu)化信息,以此幫助Twitter檢索。我們利用積木及其排列組合開(kāi)發(fā)了一系列特征,并將其應(yīng)用到排序?qū)W習(xí)的框架中。我們發(fā)現(xiàn)利用結(jié)構(gòu)化tweet的方法進(jìn)行檢索能夠達(dá)到目前最好的Twitter檢索方法效果,將結(jié)構(gòu)化tweet的方法和其他社交媒體特征一起使用能夠進(jìn)一步提高Twitter的檢索效果。
 ?、芓witter觀點(diǎn)檢索:觀點(diǎn)檢索是在數(shù)據(jù)中找到對(duì)指定話題表達(dá)正面或反

5、面觀點(diǎn)的加如的任務(wù)。人們幾乎在Twitter中表達(dá)了任何話題的觀點(diǎn),使其成為一個(gè)豐富的觀點(diǎn)資源庫(kù)。但是Twitter中也存在大量的垃圾信息和各種不同類型的文本,使得Twitter中的觀點(diǎn)檢索充滿挑戰(zhàn)。我們提出了如何利用tweet的社交媒體信息和文本結(jié)構(gòu)化信息的方法幫助Twitter的觀點(diǎn)檢索。特別的,基于排序?qū)W習(xí),我們發(fā)現(xiàn)tweet的用戶信息(如用戶包含朋友的數(shù)目)、tweet文本本身的結(jié)構(gòu)信息和觀點(diǎn)化程度影響著tweet的排序結(jié)果。實(shí)

6、驗(yàn)結(jié)果表明社交媒體信息能夠幫助Twitter的觀點(diǎn)檢索?;跓o(wú)監(jiān)督學(xué)習(xí)評(píng)價(jià)tweet觀點(diǎn)化程度,并以此開(kāi)發(fā)特征形成的檢索方法能夠到達(dá)手工標(biāo)注tweet的有監(jiān)督方法的檢索效果,且這種方法能夠幫助觀點(diǎn)檢索中話題依賴問(wèn)題的解決。最后,我們?cè)谥匦聵?biāo)注的TREC Tweets2011數(shù)據(jù)集上進(jìn)一步驗(yàn)證了我們Twitter觀點(diǎn)檢索方法的有效性。
  ⑶Twitter中傳播觀點(diǎn)的發(fā)現(xiàn):Twitter已經(jīng)變成人們收集觀點(diǎn)做出決策的重要資源,但是數(shù)

7、量眾多且差異巨大的觀點(diǎn)嚴(yán)重影響了人們使用這些資源的效果。本文我們考慮了如何在Twitter中找到傳播觀點(diǎn)的任務(wù)一tweet不僅表達(dá)了對(duì)某些話題的觀點(diǎn),且這個(gè)tweet在未來(lái)會(huì)被轉(zhuǎn)發(fā)。利用排序?qū)W習(xí)模型,我們開(kāi)發(fā)了一系列特征,具體包括tweet的傳播度特征、觀點(diǎn)化特征和文本質(zhì)量特征。實(shí)驗(yàn)結(jié)果證明了我們開(kāi)發(fā)的特征對(duì)于Twitter中傳播觀點(diǎn)的發(fā)現(xiàn)是有效的,并且將所有特征整合的方法在發(fā)現(xiàn)效果上能夠顯著優(yōu)于BM25方法和Twitter觀點(diǎn)檢索方法

8、。最后,我們發(fā)現(xiàn)我們的方法在預(yù)測(cè)觀點(diǎn)傳播上可以達(dá)到人預(yù)測(cè)的水平。
  ⑷Twitter中信息傳播者的發(fā)現(xiàn):Twitter和其它社交網(wǎng)絡(luò)中一個(gè)重要的交流機(jī)制就是消息傳播一人們分享其他人創(chuàng)建的消息。雖然目前有許多工作研究了Twitter中的tweet是如何傳播的(轉(zhuǎn)發(fā)),但是一個(gè)未解決的問(wèn)題是到底誰(shuí)會(huì)轉(zhuǎn)發(fā)給定的tweet。這里我們考慮了在Twitter中給定一條_如,發(fā)現(xiàn)作者的粉絲中誰(shuí)會(huì)轉(zhuǎn)發(fā)。利用排序?qū)W習(xí)模型的框架,我們?cè)O(shè)計(jì)了一些特征

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論