版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著人們對自身健康關(guān)注程度的日益提高,對醫(yī)療保健的觀念也正逐漸發(fā)生改變,主張從過去被動的疾病治療到積極的健康自我管理。病人要想積極的參與到自身疾病的診療決策以及日常的健康自我管理,沒有一個良好的信息交流平臺是無法實(shí)現(xiàn)的。近年來網(wǎng)絡(luò)健康社區(qū)的快速發(fā)展為人們交流醫(yī)療健康信息提供了可能,大量用戶參與到網(wǎng)絡(luò)健康社區(qū)中尋求和分享個人健康保健和疾病診療經(jīng)驗(yàn)、對各健康話題提出自己的觀點(diǎn),同時網(wǎng)絡(luò)健康社區(qū)也為病人及其家屬進(jìn)行情感交流與尋求情感支持創(chuàng)造了
2、良好的溝通平臺。深入地了解和分析網(wǎng)絡(luò)健康社區(qū)是一個非常有意義的研究課題,一方面可以幫助社區(qū)網(wǎng)站優(yōu)化人機(jī)交互界面,提供更個性化的工具和功能來便于社區(qū)成員更好地參與到社區(qū)討論中,提高其參與的積極性;另一方面對參與網(wǎng)絡(luò)健康社區(qū)的廣大用戶來說,對網(wǎng)絡(luò)健康社區(qū)的深入研究可以幫助他們更快的了解這一新興的在線交流形式,幫助他們快速的發(fā)現(xiàn)其感興趣的話題或者尋找他們希望與之交流的社區(qū)成員,使他們更好的融入到網(wǎng)絡(luò)健康社區(qū)平臺中。
正因?yàn)榫W(wǎng)絡(luò)健康社
3、區(qū)在人們?nèi)粘I钪邪l(fā)揮著越來越重要的作用,因此也成為眾多研究者關(guān)注的熱點(diǎn)。許多研究已經(jīng)從不同角度和側(cè)面展開,例如分析不同人群在社區(qū)中的參與特點(diǎn),探索社區(qū)中健康相關(guān)的熱點(diǎn)主題以及分析成員在社區(qū)中的情感表達(dá)與交流等幾個方面。但目前大部分研究采用的是基于調(diào)查問卷的方法,或者依靠人工標(biāo)注的內(nèi)容分析方法,隨著網(wǎng)絡(luò)健康社區(qū)的快速發(fā)展,當(dāng)面對日益增長的海量的社區(qū)文本時,這些傳統(tǒng)的人工分析方法不但效率低下,而且缺乏科學(xué)性和客觀性,無法對網(wǎng)絡(luò)健康社區(qū)進(jìn)行
4、更有效的分析。因此本文探索利用機(jī)器學(xué)習(xí)和文本挖掘等智能化處理方法,對目前網(wǎng)絡(luò)健康社區(qū)研究中的主要熱點(diǎn)問題進(jìn)行全面系統(tǒng)的分析,主要研究內(nèi)容包括以下三個方面:健康熱點(diǎn)主題的識別、社區(qū)成員角色的識別以及社區(qū)成員的情感表達(dá)分析等。
(1)健康熱點(diǎn)主題識別。社區(qū)成員在網(wǎng)絡(luò)健康社區(qū)中可以對感興趣的話題進(jìn)行自由的交流,但研究發(fā)現(xiàn)由于社區(qū)信息組織的無序?qū)е掠脩綦y以快速的查找到所需要的信息,社區(qū)網(wǎng)站和相關(guān)研究者也很難從中發(fā)現(xiàn)用戶對各類健康主題的
5、興趣和需求,由此我們提出了健康熱點(diǎn)主題的自動識別方法。通過借助于UMLS等外部醫(yī)療知識源,我們從社區(qū)論壇的發(fā)帖文本中抽取了n-gram特征、領(lǐng)域相關(guān)特征以及情感特征等能有效表示健康主題的特征集合,然后通過文本聚類技術(shù)對社區(qū)發(fā)帖文本按其主題劃分為不同的簇,每一個結(jié)果簇代表一類健康熱點(diǎn)主題,最后通過對簇中關(guān)鍵詞抽取的方式實(shí)現(xiàn)對健康熱點(diǎn)主題的有效識別。在實(shí)驗(yàn)的測試和評估中,以國際知名網(wǎng)絡(luò)健康社區(qū)Medhelp為實(shí)驗(yàn)數(shù)據(jù)來源,選擇其中的肺癌、乳
6、腺癌和糖尿病三種典型疾病為研究對象搜集樣本數(shù)據(jù),在對模型的各項(xiàng)參數(shù)進(jìn)行確定后,我們分別得到了7個結(jié)果簇,通過關(guān)鍵詞抽取,我們最終定義了7個健康熱點(diǎn)主題,分別是個人詳細(xì)介紹、情感支持、癥狀、檢查、并發(fā)癥、用藥和治療,隨后驗(yàn)證了方法的有效性。最后通過進(jìn)一步討論,我們發(fā)現(xiàn)在不同類型疾病論壇中健康熱點(diǎn)主題的分布也有明顯差異,比如肺癌論壇中的癥狀、乳腺癌論壇中的檢查、糖尿病論壇中的用藥等主題的分布都明顯高于其他主題。
(2)社區(qū)成員角色
7、識別。網(wǎng)絡(luò)健康社區(qū)中有不同類型的參與人群,他們有著不同的參與目的和需求,表現(xiàn)出不同的角色特征。對不同角色成員的有效識別便于網(wǎng)站提供差異化服務(wù)來滿足不同成員的需求,也便于社區(qū)成員之間增強(qiáng)相互理解和信任。然而出于隱私保護(hù)等原因使得個人有效信息相對缺乏,這給有效識別社區(qū)成員的角色造成了很大困難,為此我們引入了基于文體學(xué)的文本作者角色識別理論,提出了網(wǎng)絡(luò)健康社區(qū)中的成員角色識別方法,通過對社區(qū)成員發(fā)帖文本的文體寫作特征來判斷社區(qū)成員的不同角色類
8、型,提取的文體特征包括詞匯特征、句法特征和結(jié)構(gòu)特征,并結(jié)合內(nèi)容相關(guān)的特征構(gòu)成特征集,然后采用文本聚類方法將所有發(fā)帖按其不同的文體寫作特征進(jìn)行劃分,最終實(shí)現(xiàn)對社區(qū)成員角色的有效識別。在實(shí)驗(yàn)中我們?nèi)匀灰訫edhelp健康社區(qū)三種疾病論壇中的發(fā)帖文本作為實(shí)驗(yàn)語料,對病人、護(hù)理者和醫(yī)療專家等三類主要角色進(jìn)行了有效識別,并通過進(jìn)一步討論對三類人群的差異化進(jìn)行了分析。
(3)社區(qū)成員的情感表達(dá)分析。網(wǎng)絡(luò)健康社區(qū)作為一個用戶廣泛參與交流的平
9、臺,社區(qū)成員的發(fā)帖都包含了他們豐富的情感表達(dá),因此我們探索建立了一套面向網(wǎng)絡(luò)健康社區(qū)的情感分析方法來有效地識別這些包含情感表達(dá)的發(fā)帖文本,并分析其中的情感傾向性。首先,我們介紹了對網(wǎng)絡(luò)文本的情感分析技術(shù),并分別根據(jù)基于機(jī)器學(xué)習(xí)的情感分析方法和基于情感詞典的情感分析方法來設(shè)計(jì)研究框架,對健康社區(qū)中的發(fā)帖文本進(jìn)行主客觀分類和情感極性分類。在基于機(jī)器學(xué)習(xí)的方法中通過選取領(lǐng)域特征、詞性特征、文體特征等有效區(qū)分文本情感的特征構(gòu)成特征集,并采用SV
10、M分類算法實(shí)現(xiàn)對文本的情感分類。在基于情感詞典的分析方法中,探索如何引入外部情感知識源來抽取文本中的情感詞并計(jì)算其情感表達(dá)強(qiáng)度,設(shè)定合理的情感極性區(qū)分標(biāo)準(zhǔn)來判別文本的情感傾向性。通過實(shí)驗(yàn)測試,發(fā)現(xiàn)兩種情感分析方法各有優(yōu)劣,最終我們將兩種方法進(jìn)行有效的融合,并通過科學(xué)的度量驗(yàn)證了融合兩種方法的情感分析綜合模型的有效性。在進(jìn)一步深入的分析討論中,我們針對不同的疾病類型,不同的健康主題和不同類型的成員角色等從多個角度對社區(qū)成員的情感表達(dá)特點(diǎn)進(jìn)
11、行了分析和總結(jié)。
本文的創(chuàng)新工作主要體現(xiàn)在以下三個方面:
(1)提出了基于文本聚類的網(wǎng)絡(luò)健康社區(qū)熱點(diǎn)主題識別方法。由于目前對網(wǎng)絡(luò)健康社區(qū)熱點(diǎn)主題的研究多采用基于人工統(tǒng)計(jì)標(biāo)注的方法,處理效率低下且缺乏科學(xué)性,本文提出將文本聚類的方法運(yùn)用到網(wǎng)絡(luò)社區(qū)的健康主題識別中,在傳統(tǒng)的文本表示方法的基礎(chǔ)上,本文提出引入外部醫(yī)療健康知識源從文本中抽取出區(qū)分健康主題的領(lǐng)域相關(guān)特征,并進(jìn)一步提出加入情感特征來提高聚類效果,最后通過實(shí)驗(yàn)驗(yàn)證
12、我們構(gòu)建的健康主題識別模型的有效性。
(2)提出了基于文體學(xué)的網(wǎng)絡(luò)健康社區(qū)成員角色識別方法。有效地識別不同的社區(qū)成員角色是分析研究網(wǎng)絡(luò)健康社區(qū)的主要基礎(chǔ)和前提,而由于個人資料的缺乏和隱私保護(hù)的需要使得我們難以識別成員的角色,因此相關(guān)角度的研究也非常少。本文創(chuàng)新性的提出了基于文體學(xué)的角色識別方法,從網(wǎng)絡(luò)文本中提取詞匯特征、語法特征和結(jié)構(gòu)特征等能區(qū)分不同類型社區(qū)成員的發(fā)帖風(fēng)格特征來判斷成員的角色,并通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性。<
13、br> (3)提出了適用于網(wǎng)絡(luò)健康社區(qū)中情感分析綜合模型。由于基于機(jī)器學(xué)習(xí)的情感分析方法和基于情感詞典的情感分析方法在應(yīng)用于網(wǎng)絡(luò)健康社區(qū)的文本情感分析中各有利弊,我們提出了將兩者相結(jié)合的情感分析綜合模型,首先在文本的主客觀分類上,我們采用機(jī)器學(xué)習(xí)的方法,選取領(lǐng)域特征、詞性特征、文體特征等特征集,實(shí)現(xiàn)對文本的主客觀分類。然后在對主觀性文本的情感極性分析中,我們采用基于情感詞典的方法,利用外部情感詞典SentiWordNet來抽取文本中的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于免疫網(wǎng)絡(luò)的文本挖掘方法研究.pdf
- 文本挖掘中的特征選擇方法研究.pdf
- 多關(guān)系社會網(wǎng)絡(luò)社區(qū)挖掘方法研究.pdf
- 異質(zhì)網(wǎng)絡(luò)中的社區(qū)挖掘技術(shù)研究.pdf
- 社交網(wǎng)絡(luò)中社區(qū)領(lǐng)袖的挖掘算法研究.pdf
- 基于Web挖掘的網(wǎng)絡(luò)社區(qū)研究.pdf
- 數(shù)據(jù)挖掘中的文本挖掘
- 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法的研究與實(shí)現(xiàn).pdf
- Web文本挖掘中的文本分類研究.pdf
- 基于最大團(tuán)的復(fù)雜網(wǎng)絡(luò)中社區(qū)挖掘算法研究.pdf
- 社會網(wǎng)絡(luò)中基于標(biāo)簽傳播的重疊社區(qū)挖掘研究.pdf
- 基于爬蟲的網(wǎng)絡(luò)文本挖掘研究與應(yīng)用.pdf
- 面向Web文本挖掘的主題網(wǎng)絡(luò)爬蟲研究.pdf
- 社會網(wǎng)絡(luò)中的重疊社團(tuán)挖掘方法研究.pdf
- 社會網(wǎng)絡(luò)中的地理數(shù)據(jù)挖掘方法研究.pdf
- 基于網(wǎng)絡(luò)文本的評論挖掘分析.pdf
- 基于文本挖掘技術(shù)的金融預(yù)測方法研究.pdf
- 社會網(wǎng)絡(luò)中動態(tài)社區(qū)發(fā)現(xiàn)方法研究.pdf
- 基于模糊邏輯和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)及文本挖掘的方法研究.pdf
- 文本關(guān)聯(lián)規(guī)則挖掘方法研究與應(yīng)用.pdf
評論
0/150
提交評論