基于動態(tài)自組織映射模型的文本聚類研究.pdf_第1頁
已閱讀1頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著網(wǎng)絡(luò)信息的飛速增長和搜索引擎等技術(shù)的日趨成熟,人類社會所面臨的主要問題已經(jīng)不再是信息匱乏,而是如何提高信息獲取和信息訪問的效率。文本聚類技術(shù)具有較強的靈活性和自動處理能力,已經(jīng)成為對文本信息進行有效地組織和導航的重要手段。盡管目前圍繞文本自動聚類技術(shù)的研究已經(jīng)取得了一些進展,當前人們?nèi)匀幻媾R聚類質(zhì)量較低、對語義知識把握不足等問題。
  為了解決上述問題,本文在對幾種比較經(jīng)典的文本聚類方法進行對比分析的基礎(chǔ)上,考慮到自組織映射網(wǎng)

2、絡(luò)在拓撲保序和抗噪聲能力等方面的優(yōu)勢,以自組織映射模型作為文本聚類的主要框架,研究和探索借助自組織映射模型進行文本聚類的特點以及所面臨的主要問題和相應(yīng)的解決方法。其目的是研究具有良好自適應(yīng)能力的聚類方法,以反映輸入文本集合的主題結(jié)構(gòu),從而減少人工勞動并改善信息的訪問效率。
  本文研究的主要內(nèi)容包括以下四部分:
  第一,本文首先對現(xiàn)有的幾種經(jīng)典文本聚類方法進行了對比分析。層次聚類方法聚類結(jié)果比較細膩,但運算開銷較大,并且在

3、硬聚類的情況下,如何找到最佳的劃分仍是需要進一步研究的問題。相比之下,k-means方法和SOM方法在效率上則存在明顯優(yōu)勢,本文對二者的聚類性能作了進一步的比較分析。針對k-means方法對初始分布如聚類k值和初始聚點的選擇比較敏感的問題,本文給出一種改進的基于最小最大原則的聚類初始分布選擇方法。該方法利用最小最大原則選擇初始聚點,并進一步選取初始k值,使得k-means的聚類結(jié)果變得穩(wěn)定,也改善了聚類性能。
  第二,本文分析了

4、傳統(tǒng)SOM模型的特點,指出其存在的問題是由于固定的網(wǎng)絡(luò)結(jié)構(gòu)難以反映輸入數(shù)據(jù)的結(jié)構(gòu)信息,導致靈活性較差,并且很容易出現(xiàn)神經(jīng)元的欠利用現(xiàn)象。本文提出一種動態(tài)變結(jié)構(gòu)模型V-SOM,該方法將分解策略和神經(jīng)元的動態(tài)擴充相結(jié)合,在聚類準則函數(shù)的指導下對網(wǎng)絡(luò)結(jié)構(gòu)進行動態(tài)自適應(yīng)調(diào)整,以真實反映輸入文檔的主題分布特征。為了克服由于采用其它輸出層拓撲結(jié)構(gòu)進行神經(jīng)元擴充可能導致的神經(jīng)元欠利用現(xiàn)象,V-SOM采用了閉合的環(huán)形輸出層結(jié)構(gòu)。該模型可以漸進地進行神經(jīng)

5、元擴充,生成的神經(jīng)元個數(shù)即為聚類塊數(shù),也有利于避免采用其他輸出層結(jié)構(gòu)需要對神經(jīng)元進行二次聚類的問題。
  第三,和很多自然語言處理應(yīng)用一樣,文本聚類也是和本體知識密切相關(guān)的。相關(guān)研究中一般采用基于外延的方法,即不關(guān)心文本的語義,而僅僅根據(jù)文本的外在特征如詞頻等統(tǒng)計信息進行處理,使聚類質(zhì)量受到影響。此外由于語言表達方式的多樣性,即使同一概念也可能有不同的表達形式。因此單單依靠特征詞的重復而產(chǎn)生的頻率信息難以較好的把握和體現(xiàn)語義信息。

6、本文以HowNet作為知識源,將概念相關(guān)知識注入,并與統(tǒng)計信息進行有效融合,以便提升對概念的敏感能力。由于采用部分理解文本語義的方法進行文本聚類,因此如果文檔之間具有一定的概念相關(guān)性,模型就可以將其聚為一個簇中,即使他們之間有較少的公共詞。實驗結(jié)果驗證了該方法的有效性。
  第四,本文對聚類描述生成中的重要技術(shù)——關(guān)鍵詞自動抽取進行了研究和探討。將關(guān)鍵詞自動抽取分解為詞的重要性評價、關(guān)鍵詞短語構(gòu)成規(guī)則挖掘、冗余檢測和冗余消除等子問

7、題。由于通常所說的關(guān)鍵詞實際上有相當一部分具有短語形式,本文利用粗集理論在規(guī)則發(fā)現(xiàn)和數(shù)據(jù)泛化方面的優(yōu)勢,對人工標注的關(guān)鍵詞短語語料進行挖掘,從而獲得了中文關(guān)鍵詞短語一般構(gòu)成規(guī)則。獲取的規(guī)則可以用于關(guān)鍵詞自動抽取,也可以為人工標注關(guān)鍵詞短語提供幫助。研究結(jié)果表明粗集的知識約簡和規(guī)則發(fā)現(xiàn)能力比較適合進行關(guān)鍵詞短語構(gòu)成規(guī)則的挖掘工作。將挖掘出的規(guī)則用于指導關(guān)鍵詞的自動抽取,避免了一些錯誤的搭配被抽取,從而提高了系統(tǒng)的性能,使抽取結(jié)果更加符合通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論