版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著國(guó)家海洋戰(zhàn)略的實(shí)施,與海洋有關(guān)的Web文獻(xiàn)數(shù)迅速增長(zhǎng)。對(duì)海洋文獻(xiàn)進(jìn)行聚類分析,有助于海洋信息挖掘,這對(duì)于海洋科技有重要意義。 中文文檔聚類分析包括數(shù)據(jù)庫(kù)文檔抽取、文檔中文分詞、構(gòu)建文檔集的表示模型、基于文檔集模型進(jìn)行聚類分析等步驟。與英文文檔處理不同,中文文檔的處理必須先進(jìn)行分詞。常見的分詞方法有基于字符串匹配的、基于理解的和基于統(tǒng)計(jì)的三種方法。目前的分詞方法基本滿足了實(shí)際需求,關(guān)鍵是選擇合適的分詞軟件。信息獲取領(lǐng)域中,一般
2、采用向量空間模型作為文檔集的表示模型,從該模型可容易地計(jì)算出文檔之間的相關(guān)度,因而可用于文檔聚類分析。聚類算法有很多,如基于劃分的、基于層次的、基于密度的等多種算法,算法選擇取決于應(yīng)用目的。 為構(gòu)建基于自組織特征映射神經(jīng)網(wǎng)絡(luò)的海洋文獻(xiàn)聚類系統(tǒng),本文分析了中文分詞的常用方法,研究了文檔集的表示模型以及各種聚類算法,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于自組織特征映射神經(jīng)網(wǎng)絡(luò)的文檔聚類分析系統(tǒng)OCA,主要工作及創(chuàng)新點(diǎn)如下: 1.在分析和比較各
3、種聚類算法的基礎(chǔ)上,選擇自組織特征映射(SOM)神經(jīng)網(wǎng)絡(luò)作為海洋文獻(xiàn)聚類分析的算法,這里的SOM神經(jīng)網(wǎng)絡(luò)采用廚師帽獲勝鄰域,鄰域內(nèi)神經(jīng)元調(diào)整權(quán)值。 2.研究了中文分詞技術(shù),比較了各種分詞方法,選擇分詞準(zhǔn)確率高的軟件MMSEG實(shí)現(xiàn)對(duì)中文海洋文獻(xiàn)的分詞。 3.用向量空間模型表示文檔集,用廣為接受的TFIDF表示詞匯對(duì)文檔語義的貢獻(xiàn)。 4.在Eclipse環(huán)境下用Java實(shí)現(xiàn)了一個(gè)基于SOM的海洋文獻(xiàn)聚類系統(tǒng)OCA,從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于自組織特征映射網(wǎng)絡(luò)的DTS智能評(píng)估.pdf
- 基于自組織特征映射的入侵檢測(cè)算法研究.pdf
- 基于自組織特征映射的實(shí)時(shí)入侵檢測(cè)系統(tǒng).pdf
- 自組織特征映射神經(jīng)網(wǎng)絡(luò)
- 基于自組織特征映射網(wǎng)絡(luò)的聚類算法研究.pdf
- 基于自組織特征映射的檢索結(jié)果聚類研究.pdf
- 基于SOFM自組織特征映射網(wǎng)絡(luò)的圖像語義分割與標(biāo)識(shí).pdf
- 基于自組織映射的自動(dòng)文摘方法研究.pdf
- 基于自組織特征映射神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割.pdf
- 基于自組織映射的驗(yàn)證碼識(shí)別研究.pdf
- 基于自組織映射思維圖的信任模型.pdf
- 基于自組織映射的故障診斷方法.pdf
- 基于核自組織映射的時(shí)間序列預(yù)測(cè)研究.pdf
- 基于動(dòng)態(tài)自組織映射模型的文本聚類研究.pdf
- 參數(shù)適應(yīng)自組織映射網(wǎng)絡(luò)的研究與應(yīng)用.pdf
- 基于生態(tài)特征的自組織結(jié)構(gòu)進(jìn)化.pdf
- 基于自組織映射網(wǎng)絡(luò)的音樂情感識(shí)別技術(shù)研究.pdf
- 自組織特征映射網(wǎng)絡(luò)在客戶分類中的應(yīng)用研究.pdf
- 基于自組織映射網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法研究及應(yīng)用.pdf
- 基于小波自組織特征映射的故障診斷知識(shí)獲取方法及應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論