2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩102頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Internet的開(kāi)放性和日益增長(zhǎng)的規(guī)模,為人們提供了自由交換信息的便捷手段。同時(shí)巨大的開(kāi)放信息源也使一些惡意的和不良的(反動(dòng)、色情等)內(nèi)容信息趁機(jī)而入,成為用戶獲取有效信息的嚴(yán)重障礙。為保護(hù)國(guó)家安全、穩(wěn)定,同時(shí)保護(hù)網(wǎng)絡(luò)用戶遠(yuǎn)離有害信息的侵?jǐn)_,以及控制對(duì)這些信息的訪問(wèn),有必要采取有力措施對(duì)這類(lèi)信息進(jìn)行監(jiān)管,同時(shí)也有必要為運(yùn)行Web服務(wù)的各種組織,提供對(duì)此類(lèi)信息的訪問(wèn)加以監(jiān)管的技術(shù)和服務(wù)。為此研發(fā)先進(jìn)的文本內(nèi)容安全監(jiān)管技術(shù)是一項(xiàng)緊急而又重

2、要的課題。 本文綜合運(yùn)用機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、自然語(yǔ)言理解、中文信息處理、粗糙集理論、人工智能等學(xué)科的相關(guān)知識(shí),通過(guò)分析各類(lèi)不良信息的特征,結(jié)合文本信息處理目前研究進(jìn)展,深入研究了適合不良文本信息過(guò)濾的模型、文本預(yù)處理技術(shù)、文本特征選擇技術(shù)、過(guò)濾算法以及相關(guān)應(yīng)用等。 首先,對(duì)國(guó)內(nèi)外不良文本過(guò)濾現(xiàn)狀及相關(guān)過(guò)濾系統(tǒng)的研究狀況進(jìn)行了討論分析,分析了基于PICS(PlatformforInternetConte

3、ntSelection)的內(nèi)容選擇,基于URL的過(guò)濾,基于特征詞過(guò)濾的優(yōu)缺點(diǎn),指出智能內(nèi)容過(guò)濾是進(jìn)行文本深層次分析的必要技術(shù),并指出了文本安全過(guò)濾的應(yīng)用領(lǐng)域。研究了處理大樣本集的文本預(yù)處理技術(shù)、特殊字符處理技術(shù)、快速詞頻統(tǒng)計(jì)算法、網(wǎng)頁(yè)正文獲取等關(guān)鍵技術(shù)。 其次,研究了文本處理中的文本表達(dá)技術(shù)和特征選擇技術(shù),包括Filter特征選擇技術(shù),Wrapper特征選擇技術(shù),基于粗集的特征選擇技術(shù),以及權(quán)重計(jì)算和歸一化技術(shù)。指出了各種特征選

4、擇技術(shù)的優(yōu)缺點(diǎn),并對(duì)文本表達(dá)技術(shù)進(jìn)行了實(shí)驗(yàn)。得出不同的過(guò)濾器需要采用適于其本身的文本表達(dá)方法,正確的歸一化能夠得到較好的結(jié)果。實(shí)際的樣本集一般是不平衡樣本,不同的過(guò)濾器對(duì)于不平衡樣本集實(shí)驗(yàn)結(jié)果的性能差別較大。實(shí)驗(yàn)表明:中心向量法、支持向量機(jī)基于向量空間模型來(lái)表示文本,正確歸一化后,和沒(méi)有歸一化前比較,性能有很大的提高。NaiveBayes由于采用概率模型表示文本,在標(biāo)準(zhǔn)樣本集(平衡樣本集)上得到了同中心向量法和基于支持向量機(jī)的方法相當(dāng)?shù)?/p>

5、結(jié)果。而且在實(shí)際樣本集(不平衡樣本集)上,對(duì)于訓(xùn)練集,準(zhǔn)確率差于中心向量空法和基于支持向量機(jī)的方法,然而在過(guò)濾未知不良樣本上,準(zhǔn)確率非常差,而中心向量法和基于支持向量機(jī)的方法較好。分析表明一方面由于不同反動(dòng)網(wǎng)站的反動(dòng)樣本語(yǔ)法風(fēng)格不一樣,另一方面由于反動(dòng)樣本特征空間較大,基于概率的統(tǒng)計(jì)方法不能反映全部特征空間分布。中心向量法和支持向量機(jī)對(duì)于平衡樣本集或不平衡樣本集都表現(xiàn)了較好的性能。 第三,討論了粗糙集的基本概念,指出了粗糙集的理

6、論本質(zhì)。研究了粗糙集屬性約簡(jiǎn)算法,比較了基于區(qū)分矩陣的約簡(jiǎn)算法和基于屬性重要度的約簡(jiǎn)算法,指出基于區(qū)分矩陣的約簡(jiǎn)算法在處理文本屬性時(shí)是不可行的。提出了一種混合的屬性約簡(jiǎn)算法,實(shí)驗(yàn)表明該方法在處理文本信息時(shí)是非常有效的,一方面利用常用的特征選擇方法降低了文本維數(shù),另一方面利用粗糙集約簡(jiǎn)算法去掉了很多冗余屬性。 第四,提出了一種粗糙集和相關(guān)過(guò)濾器相結(jié)合的針對(duì)主題特殊文本過(guò)濾的新方法,且基于屬性重要度,對(duì)文本屬性進(jìn)行前向選擇提出了一種

7、新的粗糙集屬性約簡(jiǎn)算法,它產(chǎn)生幾個(gè)約簡(jiǎn),由于各約簡(jiǎn)基之間沒(méi)有相同的屬性,實(shí)驗(yàn)表明在處理不良文本數(shù)據(jù)時(shí),具有更強(qiáng)的過(guò)濾能力。整個(gè)過(guò)程分成兩個(gè)階段:首先將多約簡(jiǎn)算法作為前端預(yù)處理工具,進(jìn)行文本特征選擇,大大降低了屬性維數(shù),然后用統(tǒng)計(jì)方法設(shè)計(jì)過(guò)濾器進(jìn)一步對(duì)約簡(jiǎn)后的屬性進(jìn)行分類(lèi)過(guò)濾,計(jì)算量大大減少,同時(shí)提高了分類(lèi)速度。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,對(duì)未經(jīng)粗糙集約簡(jiǎn)的文本屬性集和經(jīng)過(guò)快速約簡(jiǎn)的文本屬性集比較,當(dāng)約簡(jiǎn)個(gè)數(shù)m取值增加后,所選擇的屬性個(gè)數(shù)大大減

8、少,中心向量法和基于支持向量機(jī)的方法在訓(xùn)練集和測(cè)試集上都達(dá)到了未經(jīng)約簡(jiǎn)前的準(zhǔn)確率。 第五,融合粗糙度和知識(shí)的粗糙熵,引入粗集的粗糙熵來(lái)量測(cè)知識(shí)的不確定性。這種測(cè)度量測(cè)知識(shí)的不確定性比粗糙度和知識(shí)的粗糙熵更充分。得出粗集的粗糙度、知識(shí)的粗糙熵、粗集的粗糙熵隨著知識(shí)更細(xì)的劃分而單調(diào)下降。 最后,開(kāi)發(fā)了內(nèi)容安全網(wǎng)關(guān)中不良文本過(guò)濾模塊,設(shè)計(jì)了一個(gè)有效的不良文本過(guò)濾架構(gòu)。基于多模式匹配算法研究設(shè)計(jì)了高效的不良文本過(guò)濾引擎,并應(yīng)用于

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論