版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、文本分類(lèi)是文本數(shù)據(jù)挖掘中的一項(xiàng)關(guān)鍵技術(shù),其主要任務(wù)是在預(yù)先給定的類(lèi)別標(biāo)記集合下,根據(jù)文本內(nèi)容利用有監(jiān)督學(xué)習(xí)的方法判定它的類(lèi)別。文本分類(lèi)在自然語(yǔ)言處理、信息組織與管理等領(lǐng)域都有著廣泛地應(yīng)用。但是,近年來(lái)文本分類(lèi)的類(lèi)別規(guī)模越來(lái)越龐大,如YahoolDirectory、Open DirectProject(ODP)等都已經(jīng)有成千上萬(wàn)個(gè)類(lèi)別,如果把這些類(lèi)別并列組織,那么將一個(gè)文本進(jìn)行正確分類(lèi)的難度非常大,同時(shí)用戶(hù)從中找到感興趣的類(lèi)別也需要花費(fèi)大
2、量的時(shí)間。因此,現(xiàn)實(shí)生活中的分類(lèi)體系往往將類(lèi)別組織成層次結(jié)構(gòu)。由于這種層次結(jié)構(gòu)經(jīng)常以樹(shù)的形式,因此被稱(chēng)作“類(lèi)樹(shù)”?;谶@種類(lèi)樹(shù)結(jié)構(gòu),研究者們引入了層次型文本分類(lèi)方法,它不但能夠符合用戶(hù)的行為習(xí)慣,方便用戶(hù)檢索、瀏覽文檔,而且可以通過(guò)限制搜索范圍減少分類(lèi)過(guò)程中的計(jì)算量,提高分類(lèi)質(zhì)量。由于在層次型文本分類(lèi)中,類(lèi)別被組織成層次結(jié)構(gòu),在某一層中對(duì)類(lèi)別有較好區(qū)分作用的特征詞可能在其他層中對(duì)類(lèi)別的區(qū)分作用不大,而且在能減少阻滯的閾值降低策略中,閾值
3、降低的度一直很難把握;而在類(lèi)樹(shù)中不僅各個(gè)類(lèi)別之間存在著一定的聯(lián)系,其訓(xùn)練樣本之間也都存在著一定的聯(lián)系,這些在層次分類(lèi)的特征選擇、層次分類(lèi)模型的訓(xùn)練以及分類(lèi)器閾值的確定方面都是不可忽視的因素。相對(duì)于爆發(fā)式方法,自頂向下式層次分類(lèi)方法由于能夠更好的利用層次結(jié)構(gòu)所提供的信息而備受關(guān)注,然而這種方法卻存在著“阻滯”問(wèn)題,而且由于分類(lèi)器自身性能的限制,“阻滯”問(wèn)題又是不可避免的,那么,如何利用這些類(lèi)樹(shù)和樣本的層次結(jié)構(gòu)信息和“阻滯”問(wèn)題中攜帶的一些
4、隱含信息來(lái)減少“阻滯”帶來(lái)的影響,提高分類(lèi)質(zhì)量仍然是一個(gè)值得研究的課題。本研究主要內(nèi)容包括:
⑴提出了一種面向?qū)哟畏诸?lèi)的文本特征選擇方法。在借鑒已有的特征選擇方法的基礎(chǔ)上,提出了一種面向?qū)哟畏诸?lèi)的文本特征選擇方法。首先根據(jù)類(lèi)別在類(lèi)樹(shù)中的語(yǔ)義關(guān)系給出了類(lèi)別層次相關(guān)和類(lèi)別層次不相關(guān)的概念,并根據(jù)類(lèi)樹(shù)的層次結(jié)構(gòu)和各類(lèi)別的訓(xùn)練樣本的分布情況,提出了一種利用數(shù)學(xué)手段進(jìn)行度量的方法;然后,考慮到各層次的訓(xùn)練樣本對(duì)特征詞的類(lèi)別區(qū)分能力的
5、不同貢獻(xiàn)和類(lèi)別之間的層次相關(guān)性,根據(jù)提出的類(lèi)別層次相關(guān)度的計(jì)算方法,可以為類(lèi)樹(shù)中每個(gè)類(lèi)別根據(jù)其所在層次賦予不同的重要度;再利用概率的方法獲得特征詞的類(lèi)別相關(guān)性;最后,基于前面的結(jié)果,計(jì)算每個(gè)特征對(duì)類(lèi)別的識(shí)別能力。實(shí)驗(yàn)結(jié)果表明:該方法不管在選取的特征質(zhì)量上還是在accuracy、F1和micro-Precision等分類(lèi)測(cè)度上均優(yōu)于傳統(tǒng)方法。本部分的創(chuàng)新點(diǎn):;根據(jù)類(lèi)樹(shù)的層次結(jié)構(gòu)特點(diǎn)和各層次的訓(xùn)練樣本對(duì)特征詞的類(lèi)別區(qū)分能力的不同貢獻(xiàn),為在類(lèi)
6、樹(shù)中構(gòu)建的每個(gè)分類(lèi)器選擇不同的特征詞進(jìn)行特征表示,為層次分類(lèi)的特征選擇開(kāi)辟了一個(gè)新的思路。
⑵提出了一種基于類(lèi)樹(shù)全局信息的文本層次分類(lèi)方法。在自頂向下式層次分類(lèi)過(guò)程中,由于“阻滯”現(xiàn)象的存在,使得在上層分類(lèi)器中產(chǎn)生的錯(cuò)誤分類(lèi)將會(huì)在下層分類(lèi)器中得到進(jìn)一步增強(qiáng),根據(jù)這一特點(diǎn),定義了一種新的層次損失函數(shù),可以對(duì)產(chǎn)生阻滯的分類(lèi)器根據(jù)其所在的層次以及其影響范圍給予不同的懲罰。以該層次損失函數(shù)最小化為目標(biāo),將“阻滯”現(xiàn)象中的一些隱含信
7、息以及類(lèi)樹(shù)中類(lèi)別和樣本的層次結(jié)構(gòu)信息引入boosting方法的框架中,通過(guò)調(diào)整各迭代過(guò)程中訓(xùn)練樣本的質(zhì)量來(lái)改進(jìn)分類(lèi)模型的質(zhì)量,最后將在各個(gè)迭代過(guò)程中構(gòu)建的分類(lèi)器進(jìn)行組合來(lái)建立一個(gè)更好的層次分類(lèi)模型,以減少在高層結(jié)點(diǎn)上“阻滯”現(xiàn)象的產(chǎn)生,實(shí)現(xiàn)改善層次分類(lèi)整體性能的目的。實(shí)驗(yàn)結(jié)果表明:訓(xùn)練出來(lái)的分類(lèi)器在accuracy、precision、recall、F1和microPrecicion等分類(lèi)測(cè)度上均優(yōu)于傳統(tǒng)的AdaBoost方法;同時(shí)也說(shuō)
8、明“阻滯”現(xiàn)象中所隱含的一些信息對(duì)訓(xùn)練層次分類(lèi)器有一定的作用,可以在一定程度上提高層次分類(lèi)的分類(lèi)效果,減少在上層發(fā)生阻滯的機(jī)會(huì),為以后對(duì)“阻滯”信息的使用提供了一定的借鑒作用。本部分的創(chuàng)新點(diǎn):將層次型文本分類(lèi)引入boosting框架中,并能結(jié)合層次型文本分類(lèi)中類(lèi)別和文檔的層次結(jié)構(gòu)信息以及發(fā)生“阻滯”時(shí)的一些隱含信息,提出一種新的層次損失函數(shù)和調(diào)整各訓(xùn)練樣本權(quán)重的方法,以改進(jìn)層次分類(lèi)模型的質(zhì)量,提高層次分類(lèi)的整體性能。
⑶提
9、出了一種基于回溯算法的文本層次分類(lèi)方法??紤]到不同層次的訓(xùn)練樣本對(duì)特征詞區(qū)分作用的不同貢獻(xiàn),我們將信息增益方法和文檔的層次信息相結(jié)合進(jìn)行特征選擇,使得選取的特征詞能更符合層次分類(lèi)的特點(diǎn)。在能減少阻滯的閾值降低策略中,閾值降低的度一直很難把握。為了給每個(gè)分類(lèi)器確定一個(gè)合適的閾值,通過(guò)對(duì)訓(xùn)練樣本在各類(lèi)中分布的特點(diǎn)進(jìn)行分析,結(jié)合類(lèi)別之間的關(guān)系,將在某類(lèi)別結(jié)點(diǎn)上構(gòu)建的分類(lèi)器的訓(xùn)練樣本分成三個(gè)子集對(duì)KNN分類(lèi)器進(jìn)行訓(xùn)練,使類(lèi)樹(shù)中的每個(gè)分類(lèi)器都能獲
10、得一個(gè)閾值的取值范圍,為閾值的選擇提供了一定的依據(jù)。然后,利用回溯方法,獲得文檔的候選類(lèi)別集合,最后利用文檔與候選類(lèi)別質(zhì)心之間距離的遠(yuǎn)近來(lái)確定文檔的最后類(lèi)別。實(shí)驗(yàn)結(jié)果表明:該方法可以減少上層阻滯的發(fā)生,其整體分類(lèi)效果要優(yōu)于KNN方法。本部分的創(chuàng)新點(diǎn):根據(jù)類(lèi)別和樣本的層次分布特點(diǎn),對(duì)信息增益特征選擇方法進(jìn)行了適當(dāng)?shù)母倪M(jìn),使選擇的特征詞能更適合層次分類(lèi)的特點(diǎn);在閾值降低策略的基礎(chǔ)上,通過(guò)分析層次型文本分類(lèi)中各類(lèi)別的訓(xùn)練樣本的分布特點(diǎn),結(jié)合K
11、NN分類(lèi)方法,提出了一種新的確定各結(jié)點(diǎn)閾值取值范圍的方法。并結(jié)合回溯方法對(duì)文檔進(jìn)行層次分類(lèi)獲得文檔的候選類(lèi)別集合,最終根據(jù)文檔和候選類(lèi)別的質(zhì)心之間的距離遠(yuǎn)近決定文檔的最終類(lèi)別。
綜上所述,本文主要圍繞類(lèi)別組成的層次結(jié)構(gòu)進(jìn)行展開(kāi),根據(jù)層次型文本分類(lèi)的特點(diǎn),在層次型文本分類(lèi)的特征選擇、“阻滯”信息的使用以及減少“阻滯”的策略方面做了更進(jìn)一步研究,并通過(guò)實(shí)驗(yàn)進(jìn)行了驗(yàn)證。本文的研究豐富和完善了層次型文本分類(lèi)的內(nèi)容,為更好的使用類(lèi)樹(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于潛在語(yǔ)義結(jié)構(gòu)的文本層次分類(lèi).pdf
- 層次化文本分類(lèi)方法的研究.pdf
- 基于類(lèi)別均衡的文本分類(lèi)算法研究.pdf
- 基于文本類(lèi)別的層次中文分詞算法研究.pdf
- 基于類(lèi)別概念的中文文本分類(lèi)研究.pdf
- 中文文本層次分類(lèi)方法研究及應(yīng)用.pdf
- 基于類(lèi)別閾值判斷的多標(biāo)記文本分類(lèi)研究.pdf
- 類(lèi)別特征詞權(quán)重加權(quán)文本分類(lèi)方法
- 基于模糊認(rèn)知圖的分步文本層次分類(lèi)研究.pdf
- 大規(guī)模層次分類(lèi)中深層類(lèi)別的分類(lèi)算法研究.pdf
- 文本層次分類(lèi)技術(shù)研究.pdf
- 基于類(lèi)別的特征選擇算法的文本分類(lèi)系統(tǒng).pdf
- 基于類(lèi)別空間模型的文本自動(dòng)分類(lèi)系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于層次分類(lèi)和集成學(xué)習(xí)的文本分類(lèi)技術(shù)研究.pdf
- 基于SVM的多層次大類(lèi)別數(shù)文本分類(lèi)系統(tǒng)(HJ-TCM)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于層次分類(lèi)的圖像特征表達(dá)與分類(lèi)方法研究.pdf
- 基于TAN的文本分類(lèi)方法研究.pdf
- 基于知識(shí)庫(kù)的多層次文本自動(dòng)分類(lèi)研究
- 基于知識(shí)庫(kù)的多層次文本自動(dòng)分類(lèi)研究.pdf
- 基于維基的深度多標(biāo)簽多類(lèi)別文本分類(lèi)系統(tǒng).pdf
評(píng)論
0/150
提交評(píng)論