版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、本文研究基于知識(shí)型數(shù)據(jù)的學(xué)習(xí)問題。傳統(tǒng)機(jī)器學(xué)習(xí)問題主要依賴于帶標(biāo)注的訓(xùn)練樣本來完成建模與預(yù)測(cè)。但是一個(gè)公認(rèn)的問題是標(biāo)注數(shù)據(jù)是非常費(fèi)時(shí)與費(fèi)力的,已經(jīng)成為機(jī)器學(xué)習(xí)繼續(xù)發(fā)展的一個(gè)很大的瓶頸。機(jī)器學(xué)習(xí)的一個(gè)很重要的應(yīng)用就是網(wǎng)頁(yè),文本數(shù)據(jù)的分類。為了能夠?qū)W(wǎng)頁(yè)數(shù)據(jù)進(jìn)行高質(zhì)量的分類,需要大量的文本訓(xùn)練集。本文注意到一個(gè)新的趨勢(shì),就是隨著互聯(lián)網(wǎng)的飛速發(fā)展和廣泛應(yīng)用,越來越多的服務(wù)和應(yīng)用出現(xiàn)在互聯(lián)網(wǎng)上。這些數(shù)據(jù)不僅僅是平面的文本數(shù)據(jù),同時(shí)帶有類標(biāo),結(jié)構(gòu)
2、等等格外的信息。考慮到任何人都可以很容易的得到大量的互聯(lián)網(wǎng)數(shù)據(jù),本文解決的的問題是,通過互聯(lián)網(wǎng)知識(shí)對(duì)機(jī)器學(xué)習(xí)的過程進(jìn)行監(jiān)督,從而減少機(jī)器學(xué)習(xí)算法,特別是文本分類算法對(duì)人工標(biāo)注數(shù)據(jù)的依賴。 為了達(dá)到這樣的目的,本文從兩個(gè)角度來解決問題。第一是設(shè)計(jì)知識(shí)型數(shù)據(jù)的獲取算法,第二是設(shè)計(jì)知識(shí)型數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)的算法。 對(duì)于知識(shí)型數(shù)據(jù)獲取的研究算法,本文研究如何將平面的,沒有任何額外信息的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,從而使得其成為知識(shí)型數(shù)據(jù)。
3、本文的研究思路是依照網(wǎng)絡(luò)上大量存在的層次結(jié)構(gòu),對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行自動(dòng)分類。研究的難點(diǎn)是,待選擇的類的數(shù)量非常龐大,傳統(tǒng)的機(jī)器學(xué)習(xí)和分類算法無法取得很好的效果。與此同時(shí),基于知識(shí)型的算法要求很高的效率,對(duì)于算法的設(shè)計(jì)有很大的限制。本文在這方面取得了一定的突破。本文注意到樸素貝葉斯分類器具有速度快,易實(shí)現(xiàn),通用性強(qiáng)等在當(dāng)前問題中非常需要的特性。雖然傳統(tǒng)樸素貝葉斯分類器的效果非常差,通過深入挖掘樸素貝葉斯分類器在大規(guī)模類空間的特性,找到了樸素貝葉
4、斯分類器存在的兩個(gè)嚴(yán)重問題,通過修正這些問題,使得樸素貝葉斯分類器的效果得到了大幅度的提升。從而能夠提供可靠的知識(shí)型數(shù)據(jù)。 對(duì)于設(shè)計(jì)知識(shí)型數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)的算法,本文研究如何利用帶有類標(biāo)信息的知識(shí)型數(shù)據(jù),來取代文檔分類中的訓(xùn)練集,達(dá)到相當(dāng)于有訓(xùn)練集的學(xué)習(xí)效果。研究的難點(diǎn)是互聯(lián)網(wǎng)知識(shí)型數(shù)據(jù)涵蓋大量的語義信息,而待分類的文本的語義信息比較集中。為了克服這樣一個(gè)差距,本文設(shè)計(jì)了一個(gè)兩階段風(fēng)險(xiǎn)最優(yōu)化算法。在第一階段中,該算法生成對(duì)于待分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于無監(jiān)督學(xué)習(xí)技術(shù)的位置大數(shù)據(jù)分析.pdf
- 基于LNP的半監(jiān)督學(xué)習(xí)算法.pdf
- 基于數(shù)據(jù)集成和監(jiān)督學(xué)習(xí)的絡(luò)合物發(fā)現(xiàn)研究.pdf
- 基于半監(jiān)督學(xué)習(xí)的物體識(shí)別.pdf
- 面向文本數(shù)據(jù)的半監(jiān)督學(xué)習(xí)研究.pdf
- 基于集成學(xué)習(xí)的半監(jiān)督學(xué)習(xí)算法研究.pdf
- 基于語義和半監(jiān)督學(xué)習(xí)的醫(yī)學(xué)文獻(xiàn)知識(shí)發(fā)現(xiàn).pdf
- 基于半監(jiān)督學(xué)習(xí)和領(lǐng)域知識(shí)的生物事件抽取.pdf
- 基于圖的半監(jiān)督學(xué)習(xí)的研究.pdf
- 基于半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類算法與應(yīng)用.pdf
- 基于特征空間變換的半監(jiān)督學(xué)習(xí).pdf
- 基于半監(jiān)督學(xué)習(xí)的木材識(shí)別研究.pdf
- 基于半監(jiān)督學(xué)習(xí)的遙感影像分類.pdf
- 基于有監(jiān)督學(xué)習(xí)的選擇型問題解答方法研究.pdf
- 基于主動(dòng)半監(jiān)督學(xué)習(xí)的不均衡數(shù)據(jù)集分類問題的研究.pdf
- 基于圖的半監(jiān)督學(xué)習(xí)的改進(jìn)研究.pdf
- 基于監(jiān)督學(xué)習(xí)的激酶鑒定算法的研究.pdf
- 基于集成算法的半監(jiān)督學(xué)習(xí)研究.pdf
- 基于半監(jiān)督學(xué)習(xí)的關(guān)鍵詞抽取.pdf
- 基于半監(jiān)督學(xué)習(xí)的醫(yī)學(xué)圖像檢索研究.pdf
評(píng)論
0/150
提交評(píng)論