版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、<p> J I A N G S U U N I V E R S I T Y</p><p> 本 科 畢 業(yè) 論 文</p><p> 口語考試試題分類器的設(shè)計(jì)與實(shí)現(xiàn)</p><p> The Design Budget Implementation of The Test Classifier for The Oral Exam&l
2、t;/p><p> 學(xué)院名稱: 電氣信息工程學(xué)院 </p><p> 專業(yè)班級: 電信1102班 </p><p> 學(xué)生姓名: (3110503041) </p><p> 指導(dǎo)教師姓名: </p>
3、<p> 指導(dǎo)教師職稱: 副教授 </p><p><b> 2015年 6 月</b></p><p> 口語考試試題分類器的設(shè)計(jì)與實(shí)現(xiàn)</p><p> 專業(yè)班級:電信1102 學(xué)生姓名: </p><p> 指導(dǎo)教師:
4、 職 稱:副教授</p><p> 摘要 隨著計(jì)算機(jī)多媒體技術(shù)的快速發(fā)展,多媒體閱卷越來越受到教育部門的重視。這使得口語考試試題分類系器越來越受人們重視,而支持向量機(jī)和口語考試試題分類有著良好的結(jié)合點(diǎn),從而使得基于支持向量機(jī)的口語考試試題分類成為這個(gè)領(lǐng)域的研究熱點(diǎn),支持向量機(jī)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的分類學(xué)習(xí)機(jī)模型,它的應(yīng)用十分廣泛??谡Z考試試題分類中,口語文本特征的提取和合理選擇是實(shí)現(xiàn)口
5、語文本分類的一個(gè)關(guān)鍵步驟??谡Z文本分類一般分為預(yù)處理、統(tǒng)計(jì)、特征提取、訓(xùn)練和測試評價(jià)這幾個(gè)步驟。</p><p> 本文主要研究基于支持向量機(jī)的口語考試試題分類,首先,把口語考試的語音轉(zhuǎn)化為文本作為語料,在根據(jù)口語考試得分不同將口語語料進(jìn)行分類,把口語分類的問題轉(zhuǎn)化為文本分類的問題;其次是對這些口語文本進(jìn)行特征的提取,組成特征向量,這些特征主要包括口語文本中的字符長度、名詞代詞比和定冠詞頻率誤差等方面;最后利用
6、支持向量機(jī)分類器根據(jù)提取的特征對口語進(jìn)行分類,對比語料分類結(jié)果、看分類器的準(zhǔn)確率,調(diào)整懲罰參數(shù)c來提高分類器的性能。實(shí)驗(yàn)表明15.4時(shí),分類器的準(zhǔn)確率達(dá)到最高81.80%。</p><p> 關(guān)鍵詞:特征提取 文本分類 支持向量機(jī)</p><p> The design budget implementation of the test classifier for the ora
7、l exam</p><p> Abstract With the rapid development of computer multimedia technology, multimedia scoring more and more attention to the education sector. This makes Oral Exam classification system is more
8、and more people's attention, and support vector machines and classification Oral Exam has a good combination of points, so that based on SVM classification oral examination papers become a hot topic in this area, sup
9、port vector machine is a structural risk minimization criterion of classification based learn</p><p> In this paper, based on support vector machine classification Oral Exam, First, oral exam voice into tex
10、t as a corpus, in Speech and different will be classified, will be classified according to oral question oral exam score into a text classification problem ; Followed by the extraction of these features spoken text, comp
11、osition feature vector, these features include aspects of spoken text characters in length, nouns and pronouns than the definite article the frequency error and the like; Final</p><p> Keywords: feature ext
12、raction text classification support vector machines</p><p><b> 目 錄</b></p><p><b> 第一章 緒論3</b></p><p> 1.1 課題研究背景和意義3</p><p> 1.2 國內(nèi)外研究的現(xiàn)
13、狀與發(fā)展3</p><p> 1.3論文內(nèi)容的介紹4</p><p> 第二章 語音分類6</p><p> 2.1 語音自動分類概述6</p><p> 2.2 語音文本分類的發(fā)展歷史6</p><p> 2.3 語音文本分類關(guān)鍵技術(shù)8</p><p> 2.3.1 語
14、音文本的表示8</p><p> 2.3.2 語音文本特征的提取10</p><p> 2.3.3 權(quán)重計(jì)算12</p><p> 2.3.4 常用的文本分類算法13</p><p> 2.4 文本分類的主要應(yīng)用14</p><p> 第三章 支持向量機(jī)的產(chǎn)生與發(fā)展16</p>&l
15、t;p> 3.1 SVM產(chǎn)生與發(fā)展16</p><p> 3.2 支持向量機(jī)簡介17</p><p> 3.3 支持向量機(jī)分類17</p><p> 3.3.1 線性可分支持向量分類機(jī)17</p><p> 3.3.2 近似線性可分問題19</p><p> 3.3.3 線性不可分問題19
16、</p><p> 3.4 常用的核函數(shù)21</p><p> 3.4.1 核函數(shù)及特征21</p><p> 3.4.2 核函數(shù)的判定和常用的核函數(shù)21</p><p> 3.4.3 常用的核函數(shù)21</p><p> 第四章 基于支持向量機(jī)的二分類文本分類器設(shè)計(jì)23</p><
17、;p> 4.1 實(shí)驗(yàn)平臺簡介23</p><p> 4.2 語音分類特征簡介23</p><p> 4.3 特征提取流程24</p><p> 4.4語音特征數(shù)據(jù)處理29</p><p> 4.4.1特征數(shù)據(jù)分析處理步驟29</p><p> 4.4.2 單詞文本特征數(shù)據(jù)降維35</
18、p><p> 4.4.3 整體特征數(shù)據(jù)降維36</p><p> 4.4 懲罰參數(shù)C的選取37</p><p> 4.5分類器性能測試38</p><p><b> 第五章 總結(jié)40</b></p><p> 5.1本文總結(jié)40</p><p> 5.2
19、工作展望40</p><p><b> 致謝42</b></p><p><b> 參考文獻(xiàn)43</b></p><p><b> 第一章 緒論</b></p><p> 近年來,伴隨著互聯(lián)網(wǎng)的崛起,人們對口語考試試題自動分類器的需求越來越大。口語考試試題分類就
20、是利用計(jì)算機(jī)技術(shù)對口語進(jìn)行評分和評估。而且當(dāng)下考試也已成為一種重要的考核形式,選拔人才、學(xué)生晉升、官員晉升等,但是如何利用計(jì)算機(jī)進(jìn)行對口語評分的問題,仍然是一個(gè)亟待解決的問題。眼下對口語的評分主要還是由閱卷老師進(jìn)行,這樣的方法耗費(fèi)了大量的人力物力,而且閱卷老師還帶有主觀性,會因閱卷老師的興趣愛好、心態(tài)情趣和當(dāng)時(shí)的狀態(tài)等多種主管因素帶來偏差,從而造成不公平。因此最大限度的降低主觀因素對評分造成的影響是很有必要的,實(shí)現(xiàn)客觀有效而方便快捷的口
21、語自動評分系統(tǒng)就很有必要。</p><p> 1.1 課題研究背景和意義</p><p> 隨著全球計(jì)算機(jī)與通訊技術(shù)的飛速發(fā)展、互聯(lián)網(wǎng)絡(luò)的普及與應(yīng)用, 傳統(tǒng)口語考試的考試形式的弊端日益明顯。傳統(tǒng)口語考試效率低下,耗時(shí)長、成本高,需要大量的口語考官進(jìn)行面試,一場考試只能對幾名學(xué)生進(jìn)行考評,若想對全體專業(yè)學(xué)生進(jìn)行一次統(tǒng)一的口語考試,將是一項(xiàng)巨大的耗時(shí)耗力的工程;難以保證評分的公正、公平性,
22、考官的考查點(diǎn)不同,勢必會影響學(xué)生的分?jǐn)?shù),存在印象分,很難有一個(gè)水平的考評標(biāo)準(zhǔn)。但是,口語考試試題分類器的技術(shù)將口語考試的文本語料進(jìn)行文本分類進(jìn)而判定其與主題的相關(guān)性,恰恰解決了傳統(tǒng)考試存在的一些弊端。節(jié)省人力物力,是口語考試更加的客觀,公正。同時(shí)語言文本信息的激增不僅增加了對于快速、自動文本分類的迫切需求,而且又為語料信息與客觀主題的方法做了充分的準(zhǔn)備。</p><p> 1.2 國內(nèi)外研究的現(xiàn)狀與發(fā)展<
23、/p><p> 現(xiàn)行高校所采用的口語考試形式主要是師生間“人人對話”這種面對面的考試形式。這種“人人對話”式口語考試的主要優(yōu)點(diǎn)有:真實(shí)情景性(考慮到交際真實(shí)情景)、交互性 (師生交互、考生之間交互),這讓學(xué)生能夠在真實(shí)的情景環(huán)境中進(jìn)行自我發(fā)揮,利于互動交流。而這種考試形式也有其缺陷:考試效率低下,耗時(shí)長、成本高。人人對話就需要大量的口語考官進(jìn)行面試,一場考試只能對幾名學(xué)生進(jìn)行考評,若想對全體專業(yè)學(xué)生進(jìn)行一次統(tǒng)一的口
24、語考試,將是一項(xiàng)巨大的耗時(shí)耗力的工程;難以保證評分的公正、公平性,考官的考查點(diǎn)不同,勢必會影響學(xué)生的分?jǐn)?shù),存在印象分,很難有一個(gè)水平的考評標(biāo)準(zhǔn)。所以 “人人對話”式的口語考試形式不能滿足學(xué)校英語口語考試的需求,我們必須要重新規(guī)劃和設(shè)計(jì)全新的口語考試模式,以適應(yīng)高校日常的考試要求。針對傳統(tǒng)的人與人面對面口語考試模式的弊端,利用文本分類技術(shù)設(shè)計(jì)并開發(fā)出一套“語音---文本語料---文本分類---與主題相關(guān)性”的自動評分系統(tǒng)[8]。</
25、p><p> 上個(gè)世紀(jì)50年代末開始的自動文本分類研究,其中H.Puhn在這個(gè)領(lǐng)域的研究擁有開創(chuàng)性的表現(xiàn)。到了1961年,Maron發(fā)表了他的第一篇自動分類的論文,在當(dāng)時(shí)引起了不小的轟動,在這之后還有很多比較有影響力的科學(xué)家發(fā)表了自己關(guān)于自動分類的論文,其中著名的如情報(bào)學(xué)家Sparck,Salton等在這一領(lǐng)域進(jìn)行了卓有成效的研究,直到90年代以來,統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)的這倆種方法被人們引進(jìn)到文本自動分類中,并且取得
26、了一定的成果而且逐漸取代了知識工程方法;機(jī)器學(xué)習(xí)方法較少的考慮文本語料的語義信息,因此將文本語料的的特征值提取并依據(jù)特征值判斷主題匹配性的分類十分重要[1]。</p><p> 相比于外國的口語考試語料分類器的研究,口語考試語料分類器的研究在國內(nèi)還是比較晚的,據(jù)相關(guān)資料而知,國內(nèi)的口語考試語料分類器研究工作是在上個(gè)世紀(jì)80年代開始的,大體而言國內(nèi)的文本分類基本上還是處在一個(gè)實(shí)驗(yàn)階段。</p>&l
27、t;p> 1.3論文內(nèi)容的介紹</p><p> 本文主要研究基于支持向量機(jī)的口語考試試題分類算法,文中主要介紹了支持向量機(jī)、以及支持向量機(jī)在口語考試中的應(yīng)用,懲罰參數(shù)對SVM的影響等,結(jié)構(gòu)安排如下:</p><p> 第一章,緒論。主要介紹了課題的研究背景、研究意義、國內(nèi)外現(xiàn)狀,概述本論文的的主要工作以及結(jié)構(gòu)安排。</p><p> 第二章,語音文本
28、分類相關(guān)知識。由于基于支持向量機(jī)的文本分類是眾多文本分類方法中的一種,它以文本分類為基礎(chǔ)。因此本文對文本分類的相關(guān)知識做了詳細(xì)的介紹,如語音文本表示、特征選擇。權(quán)重計(jì)算。文本分類算法等文本分類的關(guān)鍵技術(shù)。</p><p> 第三章,支持向量機(jī)相關(guān)知識。支持向量機(jī)的應(yīng)用領(lǐng)域十分廣泛,口語考試試題分類器是其中中一種比較典型的應(yīng)用。本文研究的是基于支持向量機(jī)的口語考試語料分類的算法,所以也有必要介紹支持向量機(jī)的相關(guān)知
29、識。本章中主要介紹了支持向量機(jī)的基本原理、支持向量機(jī)的分類、支持向量機(jī)的核函數(shù)。支持向量機(jī)的應(yīng)用步驟以及支持向量機(jī)分類方法的優(yōu)缺點(diǎn)。</p><p> 第四章,主要講使用支持向量機(jī)在口語語料自動分類方面的應(yīng)用,詳細(xì)的介紹了如何建立二分類文本分類器,以及對支持向量機(jī)的性能的測試,從而使支持向量機(jī)的性能達(dá)到最佳</p><p> 第五章,總結(jié)和展望。本章總結(jié)了通過實(shí)驗(yàn)得出的結(jié)論,并敘述了本
30、文中所用方法的不足,對將來的工作進(jìn)行展望。</p><p><b> 第二章 語音分類</b></p><p> 2.1 語音自動分類概述</p><p> 語音自動分類,首先是把口語考試的語音轉(zhuǎn)化為文本作為語料,在根據(jù)口語考試得分不同將口語語料進(jìn)行分類,這樣就把對口語分類的問題轉(zhuǎn)化為文本分類的問題,簡稱為文本分類,對大量的非結(jié)構(gòu)化的文字
31、信息由計(jì)算機(jī)系統(tǒng)根據(jù)待分類文本的內(nèi)容自動分派到指定的類別中去,是一種有指導(dǎo)的學(xué)習(xí)過程,分類體系一般由人工構(gòu)造。</p><p> 從數(shù)學(xué)的角度而言,文本分類是一種映射的過程,它是將待分類的文本映射到已有的類別當(dāng)中去,這個(gè)映射機(jī)制可以是一對一,也可以是一對多的映射機(jī)制,這是因?yàn)橐黄恼驴赡軙婕岸鄠€(gè)主題。用數(shù)學(xué)表達(dá)式表示如下:其中,是待分類的文本集合,是分類體系中的類別集合,則是這個(gè)映射的法則,由到這么一個(gè)過程是
32、在的規(guī)則下完成的。其中是系統(tǒng)根據(jù)待分類文本的數(shù)據(jù)信息,總結(jié)出來的分類公式和分類規(guī)則。</p><p> 文本自動分類的過程一般而言可以劃分為訓(xùn)練和分類兩個(gè)部分。訓(xùn)練的目的是通過樣本和類別之間的聯(lián)系構(gòu)造分類模型,使其用于分類。分類則是依據(jù)訓(xùn)練結(jié)果對未知樣本進(jìn)行分類,給出類別標(biāo)識的過程。如下圖:</p><p> 圖2-1 文本分類一般過程</p><p> 2.
33、2 語音文本分類的發(fā)展歷史</p><p> 文本分類的研究可以追溯到上世紀(jì)六十年代,早期的文本分類主要是在知識工程(Knowledge Engineering)的基礎(chǔ)上展開的,其方法是認(rèn)為的手工指定一些規(guī)則來對文本進(jìn)行自動分類,可想而知,這種方法耗時(shí)耗力,而且還必須要對所涉及的這個(gè)領(lǐng)域有足夠的了解,這樣才能夠?qū)懗龊侠淼姆▌t出來才。到了20世紀(jì)90年代初,互聯(lián)網(wǎng)上涌現(xiàn)了大量的在線文本和興起了機(jī)器學(xué)習(xí)的浪潮,研究
34、者們對大規(guī)模的文本(包括網(wǎng)頁)的分類和檢索產(chǎn)生了濃厚的興趣。文本分類系統(tǒng)先是在已經(jīng)分類好的文本集上進(jìn)行訓(xùn)練,以此來確定一個(gè)判別準(zhǔn)則或則是建立一個(gè)分類器,進(jìn)而對未知類別的待分類文本的樣本進(jìn)行自動分類。通過大量的實(shí)驗(yàn)數(shù)據(jù)表明,這樣的分類的精度和那些專家以手工分類的結(jié)果不相上下,更值得一提的是它的學(xué)習(xí)過程不需要任何專家作任何干涉,它能夠適應(yīng)任何領(lǐng)域的學(xué)習(xí),使得它成為目前文本分類的主流方法[15]。</p><p>
35、1971年,Rocchio首次提出了一種交互的方法,這種方法就是用戶在查詢的過程中不斷地會有一些反饋,通過用戶的這些反饋來修正類權(quán)重向量,從而構(gòu)成簡單的線性分類器。Mark vanUden、Mun等還給出了另外一些修改權(quán)重的方法。1979年,Van Rijsbergen系統(tǒng)的總結(jié)了信息檢索領(lǐng)域,這其中有一些關(guān)于信息檢索的新概念,如向量空間模型(Vector Space Model)[8]和評估標(biāo)準(zhǔn)如準(zhǔn)確率(Precision)、回召率(
36、Recall)等等,這些概念后來陸陸續(xù)續(xù)的被凌辱到了文本自動分類當(dāng)中來,Van Rijsbergen還重點(diǎn)的探討了信息檢索的概率模型,至此后來的文本分類研究基本上是建立在這個(gè)概率模型上的[6]。</p><p> 1992年,Lewis發(fā)表了他的一篇博士論文《Representation and Learning in Information Retrieval》,在這片博士論文中他向人們系統(tǒng)地介紹了實(shí)現(xiàn)文本分
37、類系統(tǒng)的各個(gè)細(xì)節(jié),他還在自己建立的數(shù)據(jù)集Reuters22173上進(jìn)行了測試。這篇博士論文奠定了Lewis在文本分類領(lǐng)域的地位,他的這篇博士論文也是文本分類領(lǐng)域的經(jīng)典之作。后繼的研究者們還在特征的降維和分類器的設(shè)計(jì)方面做了大量的研究工作,Yiming Yang對各種特征選擇方法以實(shí)驗(yàn)的方法進(jìn)行了分析和比較,包括信息增益(Information Gain)、互信息(Mutual Information)、統(tǒng)計(jì)量等等方法,她還參閱了大量的文
38、獻(xiàn)并對文獻(xiàn)當(dāng)中所提到的所有的文本分類方法進(jìn)行了一次詳細(xì)的審閱,還對這些分類器的性能作了詳細(xì)的比較并發(fā)表在公開數(shù)據(jù)集Reuters21578和OHSUMED上,她所發(fā)表的這些對后來的研究起到了重要的參考作用。</p><p> 到了1995年,Vipnik在統(tǒng)計(jì)理論的基礎(chǔ)提出了支持矢量機(jī)(Support Vector Machine)方法,其基本思想是尋找最優(yōu)的高維分類超平面。因?yàn)檫@種方法是以成熟的小樣本作為統(tǒng)計(jì)
39、理論的基礎(chǔ),所以它在機(jī)器學(xué)習(xí)領(lǐng)域得到了廣泛的重視。后來Thorsten Joachims還第一次將線性核函數(shù)的支持矢量機(jī)用于文本分類,這種方法與傳統(tǒng)的算法相比,大大的提高了支持矢量機(jī)的分類性能,而且它還在其他不同的數(shù)據(jù)集上體現(xiàn)了算法的魯棒性。至今,文本分類研究的熱點(diǎn)依舊是支持矢量機(jī)的理論。</p><p> 就在出現(xiàn)支持矢量機(jī)的同時(shí),1995年及其后,以Yoav Freund 和Robert E.Schapir
40、e等人共同發(fā)表的關(guān)于AdaBoost的論文為標(biāo)志,在機(jī)器學(xué)習(xí)算法的研究方面出現(xiàn)了另一個(gè)高峰。RobertE.Schapire通過理論和實(shí)驗(yàn)兩個(gè)方面總結(jié)出AdaBoost算法框架的合理性。后繼的研究者們還在這個(gè)框架的基礎(chǔ)下得到了很到類似于Boosting的算法,這其中比較有代表性的有Real AdaBoost,LogitBoost,Gentle Boost等等。而且后來的文本分類研究中都應(yīng)用到了這些算法,并且取得和支持矢量機(jī)一樣好的效果。
41、</p><p> 總之,盡管機(jī)器學(xué)習(xí)理論在文本分類研究中起到了不可或缺的作用,并且在這之前它的作用也一直被低估,但是它在文本分類中所扮演的角色決定了它所固有的特性給及其學(xué)習(xí)提出了全新的挑戰(zhàn),這就是的文本分類的研究任就處在信息處理領(lǐng)域一個(gè)相對開放的、重要的研究方向。</p><p> 2.3 語音文本分類關(guān)鍵技術(shù)</p><p> 2.3.1 語音文本的表示&
42、lt;/p><p> 一般而言,文本是有眾多字符構(gòu)成的一個(gè)集合,這樣的一個(gè)集合是無法被計(jì)算機(jī)中的學(xué)習(xí)算法直接訓(xùn)練或者分類的[5]。那么如何才能夠?qū)C(jī)器學(xué)習(xí)運(yùn)用到文本分類的問題當(dāng)中去呢,首先要坐的就是將訓(xùn)練和待分類的文本對象,轉(zhuǎn)化為計(jì)算機(jī)學(xué)習(xí)語言能夠接受和易于處理的那么一種形式,這就運(yùn)用到文本的特征表示方法,顧名思義文本的特征表示方法就是指用文本的一定的特征量來代表文本本身,隨后自對文本進(jìn)行分類的時(shí)候就對這些特征項(xiàng)進(jìn)
43、行處理,從而實(shí)現(xiàn)對非結(jié)構(gòu)化文本的處理。做這樣一個(gè)工作的前提是現(xiàn)有文本分類技術(shù)的特征和文本類別密切相關(guān),要使得計(jì)算機(jī)能高效的處理真實(shí)文本,就必須找到一種理想的形式化表示方法,這種表示一方面能真實(shí)的反映文檔內(nèi)容(主題、領(lǐng)域或結(jié)構(gòu)等),另一方面也要有對不同文檔的區(qū)分能力?,F(xiàn)今有多種特征表示模型,常用的有布爾模型、概率模型、向量空間模型等。向量空間模型是近年來應(yīng)用較多且效果較好的方法之一。目前文本表示通常采用向量空間模型(vector spac
44、e model,VSM)。20世紀(jì)60 年代末期是由G.Salton等人提出的,是當(dāng)前自然語言處理中常用的主流模型。下面我們簡單的介紹這幾種比較常用的模型:</p><p> (1)布爾模型(Boolean Model)</p><p> 布爾(Boolean)模型是基于集合論和布爾代數(shù)的一種簡單檢索模型。在傳統(tǒng)的信息檢索中較為廣發(fā)使用的就是布爾模型,這是因?yàn)樗臋z索最簡單,同時(shí)也是其
45、他檢索模型的基礎(chǔ)。它是一種簡單的嚴(yán)格匹配模型(Exact Match Model),它定義了一個(gè)二值變量集合來表示文本。布爾模型的優(yōu)點(diǎn)是它實(shí)現(xiàn)起來比較簡單,執(zhí)行的速度快,但同時(shí)它的缺點(diǎn)也比較明顯,它有以下兩個(gè)較為突出的缺點(diǎn):一是它是基于二元判斷的檢索策略,缺乏文檔分級,這就在一定程度上限定了檢索的功能。二是雖然布爾表達(dá)式語義很精準(zhǔn),但常常還是很難將用戶的信息需求轉(zhuǎn)換為布爾表達(dá)式,事實(shí)也是這樣很多用戶也會發(fā)現(xiàn)他們很很難將檢索轉(zhuǎn)化為布爾表達(dá)
46、式。</p><p> ?。?)概率模型(Probabilistic Model)</p><p> 概率模型考慮詞與詞的相關(guān)性,會把文本集當(dāng)中的文本分為相關(guān)文本和物管文本。然后以概率論為基本原理,再通過給某些詞賦予一定的概率值來確定這些詞在相關(guān)文本和無關(guān)文本當(dāng)中出現(xiàn)的概率,再然后計(jì)算文本相關(guān)的概率,最后系統(tǒng)根據(jù)這些概率作出決策。概率模型有多種形式,比較常見的就是第二概率模型,其基礎(chǔ)思想
47、是:詞的概率值一般是對重復(fù)若干次相關(guān)性計(jì)算,每重復(fù)一次,就由用戶對檢出文本進(jìn)行人工判斷。然后利用這種反饋信息,根據(jù)每個(gè)詞在相關(guān)文本集合和無關(guān)文本集合的分布情況來計(jì)算它們的相關(guān)概率。概率模型的優(yōu)點(diǎn)是采用嚴(yán)格的數(shù)學(xué)理論為依據(jù),為人們提供了一種數(shù)學(xué)理論基礎(chǔ)來進(jìn)行匹配,采用相關(guān)性反饋原理,可開發(fā)出理論上更為堅(jiān)實(shí)的方法。缺點(diǎn)是增加了存儲和計(jì)算資源的開銷,且參數(shù)估計(jì)難度較大。還有就是開始時(shí)需要猜想把文檔分為相關(guān)和不相關(guān)的兩個(gè)集合,實(shí)際上這種模型沒有
48、考慮索引術(shù)語在文檔中的頻率(因?yàn)樗械臋?quán)重都是二元的),而索引術(shù)語都是相互獨(dú)立的。</p><p> ?。?)向量空間模型(Vector Space Model,VSM)</p><p> 向量空間模型(VSM:Vector Space Model)由Salton等人于20世紀(jì)70年代提出[11],并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)。它自誕生以來一直就是信息檢索領(lǐng)域最為經(jīng)典的計(jì)算
49、模型。一般情況空間向量模型是使用詞來代表文本的特征信息,每個(gè)詞都成為一個(gè)特征項(xiàng)。所以在向量空間模型中,每個(gè)文本都能表示為由一組規(guī)范化正交矢量所組成的向量空間中的一個(gè)個(gè)點(diǎn),也就是說是形式化為空間中的向量。</p><p> 2.3.2 語音文本特征的提取</p><p> 文本中詞空間維度很高,而且不同的詞對文本的貢獻(xiàn)是不一樣的,所以我們要先度量一下詞在文本中的權(quán)重,只有那些達(dá)到一定權(quán)重
50、閥值的詞才能夠作為代表文本的關(guān)鍵詞。關(guān)鍵詞的提取過程就是文本特征提取的過程,特征提取可以在一定程度上緩解過匹配現(xiàn)象。</p><p> 采用統(tǒng)計(jì)方法的模式識別使用特征參數(shù)將模式表達(dá)為特征空間的向量,然后使用判別函數(shù)進(jìn)行分類。當(dāng)數(shù)據(jù)量越來越大,提取特征變得相對比較困難,這里所謂的特征提取就是對一開始的數(shù)據(jù)進(jìn)行初始分析,從中來發(fā)現(xiàn)最能反映模式分類的本質(zhì)特征。這個(gè)過程會伴隨著維數(shù)的增長,隨著維數(shù)增長所需要的計(jì)算開銷也
51、會急劇增加,為了降低計(jì)算的復(fù)雜程度就需要對空間的維度作降維處理。因此模式的特征提取和選擇是文本處理技術(shù)的關(guān)鍵一環(huán)。文本特征提取的本質(zhì)就是高維數(shù)據(jù)的降維技術(shù),即將高維數(shù)據(jù)通過變換映射到低維空間。如何才能處理好降維問題,因?yàn)樵诮稻S過程中可能掩蓋數(shù)據(jù)的原有信息,有可能原本在高維空間存在明顯差異的特征映射到低維空間是這些特征的差異就難以判別。因此,需要一個(gè)合適的映射來處理叢高偉向低維的轉(zhuǎn)變,這樣才能將高維空間中的目標(biāo)信息盡可能的映射到低維空間當(dāng)
52、中去。</p><p> 特征提取的方式有四種:第一種方式是用映射或變換的方法把原始特征變換為較少的新特征;第二種方式是從原始特征中挑選出一些最具代表性的特征;第三種方式是根據(jù)專家的知識挑選最有影響的特征;第四種方式是用數(shù)學(xué)的方法進(jìn)行選取,找出最具分類信息的特征,由于這種方法沒有什么認(rèn)為干擾因數(shù),所以這種方法很適合文本自動分類挖掘系統(tǒng)的應(yīng)用。目前,常用的方法有評估函數(shù)法、主成分分析法、模擬退火算法等。本文在這里
53、只介紹一下評估函數(shù)方法:不同的特征項(xiàng)對于文檔的重要性和區(qū)分度是不同的,通常高頻特征項(xiàng)在多個(gè)類中出現(xiàn),并且分布較為均勻,因此區(qū)分度較小,而低頻特征項(xiàng)由于對文檔向量的貢獻(xiàn)較小,因此重要性也較低。去除區(qū)分度較小的噪音特征項(xiàng)可以提高分類正確率,去除重要性較低的低頻特征項(xiàng)可以加快運(yùn)行速度。因此需要建立合適的特征評價(jià)函數(shù),對特征項(xiàng)進(jìn)行選擇[12]。用評估函數(shù)的方法進(jìn)行特征提取的思想是對特征集中的每個(gè)特征進(jìn)行獨(dú)立的評估,這樣每個(gè)特征將獲得一個(gè)評估分值
54、,然后對所有的特征按照其評估分值的大小進(jìn)行排序,選取預(yù)定數(shù)目的最佳特征作為特征子集,其中閾值的選取要根據(jù)具體問題的實(shí)驗(yàn)來確定。常用的方法有詞頻(DF: Document F</p><p><b> ?。?)詞頻方法</b></p><p> 詞頻就是文檔集合中出現(xiàn)某個(gè)特征項(xiàng)的文本數(shù)目。在特征項(xiàng)選擇中,計(jì)算每個(gè)特征項(xiàng)在訓(xùn)練集合中出現(xiàn)的頻次,根據(jù)預(yù)先設(shè)定的閾值去除那些
55、詞頻特別低和特別高的特征項(xiàng).詞頻的計(jì)算復(fù)雜度較低,隨訓(xùn)練集的增加而線性增加,能夠適用于大規(guī)模語料,因此是特征降維的常用方法。其基本原則是:很少出現(xiàn)的特征對分類價(jià)值極小,對整個(gè)分類系統(tǒng)的效果影響也很小,因此,將這些特征去掉有助于降低特征空間維數(shù),并且當(dāng)這些不常出現(xiàn)的特征為噪音時(shí),還會有助于提高分類正確率。但在信息檢索領(lǐng)域,詞頻較低的特征項(xiàng)被認(rèn)為是信息含量較高,與文本分類中的原則是相反的。詞頻是最簡單的特征降維方法,易用于線性計(jì)算的集合,但
56、是不適用于回歸詞語的排除。</p><p><b> ?。?)互信息方法</b></p><p> 互信息可以度量特征項(xiàng)和類別的共現(xiàn)關(guān)系,特征項(xiàng)對于類別的互信息越大,它們之間的共現(xiàn)概率也越大。下面給出基于互信息的特征提取算法步驟:</p><p> 1)初始情況下,該特征集合包含所有該類中出現(xiàn)的詞;</p><p>
57、 2)對于每個(gè)詞,按照上面的公式計(jì)算詞和類別的互信息量;</p><p> 3)對于該類中所有的詞,依據(jù)它們的互信息量排序;</p><p> 4)提取一定數(shù)量的詞作為特征項(xiàng),具體需要抽取多少維的特征項(xiàng),目前無很好的解決方法,一般采用先定初始值,然后根據(jù)實(shí)驗(yàn)測試和統(tǒng)計(jì)結(jié)果確定最佳值;</p><p> 5)將每類中所有的訓(xùn)練文本,根據(jù)抽取的特征項(xiàng),進(jìn)行向量維
58、數(shù)壓縮,精簡向量表示。</p><p> 互信息的不足之處在于互信息量非常容易受詞條的邊緣概率的影響,使得互信息評估函數(shù)經(jīng)常傾向于選擇稀有詞條。</p><p><b> ?。?)信息增益方法</b></p><p> 信息增益在機(jī)器學(xué)習(xí)中經(jīng)常被用做特征詞評判的標(biāo)準(zhǔn),它是一個(gè)基于熵的評估方法,涉及較多的數(shù)學(xué)理論和復(fù)雜的熵理論公式,定義為某特
59、征在文本中出現(xiàn)前后的信息熵之差。信息增益可以度量特征項(xiàng)在某種分類下表示信息量的多少,以正反兩類(用1,-1來代表)的情況為例,通過計(jì)算信息熵得到那些在正例樣本中出現(xiàn)頻率高而在反例樣本中出現(xiàn)頻率低的特征項(xiàng),以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征項(xiàng)。根據(jù)訓(xùn)練文本,計(jì)算出各個(gè)特征詞的信息增益,按照信息增益的值從大到小排序,根據(jù)給定閾值,刪除信息增益較小的特征項(xiàng)。信息增益的不足之處在于,它考慮了詞條未發(fā)生的情況。雖然某個(gè)詞
60、條不出現(xiàn)也可能對判斷文本類別有貢獻(xiàn),但實(shí)驗(yàn)證明,這種貢獻(xiàn)往往遠(yuǎn)遠(yuǎn)小于考慮詞條不出現(xiàn)情況所帶來的干擾。</p><p><b> (4)統(tǒng)計(jì)</b></p><p> 統(tǒng)計(jì)得分的計(jì)算有二次復(fù)雜度,相似于互信息和信息增益。在統(tǒng)計(jì)和互信息之間主要的不同是是規(guī)格化評價(jià),因而評估分值對在同類中的詞是可比的,但是統(tǒng)計(jì)對于低頻詞來說是不可靠的。</p><p
61、> 2.3.3 權(quán)重計(jì)算</p><p> 不同的特征項(xiàng)對文本的重要程度和區(qū)分度是不同的,所以在對文本分類模型進(jìn)行形式化的時(shí)候,需要對所有特征項(xiàng)進(jìn)行賦權(quán)重處理[13],常用的加權(quán)函數(shù)有布爾權(quán)重、詞頻權(quán)重、TF-IDF權(quán)重等。</p><p> ?。?)布爾權(quán)重(Binary Weighting)</p><p> 布爾權(quán)重是最簡單的一種加權(quán)方法,特征詞出
62、現(xiàn)的次數(shù)為0,則權(quán)重賦為0特征詞出現(xiàn)的次數(shù)大于O,則權(quán)重賦為1。</p><p><b> ?。?.7)</b></p><p><b> ?。?)詞頻權(quán)重</b></p><p> 詞頻權(quán)重以該特征詞在文檔中出現(xiàn)的次數(shù)作為其的權(quán)重。使用文檔中特征詞的頻率做權(quán)重可以提高文本分類的查全率,但對準(zhǔn)確率不好。這種方法比較簡單,
63、因?yàn)橛行┰~出現(xiàn)的頻率雖然非常高,但是沒有什么代表性,這樣使一些噪音詞的權(quán)重比較高,從而降低了分類的準(zhǔn)確率。</p><p> 2.3.4 常用的文本分類算法</p><p> ?。?)K-最近鄰接分類算法(K-NN)</p><p> K-NN方法是最著名的模式識別統(tǒng)計(jì)學(xué)方法之一,它是在最近鄰方法NN(Nearest Neighbor)的基礎(chǔ)上為了克服NN法錯(cuò)判
64、率較高的缺陷而被廣泛推廣。K-NN最常見的應(yīng)用是用于由向量空間模型表示的文檔的分類問題。K-NN的做法是給定一個(gè)測試文檔,系統(tǒng)在訓(xùn)練集中查找離他最近的K個(gè)鄰居,并根據(jù)這些鄰居的分類來給該文檔的候選分類評分。把鄰居文檔和測試文檔的相似度作為鄰居文檔所在分類的權(quán)重,如果這K個(gè)鄰居中的部分文檔屬于同一個(gè)類,則將該分類中的每個(gè)鄰居的權(quán)重求和并作為該分類和測試文檔的相似度。通過對候選分類評分的排序,給出一個(gè)閾值,就可以判定測試文檔的分類。<
65、/p><p> 有許多實(shí)驗(yàn)表明K-NN是非常有效的,有更高的分類準(zhǔn)確性和穩(wěn)定性。它是一種基于要求的或懶惰的學(xué)習(xí)方法,它存放所有的訓(xùn)練樣本,無需事先對文本進(jìn)行訓(xùn)練,直到測試樣本需要分類時(shí)才建立分類。但它最大的缺陷是占用大量的分類時(shí)間,對一個(gè)線性分類器來說,只需要計(jì)算一個(gè)點(diǎn)積就可以對測試實(shí)例進(jìn)行分類了,而K-NN則需要把整個(gè)訓(xùn)練集按與測試實(shí)例的相似度排序,因此當(dāng)訓(xùn)練文檔數(shù)增加時(shí),其分類時(shí)間將急劇增加。</p>
66、;<p> ?。?)樸素貝葉斯分類算法(NB)</p><p> 樸素貝葉斯(Naive Bayes,NB)是一種簡單的線性分類器。它在文本分類中應(yīng)用得非常普遍。樸素貝葉斯是基于一個(gè)基本的假設(shè)上:假定樣本的特征項(xiàng)是相互獨(dú)立的。這個(gè)假設(shè),一方面大大簡化了貝葉斯分類器的計(jì)算量;另一方面它也導(dǎo)致了貝葉斯分類器的分類質(zhì)量不太理想。純粹貝葉斯假設(shè)文本是基于特征的一元模型,即文檔中特征的出現(xiàn)只與文檔類別有關(guān),
67、與文檔中的其它特征及文檔長度無關(guān)。也就是說,特征與特征之間彼此相互獨(dú)立。盡管這個(gè)假設(shè)在實(shí)際文本中是不成立的,但在實(shí)際中應(yīng)用中NB分類器一般都能取得相對較好的結(jié)果。</p><p> ?。?)基于支持向量基的分類方法</p><p> 支持向量機(jī)(Support Vector Machines,SVM)由Vapnik在1995年提出,是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型的通用學(xué)習(xí)方法,它建立在統(tǒng)計(jì)
68、學(xué)習(xí)理論的VC理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的基礎(chǔ)上,根據(jù)有限樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯(cuò)誤的識別任意樣本的能力)之間尋求最佳折衷,以期獲得更好的泛化能力。其基本思想是首先通過非線性變換將輸入空間映射到一個(gè)高維特征空間,然后在這個(gè)新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)膬?nèi)積函數(shù)(核函數(shù))來實(shí)現(xiàn)的。</p><p> 2.4 文本分類的主要應(yīng)用</p&
69、gt;<p> 文本分類技術(shù)的研究目標(biāo)就是實(shí)現(xiàn)文本分類的自動化,以達(dá)到降低分類費(fèi)用、改善分類性能(如提高分類精度和分類的一致性)等目的[15]。文本分類作為信息檢索、信息過濾、文本數(shù)據(jù)庫、數(shù)字化圖書館等領(lǐng)域的技術(shù)基礎(chǔ),有著廣泛的應(yīng)用前景。</p><p><b> (1)信息檢索</b></p><p> 文本分類最早應(yīng)用于信息檢索領(lǐng)域,把大量的文
70、本信息按主題層次歸類組織可以極大地簡化對信息的檢索。如果按照類別對文本進(jìn)行檢索或?qū)z索結(jié)果進(jìn)行一次文本分類,都可以提高檢索的查準(zhǔn)率。</p><p><b> (2)信息過濾</b></p><p> 網(wǎng)絡(luò)的發(fā)展與普及,大大方便了我們獲取信息。但信息量之大給人們對信息的處理帶來了很大困難,無法快速地得到用戶所需的信息,同時(shí)還會帶來一些反面的信息。信息過濾技術(shù)可以用
71、來解決這些問題,信息過濾本質(zhì)上是一個(gè)兩類分類問題,既可以用來將用戶反感的信息過濾掉,也可以將用戶感興趣的信息過濾出來,主動地推送給用戶?,F(xiàn)在較典型的應(yīng)用就是郵件過濾。</p><p><b> (3)文本數(shù)據(jù)庫</b></p><p> 隨著研究的深入,文本數(shù)據(jù)庫的功能已經(jīng)不再局限于存儲、組織和查詢文本信息,而是要提供多層次的服務(wù),如文本挖掘。文本分類技術(shù)不僅對文
72、本數(shù)據(jù)庫如何存儲、組織具有重要的意義,而且也是文本挖掘的重要內(nèi)容。</p><p><b> (4)數(shù)字圖書館</b></p><p> 圖書館的數(shù)字化管理是大勢所趨,圖書期刊全文數(shù)字化的比重正日益增大。對圖書歸類時(shí),使用自動文本分類技術(shù),可以正確地對圖書資料進(jìn)行迅速歸類。</p><p> 以上所介紹的只是文本分類技術(shù)應(yīng)用的幾個(gè)方面,它
73、們還可以用在搜索引擎、元數(shù)據(jù)提取、構(gòu)建索引、歧義消解等領(lǐng)域。因此,意大利科學(xué)家認(rèn)為文本分類技術(shù)可以被看作是所有基于內(nèi)容的文本信息管理的基礎(chǔ)。由此可以看出文本分類技術(shù)在信息處理領(lǐng)域的重要性。</p><p> 第三章 支持向量機(jī)的產(chǎn)生與發(fā)展</p><p> 3.1 SVM產(chǎn)生與發(fā)展</p><p> 基于數(shù)據(jù)的機(jī)器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要研究內(nèi)容,它研究如何
74、從觀測數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,并利用這些規(guī)律對未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進(jìn)行預(yù)測?,F(xiàn)有的機(jī)器學(xué)習(xí)方法(包括模式識別、神經(jīng)網(wǎng)絡(luò)等)共同的重要理論基礎(chǔ)之一是統(tǒng)計(jì)學(xué),傳統(tǒng)統(tǒng)計(jì)學(xué)研究的是樣本數(shù)目趨于無窮大時(shí)的漸進(jìn)理論,但在實(shí)際問題中,樣本數(shù)往往是有限的,因此一些理論上很優(yōu)秀的學(xué)習(xí)方法實(shí)際中卻可能表現(xiàn)得不盡人意。自1995年Vapnik在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出SVM作為模式識別的新方法之后,SVM一直倍受關(guān)注。同年,Vapnik和Cortes提
75、出軟間隔(soft margin)SVM,通過引進(jìn)松弛變量i度量數(shù)據(jù)ix的誤分類(分類出現(xiàn)錯(cuò)誤時(shí)i大于0),同時(shí)在目標(biāo)函數(shù)中增加一個(gè)分量用來懲罰非零松弛變量(即代價(jià)函數(shù)),SVM的尋優(yōu)過程即是大的分隔間距和小的誤差補(bǔ)償之間的平衡過程;1996年,Vapnik等人又提出支持向量回歸 (Support Vector Regression,SVR)的方法用于解決擬合問題。SVR同SVM的出發(fā)點(diǎn)都是尋找最優(yōu)超平面,但SVR的目的不是找到兩種數(shù)據(jù)
76、的分割平面,而是找到能準(zhǔn)確預(yù)測數(shù)據(jù)分布的平面,兩者最終都轉(zhuǎn)換</p><p> 3.2 支持向量機(jī)簡介</p><p> SVM是在高維特征空間使用線性函數(shù)假設(shè)空間的學(xué)習(xí)系統(tǒng),它集成了最大間隔超平面、Mercer核、凸二次規(guī)劃、稀疏矩陣核松弛變量等多項(xiàng)技術(shù)[16]。訓(xùn)練集是訓(xùn)練文本的集合,通常表示為:</p><p><b> (3.1)</b
77、></p><p> 其中l(wèi)是文本數(shù)目,Xi指文本,是它們的標(biāo)記,表示輸入空間,表示輸出域。如圖3.1所示,假設(shè)空心和實(shí)心點(diǎn)表示兩類訓(xùn)練樣本,實(shí)線為分類面,虛線為平行于實(shí)線的平面,并且是經(jīng)過兩類訓(xùn)練樣本中離分類面最近的平面。如果訓(xùn)練集中的所有訓(xùn)練樣本均能被某超平面正確劃分,且距該平面最近的異類向量之間的距離最大,該平面為最優(yōu)超平面,用表示[3]。</p><p> 其中為分類面的
78、法線,為分類面的偏移量,向量位于分類面上,其中位于虛線上的向量被稱為支持向量(圖3.1中加圈的點(diǎn))。</p><p> 圖3.1 二維訓(xùn)練集的分類超平面</p><p> 3.3 支持向量機(jī)分類</p><p> 3.3.1 線性可分支持向量分類機(jī)</p><p> 對于圖3.1所示的問題,很容易用一條直線把訓(xùn)練集正確地分開(即兩類點(diǎn)
79、分別在直線的兩側(cè),沒有錯(cuò)分點(diǎn)),這類問題稱為線性可分問題。對于這類問題,應(yīng)用最大“間隔”的思想,就是求解最優(yōu)化問題[4]。</p><p><b> (3.4) </b></p><p> 進(jìn)一步,支持向量機(jī)方法首先求解該問題的對偶問題最小化形式,</p><p><b> (3.5)</b></p>
80、<p> , </p><p> 然后根據(jù)對偶問題的解得到原問題的解,具體求解過程就是根據(jù)原始問題的Lagrange函數(shù)以及KKT條件可以計(jì)算得到::選擇的一個(gè)分量>o,,從而來確定決策函數(shù)。算法具體的步驟如下:</p><p> 構(gòu)造并求解凸二次規(guī)劃問題</p><p><b> (3.6)
81、</b></p><p> , </p><p><b> 得最優(yōu)解;</b></p><p> 計(jì)算,選擇的一個(gè)分量, </p><p> (3)構(gòu)造分類超平面,由此得到?jīng)Q策函數(shù)</p><p><b> ?。?.7)</b&
82、gt;</p><p><b> 其中</b></p><p> “支持向量”是指訓(xùn)練集中的某些訓(xùn)練點(diǎn)的輸入。事實(shí)上,所得到的決策函數(shù)只依賴于訓(xùn)練集中對應(yīng)于非零的(正的)的那些訓(xùn)練點(diǎn),而其他的訓(xùn)練點(diǎn)都不起作用。</p><p> 3.3.2 近似線性可分問題</p><p> 用一條直線也能大體上(大體上意味著有
83、某一個(gè)或者很少的幾個(gè)點(diǎn)劃分錯(cuò)誤)把訓(xùn)練集正確分開,這類問題稱為近似線性可分問題,這時(shí)仍可以考慮用線性分類學(xué)習(xí)機(jī)。具體求解方法類似線性可分問題,其步驟如下:</p><p> 選擇適當(dāng)?shù)膽土P參數(shù),構(gòu)造并求解最優(yōu)化問題</p><p><b> ?。?.8)</b></p><p> , </p>
84、;<p><b> 得最優(yōu)解;</b></p><p> (2)計(jì)算;選擇a的一個(gè)分量;</p><p><b> (3);</b></p><p> (4)造分類超平面,得到?jīng)Q策函數(shù)。</p><p> 3.3.3 線性不可分問題</p><p>
85、 要把“線性分劃”推廣為“非線性分劃”,只需要引進(jìn)一個(gè)適當(dāng)?shù)淖儞Q,確切的說,設(shè)原來的訓(xùn)練集為:</p><p><b> ?。?.9)</b></p><p> 然后在高維特征空間H中構(gòu)造線性分劃,此時(shí)最優(yōu)化問題為</p><p><b> ?。?.10)</b></p><p> 這里),是特
86、征空間日中的輸入向量。類似,引入它的對偶問題的極小化形式:</p><p><b> (3.11)</b></p><p><b> ?。?.12)</b></p><p> , (3.13)</p><p> 令矩陣,其中,即稱為核函數(shù)矩陣,它是一個(gè)半正定
87、的對稱矩陣,第一個(gè)約束條件式(3.12)稱為超線性約束條件,第二個(gè)約束條件式(3.13)稱為超立方體約束條件。這里</p><p><b> (3.14)</b></p><p> 稱為核函數(shù),有關(guān)核函數(shù)的進(jìn)一步討論可參見本文后面的有關(guān)討論。類似前面的求解方法,通過求解對偶問題來確定最終的決策函數(shù),這樣得到標(biāo)準(zhǔn)支持向量分類機(jī)算法[7]。算法3支持向量分類機(jī)(C-S
88、VC):</p><p> (1)選擇核函數(shù)和懲罰參數(shù)C,構(gòu)造并求解最優(yōu)化問題</p><p><b> (3.15)</b></p><p> , </p><p><b> 得最優(yōu)解;</b></p><p> (2)選擇的一個(gè)量
89、;并據(jù)此計(jì)算</p><p> (3)求得決策函數(shù):。</p><p> 3.4 常用的核函數(shù)</p><p> 3.4.1 核函數(shù)及特征</p><p> 首先給出核函數(shù)的定義:定義稱定義在上的函數(shù)是的核函數(shù)或簡稱它是核函數(shù),如果存在著從到Hilbert空間的變換[17]</p><p><b>
90、?。?lt;/b></p><p><b> 使得</b></p><p><b> ,</b></p><p> 其中()表示空間中的內(nèi)積。</p><p> 3.4.2 核函數(shù)的判定和常用的核函數(shù)</p><p> 現(xiàn)在要考慮的問題是什么樣的函數(shù)才是核函數(shù)
91、,即界定核函數(shù)的范圍。按照數(shù)學(xué)處理這類問題的通常做法,我們采取如下三個(gè)步驟解決上述問題[18]:</p><p> (1)找出幾個(gè)最基本的核函數(shù);</p><p> ?。?)找出能夠保持核函數(shù)的運(yùn)算;</p><p> (3)從最基本的核函數(shù)出發(fā),運(yùn)用保持核函數(shù)運(yùn)算,構(gòu)造出常用的核函數(shù)。</p><p> 3.4.3 常用的核函數(shù)<
92、;/p><p> ?。?) 多項(xiàng)式核函數(shù)</p><p> 設(shè)d為正整數(shù),則d階齊次多項(xiàng)式函數(shù)和d階非齊次多項(xiàng)式函數(shù)都是核函數(shù)[14]。</p><p> ?。?) Gauss徑向基核函數(shù)</p><p> 以為參數(shù)的Gauss徑向基函數(shù)[9]:</p><p> 第四章 基于支持向量機(jī)的二分類文本分類器設(shè)計(jì)<
93、/p><p> 4.1 實(shí)驗(yàn)平臺簡介</p><p> 模型分為特征數(shù)據(jù)的提取和分析處理特征數(shù)據(jù)實(shí)現(xiàn)分類兩大塊,用perl語言編寫代碼實(shí)現(xiàn)特征數(shù)據(jù)的獲取,在MATLAB環(huán)境下調(diào)用libsvm工具箱來分析處理特征數(shù)據(jù)實(shí)現(xiàn)分類。</p><p> 4.2 語音分類特征簡介</p><p> 樣本特征整體可以分為單詞文本特征和其它特征。根據(jù)給定
94、的樣本庫train文件夾的“考題文本.txt” 文件具有的特點(diǎn)(總結(jié)訓(xùn)練集中正相關(guān)樣本“relevant.txt”的作用,且負(fù)相關(guān)樣本“irrelevant.txt”與它沒有關(guān)系), 將單詞表、二元詞表、三元詞表及四元詞表從“考題文本.txt”中提取出來,單詞表中不包含停用詞,這樣考題文本.txt中的一些重要信息就基本概括到了。</p><p> 本實(shí)驗(yàn)采用了以下特征:</p><p>
95、<b> 單詞文本特征</b></p><p><b> 總字符長度</b></p><p><b> 總字?jǐn)?shù)</b></p><p><b> 不同單詞數(shù)</b></p><p> 單詞字符長度5的單詞數(shù)</p><p>
96、; 單詞字符長度6的單詞數(shù)</p><p> 單詞字符長度7的單詞數(shù)</p><p> 單詞字符長度8的單詞數(shù)</p><p><b> 名詞代詞比</b></p><p><b> 名詞化詞匯比率</b></p><p><b> 動名詞頻數(shù)</
97、b></p><p><b> 介詞頻率誤差</b></p><p><b> 定冠詞頻率誤差</b></p><p> 備注:后面的詞性特征:名詞代詞比(、名詞化詞匯比率、動名詞、介詞頻率誤差和定冠詞頻率誤差是參考中國外語教育研究中心出版梁茂成編寫的《大規(guī)??荚囉⒄Z作文自動評分系統(tǒng)的研制》一書</p&g
98、t;<p> 后面方便實(shí)驗(yàn)的分析,將單詞文本特征數(shù)據(jù)作為一大塊,剩下的特征則歸結(jié)為其它特征數(shù)據(jù)。</p><p><b> (4.1)</b></p><p><b> ?。?.2)</b></p><p><b> ?。?.3)</b></p><p>&l
99、t;b> (4.4)</b></p><p> 4.3 特征提取流程</p><p> ?。?)通過運(yùn)用Perl語言的強(qiáng)大文本處理功能來實(shí)現(xiàn)文本的特征提取;</p><p> ?。?)tokenization.pl讀取自定義文件夾下的所有文件,即需要分析的所有學(xué)生口語文本。對文本進(jìn)行分詞處理,便于詞性還原、詞性附碼;</p>&l
100、t;p> 圖4-4 tokenization.pl實(shí)現(xiàn)流程圖</p><p> ?。?)tezheng1x.pl提取文中的一些基本特征:字符數(shù),字?jǐn)?shù),單詞數(shù),平均詞長,單詞長度大于[5,6,7,8]的數(shù)量;</p><p> 圖4-5(a) tezheng1.pl主流程圖 圖4-5(b) tezheng1.pl子程序mergeIt</p><p
101、> 圖4-5(c) tezheng1.pl核心功能程序doit</p><p> ?。?)tezheng2x.pl統(tǒng)計(jì)文本中N元詞的使用情況(N=2,3,4);提取主題文件traintopic.txt中的核心單詞;</p><p> 圖4-6 tezheng2.pl實(shí)現(xiàn)流程圖</p><p> ?。?)tezheng3x.pl統(tǒng)計(jì)單詞表中單詞在待處理樣本中
102、詞頻,即單詞文本特征數(shù)據(jù);</p><p> 圖4-7 tezheng3 .pl實(shí)現(xiàn)流程圖</p><p> ?。?)patcountx.pl打開并逐行讀入外掛詞典的每一行(詞典中包含用戶自定義的模式),根據(jù)詞典需要的特征進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。詞典中包含的是樣本的詞性特征;</p><p> 所有樣本文件中每一行就是一片文章,處理時(shí)可以將訓(xùn)練樣本和測試樣本綜合在一個(gè)tx
103、t文件中,只要記好對應(yīng)文章所屬的樣本集即可。輸出的特征數(shù)據(jù)中行表示對應(yīng)的樣本,列表是對應(yīng)的特征。</p><p> 4.4語音特征數(shù)據(jù)處理</p><p> 4.4.1特征數(shù)據(jù)分析處理步驟</p><p> (1)單詞文本特征數(shù)據(jù)降維;</p><p> ?。?)降維后的單詞文本特征數(shù)據(jù)與其它特征數(shù)據(jù)組合起來,標(biāo)準(zhǔn)化,降維;</p
104、><p> ?。?)根據(jù)最后得到的綜合特征數(shù)據(jù)尋找最優(yōu)懲罰參數(shù)C;</p><p> 注:實(shí)驗(yàn)用的分類器是線性支持向量機(jī)</p><p><b> 總體結(jié)構(gòu)圖:</b></p><p><b> 圖1 總體結(jié)構(gòu)圖</b></p><p> 后期的特征數(shù)據(jù)是在matlab2
105、012b中完成的,且分類器的設(shè)計(jì)中調(diào)用了</p><p> lib-svm工具箱。</p><p><b> 程序清單:</b></p><p> DataRead.m:</p><p> 功能:對以上得到的特征數(shù)據(jù)整合,部分要進(jìn)行加權(quán)處理得到一個(gè)初步的特征數(shù)據(jù)以便于后續(xù)分類器設(shè)計(jì)。</p><
106、;p><b> Frp.m</b></p><p> function [R_min,P_min,F_min,R_max,P_max,F_max,Accuracy]=Frp(Label,Prelabel)</p><p> 功能:計(jì)算各類(共兩類)的R(召回率),P(準(zhǔn)確率),F(xiàn)測度,后面的函數(shù)調(diào)用需要</p><p> SVMc
107、2ForClass.m</p><p> function [bestacc,bestc] = SVMc2ForClass(train_label,train,cmin,cmax,v,cstep)</p><p> 功能:尋找最優(yōu)的懲罰參數(shù),后面的函數(shù)調(diào)用需要</p><p><b> 分類器參數(shù)選?。?lt;/b></p>&l
108、t;p> 主要是確定單詞文本特征數(shù)據(jù)壓縮的維數(shù),以及壓縮后的單詞文本特征數(shù)據(jù)與其它特征數(shù)據(jù)整合一起后的整體特征數(shù)的壓縮程度的確定,最后需要確定SVM中的最佳懲罰參數(shù)。</p><p> 4.4.2 單詞文本特征數(shù)據(jù)降維</p><p> 實(shí)驗(yàn)?zāi)康模捍_定單詞文本特征數(shù)據(jù)壓縮的程度,即將數(shù)據(jù)壓縮到多少維合適。</p><p> 實(shí)驗(yàn)中做了兩組實(shí)驗(yàn),一組是直
109、接進(jìn)行直接將數(shù)據(jù)進(jìn)行降維后進(jìn)行支持向量機(jī)分類,而另一組則是將數(shù)據(jù)進(jìn)行歸一化處理后再降維,進(jìn)行支持向量機(jī)分類。</p><p><b> 圖2 原始特征數(shù)據(jù)</b></p><p> 圖3 特征數(shù)據(jù)歸一化</p><p> 由以上兩圖可以看出數(shù)據(jù)不需要進(jìn)行歸一化,如圖1原始的特征數(shù)據(jù)的訓(xùn)練集在維數(shù)為5的時(shí)候就能有很好準(zhǔn)確率78.91%之后準(zhǔn)
110、確率較平穩(wěn),如圖2歸一化的特征數(shù)據(jù)在維數(shù)達(dá)到15時(shí)訓(xùn)練集和測試集1才有較好的準(zhǔn)確率。</p><p> 綜上分析可以將單詞文本特征數(shù)據(jù)的維數(shù)可以壓縮到6維,選6維是更好的保證特征數(shù)據(jù)的不丟失。</p><p> 4.4.3 整體特征數(shù)據(jù)降維</p><p> 實(shí)驗(yàn)?zāi)康模簩φw特征數(shù)據(jù)降維,尋找最佳的特征維數(shù)</p><p> 選定單詞
111、文本矩陣進(jìn)行奇異值分解壓縮到6維,再與其它文本特征數(shù)據(jù)組合在一起,進(jìn)行整體的支持向量機(jī)性能分析。這里進(jìn)行了兩組實(shí)驗(yàn),一組是將特征數(shù)據(jù)進(jìn)行歸一化處理(變化區(qū)間0-1),另一組是對其進(jìn)行標(biāo)準(zhǔn)化處理。</p><p> 圖4歸一化的特征數(shù)據(jù)</p><p> 圖5 標(biāo)準(zhǔn)化后的特征數(shù)據(jù)</p><p> 如圖3,在將特征維數(shù)壓縮到13維時(shí)SVM對訓(xùn)練集訓(xùn)練才有較好的準(zhǔn)
112、確率,之后隨著維數(shù)的增大準(zhǔn)確有小幅提高在維數(shù)是20時(shí)達(dá)到最高81.29%。</p><p> 如圖4,在將特征數(shù)據(jù)壓縮到到4維時(shí)SVM對訓(xùn)練集訓(xùn)練就有較好的分類效果,在訓(xùn)練集的維數(shù)是18時(shí)準(zhǔn)確率為81.29%,之后準(zhǔn)確率基本不變。</p><p> 綜上,可以看出對特征數(shù)進(jìn)行標(biāo)準(zhǔn)化處理更有利于數(shù)據(jù)的壓縮集中。故考慮選則將整體組合的特征數(shù)據(jù)在進(jìn)行標(biāo)準(zhǔn)化后,用奇異值分解方法壓縮到19維用于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 英語本科本科期末口語考試試題
- 保險(xiǎn)分級分類考試試題
- 大學(xué)英語四六級口語考試試題
- 人事考試試題庫管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于計(jì)算機(jī)的口語考試系統(tǒng)中試題與試卷的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 大學(xué)英語六級口語考試試題構(gòu)成
- 保險(xiǎn)銷售資質(zhì)分級分類考試試題
- 閥門定位器考試試題
- 大學(xué)英語六級口語考試試題構(gòu)成
- 大學(xué)英語四級口語考試試題構(gòu)成
- 傳感器考試試題(卷)與答案解析
- 廣西保險(xiǎn)銷售資質(zhì)分級分類考試試題
- 遼河油田英語口語在線考試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- 《安全生產(chǎn)法》法的概念、特征和分類考試試題
- 銀行中級《個(gè)人理財(cái)》家庭收入的分類考試試題
- 電感變壓器培訓(xùn)考試試題
- 傳感器考試試題及答案
- 網(wǎng)絡(luò)文本自動分類器的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 信息系統(tǒng)監(jiān)理師考試試題分類精解
- jsp程序設(shè)計(jì)考試試題與答案
評論
0/150
提交評論